Guetzli:谷歌家的东西可能也没有想像的辣么美

Stella981
• 阅读 854

望昕宇,腾讯后台工程师,专注图片压缩及存储系统一百年不动摇,并致力于做一名相关前沿技术的人话翻译家。

这两天笔者的朋友圈被Google开源JPEG编码器Guetzli刷屏,“图片大小减小35%”、“质量不变”这样的字眼刺激了我们的肾上腺,OMG的yajunwang同学也为我们带来了第一手的测试资料——谷歌开源图片压缩算法Guetzli实测体验报告

如果这样的神器真的如此神,那还有WebP啥事儿呢。于是我们抱着强烈的好奇心实地考察了这个连名字都不知道怎么念的新鲜事物。

结论是:

  1. 在基于相同客观质量(以ssim为评价标准)的条件下观察主观视觉效果,Guetzli的优势是有效改善了传统JPEG在低质量条件下“振铃效应”产生的伪影;劣势是Guetzli编码出的图片在质量较低时(quality=70)有一定的“钝化效应”,对于图片中细节精细的部分,Guetzli丢掉了较多的信息。

  2. 同样基于相同客观质量条件下(并不以填的quality参数为标准,为什么不以它为标准参见“原理解析”小节)图片大小与传统jpg相比并无明显优势。400_300组Guetzli大概比传统jpg的编码结果减小了19%,800_600组Guetzli和传统jpg基本持平,1920*1080组Guetzli反而大出了10%。

  3. 延时方面,Guetzli编码器对于主流的非高清图规格(如400_300, 800_600)的处理延时在秒级或10+秒级,业务主流jpg压缩工具对于相同规格的处理延时均在50ms以内

原理解析:

Guetzli基于同样来源于google的图片视觉差异评价工具Butteraugli。Butteraugli的评价体系基于三个传统方法没有考虑的原则:

  • 人眼对强黄色光附近蓝光变化是不敏感的,因此黄光区域附近的蓝光可以用更少的bit来编码

  • 人眼对蓝光有着较低的空间分辨率,视网膜中用于分辨高清细节的区域没有蓝色光的受体,故高频区域的蓝色光部分可以用更粗的粒度编码。

  • 将图像中的噪声区域分辨出来进行粗粒度的编码。

基于这三点,Guetzli主要从两方面下手来进行:

  1. 对全局量化表进行微调,这一步和我们调整质量参数本质上是一样的

  2. 对DCT系数的高频部分进行有选择的丢弃。

第二步就比较tricky了。通常在我们使用例如libjpeg等工具压缩jpg图片时降低质量参数本质上就是在量化步骤按照一定规则丢弃高频信息,最终反映在jpg的quality中。Guetzli相当于绕开了制定好的量化规则降低了质量而且不告诉用户,让用户以为仍然保持了质量(怎么感觉google也有了一点流氓气质呢,2333)。所以在后续测试中我们发现,**在相同ssim条件下,传统jpg的质量参数可以比Guetzli编码出来的jpg低大约20个点。**原因主要就在这里。

Guetzli总的处理流程是尝试多种量化表及DCT系数两个方面的可能性,然后分别将尝试的结果放到Butteraugli评测工具中评分,最后选择一张它认为最好的结果返回给用户。所以它的处理时延特别长。用verbose参数打开Guetzli的log可以发现,平均一张图大概它将尝试接近30次的迭代。

测试样本:

分别选取400_300, 800_600, 1920_1080三种分辨率的jpg格式图片各10张(本来还选取了4032_3024的iPhone照片分辨率图片做测试,但是由于时间有限,这部分待后续进行)。三种分辨率的图片在选取的过程中综合考虑主色调的不同、明暗灰度的不同、场景的不同(人工合成的图片还是自然风景照)以考察该编码是否尽可能多的适用于不同场景。

测试场景及指标:

该编码器有quality参数可以指定,注释掉对于quality必须大于84部分的代码之后可以设置0-100任意值,经过第一轮初步测试发现,quality<70 以下的时候其实编码出的图片已经没有变化(为什么还需要进一步研究),故实际选取 quality 70, 75, 80, 85, 90为测试对象。从编码时延、同psnr(ssim)指标下图片size的对比以及视觉效果还有内存消耗四个方面进行评估。

测试环境及工具:

C1机型:Intel Xeon CPU E3-1230 V2 3.30GHz

测试工具:ImageMagick、Guetzli编码器、evalvid视频质量评价工具集

测试结果:

时延、内存消耗、带宽节省

Guetzli:谷歌家的东西可能也没有想像的辣么美

SSIM检测

检测方法是首先分别用ImageMagick和Guetzli分别用40-90的quality参数进行重新解码和编码,然后对每个质量的结果图与原图分别解码成yuv源数据格式,最后用evalvid视频质量评测工具集中的psnr工具进行ssim评测,框架图可表示为:

Guetzli:谷歌家的东西可能也没有想像的辣么美

当我们设定了以ssim1=ssim2为标准时候反过来再观察两种编码工具各自设定的quality值。经过统计发现,传统jpg的质量比Guetzli的质量平均大约小21。举个例子也就是说,传统jpg的50质量和Guetzli编码器的70质量在客观质量评价体系当中是等价的。

同ssim下图片大小对比:

Guetzli:谷歌家的东西可能也没有想像的辣么美

应用场景的思考

Guetzli编码器本质上弱化了quality参数在编码流程中的作用,可以比喻为jpg编码界的“小米”,其效果类似于加强版的七牛图片“瘦身”功能。

因此对于图片细节要求不高且对图片质量不甚了解的用户或者当面对一个业务因为需要节省流量同时又不希望图片质量受太大影响而对质量参数选择困难时,Guetzli是一个不错的入门选择。从流程方面看,多次的迭代以及新的评价工具的加入是延时过长的主要原因,也许利用GPU并行化会是一个不错的优化方向。


相关推荐:

谷歌开源图片压缩算法Guetzli实测体验报告 图片流量节省大杀器:基于CDN的sharpP自适应图片技术实践 【腾讯云的1001种玩法】 Laravel 整合万向优图图片管理能力,打造高效图片处理服务


阅读原文,本文由腾云阁授权发布,经社区允许后方可转载。更多技术文章,请访问腾云阁

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
5个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这