5G 时代,从视频互动特效技术看未来趋势

Wesley13
• 阅读 742

疫情期带来了在线娱乐行业的爆棚式发展,也让行业本身更加审视在交互体验上的突破价值。优酷团队开始了对互动视频体验的全新升级,升级集中体现在三个方面:直播化、游戏化、特效化。

本文根据阿里巴巴的资深算法专家李静,在云栖大会的《5G 时代,优酷新型视频互动特效技术实践》的演讲整理而成,为大家分享优酷在互动视频领域的创新技术。

01

视频形态的发展历史

提到新型的视频互动特效技术,有必要先讲一下视频形态的发展历史。最开始我们看的都是 2D 普通视频,随着人们对真实世界虚拟化的极致追求,出现了阿凡达这样的 3D 电影。在这种视频形态下,人们更加的希望去了解虚拟世界,达到沉浸式的观看体验。随着 AI 技术的快速发展,我们可以抛开这种视频形态,在 2D、3D、360 甚至 FVV 上实现互动式的体验。

5G 时代,从视频互动特效技术看未来趋势

视频的互动能力是从何而来呢?

5G 时代,从视频互动特效技术看未来趋势

视频的互动能力最开始来自于弹幕点赞评论,这种信息量是来自视频之外的 UGC 文本去丰富视频本身。虽然这种传统的互动模式比较简单,但有非常好的互动效果。

另外一种互动形式来自于时间轴,比如在互动剧中对分支剧情进行选择。另外一种方式是来自于空间域,比如进行多机位的拍摄,观看的用户可以选择观看比较感兴趣的机位。这两种形式都是针对原始内容获取,提供更加个性化的观影体验。除此之外,还有信息量来自 2D 到 3D 的转变,在 VR/AR、全息和 360° 视频形态中,以 3D 交互去构筑新的观影行为,比如 6DoF 视频。

02

自由视点视频互动直播化

自由视点互动视频即基于 DIBR 重建技术,让用户在自由的视角进行任意的观看,实现自由视点互动直播化。

5G 时代,从视频互动特效技术看未来趋势

《这!就是街舞 3》第 7 期

DIBR(Depth Image Based Rendering)重建技术是基于多机位生成的纹理图像,然后进行深度重建,基于深度图以及几何关系,最后对虚拟试点进行重建。这个技术最关键的点是深度图是否准确。基于传统方案的深度估计,有两个难解决的问题,第一耗时,第二时域不稳定。比如下方的例子,由于深度估计不准或者遮挡的原因导致水面在重建的时候会出现一些黑洞。

5G 时代,从视频互动特效技术看未来趋势

这是 FVV 视频,也是自由视点视频重建的最大难点之一。如何解决这个问题呢?在今年的升级中,我们提出了新的算法模型,对深度估计的算法进行提速和精细化的重建。

5G 时代,从视频互动特效技术看未来趋势

如何提速,这方面我们采用了基于深度学习的方案。由于深度学习在做 Influence 的时候,速度非常快,所以基本可以满足实时化的需求。但深度学习需要依赖大量的数据去训练,然后才能得到一个模型。因此这种模型有很大的泛化性问题,当它迁移到另外一个场景进行预测的时候,效果就会不太好。

我们在最新的方案中提出了一种基于有监督和无监督的融合方案,利用大量的无标签数据进行无监督的训练,利用神经网络去学习几何关系。最终希望它可以适应各种场景,去解决泛化性的问题。在一些特定场景中,利用少量的有标签的数据去进行有标签的有监督的训练。

这样针对于特定场景,我们可以解决精度的问题,如 Demo 显示,在新方案中水面重建的区域效果更好,时域性稳定性更高。

5G 时代,从视频互动特效技术看未来趋势

《这!就是街舞 3》第 7 期新方案 VS 传统方案

03

体感互动技术赋能视频游戏化

当我们聊到人脸互动技术时,大家首先想到的就是美妆、美颜、贴纸等功能,这也是日常生活中必不可少的拍照工具。在这次的街舞 AI 挑战赛上,优酷同样采用了人脸关键点技术实现人脸互动。

街舞 AI 挑战赛(人脸互动 1.0)

我把这种技术称为人脸互动的 1.0 时代。在人脸互动 2.0 时代,更希望不只是依靠人脸关键点的检测技术,更要对表情进行识别。比如现在非常火热的虚拟主播场景,利用表情驱动虚拟主播,让虚拟形象也可以去做带货直播。

5G 时代,从视频互动特效技术看未来趋势

虚拟主播表情驱动,优酷动漫《芯觉》主角江心

除此以外,在阿里巴巴的云游戏上也可以利用表情去进行体感控制,达到不同的游戏效果。

**表情类体感控制阿里巴巴云游戏
**

除人脸互动技术外,优酷还有一套体系化的动捕设备,可实现实时数据采集、模型驱动、云端特效制作及呈现。比如利用 iPhone 摄像头或者网络摄像头,将拍摄到的数据上传到云或端侧直接处理,利用 3D Pose 估计技术以及渲染的效果,最终下发到用户。不论端上或者 PC 机上,可实现直播、录播、准实时互动,满足不同的业务应用场景。

5G 时代,从视频互动特效技术看未来趋势

这套动捕系统非常典型的应用场景是虚拟形象驱动,其最关键的技术是人体姿态估计的准确度。如果人体姿态估计的不够准确,那虚拟形象可能会出现抖动,动作不到位,或者是在地面上飘。针对这种问题,我们采用了二阶段的训练去输出 3D 骨骼关键点,融入时序权重,以及加入动作鉴别器,在丰富的自有数据库上进行训练,最后达到 3D Pose 估计准确和平滑的结果。

5G 时代,从视频互动特效技术看未来趋势

街舞选手电门 vs 虚拟形象《芯觉》江心

除此以外,我们还利用 CG 驱动引擎,自适应动画曲线生成,以及 IK 使动作没有违和,具备有律动感。虚拟形象驱动技术也应用在优酷即将播出的动漫《芯觉》上,实现用户和 IP 互动,增加用户的粘性。

04

综艺体育与 AR 特效融合引领新体验

目前的综艺节目基本上都包含有特效,如果特效做的好,综艺也会非常有亮点。但是综艺特效制作的最大问题就是非常耗时耗人力。我们想要实现的是让 AI 去发现标注和凸显综艺节目的精彩时刻,通过 AI 实现综艺特效的批量化和自动化生产。

《这!就是街舞 3》片段

比如上面视频所示,优酷利用 CG 技术产生了 30 多种特效类型,帮助短视频生产提供更好的用户体验。除了 CG 特效以外,还需要 CV 技术作为支撑。CV 技术可以进行动作的检测、动作幅度的检测、动作范围检测、明星识别和 BGM。这些技术帮助我们更好的去发现特效的点位。

5G 时代,从视频互动特效技术看未来趋势

动作检测,我们采用传统的方法结合人体关键点技术,可以更准确的识别舞蹈动作。对于动作的幅度检测,通过人体关键点的运动轨迹并结合曲线美感度评价算法,使舞蹈动作的曲线更优美,产生更好的视觉效果。最后利用多特征的融合策略,自动匹配选择和组合特效,支持特效的批量生产和分发。

AR 特效应用于体育赛事场景可以让观众实时了解赛事情况。比如下面两个展示投篮热区图和铭牌与阵型的视频,观众可以实时看到当前谁在投篮,他的命中率是多少,以及当前的阵型是什么样的。

5G 时代,从视频互动特效技术看未来趋势

投篮热区图

5G 时代,从视频互动特效技术看未来趋势

铭牌与阵型

对于这种特效来说,第一个要解决的问题就是三维场地标定。在三维场地标定的过程中,由于球框或者球员的遮挡,会导致标定难以进行,所以优酷利用深度图解决篮框遮挡问题,利用人体姿态估计与分割技术解决人体遮挡的问题,最后根据虚拟试点相机的姿态进行热力图的渲染。

5G 时代,从视频互动特效技术看未来趋势

以下两个视频展示渲染的结果,可以发现最后三维场地标定的结果是非常准确的。

5G 时代,从视频互动特效技术看未来趋势

5G 时代,从视频互动特效技术看未来趋势

对于 AR 特效植入,例如铭牌组建这样的特效,有 4 个比较关键的 CV 技术点。第一需要对球员进行实时的识别和跟踪,其次需要对篮球进行识别,也需要对球员的手和脚进行识别定位,最后对人体进行三维建模,进行高度计算。在 2020 年 CBA 直播,优酷的云特效引擎牵手 CBA 直播,实现了现场实时的直播输出。

5G 时代,从视频互动特效技术看未来趋势

以上特效加互动技术,得益于优酷目前的 CV 和 CG 技术,两者互相结合助力互动特效视频的自动化和批量生产。在端侧,我们具有直播拍摄互动 SDK,可以实现端侧实时的渲染。

5G 时代,从视频互动特效技术看未来趋势

在云端优酷具有大千云擎系统,可以达到准实时精细化渲染。相较于传统方案,可以提速百倍。

5G 时代,从视频互动特效技术看未来趋势

END

未来,我们期待什么

未来一定是虚拟世界,增强世界和物理世界三元合一的状态。我们需要对虚拟世界进行深入的理解,对增强世界进行个性化重建。最后突破边界,开启全新的互动体验。

以上就是我分享的全部内容,感谢大家。

技术交流,欢迎加我微信:ezglumes ,拉你入技术交流群。

5G 时代,从视频互动特效技术看未来趋势

推荐阅读:

音视频面试基础题

OpenGL ES 学习资源分享

开通专辑 | 细数那些年写过的技术文章专辑

NDK 学习进阶免费视频来了

推荐几个堪称教科书级别的 Android 音视频入门项目

觉得不错,点个在看呗~

5G 时代,从视频互动特效技术看未来趋势

本文分享自微信公众号 - 音视频开发进阶(glumes_blog)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
DOIS 2019 DevOps国际峰会北京站来袭~
DevOps国际峰会是国内唯一的国际性DevOps技术峰会,由OSCAR 联盟指导、DevOps时代社区与高效运维社区联合主办,共邀全球80余名顶级专家畅谈DevOps体系与方法、过程与实践、工具与技术。会议召开时间:2019070508:00至2019070618:00结束会议召开地点:北京主办单位:DevOps
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这