PCS2021:针对游戏内容的视频编码工具分析和数据集
本文来自PCS2021论文《Video Coding Tool Analysis and Dataset for Gaming Content》随着近几年游戏市场的逐渐壮大,新的游戏形态(AR、VR、云游戏等)逐渐发展。和传统的摄像机内容和屏幕内容相比,游戏内容有着不同的特点导致对于编码工具的选择有不同偏好。为了更好的研究现有的编码工具在游戏内容上的表现,论文构建了一个游戏视频数据集并在该数据集上
本文来自PCS2021论文《Video Coding Tool Analysis and Dataset for Gaming Content》

随着近几年游戏市场的逐渐壮大,新的游戏形态(AR、VR、云游戏等)逐渐发展。和传统的摄像机内容和屏幕内容相比,游戏内容有着不同的特点导致对于编码工具的选择有不同偏好。为了更好的研究现有的编码工具在游戏内容上的表现,论文构建了一个游戏视频数据集并在该数据集上测试分析现有工具的效果。
和传统的摄像机内容和屏幕内容相比,游戏内容的特点如下:
-
高分辨率,例如1080p及以上。
-
文本和纹理混合。
-
内容多层叠加
-
顶层显示游戏统计信息。
-
特定的透明层
-
显示运动信息的层运动受限
-
-
玩家视角可能是第一视角或第三视角
-
快速的视窗平移
-
游戏内容可能具有有限的纹理模式
-
游戏内容可能具有有限的物体运动模式
Fig.1是一些游戏内容的示例,

游戏数据集
数据集中包含10段1080p和4K的游戏视频,Fig.2是其中一些快照。这些视频都包含多层内容,包括聊天信息、游戏统计等。

数据集中的部分视频已经用于下一代视频编码标准的开发,例如ArenaOfValor是VVC CTC中class F的序列。ArenaOfValor和FortniteBuilding是AOMedia CWG CTC中的序列。
为了更好的了解数据集中序列的特性,使用VTM10.0对它们编码,Fig.3是对应的Bitrate-PSNR曲线。越往右下靠的越难编码。从图中可以看见Jianling_1080P_01和Jianling_1080P_02最难编码。(想要获得这些序列可以通过邮件联系论文作者)

编码工具分析
论文使用VVC的参考软件VTM10.0和AV2的参考软件research-v1.0.0.0对数据集进行编码分析。编码中使用的配置和编码自然场景的相同,除非特殊说明否则不使用SCC的编码工具。使用的配置包括RA和LDB。
在VVC下的编码结果如表3,

将VVC编码工具在摄像机序列和游戏序列下对比,可以发现以下工具在游戏序列的增益和摄像机序列类似:CST、DQ、MTS、AMVR、GPM、LFNST,以下工具在游戏序列上表现更好:CCLM、AFFINE、IBC、PALETTE,剩下的工具在游戏序列上有损失。
从以上结果可以发现,游戏视频的色度分量有更强的纹理,CCLM等工具增益很大。此外,对于第一人称的游戏,仿射预测模式增益更高,这是因为玩家在场景中的视角包括了物体的连续的深度变化,展现了丰富的仿射运动特征。有趣的是一些数据驱动的编码工具,例如LFNST使用的是预训练的变换核,在游戏视频的增益和摄像机视频也类似。
AV1的编码结果如表4,

可以看见有两个编码工具的增益非常大,包括CfL和Identity transform。
感兴趣的请关注微信公众号Video Coding

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)