感兴趣区域编码
感兴趣区域编码技术¶
ROI编码(Region of Interest Encoding)是一种用于图像处理和计算机视觉任务中的技术。它的主要优势在于能够提取感兴趣区域(Region of Interest,ROI)的特征并进行编码,从而在图像处理任务中提供更高的效率和准确性
使用场景¶
-
提高计算效率:ROI编码可以帮助减少图像处理任务中的计算量。通过仅关注感兴趣区域,可以减少对整个图像的处理和分析,从而提高处理速度。这对于需要处理大量图像或实时应用非常有用。
-
精确的特征表示:ROI编码可以从感兴趣区域中提取更精确和有意义的特征。相比于对整个图像进行特征提取,ROI编码可以将注意力集中在重要的区域,提供更准确的特征表示。这对于目标检测、目标跟踪和图像分类等任务非常有用。
-
提高分类和检测准确性:ROI编码可以帮助提高分类和检测任务的准确性。通过将注意力集中在感兴趣区域,ROI编码可以更好地捕捉关键特征,并减少背景噪声的干扰。这对于在复杂场景中进行准确的目标检测和分类非常有帮助。
-
目标定位和分割:ROI编码可以用于目标定位和分割任务。通过对感兴趣区域进行编码,可以获得目标的边界和形状信息,从而实现目标的定位和分割。这在医学图像处理、自动驾驶和人脸识别等领域中有广泛的应用。
感兴趣区域的定义¶
大量科学实验表明对于同一画面,人眼关注点大多相近,下图是人眼感兴趣区域的示意。
感兴趣区域检测¶
如何检测人眼感兴趣的区域以及如何对该区域进行编码偏重是亟待解决的问题。随着深度学习近年来的突破发展,基于AI深度学习的人眼感兴趣区域编码成为了行业热点。通过对人眼感兴趣的区域进行编码码率偏重,使得同等码率下主观画质获得显著提升。芒果TV通过技术创新,提出了一种高效的ROI区域检测算法,采用一种轻量化的网络MobileNetV2作为骨干网络,以保障算法的实时性能 。提出了一种多层空洞卷积模块,能有效的捕获不同尺度下的显著性特征并进行融合,以进一步提升检测的精度,算法在ROI检测专用数据集MIT300上获得全球综合排名第2的成绩。
感兴趣区域编码¶
基于混合架构的视频编码技术比如H264、H265等对画面内容一视同仁,并未对人眼的主观感兴趣点进行差异化处理。芒果自研编码器利用感兴趣区域检测结果对码率分配以及率失真模型进行深度优化,在同等码率下,优化后视频质量的主观问卷“极差+较差”下降12.31%,“不错+很棒”提升7.44%,在降低10%的编码码率下,依然有主观画质优势。