打造开放 AI 生态!星纪魅族与阿里云举行全面合作签约仪式
由「图片」到「视频」,澎思科技打破视频行人再识别(ReID)技术三项世界纪录
澎思科技一举实现在三大数据集上实现算法关键指标首位命中率(Rank-1 Accuracy)大幅度提升,准确率均创历史新高。
近日,据专注于计算机视觉和物联网技术的澎思科技(Pensees)消息称:在基于视频的行人再识别数据集(PRID-2011,iLIDS-VID,MARS)中再次取得突破性进展,继在三大主流单帧图片行人再识别数据集(Market1501,DukeMTMC-reID,CUHK03)刷新世界纪录后,一举实现在三大数据集上实现算法关键指标首位命中率(Rank-1 Accuracy)大幅度提升,准确率均创历史新高。
刷新三大数据集世界纪录,实现算法关键指标大幅度提升
澎思科技此次一举实现在三大数据库上,仅利用原始数据就实现 Rank-1 Accuracy 关键指标大幅度提升。据澎思科技称,其算法在最大的视频数据集 MARS 上的首位命中率指标已经达到 88.8%,领先香港中文大学、中科大、北京大学等国内外知名机构。在 iLIDS-VID 和PRID-2011 等数据集上首位命中率也分别达到了 88.0% 和 95.5%。
立足现有业务,展开垂直领域技术研发和创新
就此成果,澎思科技表示主要源于澎思新加坡研究院对算法的自研创新和融合探索,并就几项核心技术内容做了详细表述:
1、采用分割重组策略将特定局部特征重组成多个视频序列进行学习,减少局部特征损失对最终特征的影响。(因受遮挡、姿态变化、视角变化等因素的影响,视频序列中行人的特征是不连续,用全局特征来度量每一帧图片的权重往往会损失掉许多重要的信息。)
2、全新的双向图注意力机制模块。将图卷积神经网络和 SENet 完美结合,在整个序列上进行通道域的模式选择学习,同时通过双向网络进行空间域的注意力区域学习。由于图卷积网络的特性,每一帧图片的注意力特征都是与其他帧相互学习结合的结果,从而极大提高特征的代表性。
3、利用帧间相似度进行序列融合。与大多数利用循环神经网络进行融合算法相比,该技术不需要训练额外的模型参数,仅通过数学计算的方式就可以达到融合的目的。在结合三元损失函数进行训练后,类间相似度得到了降低,进而提高重识别效果。
基于视频的行人再识别与单帧图片的行人再识别任务目的是相同的,即在视角不重叠的多摄像机网络下进行行人的匹配。尽管基于单帧图片的行人再识别算法已经取得了不错的进步,但由于单帧图片只包含有限的行人信息,网络提取的特征不具备足够的代表性,检测结果往往受图片质量的影响较大。
与此相比,视频序列的优势便凸显出来。一个短视频序列往往包含行人多运动状态下的更多特征,并且利用时序信息,可以将背景、遮挡等干扰因素的影响降到最低,提升识别的准确度。
加速AI技术落地,持续推进AI产业化落地进程
基于视频的行人再识别(ReID)技术更贴近智慧城市建设的诸多应用场景,能有效解决行人信息有限、特征不足及其他干扰因素等问题,相比单帧图片的行人再识别具备更长远的落地应用空间。
接下来,澎思科技表示也将进一步加大在视频行人再识别算法上的研究,并逐步将算法应用到平安城市、智慧社区、智慧园区、智慧零售、智慧交通等实战应用场景中。