手语识别背后的视觉 AI 技术

手语识别（SLR），指通过计算机算法，自动区分手语表达中的各类手势、动作以及这些手势和动作之间的切换，最后将表达的手语翻译成文字。相比于其他 AI 视觉识别技术的研究，手语识别的研发存在更大的困难和挑战。手语表达所特有的地域性、复杂性和多样性，极大地增加了数据采集与清洗的难度和成本。同时，受限于数据量的大小和人工设计特征的缺陷，很多传统研究的研究方法在适应性、泛化性、及鲁棒性上，都十分有限。

腾讯优图结合听障人士手语表达的习惯，采集手语数据，参考手势识别、动作识别、序列翻译等技术，通过自研算法，实现了对复杂手语表达的识别技术突破。相较于其他方法，优图 AI 手语翻译机的数据集覆盖了近 1000 句日常表达，900 个常用词汇，同时对数据进行进一步的分析和归纳，拥有目前最大的中文手语识别数据集，并支持整句手语表达的识别，可直接判断用户是否结束并完成实时翻译。

视觉 AI 助力信息无障碍建设

据北京听力协会 2017 年公开数据，中国残疾性听力障碍人士已达 7200 万，相当于北京市常住人口（约 2200 万，2015 年数据）的 3 倍多。尽管我国在信息无障碍领域的投入逐渐增加，但目前国内的听障人群需求依然得不到满足。

优图 AI 手语翻译机的推出，将一定程度地缓解听障人士的交流障碍。未来，优图实验室将尝试在日常服务窗口、手语教育等公共场景中，逐步将 AI 手语翻译机落地，为听障人士带来实实在在的便利。

目前，优图实验室已经和深圳市信息无障碍研究会成立 AI 手语识别联合项目组，就手语数据采集、产品算法优化等方面展开长期深度合作。

腾讯在信息无障碍方面的探索已有十年，目前，旗下 QQ、QQ 空间、微信、腾讯网、腾讯新闻、应用宝、企鹅 FM 等大部分产品，均已针对障碍用户实现专门优化。而腾讯优图团队则在 2013 年，与手机 QQ 一起打磨了 OCR 引擎技术，可将图片上的文字直接转换为可编辑的结构化文本，帮助视障群体实现信息沟通无障碍化。

编辑：森林木 / 深圳湾