中新经纬9月26日电 近日,奇富科技受邀出席了在希腊举办的外洋语音通讯与信号贬责顶级会议——INTERSPEECH 2024,并发表了题为Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition的主旨演讲,全面展示了其在语音识别本领鸿沟的建立,为中国语音本领走向宇宙、参与民众竞争确立了新的标杆。
INTERSPEECH动作民众语音科学界最负知名的年度会议之一,荟萃了来自宇宙各地的顶尖学者、盘问东谈主员及行业首长,共同探讨语音本领的最新进展、挑战与将来趋势。这一平台不仅代表了语音本领鸿沟的最高学术水平,亦然新本领、新理念琢磨与碰撞的绝佳所在,其巨擘性和影响力在业界高高在上。
图1:奇富科技在INTERSPEECH 2024会议作念主旨演讲在演讲中,奇富科技先容了可同期缓助20多种方言的新一代奇富语音识别系统“QiFree”,这是国内金融行业内字错率最低的汉文语音识别系统。在汉文口音与方言语音识别鸿沟的巨擘测试集KeSpeech的对比中,奇富科技凭借其在自动语音识别(Automatic Speech Recognition, ASR)鸿沟的深厚积贮,赶走了方言口音分类准确率的权贵进步,达到了79.10%,远超KeSpeech的基线水平61.13%,这一数据直不雅响应了奇富科技在语音识别准确性上的不凡推崇。同期,在测度识别乖张率的关节观点——CER(Character Error Rate, 字符乖张率)上,奇富科技更所以8.08%的收成,远优于KeSpeech的10.38%,展现了其在汉文方言识别鸿沟的高效与精确。
表1:奇富科技“QiFree”性能效果与KeSpeech Baseline对比奇富科技自研的汉文语音识别系统“QiFree”,窒碍了单一模子只可识别特定单一方言的逆境,通过立异的层自合乎交融结构,借助分享信息编码模块更高效的索取方言信息,赶走了即说即译,进一步增强了语音机器东谈主的及时交互智商。值得一提的是,“QiFree”不仅在庸俗语识别鸿沟的CER上保抓早先地位,更在冀-鲁、江淮、胶-辽、兰-银等多个方言区域的识别性能上,比较过往最好收成赶走了超越15%的权贵进步。这一突破性着力取得了INTERSPEECH三位寂寥审稿东谈主的高度认同,他们一致认同奇富科技论文《Qifusion-Net:基于特征交融的流式/非流式端到端多口音语音识别框架》所展现的系统框架立异性与识别性能的不凡推崇,并一致授予其“ACCEPT”的评定。
值得一提的是,在与国内一流公司(如某科技巨头及国内影响力最大的语音识别开源社区)的对比中,奇富科技一样展现出了压倒性的上风。即等于在濒临参数范围更大、西宾数据量更丰富的敌手时,奇富科技也曾能以更低的CER(8.08% vs 15.61% vs 26.55%)脱颖而出,阐扬了其本领架构的优厚性和算法优化的高效性。此外,与民众早先的语音识别系统(如Openai-whisper v2)比较,尽管后者在通用谈话识别上具有权贵上风,但在汉文方言识别这一细分鸿沟,奇富科技也曾保抓了权贵上风,这进一步印证了其在方言识别本领上的民众早先地位。
表2: 奇富科技“QiFree”关节观点与国表里一流科技公司对比奇富科技在INTERSPEECH 2024上的再一次精彩亮相,不仅是对其多年来在语音识别本领鸿沟深耕细作着力的一次全面展示,更是向宇宙宣告了中国企业在这一鸿沟的强大竞争力和无尽后劲。奇富科技正以其不凡的本领实力和立异精神,引颈着方言识别本领的新一轮发展潮水,为民众语音通讯与信号贬责本领的跳动孝顺着中国灵巧与中国力量。(中新经纬APP)