1. 首页 > 业界

国内研究人员开发24种语言的语音识别技术

3日表示,已经开发出了能够将24种语言识别为语音并转换为文字的“交互式人工智能(Conversational AI)技术”。
该语音识别技术的性能与谷歌(Google)等全球性企业相比,在韩语方面具有优势,在其他语言上处于相当水平。研究组通过“自我指导学习(Self Supervised Learning)”“人工智能自动生成虚拟标签,学习地图的技术”“医生标签”“大容量多语言预学习模型(Pre-trained Model)”“语音数据的音频数据生成(TTS)增强技术”等,确保了多国语言的扩展和高语音识别性能。
另外,研究组还改善了以前常用的端接式(端到端)语音识别技术的缺点,提高了实用性。缓慢响应速度的问题开发流推理技术,并改进了实时处理,并应用了混合端接识别技术,以方便医疗、法律和科学技术等特定领域的语音识别。
端接(端接)语音识别是语音识别性能的改进技术,在以前的语音识别技术中,可以集成学习,如声学模型和语言模型、发音词典等,但根据集成学习,响应速度较慢,存在难以特定于特定领域的缺点,如医疗或法律。

在此之前,ETRI于2020年开发了端到端语音识别技术,将语音识别技术转让给30多家国内外企业,并用于会议记录制作、字幕翻译、信息亭、医疗、教育、AI联系中心等多种AI服务。研究组计划,通过此次多语种扩大和解决应答速度延迟问题等新技术的应用,扩大语音识别技术的利用范围,推进事业化,今年内将支援语言扩大到30多种,通过国内外参展和企业说明会,积极推进事业化。目前,ETRI 是公共智能开放 API、通过DATA服务门户提供11种语言的语音识别服务。以此次研究成果为基础,将语音识别服务扩大到24种语言,为中小风险企业、学校、个人开发者等不同用户提供多语种语音识别相关商机。ETRI综合智能研究室责任研究员金相勋(音)表示:“国内技术与全球领先企业开发出了同等水平的语音识别技术,希望该技术能对提高我国人工智能领域的全球竞争力,确保技术掌握权大有裨益。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.5gdog.cn/news/849.html