国内研究人员开发24种语言的语音识别技术

3日表示，已经开发出了能够将24种语言识别为语音并转换为文字的“交互式人工智能（Conversational AI）技术”。
该语音识别技术的性能与谷歌（Google）等全球性企业相比，在韩语方面具有优势，在其他语言上处于相当水平。研究组通过“自我指导学习（Self Supervised Learning）”“人工智能自动生成虚拟标签，学习地图的技术”“医生标签”“大容量多语言预学习模型（Pre-trained Model）”“语音数据的音频数据生成（TTS）增强技术”等，确保了多国语言的扩展和高语音识别性能。
另外，研究组还改善了以前常用的端接式（端到端）语音识别技术的缺点，提高了实用性。缓慢响应速度的问题开发流推理技术，并改进了实时处理，并应用了混合端接识别技术，以方便医疗、法律和科学技术等特定领域的语音识别。
端接（端接）语音识别是语音识别性能的改进技术，在以前的语音识别技术中，可以集成学习，如声学模型和语言模型、发音词典等，但根据集成学习，响应速度较慢，存在难以特定于特定领域的缺点，如医疗或法律。

在此之前，ETRI于2020年开发了端到端语音识别技术，将语音识别技术转让给30多家国内外企业，并用于会议记录制作、字幕翻译、信息亭、医疗、教育、AI联系中心等多种AI服务。研究组计划，通过此次多语种扩大和解决应答速度延迟问题等新技术的应用，扩大语音识别技术的利用范围，推进事业化，今年内将支援语言扩大到30多种，通过国内外参展和企业说明会，积极推进事业化。目前，ETRI 是公共智能开放 API、通过DATA服务门户提供11种语言的语音识别服务。以此次研究成果为基础，将语音识别服务扩大到24种语言，为中小风险企业、学校、个人开发者等不同用户提供多语种语音识别相关商机。ETRI综合智能研究室责任研究员金相勋（音）表示：“国内技术与全球领先企业开发出了同等水平的语音识别技术，希望该技术能对提高我国人工智能领域的全球竞争力，确保技术掌握权大有裨益。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：https://www.5gdog.cn/news/849.html

国内研究人员开发24种语言的语音识别技术

相关推荐