人工智能学院举办“面向语音识别和生成的语音预训练”科学前沿讲座

  • 文/图 张明宇
  • 创建时间: 2024-05-18
  • 721

  5月10日上午,中国科学院大学人工智能学院有幸邀请到了微软亚洲研究院首席研究员和研究经理刘树杰老师,在雁栖湖校区教一楼213教室为同学们带来科学前沿讲座——《面向语音识别和生成的语音预训练》。目前,基于预训练模型的语音处理方法在多个任务上取得了突破性的进展。在本报告中,刘老师分别介绍了三种不同的预训练模型,即基于编码器的预训练模型,基于编码器-解码器框架的预训练模型和完全基于解码器的预训练模型。前两种预训练模型主要应用于语音识别相关的任务,而完全基于解码器的语言模型则主要用于更高质量的语音生成。

518.01

  作为目前研究比较热门的两个方向,语音和文本半监督学习有什么区别呢?刘老师讲到他们有三个不同点。首先,语音是一个更长的序列,没有固定的段落边界,与文本数据不同,语音数据通常是连绵不断的,没有明确的分隔符号如空格或标点符号,这意味着在处理语音数据时确定短语或句子的边界比在文本中更为复杂;第二,语音是连续的,并没有固定的单元字典用于自监督学习;第三,语音处理任务需要包含正交信息,比如内容信息和说话者信息,即除了要处理语音内容的语义信息(比如单词和短语),语音处理任务还要考虑说话者的身份和特质,如口音、声音的音调和情感。

518.02

  然后,刘老师讲了对于编码器的一些语音预训练模型,即用于大量语音任务的WavLM、拥有标注的语音数据的UniSpeech以及用无标记文本数据的SpeechLM。刘老师对他们的技术细节、损失函数、模型结构、实验结果比较等内容进行了详细讲解,同学们对它们的原理有了深刻理解,受益匪浅。

518.03

  接下来刘老师介绍了用于编码-解码的语音预训练和仅仅用于解码器的语音预训练模型,即VALL-E、NAR、VioLA、SpeechX等模型。最后刘老师做了总结,提到目前语音预训练变得越来越受欢迎、预训练模型能够帮助几乎所有的语音处理任务、基于编解码器的编码方法为语音处理打开了新思路,并被用于所有的语音处理任务,同时刘老师还回答了同学们提出的许多问题。总而言之,多模态预训练是未来非常重要的研究方向。

其他专家信息:

  刘树杰,微软亚洲研究院首席研究员和研究经理,2012年博士毕业于哈尔滨工业大学。2012年加入微软亚洲研究院,从事自然语言处理、语音处理以及机器学习相关工作。在自然语言处理和语音处理各顶级期刊和会议上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论》一书。获得国际自然语言和语音处理评测比赛多项第一。担任多个国际会议审稿人及领域主席。其研究成果被广泛应用于Microsoft Translator、Skype Translator、Microsoft IME和微软语音服务等微软重要产品中。