微信扫码
添加专属顾问
我要投稿
2 0 2 4
自1956年达特茅斯会议上,约翰·麦卡锡首次提出了“人工智能”这一术语。AI在此后七十年的发展中呈现脉冲式趋势,每隔5-10年会出现一次技术革新和域定。在这一技术探索进程之中,预训练基础模型逐渐成为主流探索方向,受到学术界和工业界的关注。在此技术背景下,OpenAI携应用级界面产品ChatGPT横空出世,使得人们对大语言模型的通用能力有了全新的认识, 引燃了语义大语言模型的研究热潮。
01
语音识别和基础技术
音频多模态大模型
02
音频分析
语音合成
03
多模态语义大模型
技术应用实践解析
04
开源全况总结
语音识别服务框架
过去一年,通义语音实验室研究提出和落地了Paraformer的非自回归端到端语音识别。非自回归模型相比于目前主流的自回归模型,可以并行的对整条句子输出目标文字,特别适合利用GPU进行并行推理。相同模型参数规模的Paraformer和Transformer,Paraformer结合GPU推理效率可以提升5~10倍。Paraformer是当前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。
过往关于非自回归端到端语音识别的研究主要面临两个核心问题:1)如何一次性准确的预测输入的音频包含的输出文字数目;2)如何优化非自回归模型中条件独立假设导致的语义信息丢失。
针对第一个问题,我们采用一个预测器(Predictor)来预测文字个数并通过 Continuous integrate-and-fire (CIF) 机制来抽取文字对应的声学隐变量。针对第二个问题,受启发于机器翻译领域中的 Glancing language model(GLM),我们设计了一个基于 GLM 的 Sampler 模块来增强模型对上下文语义的建模。
Paraformer模型结构如上图所示,由 Encoder、Predictor、Sampler、Decoder 与 Loss function 五部分组成。Encoder可以采用不同的网络结构,例如self-attention,conformer,SAN-M等。Predictor 为两层FFN,预测目标文字个数以及抽取目标文字对应的声学向量。Sampler 为无可学习参数模块,依据输入的声学向量和目标向量,生产含有语义的特征向量。Decoder 结构与自回归模型类似,为双向建模(自回归为单向建模)。Loss function 部分,除了交叉熵(CE),还包括了 Predictor 优化目标 MAE。
目前基于paraformer的语音识别框架已经全量上线到 阿里云语音AI 。同时在下文我们也会介绍Paraformer在Modelscope社区和FunASR的开源相关的工作。关于Paraformer的详细的技术细节也可以参阅论文 https://arxiv.org/abs/2206.08317 。
过去一年,我们在语音识别声学模型上的另一个尝试是探索将最新的RWKV结构和RNN-T相结合应用于实时语音识别。
目前主流的Transformer和Conformer网络结构的核心组件是self-attention。然而,全局attention机制使其不适用于流式识别场景。为了使transformer和conformer支持流式语音识别,常见的做法是使用chunk attention。这一做法存在两个问题,一是存在延迟和识别率的trade-off,即更低的识别错误率依赖更大的chunk,但会造成更大的延迟;二是需要在推理时缓存历史chunk的Key,Value信息,这增大了推理时的存储开销。
我们提出将最新的RWKV网络结构和RNN-T相结合,应用于低延迟的实时语音识别。RWKV是一种线性attention模型,在推理时,RWKV的前向计算可以写成RNN的形式。因此将RWKV用作ASR encoder有两大优势,一是无需使用chunk,因而不会引入额外的延时;二是推理时无需缓存Key,Value信息。
我们在Aishell-1、Librispeech、Gigaspeech、Wenetspeech上的结果表明,RWKV-RNN-T在延迟更小的前提下,可以取得与chunk-conformer接近的性能。在工业量级上的评测结果也表明,RWKV-RNN-T在低延迟限制下具有出色的识别准确率。 当前RWKV-RNN-T的相关模型已经通过Modelscope进行开源,相关的训练代码也通过了FunASR进行开源。具体可以参阅如下的具体链接:
Modelscope体验地址: https://modelscope.cn/models/damo/speech_rwkv_transducer_asr-en-16k-gigaspeech-vocab5001-pytorch-online/summary
论文预印版地址: https://arxiv.org/pdf/2309.14758.pdf
语音端点检测(Voice Activity Detection,VAD)是语音识别系统中重要的组成部分,它能够将输入音频的有效语音检出并输入识别引擎进行识别,减少无效语音带来的识别错误。目前应用比较广泛的是基于DNN、FSMN、LSTM的二分类或者Monophone建模方式。
传统的VAD模型只区分语音和静音,忽略了每个静音部分是否是完整的语义断点,通常情况下需要等待较长的连续尾部静音(例如700毫秒)才能进行尾点判停。这种传统模型在语音交互应用场景中会带来比较明显的体感延时;在翻译场景还存在切割出来的片段语义不完整,影响翻译效果。
为了解决这类问题,我们在传统的VAD模型中添加一个帧级标点预测任务。如果检测到一个结束标点(例如句号、问号),表明存在完整的语义断点,等待一个较短的尾部静音(例如400毫秒)则进行断句。当检测到非结束标点(例如逗号、顿号)的情况下,用于断句的尾部静音需要略长一些(例如500毫秒)。只有在无法预测标点的情况下,才会使用传统VAD的预设最大尾部静音(例如700毫秒)来确定分割点。传统VAD的是单任务训练方式,如下图(a)所示,通常采用DNN、FSMN、LSTM等模型结构。我们提出的语义VAD,通过多任务训练框架,如下图(b)所示,引入了标点预测和自动语音识别(ASR)任务来增强VAD训练中的语义信息学习,从而提高了整个VAD系统的性能。
在实际应用场景中(例如智能交互场景),需要在考虑延时和实时率的同时来提高VAD系统的性能,我们采用的是基于RWKV的模型结构,如下图(c)所示,该模型结构结合了RNN和Transformer的优点,非常适合用于实时语音端点检测系统。而在离线系统中(例如客户质检场景),更注重片段的切割准确率,我们采用的是通义语音实验室自研的SAN-M Chunk结构,如下图(d)所示。
通义实验室语音团队的热词定制化技术经过了从基于WFST解码图的热词激励到基于Clas的神经网络热词激励与二者耦合共同激励的演变,并且在今年针对Paraformer非自回归模型结构提出了Semantic-Augmented Contextual Paraformer(SeACo-Paraformer),利用Paraformer的结构特点实现了热词协同解码的效果。其热词召回率较Clas模型显著提升,并且模型训练与生效的稳定性较Clas更优。
语音识别的音字对齐功能是一些典型应用,例如自动字幕等的关键需求。在语音识别模型从传统的基于HMM-DNN-WFST融合系统迈进基于CTC、Transformer、Transducer等结构的端到端时代的过程中,时间戳预测问题是遗留问题之一。
传统模型基于HMM产生的帧级别强制对齐,能够天然的在解码器中获取输出token的时间戳。但是在端到端模型中,CTC/Transducer模型面临尖峰偏移的问题、Transformer/LAS模型进行非帧同步的解码,均无法天然的获取输出token的时间戳,需要借助传统Force-Alignment模型分两阶段生成时间戳,提升了模型训练的成本与难度。
基于Paraformer模型中CIF-Predictor的建模特性,我们发现CIF机制的权重累计过程可以被用于时间戳生成。针对工业模型CIF权重的特点,我们设计了包括延迟发射在内的优化策略,实现了在ASR模型解码的同时天然的获取输出token的时间戳(如上图所示)。在学术数据集与工业数据集的实验中,上述方法的时间戳精度与Force-Alignment系统相当。
论文预印版下载地址: https://arxiv.org/pdf/2301.12343.pdf
音频多模态大模型
技术的发展日新月异,大模型也从单一的语义大模型快速的在向多模态大模型发展。例如OpenAI最新的GPT-4V,解锁了文本和视觉的能力;GPT-4的VoiceChat解锁了语义和语音的能力;Google的Gemini从设计之初就是一个包含文本、视觉和音频的多模态大模型。通义实验室过去的一年也在前沿的音频多模态大模型上展开相应的探索:1)多模态语音识别;2)LauraGPT语音大模型;3)Qwen-Audio语音-语义大模型。
同时我们还提出了在可视上下文幻灯片中利用文本信息的基准系统。通过应用关键词提取和上下文语音识别(Contextual ASR)方法于基准系统中,我们展示了整合补充视频幻灯片中的文本信息以提高语音识别性能的潜力。
利用幻灯片文本信息的基准系统示意图
论文预印版下载地址: https://arxiv.org/abs/2309.05396
数据库开源地址: https://slidespeech.github.io/
考虑到SlideSpeech语料中视频数据包含的幻灯片与语音实时同步,相比于统一的稀有词列表,其能够提供更长的上下文相关信息。因此,我们提出了一种创新的长上下文偏置网络(LCB-net)用于音频-视觉语音识别(Audio-Visual Speech Recognition,AVSR),以更好地利用视频中的长时上下文信息。
具体来说,我们首先使用OCR技术来检测和识别幻灯片中的文本内容,其次我们采用关键词提取技术来获取文本内容中的关键词短语,最后我们将关键词拼接成长上下文文本和音频同时输入到我们的LCB-net模型中进行识别。LCB-net模型采用了双编码器结构,同时建模音频和长上下文文本信息。并且,我们还引入了一个显式的偏置词预测模块,通过使用二元交叉熵(BCE)损失函数显式预测长上下文文本中在音频中出现的关键偏置词。此外,为了增强LCB-net的泛化能力和稳健性,我们还采用了动态的关键词模拟策略。实验证明,我们提出的LCB-net热词模型,不仅能够显著提升关键词的识别效果,同时也能够提升非关键词的识别效果。
Qwen-Audio音频-语义大模型
语义大语言模型(LLM)相比于人类对于世界的感知,存在的一个短板是模型无法直观地感知和解析图像与音频信息。作为一种关键的信息表达方式,音频携带了丰富的、超越文字的信号细节,例如:人声中蕴含的情绪、语气和意图;自然界中的各类声响,像是火车的汽笛、钟声;以及音乐所传达的旋律和节奏等。因此,让语言模型掌握对这些丰富音频信号的感知与理解,并能够实现有效的音频互动,将语义大模型进化到多模态大模型是当前的一个研究和应用热点。
最近,遵循指令的音频-语言模型因其在与人类的音频交互中所表现出的潜力而受到了广泛关注。然而,缺少能够处理多种音频类型和任务的预训练音频模型,这限制了这一领域的发展。因此,大多数现有的研究只能支持有限范围的交互能力。
为此,通义实验室研究发布了 Qwen-Audio音频-语义大模型 。Qwen-Audio通过扩大音频-语言预训练的规模来解决这一局限性,涵盖了超过30种任务和各种音频类型,如人类语音、自然声音、音乐和歌曲,以促进全面的音频理解能力。然而,直接共同训练所有任务和数据集可能会导致干扰问题,因为不同数据集相关联的文本标签由于任务焦点、语言、注释粒度和文本结构的差异而显示出相当大的变化。
为了克服这种一对多的干扰,Qwen-Audio仔细设计了如下图的多任务训练框架,通过向解码器引入一系列层级标签来鼓励知识共享,并分别通过共享和指定的标签来避免干扰。
通过采用多任务预训练的Qwen-Audio模型,在公开的多个基准任务上都获得了SOTA的性能,如下图所示,在语音识别的AISHELL-1、AISHELL-2、Librispeech,语音翻译的CoVoST2任务,音频事件描述的Clotho任务等Qwen-Audio相比于开源的其他工作均有明显的性能优势,并且是当前这些任务的SOTA。
Qwen-Aduio通过多任务预训练具备了对音频的广泛理解能力。在此基础上,我们采用基于指令的微调技术来提升模型与人类意图对齐的能力,从而开发出名为Qwen-Audio-Chat的交互式聊天模型。
当前Qwen-Audio( https://modelscope.cn/models/qwen/Qwen-Audio/summary )和Qwen-Audio-Chat( https://modelscope.cn/models/qwen/Qwen-Audio-Chat/summary )模型已经发布到了Modelscope。可以到Modelscope进行在线体验。
同时Qwen-Audio相关的代码也通过Github进行了开源。
Github开源仓库: https://github.com/QwenLM/Qwen-Audio
02 音频分析与语音合成
说话人基础模型研究
图示:CAM++模型结构示意图
图示:VoxCeleb和CN-Celeb数据集实验结果
图示:计算复杂度对比
相关论文: https://www.isca-speech.org/archive/pdfs/interspeech_2023/wang23ha_interspeech.pdf
正则化DINO框架在公开测试集VoxCeleb中取得优异性能,与同时期发表的相关模型性能对比如下:
论文下载地址: https://arxiv.org/pdf/2211.04168.pdf
多模态说话人区分
关于语义部分,我们提出了两个用于提取语义中说话人信息的模块:对话预测(Dialogue Detection)和说话人转换预测(Speaker-Turn Detection),这两个模型基于Bert模型,使用大量带说话人ID的会议文本进行训练,可以用于判断多人对话的局部是否有说话人转换发生以及说话人转换发生的具体文本位置。
相关论文: https://aclanthology.org/2023.findings-acl.884.pdf
语音合成模型
为了提高TTS的生成效果和流式推理高效性,通义实验室语音团队今年在自回归TTS声学模型(SAMBERT)的已有积累上升级到非自回归声学模型CSP (Chunk Streaming Parallel) 。 其中多个子模块均进行了相应打磨:
在韵律建模方面融合显隐式进行多尺度建模,并结合深度生成模型(Flow,LCM)进行韵律预测,使得声学模型在具有控制能力鲁棒性的同时对韵律有较好的预测刻画效果。
采用chunk cache based decoder 支持高效的非自回归流式推理,满足工业应用需求。chunk 内可以并行计算提高推理效率,非自回归建模避免teacher-forcing带来的mismatch,便于模型效果整体端到端优化。
采用深度生成模型(Flow,GAN)的Post-Net对decoder生成的mel-spectrogram进行refine, 在引入look-ahead减少chunk带来的流式损失的同时避免over-smoothing进一步提升mel-spectrogram的生成质量。
非自回归声学模型 CSP 相较于自回归声学模型 SAMBERT 在语速停顿等韵律方面具有一定优势,多音色评测CMOS avg +0.07, 推理效率CPU提升4倍,进一步结合GPU后推理效率提升18倍。该方案正结合具体的业务场景做进一步的细致优化,并逐渐进行线上音色的模型升级。相关代码及模型也将通过KAN-TTS和ModelScope进行开源。
03 多模态语义大模型
通义听悟应用实践
过去一年,得益于以OpenAI为首提出的大规模语言模型(LLM)的飞速发展,我们基于通义实验室的通义千问底座结合过往的口语语言处理经验进行了进一步的基础算法探索以及应用落地;本话题先针对语义板块结合大模型以及多模态在通义听悟场景下的应用实践进行讨论,再介绍口语语言处理领域的应用研究工作。
通义听悟是通义家族首个消费者端应用产品,聚焦于音视频内容记录和理解分析,期望在多媒体时代帮助用户梳理和挖掘音视频信息价值并沉淀为知识资产;针对听悟中用到的文本、语音、视觉、翻译等相关算法进行梳理,得到以下的算法架构图。
PPT视觉边界检测及大模型摘要
PPT视觉边界检测及大模型摘要是指提取视频中的PPT画面,并将每页PPT展示时所讲述的内容,提炼成摘要总结,便于快速回顾PPT及讲解内容。算法基本流程如下图所示,我们针对PPT展示的特点设计了结合视觉和文本的检测任务;具体为以固定时间间隔从视频中采集视频帧得到视频帧序列,首先进行前景物体过滤,之后依据运动和静止事件检测结果锚定PPT切换的时间戳,并进行时间戳校准、相似度去重、OCR识别PPT内容等后处理操作,最后对齐视频转写的文本和PPT内容,输入到通义听悟摘要大模型得到每张PPT对应讲解内容的摘要总结。
语义结构分割
文本语义主题分割旨在将长篇章文本按照各部分所表达的中心思想分割成一系列语义片段,该能力是通义听悟中“文本分段”以及“章节速览分话题”的基石。我们提出了两种方法来增强预训练语言模型感知文本连贯性的能力并提升主题分割性能,一是主题感知句子结构预测(Topic-aware Sentence Structure Prediction ,TSSP)任务,该任务首先构造主题和句子级别扰乱的文档作为增强数据,之后训练模型学习增强文档中相邻句子的原始逻辑结构关系;二是对比语义相似性学习(Contrastive Semantic Similarity Learning ,CSSL),该任务利用主题边界信息构造对比样本,确保同一主题中的句子表示具有较高的相似度,而不同主题的句子表示相似度较低。
实验结果表明,TSSP 和 CSSL 任务能提升 BERT、BigBird 和 Longformer 等预训练语言模型的主题分割效果,并且Longformer+TSSP+CSSL 在 Intra-domain 和 Out-of-domain 下均显著优于现有方法,并且在不同上下文长度下均能提升基准模型性能。此外,我们探索了不同的 Prompt 来测试 ChatGPT3.5 在长篇章文档的主题分割性能,结果显示 Longformer+TSSP+CSSL 模型在 Out-of-domain 配置下效果优于 ChatGPT3.5 的 zero-shot 和 one-shot 性能。
更多技术细节可以参考我们发表在 EMNLP2023 的技术论文:
https://aclanthology.org/2023.emnlp-main.341/
在智能待办方面,根据不同策略的对比结果最终采用了“小模型识别+大模型总结”的两段式方法,基于小模型行动项识别结果,通过大模型进行总结,以期提高用户体验。
行动项识别(action item detection)旨在识别会议记录中待办相关内容,通常建模为句子级别的二分类任务。然而,该任务面临着数据量少、标注质量低、类别不均衡等问题。为此,我们构建并开源了第一个带有行动项标注的中文会议数据集。在此基础上,我们提出了 Context-Drop 的方法,通过对比学习建模同时建模局部和全局上下文,在行动项识别表现和鲁棒性方面均取得更好的效果。此外,我们探索了 Lightweight model ensemble 的方法,利用不同的预训练模型,提高行动项识别的表现。
另一方面通过对大模型的效果摸底,可以观察到其在智能待办生成方面具有“准确率较低而可读性强”的特点。因此,我们先通过小模型召回待办相关片段,然后再通过大模型结合上下文内容进行总结,返回待办事项的任务描述、负责人、时间期限等要素信息,并通过探索上下文长度、Prompt、待办提示、聚合策略等方面的设置,不断改善行动项识别及总结的数据标注质量,优化大模型的总结表现。此外,训练过程中引入高难度负例样本强化了大模型的拒识能力,进一步激活大模型能力提高返回结果的准确率。
最终,业务侧主观评测结果显示上述的 两段式方法 显著优于单独的小模型检测和大模型端到端生成方法。
更多技术细节可以参考我们发表在 ICASSP2023 的技术论文:
https://ieeexplore.ieee.org/document/10096053
口语语义理解研究
以往的研究表明,会议记录的口语语言处理(Spoken Language Processing, 简称 SLP) 如关键词提取和摘要生成,对于会议的理解和生成 (Meeting Understanding and Generation) 包括信息的提取、组织排序及加工至关重要,可以显著提高用户获取重要信息的效率。
然而由于会议数据的高度保密性,会议内容理解和生成技术的发展一直受到大规模公开数据集缺失的制约。为了促进会议理解和生成技术的研究和发展,阿里巴巴通义语音实验室构建并发布了目前为止规模最大的中文会议数据集 Alimeeting4MUG Corpus(AMC),并基于会议人工转写结果进行了多项SLP任务的人工标注。AMC 也是目前为止支持最多 SLP任务开发的会议数据集。基于AMC 举办的 ICASSP2023 MUG 挑战目标是推动SLP在会议文本处理场景的研究并应对其中的多项核心挑战,包括人人交互场景下多样化的口语现象、会议场景下的长篇章文档建模等。
MUG挑战赛总共包含五个赛道:Track1-话题分割,Track2-话题及篇章抽取式摘要,Track3-话题标题生成,Track4-关键词抽取,Track5-行动项抽取。
详情可参阅往期文章介绍: ICASSP2023 通用会议理解及生成挑战(MUG)成功举办及获奖团队结果分析
数据集及基线系统见Github 链接: https://github.com/alibaba-damo-academy/SpokenNLP
竞赛相关技术论文: https://arxiv.org/abs/2303.13932 Overview of the ICASSP 2023 General Meeting Understanding and Generation Challenge (MUG)
Ditto: 一种简单而有效的改进句子嵌入的方法
以前的研究诊断了预训练语言模型(例如BERT)在没有进行微调的情况下,其句子表示存在的各向异性问题。我们的分析揭示了BERT生成的句子嵌入对无信息词有偏向,这限制了它们在语义文本相似性(STS)任务中的性能。为了解决这种偏差,我们提出了一种简单而有效的无监督方法,即对角线注意力池化(Ditto),该方法利用基于模型的重要性估计对单词进行加权,并计算预训练模型中单词表示的加权平均值作为句子嵌入。Ditto可以轻松地作为后处理操作应用于任何预训练语言模型。与以往的句子嵌入方法相比,Ditto既不增加参数,也不需要任何学习。实证评估表明,我们提出的Ditto可以缓解各向异性问题,并改善各种预训练模型在STS基准上的表现。
观察1:强调了信息丰富单词的组合对于生成高质量句子嵌入的重要性。
观察2:指出了BERT的某些自注意力头对应于单词的重要性。
更多技术细节可以参考我们发表在EMNLP 2023 的技术论文:
Ditto: A Simple and Efficient Approach to Improve Sentence Embeddings
https://aclanthology.org/2023.emnlp-main.359/
开源代码: https://github.com/alibaba-damo-academy/SpokenNLP/tree/main/ditto
加权采样的掩码语言建模
掩码语言建模(MLM)被广泛用于预训练语言模型。然而,MLM中的标准随机掩码策略导致了预训练语言模型(PLM)偏向高频标记,罕见标记的表示学习效果不佳,从而限制了PLM在下游任务上的性能。为了解决这一频率偏差问题,我们提出了两种简单有效的基于标记频率和训练损失的加权采样策略,用于掩盖标记。通过将这两种策略应用于BERT,我们得到了加权采样BERT(WSBERT)。实验表明,WSBERT在语义文本相似性基准(STS)上的性能显著优于BERT。在对WSBERT进行微调并与校准方法和提示学习相结合后,进一步改善了句子嵌入。我们还研究了在GLUE基准上对WSBERT进行微调,并展示了加权采样提高了骨干PLM的迁移学习能力。我们进一步分析并提供了有关WSBERT如何改善标记嵌入的见解。
首先,我们提出了一种对标记频率进行转换的方法,以减少罕见标记的影响。然后,根据转换后的频率计算了每个标记的采样权重。对于句子中的每个标记,根据其计算得到的采样权重进行归一化,计算出掩码该标记的采样概率。
以上是提出的动态加权采样的示意图,用于掩码语言建模(MLM)。选择掩盖标记的采样权重是基于当前 PLM 对该标记的预测损失计算得出的。我们将每个标记的采样权重存储在权重字典中。
更多技术细节可以参考我们发表在ICASSP 2023 (Top 3% Paper Recognition) 的技术论文: Weighted Sampling for Masked Language Modeling
https://arxiv.org/abs/2302.14225
04 开源概况
经过2023年的建设,Modelscope魔搭社区语音板块已经初具规模。不仅包含音频领域数十个研究方向的,大量工业级的开源模型,也包含相应的工具包,以及进一步打通了模型的推理、训练、微调和部署的pipeline。
>>>>>>往期部分开源发布:
魔搭语音更新|七大模型最新开源,推理速度升级,几行代码可实现微调
开源音视频剪辑工具:FunASR-APP ClipVideo
以下会就modelscope配套的几个github开源项目进行进一步的介绍。
FunASR开源项目
FunASR 的主要功能集中在对语音的识别和理解方面,相当于给机器加上了耳朵,而 FunCodec 的主要目标则是语音的量化表示与生成,即给机器加上嘴巴的能力。
语音量化(Speech Codec)的目的是将语音信号编码为一个个离散的token,在语音通信和存储领域具有广泛的应用场景。近些年,得益于深度神经网络的快速发展,研究者们提出了基于神经编解码的语音量化模型。与基于专家知识的传统语音量化方法相比,基于神经网络的模型在更低的码率下获得了更高的语音质量。
与此同时,语音的量化编码也使大规模语言模型LLM具备了统一建模语音和文本的能力,例如VALL-E语音合成模型、VioLA、AudioPALM等语音-文本理解模型等。在此背景下,我们开源了 FunCodec 语音量化编码工具包。
它提供了SoundStream、Encodec等SOTA模型的开源实现,以及我们在标准学术数据和内部大规模数据上的预训练模型,希望以此加速该领域的相关研究;
考虑到语音在时频域上的结构性,我们进一步提出了时频域的量化模型,它能够在保证量化语音质量的基础上,只需更少的参数和计算量。我们发现频域模型对包括语音在内的音频信号具备更好的建模能力,未来我们将会在FunCodec发布统一音频量化模型,能够处理各种各样的音频信号,包括:语音、声学事件、音乐等;
为了探究声学-语义解耦对语音量化带来的影响,我们提出了semantic augmented 的 residual vector quantizer 模块,在极低比特率下展现了较高的语音质量。
以上所有模型都已在ModelScope开源。与语音量化模型一同,我们还会在FunCodec中发布LauraGPT、VALL-E、SpearTTS等基于离散token的语音合成模型。
FunCodec 模型结构
论文预印版下载地址: https://arxiv.org/abs/2309.07405v2
FunCodec开源代码: https://github.com/alibaba-damo-academy/FunCodec
FunCodec开源模型: https://www.modelscope.cn/models?page=1&tasks=audio-codec&type=audio
3D-Speaker开源项目
3D-Speaker是通义实验室语音团队今年推出的说话人相关的开源项目。3D-Speaker的名称有两层含义,一是包含声学信息、语义信息、视觉信息3种模态的说话人识别技术,二是开源了一个多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)中文说话人语音数据集。
3D-Speaker开源项目包含说话人识别,说话人确认以及说话人分割任务的训练及推理代码,以及ModelScope上开源的相关预训练模型。
项目地址: https://github.com/alibaba-damo-academy/3D-Speaker
针对说话人验证任务,我们提供了三个标准测试trials:Trials Cross-Device、Trials Cross-Distance和Trials Cross-Dialect。针对方言语种识别(LID)任务,我们也提供了一个标准测试集以让结果容易比较。3D-Speaker数据使用CC BY-SA 4.0协议。
我们数据网站地址 : https://3dspeaker.github.io/ ,提供了数据下载链接以及发布的baseline等信息。我们在文章中汇报的相关模型(ERes2Net、CAM++等)以及数据的一些预处理代码也已开源,请参考我们的开源项目 https://github.com/alibaba-damo-academy/3D-Speaker 。如果您基于3D-Speaker数据做出了优秀的结果,也非常欢迎向我们的榜单上提交您的结果。
相关论文: https://arxiv.org/pdf/2306.15354.pdf
Autolabeling开源项目
Autolabel 是我们今年推出的音频自动化标注工具,该工具集成了语音实验室多种原子能力,如语音降噪(ANS)、语音识别(ASR)、语音端点检测(VAD)、时间戳预测(FA)、韵律标注(PWPP)等,使得用户可以使用已有的音频,直接通过 一个Autolabel工具,获取音频所对应的文本、音素、音素时间戳、韵律标注等多种标注信息,适配于后续的语音合成及其他相关任务,如轻量化定制和大规模语音数据标注等。目前该工具的下载量达到11w+。
Modelscope地址: https://modelscope.cn/models/damo/speech_ptts_autolabel_16k
在Autolabel中,支持三种采样率(16k 24k 48k)音频的输入,首先通过ANS对其进行降噪,其次为保证切分后的音频长度合适且尽可能保留语音完整性,对降噪后音频进行多个阈值的VAD切分和ASR获取对应文本,然后通过文本转音素和FA获取音素及其对应时间戳,再根据文本和真实音频标注PWPP进行韵律标注预测,最后整理所有生成对应标注。其中如ANS和VAD对音频有特殊处理等为可选工具。
KAN-TTS开源项目
KAN-TTS是通义实验室语音团队开源的一套语音合成模型训练框架,包含Sambert、nsf-hifigan等模型的训练、推理脚本,能够训练出具有高自然度和韵律丰富度的语音合成模型。
KAN-TTS支持中、英、日、德、韩等十一种外语和上海话、四川话、粤语等多地方言的数据处理,目前KAN-TTS已在ModelScope开源社区贡献了40多个语音合成模型,覆盖多情感、多语言、个性化人声定制等多个类别。同时KAN-TTS还配套了自动化数据标注工具AutoLabel,开发者可根据这套toolkit自由定制自己的语音合成模型。
KAN-TTS github仓库地址: https://github.com/alibaba-damo-academy/KAN-TTS
KAN-TTS ModelScope模型列表: https://www.modelscope.cn/models?page=1&tasks=text-to-speech&type=audio
我们不断完善和更新开源项目内容,建立开放的开发者社区答疑,如果您有相关项目切磋交流,欢迎在项目中给我们留言。
特别鸣谢本文作者(排名不分先后):游雁、可渊、凌匀、维石、语帆、志浩、嘉渊、雾聪、 谵良、 实一、云楚、 斯奇、神霄、浮名、格真、童牧 、恕黎、则济、 虎跑、潭清、温良、明斋、翼海 、琋达。
产品:智能语音识别+多语言翻译+实时字幕生成+会议记录解决方案
承诺:99%以上的语音识别准确率,支持40+种语言实时翻译,毫秒级延迟的直播字幕服务。让沟通无国界,信息无障碍,已服务200+企业客户