(简体中文|English)
您可以在本协议的条件下自由使用、复制、修改和分享FunASR模型。在使用、复制、修改和分享FunASR模型时,您应当标明模型来源和作者信息。您应当在[FunASR软件]中保留相关模型的名称。完整的模型许可证请参见 模型许可协议
模型用法参考文档
这里我们提供了在不同数据集上预训练的模型。模型和数据集的详细信息可在 ModelScope中找到.
| 模型名字 | 语言 | 训练数据 | 词典大小 | 参数量 | 非实时/实时 | 备注 |
|---|---|---|---|---|---|---|
| Paraformer-large | 中文和英文 | 阿里巴巴语音数据(60000小时) | 8404 | 220M | 非实时 | 输入wav文件持续时间不超过20秒 |
| Paraformer-large长音频版本 | 中文和英文 | 阿里巴巴语音数据(60000小时) | 8404 | 220M | 非实时 | 能够处理任意长度的输入wav文件 |
| Paraformer-large-en长音频版本 | 英文 | 阿里巴巴语音数据(50000小时) | 10020 | 220M | 非实时 | 能够处理任意长度的输入wav文件 |
| Paraformer-large-Spk | 中文和英文 | 阿里巴巴语音数据(60000小时) | 8404 | 220M | 非实时 | 在长音频功能的基础上添加说话人识别功能 |
| Paraformer-large热词 | 中文和英文 | 阿里巴巴语音数据(60000小时) | 8404 | 220M | 非实时 | 基于激励增强的热词定制支持,可以提高热词的召回率和准确率,输入wav文件持续时间不超过20秒 |
| Paraformer | 中文和英文 | 阿里巴巴语音数据(50000小时) | 8358 | 68M | 离线 | 输入wav文件持续时间不超过20秒 |
| Paraformer实时 | 中文和英文 | 阿里巴巴语音数据 (50000hours) | 8404 | 68M | 实时 | 能够处理流式输入 |
| Paraformer-large实时 | 中文和英文 | 阿里巴巴语音数据 (60000hours) | 8404 | 220M | 实时 | 能够处理流式输入 |
| Paraformer-tiny | 中文 | 阿里巴巴语音数据 (200hours) | 544 | 5.2M | 非实时 | 轻量级Paraformer模型,支持普通话命令词识别 |
| Paraformer-aishell | 中文 | AISHELL (178hours) | 4234 | 43M | 非实时 | 学术模型 |
| ParaformerBert-aishell | 中文 | AISHELL (178hours) | 4234 | 43M | 非实时 | 学术模型 |
| Paraformer-aishell2 | 中文 | AISHELL-2 (1000hours) | 5212 | 64M | 非实时 | 学术模型 |
| ParaformerBert-aishell2 | 中文 | AISHELL-2 (1000hours) | 5212 | 64M | 非实时 | 学术模型 |
| 模型名字 | 语言 | 训练数据 | Vocab Size | Parameter | 非实时/实时 | 备注 |
|---|---|---|---|---|---|---|
| UniASR | 中文和英文 | 阿里巴巴语音数据 (60000 小时) | 8358 | 100M | 实时 | 流式离线一体化模型 |
| UniASR-large | 中文和英文 | 阿里巴巴语音数据 (60000 小时) | 8358 | 220M | 非实时 | 流式离线一体化模型 |
| UniASR English | 英文 | 阿里巴巴语音数据 (10000 小时) | 1080 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Russian | 俄语 | 阿里巴巴语音数据 (5000 小时) | 1664 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Japanese | 日语 | 阿里巴巴语音数据 (5000 小时) | 5977 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Korean | 韩语 | 阿里巴巴语音数据 (2000 小时) | 6400 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Cantonese (CHS) | 粤语(简体中文) | 阿里巴巴语音数据 (5000 小时) | 1468 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Indonesian | 印尼语 | 阿里巴巴语音数据 (1000 小时) | 1067 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Vietnamese | 越南语 | 阿里巴巴语音数据 (1000 小时) | 1001 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Spanish | 西班牙语 | 阿里巴巴语音数据 (1000 小时) | 3445 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Portuguese | 葡萄牙语 | 阿里巴巴语音数据 (1000 小时) | 1617 | 95M | 实时 | 流式离线一体化模型 |
| UniASR French | 法语 | 阿里巴巴语音数据 (1000 小时) | 3472 | 95M | 实时 | 流式离线一体化模型 |
| UniASR German | 德语 | 阿里巴巴语音数据 (1000 小时) | 3690 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Persian | 波斯语 | 阿里巴巴语音数据 (1000 小时) | 1257 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Burmese | 缅甸语 | 阿里巴巴语音数据 (1000 小时) | 696 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Hebrew | 希伯来语 | 阿里巴巴语音数据 (1000 小时) | 1085 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Urdu | 乌尔都语 | 阿里巴巴语音数据 (1000 小时) | 877 | 95M | 实时 | 流式离线一体化模型 |
| UniASR Turkish | 土耳其语 | 阿里巴巴语音数据 (1000 小时) | 1582 | 95M | 实时 | 流式离线一体化模型 |
| 模型名字 | 语言 | 训练数据 | Vocab Size | Parameter | 非实时/实时 | 备注 |
|---|---|---|---|---|---|---|
| Conformer | 中文 | AISHELL (178hours) | 4234 | 44M | 非实时 | 输入wav文件持续时间不超过20秒 |
| Conformer | 中文 | AISHELL-2 (1000hours) | 5212 | 44M | 非实时 | 输入wav文件持续时间不超过20秒 |
| Conformer | 英文 | 阿里巴巴语音数据 (10000hours) | 4199 | 220M | 非实时 | 输入wav文件持续时间不超过20秒 |
| 模型名字 | 语言 | 训练数据 | Vocab Size | Parameter | 非实时/实时 | 备注 |
|---|---|---|---|---|---|---|
| MFCCA | 中文 | AliMeeting、AISHELL-4、Simudata (917hours) | 4950 | 45M | 非实时 | 输入音频的持续时间不超过20秒,输入音频的通道数不超过8通道。 |
| 模型名字 | 训练数据 | 模型参数 | Sampling Rate | 备注 |
|---|---|---|---|---|
| FSMN-VAD | 阿里巴巴语音数据 (5000hours) | 0.4M | 16000 | |
| FSMN-VAD | 阿里巴巴语音数据 (5000hours) | 0.4M | 8000 |
| 模型名字 | 语言 | 训练数据 | 模型参数 | Vocab Size | 非实时/实时 | 备注 |
|---|---|---|---|---|---|---|
| CT-Transformer-Large | 中文和英文 | Alibaba Text Data(100M) | 1.1G | 471067 | 非实时 | 支持中英文标点大模型 |
| CT-Transformer | 中文和英文 | Alibaba Text Data(70M) | 291M | 272727 | 非实时 | 支持中英文标点 |
| CT-Transformer-Realtime | 中文和英文 | Alibaba Text Data(70M) | 288M | 272727 | 实时 | VAD点实时标点 |
| 模型名字 | 训练数据 | 模型参数 | 词典大小 | 备注 |
|---|---|---|---|---|
| Transformer | 阿里巴巴语音数据 | 57M | 8404 |
| 模型名字 | 训练数据 | 模型参数 | Number Speaker | 备注 |
|---|---|---|---|---|
| Xvector | CNCeleb (1,200 小时) | 17.5M | 3465 | Xvector, 中文 |
| Xvector | CallHome (60 小时) | 61M | 6135 | Xvector,英文 |
| 模型名字 | 训练数据 | 模型参数 | 备注 |
|---|---|---|---|
| SOND | AliMeeting (120 小时) | 40.5M | 中文 |
| SOND | CallHome (60 小时) | 12M | 英文 |
| 模型名字 | 语言 | 训练数据 | 模型参数 | 备注 |
|---|---|---|---|---|
| TP-Aligner | 中文 | 阿里巴巴语音数据 (50000hours) | 37.8M | 时间戳模型,中文 |
| 模型名字 | 语言 | 模型参数 | 备注 |
|---|---|---|---|
| English | EN | 1.54M | ITN,语音识别文本后处理 |
| Russian | RU | 17.79M | ITN,语音识别文本后处理 |
| Japanese | JA | 6.8M | ITN,语音识别文本后处理 |
| Korean | KO | 1.28M | ITN,语音识别文本后处理 |
| Indonesian | ID | 2.06M | ITN,语音识别文本后处理 |
| Vietnamese | VI | 0.92M | ITN,语音识别文本后处理 |
| Tagalog | TL | 0.65M | ITN,语音识别文本后处理 |
| Spanish | ES | 1.32M | ITN,语音识别文本后处理 |
| Portuguese | PT | 1.28M | ITN,语音识别文本后处理 |
| French | FR | 4.39M | ITN,语音识别文本后处理 |
| German | GE | 3.95M | ITN,语音识别文本后处理 |