2 лет назад · 8a08405b66
--- a/.gitignore
+++ b/.gitignore
@@ -16,4 +16,5 @@ MaaS-lib
 
				 .egg*
			
 
				 dist
			
 
				 build
			
 
				-funasr.egg-info
			
 
				+funasr.egg-info
			
 
				+docs/_build
			
--- a/README.md
+++ b/README.md
@@ -13,10 +13,10 @@
 
				 | [**Highlights**](#highlights)
			
 
				 | [**Installation**](#installation)
			
 
				 | [**Docs**](https://alibaba-damo-academy.github.io/FunASR/en/index.html)
			
 
				-| [**Tutorial**](https://github.com/alibaba-damo-academy/FunASR/wiki#funasr%E7%94%A8%E6%88%B7%E6%89%8B%E5%86%8C)
			
 
				+| [**Tutorial_CN**](https://github.com/alibaba-damo-academy/FunASR/wiki#funasr%E7%94%A8%E6%88%B7%E6%89%8B%E5%86%8C)
			
 
				 | [**Papers**](https://github.com/alibaba-damo-academy/FunASR#citations)
			
 
				 | [**Runtime**](https://github.com/alibaba-damo-academy/FunASR/tree/main/funasr/runtime)
			
 
				-| [**Model Zoo**](https://github.com/alibaba-damo-academy/FunASR/blob/main/docs/modelscope_models.md)
			
 
				+| [**Model Zoo**](https://github.com/alibaba-damo-academy/FunASR/blob/main/docs/model_zoo/modelscope_models.md)
			
 
				 | [**Contact**](#contact)
			
 
				 | [**M2MET2.0 Challenge**](https://github.com/alibaba-damo-academy/FunASR#multi-channel-multi-party-meeting-transcription-20-m2met20-challenge)
			
 
				 
			
@@ -28,7 +28,7 @@ For the release notes, please ref to [news](https://github.com/alibaba-damo-acad
 
				 
			
 
				 ## Highlights
			
 
				 - FunASR supports speech recognition(ASR), Multi-talker ASR, Voice Activity Detection(VAD), Punctuation Restoration, Language Models, Speaker Verification and Speaker diarization.   
			
 
				-- We have released large number of academic and industrial pretrained models on [ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)
			
 
				+- We have released large number of academic and industrial pretrained models on [ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition), ref to [Model Zoo](https://github.com/alibaba-damo-academy/FunASR/blob/main/docs/model_zoo/modelscope_models.md)
			
 
				 - The pretrained model [Paraformer-large](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary) obtains the best performance on many tasks in [SpeechIO leaderboard](https://github.com/SpeechColab/Leaderboard)
			
 
				 - FunASR supplies a easy-to-use pipeline to finetune pretrained models from [ModelScope](https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition)
			
 
				 - Compared to [Espnet](https://github.com/espnet/espnet) framework, the training speed of large-scale datasets in FunASR is much faster owning to the optimized dataloader.
			
@@ -60,12 +60,8 @@ pip install -U modelscope
 
				 # pip install -U modelscope -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html -i https://mirror.sjtu.edu.cn/pypi/web/simple
			
 
				 ```
			
 
				 
			
 
				-For more details, please ref to [installation](https://alibaba-damo-academy.github.io/FunASR/en/installation.html)
			
 
				+For more details, please ref to [installation](https://alibaba-damo-academy.github.io/FunASR/en/installation/installation.html)
			
 
				 
			
 
				-[//]: # ()
			
 
				-[//]: # (## Usage)
			
 
				-
			
 
				-[//]: # (For users who are new to FunASR and ModelScope, please refer to FunASR Docs&#40;[CN]&#40;https://alibaba-damo-academy.github.io/FunASR/cn/index.html&#41; / [EN]&#40;https://alibaba-damo-academy.github.io/FunASR/en/index.html&#41;&#41;)
			
 
				 
			
 
				 ## Contact
			
 
				 
			
--- a/docs/README.md
+++ b/docs/README.md
@@ -0,0 +1,19 @@
 
				+# FunASR document generation
			
 
				+
			
 
				+## Generate HTML
			
 
				+For convenience, we provide users with the ability to generate local HTML manually.
			
 
				+
			
 
				+First, you should install the following packages, which is required for building HTML:
			
 
				+```sh
			
 
				+conda activate funasr
			
 
				+pip install requests sphinx nbsphinx sphinx_markdown_tables sphinx_rtd_theme recommonmark
			
 
				+```
			
 
				+
			
 
				+Then you can generate HTML manually.
			
 
				+
			
 
				+```sh
			
 
				+cd docs
			
 
				+make html
			
 
				+```
			
 
				+
			
 
				+The generated files are all contained in the "FunASR/docs/_build" directory. You can access the FunASR documentation by simply opening the "html/index.html" file in your browser from this directory.
			
--- a/docs/index.rst
+++ b/docs/index.rst
@@ -17,8 +17,8 @@ Overview
 
				    :maxdepth: 1
			
 
				    :caption: Installation
			
 
				 
			
 
				-   ./installation.md
			
 
				-   ./docker.md
			
 
				+   ./installation/installation.md
			
 
				+   ./installation/docker.md
			
 
				 
			
 
				 .. toctree::
			
 
				    :maxdepth: 1
			
@@ -44,6 +44,7 @@ Overview
 
				    ./modelscope_pipeline/tp_pipeline.md
			
 
				    ./modelscope_pipeline/sv_pipeline.md
			
 
				    ./modelscope_pipeline/sd_pipeline.md
			
 
				+   ./modelscope_pipeline/itn_pipeline.md
			
 
				 
			
 
				 .. toctree::
			
 
				    :maxdepth: 1
			
@@ -56,8 +57,8 @@ Overview
 
				    :maxdepth: 1
			
 
				    :caption: Model Zoo
			
 
				 
			
 
				-   ./modelscope_models.md
			
 
				-   ./huggingface_models.md
			
 
				+   ./model_zoo/modelscope_models.md
			
 
				+   ./model_zoo/huggingface_models.md
			
 
				 
			
 
				 .. toctree::
			
 
				    :maxdepth: 1
			
@@ -70,6 +71,7 @@ Overview
 
				    ./runtime/grpc_python.md
			
 
				    ./runtime/grpc_cpp.md
			
 
				    ./runtime/websocket_python.md
			
 
				+   ./runtime/websocket_cpp.md
			
 
				 
			
 
				 .. toctree::
			
 
				    :maxdepth: 1
			
@@ -84,25 +86,25 @@ Overview
 
				    :maxdepth: 1
			
 
				    :caption: Funasr Library
			
 
				 
			
 
				-   ./build_task.md
			
 
				+   ./reference/build_task.md
			
 
				 
			
 
				 .. toctree::
			
 
				    :maxdepth: 1
			
 
				    :caption: Papers
			
 
				 
			
 
				-   ./papers.md
			
 
				+   ./reference/papers.md
			
 
				 
			
 
				 .. toctree::
			
 
				    :maxdepth: 1
			
 
				    :caption: Application
			
 
				 
			
 
				-   ./application.md
			
 
				+   ./reference/application.md
			
 
				 
			
 
				 .. toctree::
			
 
				    :maxdepth: 1
			
 
				    :caption: FQA
			
 
				 
			
 
				-   ./FQA.md
			
 
				+   ./reference/FQA.md
			
 
				 
			
 
				 
			
 
				 Indices and tables
			
--- a/docs/installation/docker.md
+++ b/docs/installation/docker.md
--- a/docs/installation/installation.md
+++ b/docs/installation/installation.md
--- a/docs/model_zoo/huggingface_models.md
+++ b/docs/model_zoo/huggingface_models.md
--- a/docs/model_zoo/modelscope_models.md
+++ b/docs/model_zoo/modelscope_models.md
@@ -15,7 +15,8 @@ Here we provided several pretrained models on different datasets. The details of
 
				 | [Paraformer-large-long](https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary) | CN & EN  | Alibaba Speech Data (60000hours) |    8404    |   220M    |    Offline     | Which ould deal with arbitrary length input wav                                                                                 |
			
 
				 | [Paraformer-large-contextual](https://www.modelscope.cn/models/damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/summary) | CN & EN  | Alibaba Speech Data (60000hours) |    8404    |   220M    |    Offline     | Which supports the hotword customization based on the incentive enhancement, and improves the recall and precision of hotwords. |
			
 
				 |              [Paraformer](https://modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8358-tensorflow1/summary)              | CN & EN  | Alibaba Speech Data (50000hours) |    8358    |    68M    |    Offline     | Duration of input wav <= 20s                                                                                                    |
			
 
				-|          [Paraformer-online](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/summary)           | CN & EN  | Alibaba Speech Data (50000hours) |    8404    |    68M    |     Online     | Which could deal with streaming input                                                                                           |
			
 
				+|           [Paraformer-online](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/summary)           | CN & EN  | Alibaba Speech Data (50000hours) |    8404    |    68M    |     Online     | Which could deal with streaming input                                                                                           |
			
 
				+|  [Paraformer-large-online](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online/summary)        | CN & EN  | Alibaba Speech Data (60000hours) |    8404    |   220M    |    Online     | Which could deal with streaming input                                                                                                    |
			
 
				 |       [Paraformer-tiny](https://www.modelscope.cn/models/damo/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch/summary)       |    CN    |  Alibaba Speech Data (200hours)  |    544     |   5.2M    |    Offline     | Lightweight Paraformer model which supports Mandarin command words recognition                                                  |
			
 
				 |                   [Paraformer-aishell](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-aishell1-pytorch/summary)                   |    CN    |        AISHELL (178hours)        |    4234    |    43M    |    Offline     |                                                                                                                                 |
			
 
				 |       [ParaformerBert-aishell](https://modelscope.cn/models/damo/speech_paraformerbert_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/summary)       |    CN    |        AISHELL (178hours)        |    4234    |    43M    |    Offline     |                                                                                                                                 |
			
@@ -25,13 +26,27 @@ Here we provided several pretrained models on different datasets. The details of
 
				 
			
 
				 #### UniASR Models
			
 
				 
			
 
				-|                                                               Model Name                                                               | Language |          Training Data           | Vocab Size | Parameter | Offline/Online | Notes                                                                                                                           |
			
 
				-|:--------------------------------------------------------------------------------------------------------------------------------------:|:--------:|:--------------------------------:|:----------:|:---------:|:--------------:|:--------------------------------------------------------------------------------------------------------------------------------|
			
 
				-|       [UniASR](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-online/summary)        | CN & EN  | Alibaba Speech Data (60000hours) |    8358    |   100M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				-| [UniASR-large](https://modelscope.cn/models/damo/speech_UniASR-large_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline/summary) | CN & EN  | Alibaba Speech Data (60000hours) |    8358    |   220M    |    Offline     | UniASR streaming offline unifying models                                                                                                    |
			
 
				-|           [UniASR Burmese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch/summary)           | Burmese  |  Alibaba Speech Data (? hours)   |    696     |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				-|           [UniASR Hebrew](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch/summary)           |  Hebrew  |  Alibaba Speech Data (? hours)   |    1085    |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				-|       [UniASR Urdu](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/summary)                  |   Urdu   |  Alibaba Speech Data (? hours)   |    877     |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|                                                                    Model Name                                                                     |    Language     |           Training Data           | Vocab Size | Parameter | Offline/Online | Notes                                                                                                                           |
			
 
				+|:-------------------------------------------------------------------------------------------------------------------------------------------------:|:---------------:|:---------------------------------:|:----------:|:---------:|:--------------:|:--------------------------------------------------------------------------------------------------------------------------------|
			
 
				+|             [UniASR](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-online/summary)             |     CN & EN     | Alibaba Speech Data (60000 hours) |    8358    |   100M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|      [UniASR-large](https://modelscope.cn/models/damo/speech_UniASR-large_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline/summary)       |     CN & EN     | Alibaba Speech Data (60000 hours) |    8358    |   220M    |    Offline     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|          [UniASR English](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-en-16k-common-vocab1080-tensorflow1-online/summary)           |       EN        | Alibaba Speech Data (10000 hours) |    1080     |    95M    |     Online     | UniASR streaming online unifying models                                                                                                    |
			
 
				+|          [UniASR Russian](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ru-16k-common-vocab1664-tensorflow1-online/summary)           |       RU        | Alibaba Speech Data (5000 hours)  |    1664     |    95M    |     Online     | UniASR streaming online unifying models                                                                                                    |
			
 
				+|           [UniASR Japanese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ja-16k-common-vocab93-tensorflow1-online/summary)           |       JA        | Alibaba Speech Data (5000 hours)  |    5977     |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|           [UniASR Korean](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ko-16k-common-vocab6400-tensorflow1-online/summary)           |       KO        | Alibaba Speech Data (2000 hours)  |    6400     |    95M    |     Online     | UniASR streaming online unifying models                                                                                                    |
			
 
				+| [UniASR Cantonese (CHS)](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-cantonese-CHS-16k-common-vocab1468-tensorflow1-online/summary) | Cantonese (CHS) | Alibaba Speech Data (5000 hours)  |    1468     |    95M    |     Online     | UniASR streaming online unifying models                                                                                                    |
			
 
				+|         [UniASR Indonesian](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-id-16k-common-vocab1067-tensorflow1-online/summary)         |       ID        | Alibaba Speech Data (1000 hours)  |    1067     |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|           [UniASR Vietnamese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-online/summary)           |       VI        | Alibaba Speech Data (1000 hours)  |    1001     |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|          [UniASR Spanish](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-es-16k-common-vocab3445-tensorflow1-online/summary)           |       ES        | Alibaba Speech Data (1000 hours)  |    3445     |    95M    |     Online     | UniASR streaming online unifying models                                                                                                    |
			
 
				+|         [UniASR Portuguese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-pt-16k-common-vocab1617-tensorflow1-online/summary)         |       PT        | Alibaba Speech Data (1000 hours)  |    1617     |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|           [UniASR French](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/summary)           |       FR        | Alibaba Speech Data (1000 hours)  |    3472     |    95M    |     Online     | UniASR streaming online unifying models                                                                                                    |
			
 
				+|           [UniASR German](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/summary)           |       GE        | Alibaba Speech Data (1000 hours)  |    3690     |    95M    |     Online     | UniASR streaming online unifying models                                                                                                    |
			
 
				+|            [UniASR Persian](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-online/summary)             |       FA        | Alibaba Speech Data (1000 hours)  |    1257     |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|                [UniASR Burmese](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch/summary)                 |       MY        | Alibaba Speech Data (1000 hours)  |    696     |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|                [UniASR Hebrew](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch/summary)                 |       HE        | Alibaba Speech Data (1000 hours)  |    1085    |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+|              [UniASR Urdu](https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/summary)                      |       UR        | Alibaba Speech Data (1000 hours)  |    877     |    95M    |     Online     | UniASR streaming offline unifying models                                                                                                    |
			
 
				+
			
 
				+
			
 
				 
			
 
				 #### Conformer Models
			
 
				 
			
@@ -39,6 +54,7 @@ Here we provided several pretrained models on different datasets. The details of
 
				 |:----------------------------------------------------------------------------------------------------------------------:|:--------:|:---------------------:|:----------:|:---------:|:--------------:|:--------------------------------------------------------------------------------------------------------------------------------|
			
 
				 | [Conformer](https://modelscope.cn/models/damo/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/summary)   |   CN     |  AISHELL (178hours)   |    4234    |    44M    |    Offline     | Duration of input wav <= 20s                                                                                                    |
			
 
				 | [Conformer](https://www.modelscope.cn/models/damo/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/summary)   |   CN     | AISHELL-2 (1000hours) |    5212    |    44M    |    Offline     | Duration of input wav <= 20s                                                                                                    |
			
 
				+| [Conformer](https://modelscope.cn/models/damo/speech_conformer_asr-en-16k-vocab4199-pytorch/summary)   |   EN     | Alibaba Speech Data (10000hours) |    4199    |    220M    |    Offline     | Duration of input wav <= 20s                                                                                                    |
			
 
				 
			
 
				 
			
 
				 #### RNN-T Models
			
@@ -92,3 +108,19 @@ Here we provided several pretrained models on different datasets. The details of
 
				 |                                                    Model Name                                     |  Language  |    Training Data    | Parameters | Notes |
			
 
				 |:--------------------------------------------------------------------------------------------------:|:--------------:|:-------------------:|:----------:|:------|
			
 
				 | [TP-Aligner](https://modelscope.cn/models/damo/speech_timestamp_prediction-v1-16k-offline/summary) | CN | Alibaba Speech Data (50000hours) |   37.8M    |    Timestamp prediction, Mandarin, middle size |
			
 
				+
			
 
				+### Inverse Text Normalization (ITN) Models
			
 
				+
			
 
				+|                                                    Model Name                                                    | Language | Parameters | Notes                    |
			
 
				+|:----------------------------------------------------------------------------------------------------------------:|:--------:|:----------:|:-------------------------|
			
 
				+| [English](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-en/summary) |    EN    |   1.54M    | ITN, ASR post-processing |
			
 
				+| [Russian](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-ru/summary) |    RU    |   17.79M   | ITN, ASR post-processing |
			
 
				+| [Japanese](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-ja/summary) |    JA    |    6.8M    | ITN, ASR post-processing |
			
 
				+| [Korean](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-ko/summary) |    KO    |   1.28M    | ITN, ASR post-processing |
			
 
				+| [Indonesian](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-id/summary) |    ID    |   2.06M    | ITN, ASR post-processing |
			
 
				+| [Vietnamese](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-vi/summary) |    VI    |   0.92M    | ITN, ASR post-processing |
			
 
				+| [Tagalog](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-tl/summary) |    TL    |    0.65M     | ITN, ASR post-processing |
			
 
				+| [Spanish](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-es/summary) |    ES    |   1.32M    | ITN, ASR post-processing |
			
 
				+| [Portuguese](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-pt/summary) |    PT    |   1.28M    | ITN, ASR post-processing |
			
 
				+| [French](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-fr/summary) |    FR    |   4.39M    | ITN, ASR post-processing |
			
 
				+| [German](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-de/summary)|    GE    |   3.95M    | ITN, ASR post-processing |
			
--- a/docs/modelscope_pipeline/itn_pipeline.md
+++ b/docs/modelscope_pipeline/itn_pipeline.md
@@ -0,0 +1,63 @@
 
				+# Inverse Text Normalization (ITN)
			
 
				+
			
 
				+> **Note**: 
			
 
				+> The modelscope pipeline supports all the models in [model zoo](https://modelscope.cn/models?page=1&tasks=inverse-text-processing&type=audio) to inference. Here we take the model of the Japanese ITN model as example to demonstrate the usage.
			
 
				+
			
 
				+## Inference
			
 
				+
			
 
				+### Quick start
			
 
				+#### [Japanese ITN model](https://modelscope.cn/models/damo/speech_inverse_text_processing_fun-text-processing-itn-ja/summary)
			
 
				+```python
			
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				+
			
 
				+itn_inference_pipline = pipeline(
			
 
				+    task=Tasks.inverse_text_processing,
			
 
				+    model='damo/speech_inverse_text_processing_fun-text-processing-itn-ja',
			
 
				+    model_revision=None)
			
 
				+
			
 
				+itn_result = itn_inference_pipline(text_in='百二十三')
			
 
				+print(itn_result)
			
 
				+# 123
			
 
				+```
			
 
				+- read text data directly.
			
 
				+```python
			
 
				+rec_result = inference_pipeline(text_in='一九九九年に誕生した同商品にちなみ、約三十年前、二十四歳の頃の幸四郎の写真を公開。')
			
 
				+# 1999年に誕生した同商品にちなみ、約30年前、24歳の頃の幸四郎の写真を公開。
			
 
				+```
			
 
				+- text stored via url，example：https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_text/ja_itn_example.txt
			
 
				+```python
			
 
				+rec_result = inference_pipeline(text_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_text/ja_itn_example.txt')
			
 
				+```
			
 
				+
			
 
				+Full code of demo, please ref to [demo](https://github.com/alibaba-damo-academy/FunASR/tree/main/fun_text_processing/inverse_text_normalization)
			
 
				+
			
 
				+### API-reference
			
 
				+#### Define pipeline
			
 
				+- `task`: `Tasks.inverse_text_processing`
			
 
				+- `model`: model name in [model zoo](https://modelscope.cn/models?page=1&tasks=inverse-text-processing&type=audio), or model path in local disk
			
 
				+- `output_dir`: `None` (Default), the output path of results if set
			
 
				+- `model_revision`: `None` (Default), setting the model version
			
 
				+
			
 
				+#### Infer pipeline
			
 
				+- `text_in`: the input to decode, which could be:
			
 
				+  - text bytes, `e.g.`: "一九九九年に誕生した同商品にちなみ、約三十年前、二十四歳の頃の幸四郎の写真を公開。"
			
 
				+  - text file, `e.g.`: https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_text/ja_itn_example.txt
			
 
				+  In this case of `text file` input, `output_dir` must be set to save the output results
			
 
				+
			
 
				+## Modify Your Own ITN Model
			
 
				+The rule-based ITN code is open-sourced in [FunTextProcessing](https://github.com/alibaba-damo-academy/FunASR/tree/main/fun_text_processing), users can modify by their own grammar rules for different languages. Let's take Japanese as an example, users can add their own whitelist in ```FunASR/fun_text_processing/inverse_text_normalization/ja/data/whitelist.tsv```. After modified the grammar rules, the users can export and evaluate their own ITN models in local directory.
			
 
				+
			
 
				+### Export ITN Model
			
 
				+Export ITN model via ```FunASR/fun_text_processing/inverse_text_normalization/export_models.py```. An example to export ITN model to local folder is shown as below.
			
 
				+```shell
			
 
				+cd FunASR/fun_text_processing/inverse_text_normalization/
			
 
				+python export_models.py --language ja --export_dir ./itn_models/
			
 
				+```
			
 
				+
			
 
				+### Evaluate ITN Model
			
 
				+Users can evaluate their own ITN model in local directory via ```FunASR/fun_text_processing/inverse_text_normalization/inverse_normalize.py```. Here is an example:
			
 
				+```shell
			
 
				+cd FunASR/fun_text_processing/inverse_text_normalization/
			
 
				+python inverse_normalize.py --input_file ja_itn_example.txt --cache_dir ./itn_models/ --output_file output.txt --language=ja
			
 
				+```
			
--- a/docs/modelscope_pipeline/punc_pipeline.md
+++ b/docs/modelscope_pipeline/punc_pipeline.md
@@ -1,20 +0,0 @@
 
				-# Punctuation Restoration
			
 
				-
			
 
				-## Inference with pipeline
			
 
				-
			
 
				-### Quick start
			
 
				-
			
 
				-### Inference with you data
			
 
				-
			
 
				-### Inference with multi-threads on CPU
			
 
				-
			
 
				-### Inference with multi GPU
			
 
				-
			
 
				-## Finetune with pipeline
			
 
				-
			
 
				-### Quick start
			
 
				-
			
 
				-### Finetune with your data
			
 
				-
			
 
				-## Inference with your finetuned model
			
 
				-
			
--- a/docs/modelscope_pipeline/punc_pipeline.md
+++ b/docs/modelscope_pipeline/punc_pipeline.md
@@ -0,0 +1 @@
 
				+../../egs_modelscope/punctuation/TEMPLATE/README.md
			
--- a/docs/modelscope_pipeline/quick_start.md
+++ b/docs/modelscope_pipeline/quick_start.md
@@ -1,7 +1,7 @@
 
				 # Quick Start
			
 
				 
			
 
				 > **Note**: 
			
 
				-> The modelscope pipeline supports all the models in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/modelscope_models.html#pretrained-models-on-modelscope) to inference and finetine. Here we take typic model as example to demonstrate the usage.
			
 
				+> The modelscope pipeline supports all the models in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/model_zoo/modelscope_models.html#pretrained-models-on-modelscope) to inference and finetine. Here we take typic model as example to demonstrate the usage.
			
 
				 
			
 
				 
			
 
				 ## Inference with pipeline
			
--- a/docs/modelscope_pipeline/sd_pipeline.md
+++ b/docs/modelscope_pipeline/sd_pipeline.md
@@ -1,20 +0,0 @@
 
				-# Speaker Diarization
			
 
				-
			
 
				-## Inference with pipeline
			
 
				-
			
 
				-### Quick start
			
 
				-
			
 
				-### Inference with you data
			
 
				-
			
 
				-### Inference with multi-threads on CPU
			
 
				-
			
 
				-### Inference with multi GPU
			
 
				-
			
 
				-## Finetune with pipeline
			
 
				-
			
 
				-### Quick start
			
 
				-
			
 
				-### Finetune with your data
			
 
				-
			
 
				-## Inference with your finetuned model
			
 
				-
			
--- a/docs/modelscope_pipeline/sd_pipeline.md
+++ b/docs/modelscope_pipeline/sd_pipeline.md
@@ -0,0 +1 @@
 
				+../../egs_modelscope/speaker_diarization/TEMPLATE/README.md
			
--- a/docs/modelscope_pipeline/sv_pipeline.md
+++ b/docs/modelscope_pipeline/sv_pipeline.md
@@ -1,20 +0,0 @@
 
				-# Speaker Verification
			
 
				-
			
 
				-## Inference with pipeline
			
 
				-
			
 
				-### Quick start
			
 
				-
			
 
				-### Inference with you data
			
 
				-
			
 
				-### Inference with multi-threads on CPU
			
 
				-
			
 
				-### Inference with multi GPU
			
 
				-
			
 
				-## Finetune with pipeline
			
 
				-
			
 
				-### Quick start
			
 
				-
			
 
				-### Finetune with your data
			
 
				-
			
 
				-## Inference with your finetuned model
			
 
				-
			
--- a/docs/modelscope_pipeline/sv_pipeline.md
+++ b/docs/modelscope_pipeline/sv_pipeline.md
@@ -0,0 +1 @@
 
				+../../egs_modelscope/speaker_verification/TEMPLATE/README.md
			
--- a/docs/reference/FQA.md
+++ b/docs/reference/FQA.md
--- a/docs/reference/application.md
+++ b/docs/reference/application.md
--- a/docs/reference/build_task.md
+++ b/docs/reference/build_task.md
--- a/docs/reference/papers.md
+++ b/docs/reference/papers.md
--- a/docs/runtime/websocket_cpp.md
+++ b/docs/runtime/websocket_cpp.md
@@ -0,0 +1 @@
 
				+../../funasr/runtime/websocket/readme.md
			
--- a/egs_modelscope/asr/TEMPLATE/README.md
+++ b/egs_modelscope/asr/TEMPLATE/README.md
@@ -1,7 +1,7 @@
 
				 # Speech Recognition
			
 
				 
			
 
				 > **Note**: 
			
 
				-> The modelscope pipeline supports all the models in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/modelscope_models.html#pretrained-models-on-modelscope) to inference and finetine. Here we take the typic models as examples to demonstrate the usage.
			
 
				+> The modelscope pipeline supports all the models in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/model_zoo/modelscope_models.html#pretrained-models-on-modelscope) to inference and finetine. Here we take the typic models as examples to demonstrate the usage.
			
 
				 
			
 
				 ## Inference
			
 
				 
			
@@ -19,22 +19,24 @@ inference_pipeline = pipeline(
 
				 rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav')
			
 
				 print(rec_result)
			
 
				 ```
			
 
				-#### [Paraformer-online Model](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/summary)
			
 
				+#### [Paraformer-online Model](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online/summary)
			
 
				 ```python
			
 
				 inference_pipeline = pipeline(
			
 
				     task=Tasks.auto_speech_recognition,
			
 
				-    model='damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online',
			
 
				+    model='damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online',
			
 
				+    model_revision='v1.0.4'
			
 
				     )
			
 
				 import soundfile
			
 
				 speech, sample_rate = soundfile.read("example/asr_example.wav")
			
 
				 
			
 
				-param_dict = {"cache": dict(), "is_final": False}
			
 
				-chunk_stride = 7680# 480ms
			
 
				-# first chunk, 480ms
			
 
				+chunk_size = [5, 10, 5] #[5, 10, 5] 600ms, [8, 8, 4] 480ms
			
 
				+param_dict = {"cache": dict(), "is_final": False, "chunk_size": chunk_size}
			
 
				+chunk_stride = chunk_size[1] * 960 # 600ms、480ms
			
 
				+# first chunk, 600ms
			
 
				 speech_chunk = speech[0:chunk_stride] 
			
 
				 rec_result = inference_pipeline(audio_in=speech_chunk, param_dict=param_dict)
			
 
				 print(rec_result)
			
 
				-# next chunk, 480ms
			
 
				+# next chunk, 600ms
			
 
				 speech_chunk = speech[chunk_stride:chunk_stride+chunk_stride]
			
 
				 rec_result = inference_pipeline(audio_in=speech_chunk, param_dict=param_dict)
			
 
				 print(rec_result)
			
@@ -42,7 +44,7 @@ print(rec_result)
 
				 Full code of demo, please ref to [demo](https://github.com/alibaba-damo-academy/FunASR/discussions/241)
			
 
				 
			
 
				 #### [UniASR Model](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-online/summary)
			
 
				-There are three decoding mode for UniASR model(`fast`、`normal`、`offline`), for more model detailes, please refer to [docs](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-online/summary)
			
 
				+There are three decoding mode for UniASR model(`fast`、`normal`、`offline`), for more model details, please refer to [docs](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-online/summary)
			
 
				 ```python
			
 
				 decoding_model = "fast" # "fast"、"normal"、"offline"
			
 
				 inference_pipeline = pipeline(
			
@@ -59,7 +61,7 @@ Full code of demo, please ref to [demo](https://github.com/alibaba-damo-academy/
 
				 Undo
			
 
				 
			
 
				 #### [MFCCA Model](https://www.modelscope.cn/models/NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/summary)
			
 
				-For more model detailes, please refer to [docs](https://www.modelscope.cn/models/NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/summary)
			
 
				+For more model details, please refer to [docs](https://www.modelscope.cn/models/NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/summary)
			
 
				 ```python
			
 
				 from modelscope.pipelines import pipeline
			
 
				 from modelscope.utils.constant import Tasks
			
@@ -74,15 +76,15 @@ rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyu
 
				 print(rec_result)
			
 
				 ```
			
 
				 
			
 
				-#### API-reference
			
 
				-##### Define pipeline
			
 
				+### API-reference
			
 
				+#### Define pipeline
			
 
				 - `task`: `Tasks.auto_speech_recognition`
			
 
				-- `model`: model name in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/modelscope_models.html#pretrained-models-on-modelscope), or model path in local disk
			
 
				+- `model`: model name in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/model_zoo/modelscope_models.html#pretrained-models-on-modelscope), or model path in local disk
			
 
				 - `ngpu`: `1` (Default), decoding on GPU. If ngpu=0, decoding on CPU
			
 
				 - `ncpu`: `1` (Default), sets the number of threads used for intraop parallelism on CPU 
			
 
				 - `output_dir`: `None` (Default), the output path of results if set
			
 
				 - `batch_size`: `1` (Default), batch size when decoding
			
 
				-##### Infer pipeline
			
 
				+#### Infer pipeline
			
 
				 - `audio_in`: the input to decode, which could be: 
			
 
				   - wav_path, `e.g.`: asr_example.wav,
			
 
				   - pcm_path, `e.g.`: asr_example.pcm, 
			
@@ -100,20 +102,20 @@ print(rec_result)
 
				 ### Inference with multi-thread CPUs or multi GPUs
			
 
				 FunASR also offer recipes [egs_modelscope/asr/TEMPLATE/infer.sh](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs_modelscope/asr/TEMPLATE/infer.sh) to decode with multi-thread CPUs, or multi GPUs.
			
 
				 
			
 
				-- Setting parameters in `infer.sh`
			
 
				-    - `model`: model name in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/modelscope_models.html#pretrained-models-on-modelscope), or model path in local disk
			
 
				-    - `data_dir`: the dataset dir needs to include `wav.scp`. If `${data_dir}/text` is also exists, CER will be computed
			
 
				-    - `output_dir`: output dir of the recognition results
			
 
				-    - `batch_size`: `64` (Default), batch size of inference on gpu
			
 
				-    - `gpu_inference`: `true` (Default), whether to perform gpu decoding, set false for CPU inference
			
 
				-    - `gpuid_list`: `0,1` (Default), which gpu_ids are used to infer
			
 
				-    - `njob`: only used for CPU inference (`gpu_inference`=`false`), `64` (Default), the number of jobs for CPU decoding
			
 
				-    - `checkpoint_dir`: only used for infer finetuned models, the path dir of finetuned models
			
 
				-    - `checkpoint_name`: only used for infer finetuned models, `valid.cer_ctc.ave.pb` (Default), which checkpoint is used to infer
			
 
				-    - `decoding_mode`: `normal` (Default), decoding mode for UniASR model(fast、normal、offline)
			
 
				-    - `hotword_txt`: `None` (Default), hotword file for contextual paraformer model(the hotword file name ends with .txt")
			
 
				-
			
 
				-- Decode with multi GPUs:
			
 
				+#### Settings of `infer.sh`
			
 
				+- `model`: model name in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/model_zoo/modelscope_models.html#pretrained-models-on-modelscope), or model path in local disk
			
 
				+- `data_dir`: the dataset dir needs to include `wav.scp`. If `${data_dir}/text` is also exists, CER will be computed
			
 
				+- `output_dir`: output dir of the recognition results
			
 
				+- `batch_size`: `64` (Default), batch size of inference on gpu
			
 
				+- `gpu_inference`: `true` (Default), whether to perform gpu decoding, set false for CPU inference
			
 
				+- `gpuid_list`: `0,1` (Default), which gpu_ids are used to infer
			
 
				+- `njob`: only used for CPU inference (`gpu_inference`=`false`), `64` (Default), the number of jobs for CPU decoding
			
 
				+- `checkpoint_dir`: only used for infer finetuned models, the path dir of finetuned models
			
 
				+- `checkpoint_name`: only used for infer finetuned models, `valid.cer_ctc.ave.pb` (Default), which checkpoint is used to infer
			
 
				+- `decoding_mode`: `normal` (Default), decoding mode for UniASR model(fast、normal、offline)
			
 
				+- `hotword_txt`: `None` (Default), hotword file for contextual paraformer model(the hotword file name ends with .txt")
			
 
				+
			
 
				+#### Decode with multi GPUs:
			
 
				 ```shell
			
 
				     bash infer.sh \
			
 
				     --model "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch" \
			
@@ -123,7 +125,7 @@ FunASR also offer recipes [egs_modelscope/asr/TEMPLATE/infer.sh](https://github.
 
				     --gpu_inference true \
			
 
				     --gpuid_list "0,1"
			
 
				 ```
			
 
				-- Decode with multi-thread CPUs:
			
 
				+#### Decode with multi-thread CPUs:
			
 
				 ```shell
			
 
				     bash infer.sh \
			
 
				     --model "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch" \
			
@@ -133,7 +135,7 @@ FunASR also offer recipes [egs_modelscope/asr/TEMPLATE/infer.sh](https://github.
 
				     --njob 64
			
 
				 ```
			
 
				 
			
 
				-- Results
			
 
				+#### Results
			
 
				 
			
 
				 The decoding results can be found in `$output_dir/1best_recog/text.cer`, which includes recognition results of each sample and the CER metric of the whole test set.
			
 
				 
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/README.md
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/README.md
@@ -1,30 +0,0 @@
 
				-# ModelScope Model
			
 
				-
			
 
				-## How to finetune and infer using a pretrained Paraformer-large Model
			
 
				-
			
 
				-### Finetune
			
 
				-
			
 
				-- Modify finetune training related parameters in `finetune.py`
			
 
				-    - <strong>output_dir:</strong> # result dir
			
 
				-    - <strong>data_dir:</strong> # the dataset dir needs to include files: train/wav.scp, train/text; validation/wav.scp, validation/text.
			
 
				-    - <strong>batch_bins:</strong> # batch size
			
 
				-    - <strong>max_epoch:</strong> # number of training epoch
			
 
				-    - <strong>lr:</strong> # learning rate
			
 
				-
			
 
				-- Then you can run the pipeline to finetune with:
			
 
				-```python
			
 
				-    python finetune.py
			
 
				-```
			
 
				-
			
 
				-### Inference
			
 
				-
			
 
				-Or you can use the finetuned model for inference directly.
			
 
				-
			
 
				-- Setting parameters in `infer.py`
			
 
				-    - <strong>audio_in:</strong> # support wav, url, bytes, and parsed audio format.
			
 
				-    - <strong>output_dir:</strong> # If the input format is wav.scp, it needs to be set.
			
 
				-
			
 
				-- Then you can run the pipeline to infer with:
			
 
				-```python
			
 
				-    python infer.py
			
 
				-```
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/README.md
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/README.md
@@ -0,0 +1 @@
 
				+../../TEMPLATE/README.md
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/demo.py
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/demo.py
@@ -0,0 +1,14 @@
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				+    output_dir = None
			
 
				+    inference_pipeline = pipeline(
			
 
				+        task=Tasks.auto_speech_recognition,
			
 
				+        model="damo/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch",
			
 
				+        output_dir=output_dir,
			
 
				+    )
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				+    print(rec_result)
			
 
				+
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
@@ -1,14 +0,0 @@
 
				-from modelscope.pipelines import pipeline
			
 
				-from modelscope.utils.constant import Tasks
			
 
				-
			
 
				-if __name__ == '__main__':
			
 
				-    audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				-    output_dir = None
			
 
				-    inference_pipline = pipeline(
			
 
				-        task=Tasks.auto_speech_recognition,
			
 
				-        model="damo/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch",
			
 
				-        output_dir=output_dir,
			
 
				-    )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				-    print(rec_result)
			
 
				-
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
@@ -0,0 +1 @@
 
				+../../TEMPLATE/infer.py
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.sh
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.sh
@@ -0,0 +1 @@
 
				+../../TEMPLATE/infer.sh
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/README.md
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/README.md
@@ -0,0 +1 @@
 
				+../../TEMPLATE/README.md
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/demo.py
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/demo.py
@@ -0,0 +1,13 @@
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    audio_in = "https://modelscope.oss-cn-beijing.aliyuncs.com/test/audios/asr_example.wav"
			
 
				+    output_dir = "./results"
			
 
				+    inference_pipeline = pipeline(
			
 
				+        task=Tasks.auto_speech_recognition,
			
 
				+        model="damo/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch",
			
 
				+        output_dir=output_dir,
			
 
				+    )
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				+    print(rec_result)
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
@@ -1,13 +0,0 @@
 
				-from modelscope.pipelines import pipeline
			
 
				-from modelscope.utils.constant import Tasks
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    audio_in = "https://modelscope.oss-cn-beijing.aliyuncs.com/test/audios/asr_example.wav"
			
 
				-    output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				-        task=Tasks.auto_speech_recognition,
			
 
				-        model="damo/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch",
			
 
				-        output_dir=output_dir,
			
 
				-    )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				-    print(rec_result)
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
@@ -0,0 +1 @@
 
				+../../TEMPLATE/infer.py
			
--- a/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.sh
+++ b/egs_modelscope/asr/conformer/speech_conformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.sh
@@ -0,0 +1 @@
 
				+../../TEMPLATE/infer.sh
			
--- a/egs_modelscope/asr/data2vec/speech_data2vec_pretrain-paraformer-zh-cn-aishell2-16k/infer.py
+++ b/egs_modelscope/asr/data2vec/speech_data2vec_pretrain-paraformer-zh-cn-aishell2-16k/infer.py
@@ -16,13 +16,13 @@ def modelscope_infer_core(output_dir, split_dir, njob, idx):
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_list[gpu_id])
			
 
				     else:
			
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_id)
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_data2vec_pretrain-paraformer-zh-cn-aishell2-16k",
			
 
				         output_dir=output_dir_job,
			
 
				     )
			
 
				     audio_in = os.path.join(split_dir, "wav.{}.scp".format(idx))
			
 
				-    inference_pipline(audio_in=audio_in)
			
 
				+    inference_pipeline(audio_in=audio_in)
			
 
				 
			
 
				 
			
 
				 def modelscope_infer(params):
			
--- a/egs_modelscope/asr/data2vec/speech_data2vec_pretrain-zh-cn-aishell2-16k-pytorch/infer.py
+++ b/egs_modelscope/asr/data2vec/speech_data2vec_pretrain-zh-cn-aishell2-16k-pytorch/infer.py
@@ -16,13 +16,13 @@ def modelscope_infer_core(output_dir, split_dir, njob, idx):
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_list[gpu_id])
			
 
				     else:
			
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_id)
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_data2vec_pretrain-zh-cn-aishell2-16k-pytorch",
			
 
				         output_dir=output_dir_job,
			
 
				     )
			
 
				     audio_in = os.path.join(split_dir, "wav.{}.scp".format(idx))
			
 
				-    inference_pipline(audio_in=audio_in)
			
 
				+    inference_pipeline(audio_in=audio_in)
			
 
				 
			
 
				 
			
 
				 def modelscope_infer(params):
			
--- a/egs_modelscope/asr/mfcca/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/demo.py
+++ b/egs_modelscope/asr/mfcca/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/demo.py
@@ -0,0 +1,11 @@
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				+
			
 
				+inference_pipeline = pipeline(
			
 
				+    task=Tasks.auto_speech_recognition,
			
 
				+    model='NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950',
			
 
				+    model_revision='v3.0.0'
			
 
				+)
			
 
				+
			
 
				+rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav')
			
 
				+print(rec_result)
			
--- a/egs_modelscope/asr/mfcca/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/infer_after_finetune.py
+++ b/egs_modelscope/asr/mfcca/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/infer_after_finetune.py
@@ -1,67 +0,0 @@
 
				-import json
			
 
				-import os
			
 
				-import shutil
			
 
				-
			
 
				-from modelscope.pipelines import pipeline
			
 
				-from modelscope.utils.constant import Tasks
			
 
				-
			
 
				-from funasr.utils.compute_wer import compute_wer
			
 
				-
			
 
				-
			
 
				-def modelscope_infer_after_finetune(params):
			
 
				-    # prepare for decoding
			
 
				-    pretrained_model_path = os.path.join(os.environ["HOME"], ".cache/modelscope/hub", params["modelscope_model_name"])
			
 
				-    for file_name in params["required_files"]:
			
 
				-        if file_name == "configuration.json":
			
 
				-            with open(os.path.join(pretrained_model_path, file_name)) as f:
			
 
				-                config_dict = json.load(f)
			
 
				-                config_dict["model"]["am_model_name"] = params["decoding_model_name"]
			
 
				-            with open(os.path.join(params["output_dir"], "configuration.json"), "w") as f:
			
 
				-                json.dump(config_dict, f, indent=4, separators=(',', ': '))
			
 
				-        else:
			
 
				-            shutil.copy(os.path.join(pretrained_model_path, file_name),
			
 
				-                        os.path.join(params["output_dir"], file_name))
			
 
				-    decoding_path = os.path.join(params["output_dir"], "decode_results")
			
 
				-    if os.path.exists(decoding_path):
			
 
				-        shutil.rmtree(decoding_path)
			
 
				-    os.mkdir(decoding_path)
			
 
				-
			
 
				-    # decoding
			
 
				-    inference_pipeline = pipeline(
			
 
				-        task=Tasks.auto_speech_recognition,
			
 
				-        model=params["output_dir"],
			
 
				-        output_dir=decoding_path,
			
 
				-        batch_size=1
			
 
				-    )
			
 
				-    audio_in = os.path.join(params["data_dir"], "wav.scp")
			
 
				-    inference_pipeline(audio_in=audio_in)
			
 
				-
			
 
				-    # computer CER if GT text is set
			
 
				-    text_in = os.path.join(params["data_dir"], "text")
			
 
				-    if text_in is not None:
			
 
				-        text_proc_file = os.path.join(decoding_path, "1best_recog/token")
			
 
				-        text_proc_file2 = os.path.join(decoding_path, "1best_recog/token_nosep")
			
 
				-        with open(text_proc_file, 'r') as hyp_reader:
			
 
				-                with open(text_proc_file2, 'w') as hyp_writer:
			
 
				-                    for line in hyp_reader:
			
 
				-                        new_context = line.strip().replace("src","").replace("  "," ").replace("  "," ").strip()
			
 
				-                        hyp_writer.write(new_context+'\n')
			
 
				-        text_in2 = os.path.join(decoding_path, "1best_recog/ref_text_nosep")
			
 
				-        with open(text_in, 'r') as ref_reader:
			
 
				-            with open(text_in2, 'w') as ref_writer:
			
 
				-                for line in ref_reader:
			
 
				-                    new_context = line.strip().replace("src","").replace("  "," ").replace("  "," ").strip()
			
 
				-                    ref_writer.write(new_context+'\n')
			
 
				-
			
 
				-
			
 
				-        compute_wer(text_in, text_proc_file, os.path.join(decoding_path, "text.sp.cer"))
			
 
				-        compute_wer(text_in2, text_proc_file2, os.path.join(decoding_path, "text.nosp.cer"))
			
 
				-
			
 
				-if __name__ == '__main__':
			
 
				-    params = {}
			
 
				-    params["modelscope_model_name"] = "NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950"
			
 
				-    params["required_files"] = ["feats_stats.npz", "decoding.yaml", "configuration.json"]
			
 
				-    params["output_dir"] = "./checkpoint"
			
 
				-    params["data_dir"] = "./example_data/validation"
			
 
				-    params["decoding_model_name"] = "valid.acc.ave.pb"
			
 
				-    modelscope_infer_after_finetune(params)
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/README.md
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/README.md
@@ -1,19 +0,0 @@
 
				-# ModelScope Model
			
 
				-
			
 
				-## How to infer using a pretrained Paraformer-large Model
			
 
				-
			
 
				-### Inference
			
 
				-
			
 
				-You can use the pretrain model for inference directly.
			
 
				-
			
 
				-- Setting parameters in `infer.py`
			
 
				-    - <strong>audio_in:</strong> # Support wav, url, bytes, and parsed audio format.
			
 
				-    - <strong>output_dir:</strong> # If the input format is wav.scp, it needs to be set.
			
 
				-    - <strong>batch_size:</strong> # Set batch size in inference.
			
 
				-    - <strong>param_dict:</strong> # Set the hotword list in inference.
			
 
				-
			
 
				-- Then you can run the pipeline to infer with:
			
 
				-```python
			
 
				-    python infer.py
			
 
				-```
			
 
				-
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/README.md
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/README.md
@@ -0,0 +1 @@
 
				+../../TEMPLATE/README.md
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/finetune.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/finetune.py
@@ -0,0 +1,37 @@
 
				+import os
			
 
				+
			
 
				+from modelscope.metainfo import Trainers
			
 
				+from modelscope.trainers import build_trainer
			
 
				+
			
 
				+from funasr.datasets.ms_dataset import MsDataset
			
 
				+from funasr.utils.modelscope_param import modelscope_args
			
 
				+
			
 
				+
			
 
				+def modelscope_finetune(params):
			
 
				+    if not os.path.exists(params.output_dir):
			
 
				+        os.makedirs(params.output_dir, exist_ok=True)
			
 
				+    # dataset split ["train", "validation"]
			
 
				+    ds_dict = MsDataset.load(params.data_path)
			
 
				+    kwargs = dict(
			
 
				+        model=params.model,
			
 
				+        model_revision="v1.0.2",
			
 
				+        data_dir=ds_dict,
			
 
				+        dataset_type=params.dataset_type,
			
 
				+        work_dir=params.output_dir,
			
 
				+        batch_bins=params.batch_bins,
			
 
				+        max_epoch=params.max_epoch,
			
 
				+        lr=params.lr)
			
 
				+    trainer = build_trainer(Trainers.speech_asr_trainer, default_args=kwargs)
			
 
				+    trainer.train()
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    params = modelscope_args(model="damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404", data_path="./data")
			
 
				+    params.output_dir = "./checkpoint"              # 模型保存路径
			
 
				+    params.data_path = "./example_data/"            # 数据路径
			
 
				+    params.dataset_type = "large"                   # finetune contextual paraformer模型只能使用large dataset
			
 
				+    params.batch_bins = 200000                      # batch size，如果dataset_type="small"，batch_bins单位为fbank特征帧数，如果dataset_type="large"，batch_bins单位为毫秒，
			
 
				+    params.max_epoch = 20                           # 最大训练轮数
			
 
				+    params.lr = 0.0002                              # 设置学习率
			
 
				+
			
 
				+    modelscope_finetune(params)
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/infer.sh
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/infer.sh
@@ -12,7 +12,7 @@ output_dir="./results"
 
				 batch_size=64
			
 
				 gpu_inference=true    # whether to perform gpu decoding
			
 
				 gpuid_list="0,1"    # set gpus, e.g., gpuid_list="0,1"
			
 
				-njob=64    # the number of jobs for CPU decoding, if gpu_inference=false, use CPU decoding, please set njob
			
 
				+njob=10    # the number of jobs for CPU decoding, if gpu_inference=false, use CPU decoding, please set njob
			
 
				 checkpoint_dir=
			
 
				 checkpoint_name="valid.cer_ctc.ave.pb"
			
 
				 hotword_txt=None
			
@@ -55,8 +55,8 @@ if [ $stage -le 1 ] && [ $stop_stage -ge 1 ];then
 
				             --audio_in ${output_dir}/split/wav.$JOB.scp \
			
 
				             --output_dir ${output_dir}/output.$JOB \
			
 
				             --batch_size ${batch_size} \
			
 
				-            --gpuid ${gpuid} \
			
 
				-            --hotword_txt ${hotword_txt}
			
 
				+            --hotword_txt ${hotword_txt} \
			
 
				+            --gpuid ${gpuid}
			
 
				         }&
			
 
				     done
			
 
				     wait
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/infer_aishell1_subtest_demo.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/infer_aishell1_subtest_demo.py
@@ -19,11 +19,15 @@ if __name__ == '__main__':
 
				         os.makedirs(work_dir)
			
 
				     wav_file_path = os.path.join(work_dir, "wav.scp")
			
 
				     
			
 
				+    counter = 0
			
 
				     with codecs.open(wav_file_path, 'w') as fin: 
			
 
				         for line in ds_dict:
			
 
				+            counter += 1
			
 
				             wav = line["Audio:FILE"]
			
 
				             idx = wav.split("/")[-1].split(".")[0]
			
 
				             fin.writelines(idx + " " + wav + "\n")
			
 
				+            if counter == 50:
			
 
				+                break
			
 
				     audio_in = wav_file_path         
			
 
				 
			
 
				     inference_pipeline = pipeline(
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online/infer.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online/infer.py
@@ -0,0 +1,39 @@
 
				+import os
			
 
				+import logging
			
 
				+import torch
			
 
				+import soundfile
			
 
				+
			
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				+from modelscope.utils.logger import get_logger
			
 
				+
			
 
				+logger = get_logger(log_level=logging.CRITICAL)
			
 
				+logger.setLevel(logging.CRITICAL)
			
 
				+
			
 
				+os.environ["MODELSCOPE_CACHE"] = "./"
			
 
				+inference_pipeline = pipeline(
			
 
				+    task=Tasks.auto_speech_recognition,
			
 
				+    model='damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online',
			
 
				+    model_revision='v1.0.4'
			
 
				+)
			
 
				+
			
 
				+model_dir = os.path.join(os.environ["MODELSCOPE_CACHE"], "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online")
			
 
				+speech, sample_rate = soundfile.read(os.path.join(model_dir, "example/asr_example.wav"))
			
 
				+speech_length = speech.shape[0]
			
 
				+
			
 
				+sample_offset = 0
			
 
				+chunk_size = [5, 10, 5] #[5, 10, 5] 600ms, [8, 8, 4] 480ms
			
 
				+stride_size =  chunk_size[1] * 960
			
 
				+param_dict = {"cache": dict(), "is_final": False, "chunk_size": chunk_size}
			
 
				+final_result = ""
			
 
				+
			
 
				+for sample_offset in range(0, speech_length, min(stride_size, speech_length - sample_offset)):
			
 
				+    if sample_offset + stride_size >= speech_length - 1:
			
 
				+        stride_size = speech_length - sample_offset
			
 
				+        param_dict["is_final"] = True
			
 
				+    rec_result = inference_pipeline(audio_in=speech[sample_offset: sample_offset + stride_size],
			
 
				+                                    param_dict=param_dict)
			
 
				+    if len(rec_result) != 0:
			
 
				+        final_result += rec_result['text'] + " "
			
 
				+        print(rec_result)
			
 
				+print(final_result)
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/README.md
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/README.md
@@ -1,76 +0,0 @@
 
				-# ModelScope Model
			
 
				-
			
 
				-## How to finetune and infer using a pretrained Paraformer-large Model
			
 
				-
			
 
				-### Finetune
			
 
				-
			
 
				-- Modify finetune training related parameters in `finetune.py`
			
 
				-    - <strong>output_dir:</strong> # result dir
			
 
				-    - <strong>data_dir:</strong> # the dataset dir needs to include files: `train/wav.scp`, `train/text`; `validation/wav.scp`, `validation/text`
			
 
				-    - <strong>dataset_type:</strong> # for dataset larger than 1000 hours, set as `large`, otherwise set as `small`
			
 
				-    - <strong>batch_bins:</strong> # batch size. For dataset_type is `small`, `batch_bins` indicates the feature frames. For dataset_type is `large`, `batch_bins` indicates the duration in ms
			
 
				-    - <strong>max_epoch:</strong> # number of training epoch
			
 
				-    - <strong>lr:</strong> # learning rate
			
 
				-
			
 
				-- Then you can run the pipeline to finetune with:
			
 
				-```python
			
 
				-    python finetune.py
			
 
				-```
			
 
				-
			
 
				-### Inference
			
 
				-
			
 
				-Or you can use the finetuned model for inference directly.
			
 
				-
			
 
				-- Setting parameters in `infer.sh`
			
 
				-    - <strong>model:</strong> # model name on ModelScope
			
 
				-    - <strong>data_dir:</strong> # the dataset dir needs to include `${data_dir}/wav.scp`. If `${data_dir}/text` is also exists, CER will be computed
			
 
				-    - <strong>output_dir:</strong> # result dir
			
 
				-    - <strong>batch_size:</strong> # batchsize of inference
			
 
				-    - <strong>gpu_inference:</strong> # whether to perform gpu decoding, set false for cpu decoding
			
 
				-    - <strong>gpuid_list:</strong> # set gpus, e.g., gpuid_list="0,1"
			
 
				-    - <strong>njob:</strong> # the number of jobs for CPU decoding, if `gpu_inference`=false, use CPU decoding, please set `njob`
			
 
				-
			
 
				-- Decode with multi GPUs:
			
 
				-```shell
			
 
				-    bash infer.sh \
			
 
				-    --model "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch" \
			
 
				-    --data_dir "./data/test" \
			
 
				-    --output_dir "./results" \
			
 
				-    --batch_size 64 \
			
 
				-    --gpu_inference true \
			
 
				-    --gpuid_list "0,1"
			
 
				-```
			
 
				-
			
 
				-- Decode with multi-thread CPUs:
			
 
				-```shell
			
 
				-    bash infer.sh \
			
 
				-    --model "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch" \
			
 
				-    --data_dir "./data/test" \
			
 
				-    --output_dir "./results" \
			
 
				-    --gpu_inference false \
			
 
				-    --njob 64
			
 
				-```
			
 
				-
			
 
				-- Results
			
 
				-
			
 
				-The decoding results can be found in `${output_dir}/1best_recog/text.cer`, which includes recognition results of each sample and the CER metric of the whole test set.
			
 
				-
			
 
				-If you decode the SpeechIO test sets, you can use textnorm with `stage`=3, and `DETAILS.txt`, `RESULTS.txt` record the results and CER after text normalization.
			
 
				-
			
 
				-### Inference using local finetuned model
			
 
				-
			
 
				-- Modify inference related parameters in `infer_after_finetune.py`
			
 
				-    - <strong>modelscope_model_name: </strong> # model name on ModelScope
			
 
				-    - <strong>output_dir:</strong> # result dir
			
 
				-    - <strong>data_dir:</strong> # the dataset dir needs to include `test/wav.scp`. If `test/text` is also exists, CER will be computed
			
 
				-    - <strong>decoding_model_name:</strong> # set the checkpoint name for decoding, e.g., `valid.cer_ctc.ave.pb`
			
 
				-    - <strong>batch_size:</strong> # batchsize of inference  
			
 
				-
			
 
				-- Then you can run the pipeline to finetune with:
			
 
				-```python
			
 
				-    python infer_after_finetune.py
			
 
				-```
			
 
				-
			
 
				-- Results
			
 
				-
			
 
				-The decoding results can be found in `$output_dir/decoding_results/text.cer`, which includes recognition results of each sample and the CER metric of the whole test set.
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/README.md
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/README.md
@@ -0,0 +1 @@
 
				+../TEMPLATE/README.md
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/infer.sh
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/infer.sh
@@ -1,103 +0,0 @@
 
				-#!/usr/bin/env bash
			
 
				-
			
 
				-set -e
			
 
				-set -u
			
 
				-set -o pipefail
			
 
				-
			
 
				-stage=1
			
 
				-stop_stage=2
			
 
				-model="damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
			
 
				-data_dir="./data/test"
			
 
				-output_dir="./results"
			
 
				-batch_size=64
			
 
				-gpu_inference=true    # whether to perform gpu decoding
			
 
				-gpuid_list="0,1"    # set gpus, e.g., gpuid_list="0,1"
			
 
				-njob=64    # the number of jobs for CPU decoding, if gpu_inference=false, use CPU decoding, please set njob
			
 
				-checkpoint_dir=
			
 
				-checkpoint_name="valid.cer_ctc.ave.pb"
			
 
				-
			
 
				-. utils/parse_options.sh || exit 1;
			
 
				-
			
 
				-if ${gpu_inference} == "true"; then
			
 
				-    nj=$(echo $gpuid_list | awk -F "," '{print NF}')
			
 
				-else
			
 
				-    nj=$njob
			
 
				-    batch_size=1
			
 
				-    gpuid_list=""
			
 
				-    for JOB in $(seq ${nj}); do
			
 
				-        gpuid_list=$gpuid_list"-1,"
			
 
				-    done
			
 
				-fi
			
 
				-
			
 
				-mkdir -p $output_dir/split
			
 
				-split_scps=""
			
 
				-for JOB in $(seq ${nj}); do
			
 
				-    split_scps="$split_scps $output_dir/split/wav.$JOB.scp"
			
 
				-done
			
 
				-perl utils/split_scp.pl ${data_dir}/wav.scp ${split_scps}
			
 
				-
			
 
				-if [ -n "${checkpoint_dir}" ]; then
			
 
				-  python utils/prepare_checkpoint.py ${model} ${checkpoint_dir} ${checkpoint_name}
			
 
				-  model=${checkpoint_dir}/${model}
			
 
				-fi
			
 
				-
			
 
				-if [ $stage -le 1 ] && [ $stop_stage -ge 1 ];then
			
 
				-    echo "Decoding ..."
			
 
				-    gpuid_list_array=(${gpuid_list//,/ })
			
 
				-    for JOB in $(seq ${nj}); do
			
 
				-        {
			
 
				-        id=$((JOB-1))
			
 
				-        gpuid=${gpuid_list_array[$id]}
			
 
				-        mkdir -p ${output_dir}/output.$JOB
			
 
				-        python infer.py \
			
 
				-            --model ${model} \
			
 
				-            --audio_in ${output_dir}/split/wav.$JOB.scp \
			
 
				-            --output_dir ${output_dir}/output.$JOB \
			
 
				-            --batch_size ${batch_size} \
			
 
				-            --gpuid ${gpuid}
			
 
				-        }&
			
 
				-    done
			
 
				-    wait
			
 
				-
			
 
				-    mkdir -p ${output_dir}/1best_recog
			
 
				-    for f in token score text; do
			
 
				-        if [ -f "${output_dir}/output.1/1best_recog/${f}" ]; then
			
 
				-          for i in $(seq "${nj}"); do
			
 
				-              cat "${output_dir}/output.${i}/1best_recog/${f}"
			
 
				-          done | sort -k1 >"${output_dir}/1best_recog/${f}"
			
 
				-        fi
			
 
				-    done
			
 
				-fi
			
 
				-
			
 
				-if [ $stage -le 2 ] && [ $stop_stage -ge 2 ];then
			
 
				-    echo "Computing WER ..."
			
 
				-    cp ${output_dir}/1best_recog/text ${output_dir}/1best_recog/text.proc
			
 
				-    cp ${data_dir}/text ${output_dir}/1best_recog/text.ref
			
 
				-    python utils/compute_wer.py ${output_dir}/1best_recog/text.ref ${output_dir}/1best_recog/text.proc ${output_dir}/1best_recog/text.cer
			
 
				-    tail -n 3 ${output_dir}/1best_recog/text.cer
			
 
				-fi
			
 
				-
			
 
				-if [ $stage -le 3 ] && [ $stop_stage -ge 3 ];then
			
 
				-    echo "SpeechIO TIOBE textnorm"
			
 
				-    echo "$0 --> Normalizing REF text ..."
			
 
				-    ./utils/textnorm_zh.py \
			
 
				-        --has_key --to_upper \
			
 
				-        ${data_dir}/text \
			
 
				-        ${output_dir}/1best_recog/ref.txt
			
 
				-
			
 
				-    echo "$0 --> Normalizing HYP text ..."
			
 
				-    ./utils/textnorm_zh.py \
			
 
				-        --has_key --to_upper \
			
 
				-        ${output_dir}/1best_recog/text.proc \
			
 
				-        ${output_dir}/1best_recog/rec.txt
			
 
				-    grep -v $'\t$' ${output_dir}/1best_recog/rec.txt > ${output_dir}/1best_recog/rec_non_empty.txt
			
 
				-
			
 
				-    echo "$0 --> computing WER/CER and alignment ..."
			
 
				-    ./utils/error_rate_zh \
			
 
				-        --tokenizer char \
			
 
				-        --ref ${output_dir}/1best_recog/ref.txt \
			
 
				-        --hyp ${output_dir}/1best_recog/rec_non_empty.txt \
			
 
				-        ${output_dir}/1best_recog/DETAILS.txt | tee ${output_dir}/1best_recog/RESULTS.txt
			
 
				-    rm -rf ${output_dir}/1best_recog/rec.txt ${output_dir}/1best_recog/rec_non_empty.txt
			
 
				-fi
			
 
				-
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/infer.sh
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/infer.sh
@@ -0,0 +1 @@
 
				+../TEMPLATE/infer.sh
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/infer_after_finetune.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/infer_after_finetune.py
@@ -1,48 +0,0 @@
 
				-import json
			
 
				-import os
			
 
				-import shutil
			
 
				-
			
 
				-from modelscope.pipelines import pipeline
			
 
				-from modelscope.utils.constant import Tasks
			
 
				-from modelscope.hub.snapshot_download import snapshot_download
			
 
				-
			
 
				-from funasr.utils.compute_wer import compute_wer
			
 
				-
			
 
				-def modelscope_infer_after_finetune(params):
			
 
				-    # prepare for decoding
			
 
				-
			
 
				-    try:
			
 
				-        pretrained_model_path = snapshot_download(params["modelscope_model_name"], cache_dir=params["output_dir"])
			
 
				-    except BaseException:
			
 
				-        raise BaseException(f"Please download pretrain model from ModelScope firstly.")
			
 
				-    shutil.copy(os.path.join(params["output_dir"], params["decoding_model_name"]), os.path.join(pretrained_model_path, "model.pb"))
			
 
				-    decoding_path = os.path.join(params["output_dir"], "decode_results")
			
 
				-    if os.path.exists(decoding_path):
			
 
				-        shutil.rmtree(decoding_path)
			
 
				-    os.mkdir(decoding_path)
			
 
				-
			
 
				-    # decoding
			
 
				-    inference_pipeline = pipeline(
			
 
				-        task=Tasks.auto_speech_recognition,
			
 
				-        model=pretrained_model_path,
			
 
				-        output_dir=decoding_path,
			
 
				-        batch_size=params["batch_size"]
			
 
				-    )
			
 
				-    audio_in = os.path.join(params["data_dir"], "wav.scp")
			
 
				-    inference_pipeline(audio_in=audio_in)
			
 
				-
			
 
				-    # computer CER if GT text is set
			
 
				-    text_in = os.path.join(params["data_dir"], "text")
			
 
				-    if os.path.exists(text_in):
			
 
				-        text_proc_file = os.path.join(decoding_path, "1best_recog/text")
			
 
				-        compute_wer(text_in, text_proc_file, os.path.join(decoding_path, "text.cer"))
			
 
				-
			
 
				-
			
 
				-if __name__ == '__main__':
			
 
				-    params = {}
			
 
				-    params["modelscope_model_name"] = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
			
 
				-    params["output_dir"] = "./checkpoint"
			
 
				-    params["data_dir"] = "./data/test"
			
 
				-    params["decoding_model_name"] = "valid.acc.ave_10best.pb"
			
 
				-    params["batch_size"] = 64
			
 
				-    modelscope_infer_after_finetune(params)
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch/infer.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch/infer.py
@@ -16,14 +16,14 @@ def modelscope_infer_core(output_dir, split_dir, njob, idx):
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_list[gpu_id])
			
 
				     else:
			
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_id)
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch",
			
 
				         output_dir=output_dir_job,
			
 
				         batch_size=64
			
 
				     )
			
 
				     audio_in = os.path.join(split_dir, "wav.{}.scp".format(idx))
			
 
				-    inference_pipline(audio_in=audio_in)
			
 
				+    inference_pipeline(audio_in=audio_in)
			
 
				 
			
 
				 
			
 
				 def modelscope_infer(params):
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/README.md
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/README.md
@@ -1,30 +0,0 @@
 
				-# ModelScope Model
			
 
				-
			
 
				-## How to finetune and infer using a pretrained Paraformer-large Model
			
 
				-
			
 
				-### Finetune
			
 
				-
			
 
				-- Modify finetune training related parameters in `finetune.py`
			
 
				-    - <strong>output_dir:</strong> # result dir
			
 
				-    - <strong>data_dir:</strong> # the dataset dir needs to include files: train/wav.scp, train/text; validation/wav.scp, validation/text.
			
 
				-    - <strong>batch_bins:</strong> # batch size
			
 
				-    - <strong>max_epoch:</strong> # number of training epoch
			
 
				-    - <strong>lr:</strong> # learning rate
			
 
				-
			
 
				-- Then you can run the pipeline to finetune with:
			
 
				-```python
			
 
				-    python finetune.py
			
 
				-```
			
 
				-
			
 
				-### Inference
			
 
				-
			
 
				-Or you can use the finetuned model for inference directly.
			
 
				-
			
 
				-- Setting parameters in `infer.py`
			
 
				-    - <strong>audio_in:</strong> # support wav, url, bytes, and parsed audio format.
			
 
				-    - <strong>output_dir:</strong> # If the input format is wav.scp, it needs to be set.
			
 
				-
			
 
				-- Then you can run the pipeline to infer with:
			
 
				-```python
			
 
				-    python infer.py
			
 
				-```
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/README.md
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/README.md
@@ -0,0 +1 @@
 
				+../TEMPLATE/README.md
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/demo.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/demo.py
@@ -0,0 +1,15 @@
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				+    output_dir = None
			
 
				+    inference_pipeline = pipeline(
			
 
				+        task=Tasks.auto_speech_recognition,
			
 
				+        model="damo/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch",
			
 
				+        output_dir=output_dir,
			
 
				+        batch_size=1,
			
 
				+    )
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				+    print(rec_result)
			
 
				+
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
@@ -1,15 +0,0 @@
 
				-from modelscope.pipelines import pipeline
			
 
				-from modelscope.utils.constant import Tasks
			
 
				-
			
 
				-if __name__ == '__main__':
			
 
				-    audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				-    output_dir = None
			
 
				-    inference_pipline = pipeline(
			
 
				-        task=Tasks.auto_speech_recognition,
			
 
				-        model="damo/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch",
			
 
				-        output_dir=output_dir,
			
 
				-        batch_size=32,
			
 
				-    )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				-    print(rec_result)
			
 
				-
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
@@ -0,0 +1 @@
 
				+../TEMPLATE/infer.py
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.sh
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.sh
@@ -0,0 +1 @@
 
				+../TEMPLATE/infer.sh
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/README.md
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/README.md
@@ -0,0 +1 @@
 
				+../TEMPLATE/README.md
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/demo.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/demo.py
@@ -0,0 +1,13 @@
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    audio_in = "https://modelscope.oss-cn-beijing.aliyuncs.com/test/audios/asr_example.wav"
			
 
				+    output_dir = "./results"
			
 
				+    inference_pipeline = pipeline(
			
 
				+        task=Tasks.auto_speech_recognition,
			
 
				+        model="damo/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch",
			
 
				+        output_dir=output_dir,
			
 
				+    )
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				+    print(rec_result)
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
@@ -1,13 +0,0 @@
 
				-from modelscope.pipelines import pipeline
			
 
				-from modelscope.utils.constant import Tasks
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    audio_in = "https://modelscope.oss-cn-beijing.aliyuncs.com/test/audios/asr_example.wav"
			
 
				-    output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				-        task=Tasks.auto_speech_recognition,
			
 
				-        model="damo/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch",
			
 
				-        output_dir=output_dir,
			
 
				-    )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				-    print(rec_result)
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
@@ -0,0 +1 @@
 
				+../TEMPLATE/infer.py
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.sh
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.sh
@@ -0,0 +1 @@
 
				+../TEMPLATE/infer.sh
			
--- a/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/infer.py
+++ b/egs_modelscope/asr/paraformer/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/infer.py
@@ -14,24 +14,26 @@ os.environ["MODELSCOPE_CACHE"] = "./"
 
				 inference_pipeline = pipeline(
			
 
				     task=Tasks.auto_speech_recognition,
			
 
				     model='damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online',
			
 
				-    model_revision='v1.0.2')
			
 
				+    model_revision='v1.0.4'
			
 
				+)
			
 
				 
			
 
				 model_dir = os.path.join(os.environ["MODELSCOPE_CACHE"], "damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online")
			
 
				 speech, sample_rate = soundfile.read(os.path.join(model_dir, "example/asr_example.wav"))
			
 
				 speech_length = speech.shape[0]
			
 
				 
			
 
				 sample_offset = 0
			
 
				-step = 4800  #300ms
			
 
				-param_dict = {"cache": dict(), "is_final": False}
			
 
				+chunk_size = [8, 8, 4] #[5, 10, 5] 600ms, [8, 8, 4] 480ms
			
 
				+stride_size =  chunk_size[1] * 960
			
 
				+param_dict = {"cache": dict(), "is_final": False, "chunk_size": chunk_size}
			
 
				 final_result = ""
			
 
				 
			
 
				-for sample_offset in range(0, speech_length, min(step, speech_length - sample_offset)):
			
 
				-    if sample_offset + step >= speech_length - 1:
			
 
				-        step = speech_length - sample_offset
			
 
				+for sample_offset in range(0, speech_length, min(stride_size, speech_length - sample_offset)):
			
 
				+    if sample_offset + stride_size >= speech_length - 1:
			
 
				+        stride_size = speech_length - sample_offset
			
 
				         param_dict["is_final"] = True
			
 
				-    rec_result = inference_pipeline(audio_in=speech[sample_offset: sample_offset + step],
			
 
				+    rec_result = inference_pipeline(audio_in=speech[sample_offset: sample_offset + stride_size],
			
 
				                                     param_dict=param_dict)
			
 
				-    if len(rec_result) != 0 and rec_result['text'] != "sil" and rec_result['text'] != "waiting_for_more_voice":
			
 
				-        final_result += rec_result['text']
			
 
				-    print(rec_result)
			
 
				-print(final_result)
			
 
				+    if len(rec_result) != 0:
			
 
				+        final_result += rec_result['text'] + " "
			
 
				+        print(rec_result)
			
 
				+print(final_result.strip())
			
--- a/egs_modelscope/asr/paraformerbert/speech_paraformerbert_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
+++ b/egs_modelscope/asr/paraformerbert/speech_paraformerbert_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch/infer.py
@@ -4,11 +4,11 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == '__main__':
			
 
				     audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				     output_dir = None
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_paraformerbert_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				     print(rec_result)
			
 
				 
			
--- a/egs_modelscope/asr/paraformerbert/speech_paraformerbert_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
+++ b/egs_modelscope/asr/paraformerbert/speech_paraformerbert_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://modelscope.oss-cn-beijing.aliyuncs.com/test/audios/asr_example.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_paraformerbert_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-cantonese-CHS-16k-common-vocab1468-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-cantonese-CHS-16k-common-vocab1468-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cantonese-CHS.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-cantonese-CHS-16k-common-vocab1468-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-cantonese-CHS-16k-common-vocab1468-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-cantonese-CHS-16k-common-vocab1468-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cantonese-CHS.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-cantonese-CHS-16k-common-vocab1468-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-cn-dialect-16k-vocab8358-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-cn-dialect-16k-vocab8358-tensorflow1-offline/infer.py
@@ -4,11 +4,11 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == '__main__':
			
 
				     audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				     output_dir = None
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-cn-dialect-16k-vocab8358-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				     print(rec_result)
			
 
				 
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-cn-dialect-16k-vocab8358-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-cn-dialect-16k-vocab8358-tensorflow1-online/infer.py
@@ -4,11 +4,11 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == '__main__':
			
 
				     audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				     output_dir = None
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-cn-dialect-16k-vocab8358-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				     print(rec_result)
			
 
				 
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_de.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_de.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-de-16k-common-vocab3690-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-en-16k-common-vocab1080-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-en-16k-common-vocab1080-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_en.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-en-16k-common-vocab1080-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-en-16k-common-vocab1080-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-en-16k-common-vocab1080-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_en.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-en-16k-common-vocab1080-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-es-16k-common-vocab3445-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-es-16k-common-vocab3445-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_es.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-es-16k-common-vocab3445-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-es-16k-common-vocab3445-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-es-16k-common-vocab3445-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_es.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-es-16k-common-vocab3445-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-offline/infer.py
@@ -16,14 +16,14 @@ def modelscope_infer_core(output_dir, split_dir, njob, idx):
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_list[gpu_id])
			
 
				     else:
			
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_id)
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-offline",
			
 
				         output_dir=output_dir_job,
			
 
				         batch_size=1
			
 
				     )
			
 
				     audio_in = os.path.join(split_dir, "wav.{}.scp".format(idx))
			
 
				-    inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				 
			
 
				 
			
 
				 def modelscope_infer(params):
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-online/infer.py
@@ -16,14 +16,14 @@ def modelscope_infer_core(output_dir, split_dir, njob, idx):
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_list[gpu_id])
			
 
				     else:
			
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_id)
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-fa-16k-common-vocab1257-pytorch-online",
			
 
				         output_dir=output_dir_job,
			
 
				         batch_size=1
			
 
				     )
			
 
				     audio_in = os.path.join(split_dir, "wav.{}.scp".format(idx))
			
 
				-    inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				 
			
 
				 
			
 
				 def modelscope_infer(params):
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_fr.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_fr.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-fr-16k-common-vocab3472-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_he.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-he-16k-common-vocab1085-pytorch",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-id-16k-common-vocab1067-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-id-16k-common-vocab1067-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_id.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-id-16k-common-vocab1067-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-id-16k-common-vocab1067-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-id-16k-common-vocab1067-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_id.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-id-16k-common-vocab1067-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ja-16k-common-vocab93-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ja-16k-common-vocab93-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_ja.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-ja-16k-common-vocab93-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ja-16k-common-vocab93-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ja-16k-common-vocab93-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_ja.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-ja-16k-common-vocab93-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ko-16k-common-vocab6400-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ko-16k-common-vocab6400-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_ko.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-ko-16k-common-vocab6400-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ko-16k-common-vocab6400-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ko-16k-common-vocab6400-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_ko.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-ko-16k-common-vocab6400-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_my.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-my-16k-common-vocab696-pytorch",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-pt-16k-common-vocab1617-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-pt-16k-common-vocab1617-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_pt.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-pt-16k-common-vocab1617-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-pt-16k-common-vocab1617-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-pt-16k-common-vocab1617-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_pt.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-pt-16k-common-vocab1617-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ru-16k-common-vocab1664-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ru-16k-common-vocab1664-tensorflow1-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_ru.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-ru-16k-common-vocab1664-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ru-16k-common-vocab1664-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ru-16k-common-vocab1664-tensorflow1-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_ru.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-ru-16k-common-vocab1664-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_ur.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-offline/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_vi.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"offline"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-online/infer.py
@@ -4,10 +4,10 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == "__main__":
			
 
				     audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_vi.wav"
			
 
				     output_dir = "./results"
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-vi-16k-common-vocab1001-pytorch-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in, param_dict={"decoding_model":"normal"})
			
 
				     print(rec_result)
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline/infer.py
@@ -4,11 +4,11 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == '__main__':
			
 
				     audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				     output_dir = None
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				     print(rec_result)
			
 
				 
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-online/infer.py
@@ -4,11 +4,11 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == '__main__':
			
 
				     audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				     output_dir = None
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				     print(rec_result)
			
 
				 
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-offline/infer.py
@@ -16,14 +16,14 @@ def modelscope_infer_core(output_dir, split_dir, njob, idx):
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_list[gpu_id])
			
 
				     else:
			
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_id)
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-offline",
			
 
				         output_dir=output_dir_job,
			
 
				         batch_size=1
			
 
				     )
			
 
				     audio_in = os.path.join(split_dir, "wav.{}.scp".format(idx))
			
 
				-    inference_pipline(audio_in=audio_in)
			
 
				+    inference_pipeline(audio_in=audio_in)
			
 
				 
			
 
				 def modelscope_infer(params):
			
 
				     # prepare for multi-GPU decoding
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-online/infer.py
@@ -16,14 +16,14 @@ def modelscope_infer_core(output_dir, split_dir, njob, idx):
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_list[gpu_id])
			
 
				     else:
			
 
				         os.environ['CUDA_VISIBLE_DEVICES'] = str(gpu_id)
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-online",
			
 
				         output_dir=output_dir_job,
			
 
				         batch_size=1
			
 
				     )
			
 
				     audio_in = os.path.join(split_dir, "wav.{}.scp".format(idx))
			
 
				-    inference_pipline(audio_in=audio_in, param_dict={"decoding_model": "normal"})
			
 
				+    inference_pipeline(audio_in=audio_in, param_dict={"decoding_model": "normal"})
			
 
				 
			
 
				 
			
 
				 def modelscope_infer(params):
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab8358-tensorflow1-offline/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab8358-tensorflow1-offline/infer.py
@@ -4,11 +4,11 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == '__main__':
			
 
				     audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				     output_dir = None
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab8358-tensorflow1-offline",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				     print(rec_result)
			
 
				 
			
--- a/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab8358-tensorflow1-online/infer.py
+++ b/egs_modelscope/asr/uniasr/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab8358-tensorflow1-online/infer.py
@@ -4,11 +4,11 @@ from modelscope.utils.constant import Tasks
 
				 if __name__ == '__main__':
			
 
				     audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				     output_dir = None
			
 
				-    inference_pipline = pipeline(
			
 
				+    inference_pipeline = pipeline(
			
 
				         task=Tasks.auto_speech_recognition,
			
 
				         model="damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab8358-tensorflow1-online",
			
 
				         output_dir=output_dir,
			
 
				     )
			
 
				-    rec_result = inference_pipline(audio_in=audio_in)
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				     print(rec_result)
			
 
				 
			
--- a/egs_modelscope/asr_vad_punc/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/README.md
+++ b/egs_modelscope/asr_vad_punc/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/README.md
@@ -1,46 +1,246 @@
 
				-# ModelScope Model
			
 
				+# Speech Recognition
			
 
				 
			
 
				-## How to finetune and infer using a pretrained Paraformer-large Model
			
 
				+> **Note**: 
			
 
				+> The modelscope pipeline supports all the models in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/modelscope_models.html#pretrained-models-on-modelscope) to inference and finetine. Here we take the typic models as examples to demonstrate the usage.
			
 
				 
			
 
				-### Finetune
			
 
				+## Inference
			
 
				 
			
 
				-- Modify finetune training related parameters in `finetune.py`
			
 
				-    - <strong>output_dir:</strong> # result dir
			
 
				-    - <strong>data_dir:</strong> # the dataset dir needs to include files: train/wav.scp, train/text; validation/wav.scp, validation/text.
			
 
				-    - <strong>batch_bins:</strong> # batch size
			
 
				-    - <strong>max_epoch:</strong> # number of training epoch
			
 
				-    - <strong>lr:</strong> # learning rate
			
 
				+### Quick start
			
 
				+#### [Paraformer Model](https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)
			
 
				+```python
			
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				 
			
 
				-- Then you can run the pipeline to finetune with:
			
 
				+inference_pipeline = pipeline(
			
 
				+    task=Tasks.auto_speech_recognition,
			
 
				+    model='damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
			
 
				+)
			
 
				+
			
 
				+rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav')
			
 
				+print(rec_result)
			
 
				+```
			
 
				+#### [Paraformer-online Model](https://www.modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online/summary)
			
 
				+```python
			
 
				+inference_pipeline = pipeline(
			
 
				+    task=Tasks.auto_speech_recognition,
			
 
				+    model='damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online',
			
 
				+    )
			
 
				+import soundfile
			
 
				+speech, sample_rate = soundfile.read("example/asr_example.wav")
			
 
				+
			
 
				+param_dict = {"cache": dict(), "is_final": False}
			
 
				+chunk_stride = 7680# 480ms
			
 
				+# first chunk, 480ms
			
 
				+speech_chunk = speech[0:chunk_stride] 
			
 
				+rec_result = inference_pipeline(audio_in=speech_chunk, param_dict=param_dict)
			
 
				+print(rec_result)
			
 
				+# next chunk, 480ms
			
 
				+speech_chunk = speech[chunk_stride:chunk_stride+chunk_stride]
			
 
				+rec_result = inference_pipeline(audio_in=speech_chunk, param_dict=param_dict)
			
 
				+print(rec_result)
			
 
				+```
			
 
				+Full code of demo, please ref to [demo](https://github.com/alibaba-damo-academy/FunASR/discussions/241)
			
 
				+
			
 
				+#### [UniASR Model](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-online/summary)
			
 
				+There are three decoding mode for UniASR model(`fast`、`normal`、`offline`), for more model detailes, please refer to [docs](https://www.modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab3445-pytorch-online/summary)
			
 
				+```python
			
 
				+decoding_model = "fast" # "fast"、"normal"、"offline"
			
 
				+inference_pipeline = pipeline(
			
 
				+    task=Tasks.auto_speech_recognition,
			
 
				+    model='damo/speech_UniASR_asr_2pass-minnan-16k-common-vocab3825',
			
 
				+    param_dict={"decoding_model": decoding_model})
			
 
				+
			
 
				+rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav')
			
 
				+print(rec_result)
			
 
				+```
			
 
				+The decoding mode of `fast` and `normal` is fake streaming, which could be used for evaluating of recognition accuracy.
			
 
				+Full code of demo, please ref to [demo](https://github.com/alibaba-damo-academy/FunASR/discussions/151)
			
 
				+#### [RNN-T-online model]()
			
 
				+Undo
			
 
				+
			
 
				+#### [MFCCA Model](https://www.modelscope.cn/models/NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/summary)
			
 
				+For more model detailes, please refer to [docs](https://www.modelscope.cn/models/NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950/summary)
			
 
				 ```python
			
 
				-    python finetune.py
			
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				+
			
 
				+inference_pipeline = pipeline(
			
 
				+    task=Tasks.auto_speech_recognition,
			
 
				+    model='NPU-ASLP/speech_mfcca_asr-zh-cn-16k-alimeeting-vocab4950',
			
 
				+    model_revision='v3.0.0'
			
 
				+)
			
 
				+
			
 
				+rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav')
			
 
				+print(rec_result)
			
 
				+```
			
 
				+
			
 
				+#### API-reference
			
 
				+##### Define pipeline
			
 
				+- `task`: `Tasks.auto_speech_recognition`
			
 
				+- `model`: model name in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/modelscope_models.html#pretrained-models-on-modelscope), or model path in local disk
			
 
				+- `ngpu`: `1` (Default), decoding on GPU. If ngpu=0, decoding on CPU
			
 
				+- `ncpu`: `1` (Default), sets the number of threads used for intraop parallelism on CPU 
			
 
				+- `output_dir`: `None` (Default), the output path of results if set
			
 
				+- `batch_size`: `1` (Default), batch size when decoding
			
 
				+##### Infer pipeline
			
 
				+- `audio_in`: the input to decode, which could be: 
			
 
				+  - wav_path, `e.g.`: asr_example.wav,
			
 
				+  - pcm_path, `e.g.`: asr_example.pcm, 
			
 
				+  - audio bytes stream, `e.g.`: bytes data from a microphone
			
 
				+  - audio sample point，`e.g.`: `audio, rate = soundfile.read("asr_example_zh.wav")`, the dtype is numpy.ndarray or torch.Tensor
			
 
				+  - wav.scp, kaldi style wav list (`wav_id \t wav_path`), `e.g.`: 
			
 
				+  ```text
			
 
				+  asr_example1  ./audios/asr_example1.wav
			
 
				+  asr_example2  ./audios/asr_example2.wav
			
 
				+  ```
			
 
				+  In this case of `wav.scp` input, `output_dir` must be set to save the output results
			
 
				+- `audio_fs`: audio sampling rate, only set when audio_in is pcm audio
			
 
				+- `output_dir`: None (Default), the output path of results if set
			
 
				+
			
 
				+### Inference with multi-thread CPUs or multi GPUs
			
 
				+FunASR also offer recipes [egs_modelscope/asr/TEMPLATE/infer.sh](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs_modelscope/asr/TEMPLATE/infer.sh) to decode with multi-thread CPUs, or multi GPUs.
			
 
				+
			
 
				+- Setting parameters in `infer.sh`
			
 
				+    - `model`: model name in [model zoo](https://alibaba-damo-academy.github.io/FunASR/en/modelscope_models.html#pretrained-models-on-modelscope), or model path in local disk
			
 
				+    - `data_dir`: the dataset dir needs to include `wav.scp`. If `${data_dir}/text` is also exists, CER will be computed
			
 
				+    - `output_dir`: output dir of the recognition results
			
 
				+    - `batch_size`: `64` (Default), batch size of inference on gpu
			
 
				+    - `gpu_inference`: `true` (Default), whether to perform gpu decoding, set false for CPU inference
			
 
				+    - `gpuid_list`: `0,1` (Default), which gpu_ids are used to infer
			
 
				+    - `njob`: only used for CPU inference (`gpu_inference`=`false`), `64` (Default), the number of jobs for CPU decoding
			
 
				+    - `checkpoint_dir`: only used for infer finetuned models, the path dir of finetuned models
			
 
				+    - `checkpoint_name`: only used for infer finetuned models, `valid.cer_ctc.ave.pb` (Default), which checkpoint is used to infer
			
 
				+    - `decoding_mode`: `normal` (Default), decoding mode for UniASR model(fast、normal、offline)
			
 
				+    - `hotword_txt`: `None` (Default), hotword file for contextual paraformer model(the hotword file name ends with .txt")
			
 
				+
			
 
				+- Decode with multi GPUs:
			
 
				+```shell
			
 
				+    bash infer.sh \
			
 
				+    --model "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch" \
			
 
				+    --data_dir "./data/test" \
			
 
				+    --output_dir "./results" \
			
 
				+    --batch_size 64 \
			
 
				+    --gpu_inference true \
			
 
				+    --gpuid_list "0,1"
			
 
				+```
			
 
				+- Decode with multi-thread CPUs:
			
 
				+```shell
			
 
				+    bash infer.sh \
			
 
				+    --model "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch" \
			
 
				+    --data_dir "./data/test" \
			
 
				+    --output_dir "./results" \
			
 
				+    --gpu_inference false \
			
 
				+    --njob 64
			
 
				 ```
			
 
				 
			
 
				-### Inference
			
 
				+- Results
			
 
				+
			
 
				+The decoding results can be found in `$output_dir/1best_recog/text.cer`, which includes recognition results of each sample and the CER metric of the whole test set.
			
 
				+
			
 
				+If you decode the SpeechIO test sets, you can use textnorm with `stage`=3, and `DETAILS.txt`, `RESULTS.txt` record the results and CER after text normalization.
			
 
				 
			
 
				-Or you can use the finetuned model for inference directly.
			
 
				 
			
 
				-- Setting parameters in `infer.py`
			
 
				-    - <strong>audio_in:</strong> # support wav, url, bytes, and parsed audio format.
			
 
				-    - <strong>output_dir:</strong> # If the input format is wav.scp, it needs to be set.
			
 
				+## Finetune with pipeline
			
 
				 
			
 
				-- Then you can run the pipeline to infer with:
			
 
				+### Quick start
			
 
				+[finetune.py](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs_modelscope/asr/TEMPLATE/finetune.py)
			
 
				 ```python
			
 
				-    python infer.py
			
 
				+import os
			
 
				+from modelscope.metainfo import Trainers
			
 
				+from modelscope.trainers import build_trainer
			
 
				+from modelscope.msdatasets.audio.asr_dataset import ASRDataset
			
 
				+
			
 
				+def modelscope_finetune(params):
			
 
				+    if not os.path.exists(params.output_dir):
			
 
				+        os.makedirs(params.output_dir, exist_ok=True)
			
 
				+    # dataset split ["train", "validation"]
			
 
				+    ds_dict = ASRDataset.load(params.data_path, namespace='speech_asr')
			
 
				+    kwargs = dict(
			
 
				+        model=params.model,
			
 
				+        data_dir=ds_dict,
			
 
				+        dataset_type=params.dataset_type,
			
 
				+        work_dir=params.output_dir,
			
 
				+        batch_bins=params.batch_bins,
			
 
				+        max_epoch=params.max_epoch,
			
 
				+        lr=params.lr)
			
 
				+    trainer = build_trainer(Trainers.speech_asr_trainer, default_args=kwargs)
			
 
				+    trainer.train()
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    from funasr.utils.modelscope_param import modelscope_args
			
 
				+    params = modelscope_args(model="damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch")
			
 
				+    params.output_dir = "./checkpoint"                      # 模型保存路径
			
 
				+    params.data_path = "speech_asr_aishell1_trainsets"      # 数据路径，可以为modelscope中已上传数据，也可以是本地数据
			
 
				+    params.dataset_type = "small"                           # 小数据量设置small，若数据量大于1000小时，请使用large
			
 
				+    params.batch_bins = 2000                                # batch size，如果dataset_type="small"，batch_bins单位为fbank特征帧数，如果dataset_type="large"，batch_bins单位为毫秒，
			
 
				+    params.max_epoch = 50                                   # 最大训练轮数
			
 
				+    params.lr = 0.00005                                     # 设置学习率
			
 
				+    
			
 
				+    modelscope_finetune(params)
			
 
				+```
			
 
				+
			
 
				+```shell
			
 
				+python finetune.py &> log.txt &
			
 
				 ```
			
 
				 
			
 
				-### Inference using local finetuned model
			
 
				+### Finetune with your data
			
 
				+
			
 
				+- Modify finetune training related parameters in [finetune.py](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs_modelscope/asr/TEMPLATE/finetune.py)
			
 
				+    - `output_dir`: result dir
			
 
				+    - `data_dir`: the dataset dir needs to include files: `train/wav.scp`, `train/text`; `validation/wav.scp`, `validation/text`
			
 
				+    - `dataset_type`: for dataset larger than 1000 hours, set as `large`, otherwise set as `small`
			
 
				+    - `batch_bins`: batch size. For dataset_type is `small`, `batch_bins` indicates the feature frames. For dataset_type is `large`, `batch_bins` indicates the duration in ms
			
 
				+    - `max_epoch`: number of training epoch
			
 
				+    - `lr`: learning rate
			
 
				 
			
 
				-- Modify inference related parameters in `infer_after_finetune.py`
			
 
				-    - <strong>output_dir:</strong> # result dir
			
 
				-    - <strong>data_dir:</strong> # the dataset dir needs to include `test/wav.scp`. If `test/text` is also exists, CER will be computed
			
 
				-    - <strong>decoding_model_name:</strong> # set the checkpoint name for decoding, e.g., `valid.cer_ctc.ave.pb`
			
 
				+- Training data formats：
			
 
				+```sh
			
 
				+cat ./example_data/text
			
 
				+BAC009S0002W0122 而 对 楼 市 成 交 抑 制 作 用 最 大 的 限 购
			
 
				+BAC009S0002W0123 也 成 为 地 方 政 府 的 眼 中 钉
			
 
				+english_example_1 hello world
			
 
				+english_example_2 go swim 去 游 泳
			
 
				+
			
 
				+cat ./example_data/wav.scp
			
 
				+BAC009S0002W0122 /mnt/data/wav/train/S0002/BAC009S0002W0122.wav
			
 
				+BAC009S0002W0123 /mnt/data/wav/train/S0002/BAC009S0002W0123.wav
			
 
				+english_example_1 /mnt/data/wav/train/S0002/english_example_1.wav
			
 
				+english_example_2 /mnt/data/wav/train/S0002/english_example_2.wav
			
 
				+```
			
 
				 
			
 
				 - Then you can run the pipeline to finetune with:
			
 
				-```python
			
 
				-    python infer_after_finetune.py
			
 
				+```shell
			
 
				+python finetune.py
			
 
				 ```
			
 
				+If you want finetune with multi-GPUs, you could:
			
 
				+```shell
			
 
				+CUDA_VISIBLE_DEVICES=1,2 python -m torch.distributed.launch --nproc_per_node 2 finetune.py > log.txt 2>&1
			
 
				+```
			
 
				+## Inference with your finetuned model
			
 
				 
			
 
				-- Results
			
 
				+- Setting parameters in [egs_modelscope/asr/TEMPLATE/infer.sh](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs_modelscope/asr/TEMPLATE/infer.sh) is the same with [docs](https://github.com/alibaba-damo-academy/FunASR/tree/main/egs_modelscope/asr/TEMPLATE#inference-with-multi-thread-cpus-or-multi-gpus), `model` is the model name from modelscope, which you finetuned.
			
 
				 
			
 
				-The decoding results can be found in `$output_dir/decoding_results/text.cer`, which includes recognition results of each sample and the CER metric of the whole test set.
			
 
				+- Decode with multi GPUs:
			
 
				+```shell
			
 
				+    bash infer.sh \
			
 
				+    --model "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch" \
			
 
				+    --data_dir "./data/test" \
			
 
				+    --output_dir "./results" \
			
 
				+    --batch_size 64 \
			
 
				+    --gpu_inference true \
			
 
				+    --gpuid_list "0,1" \
			
 
				+    --checkpoint_dir "./checkpoint" \
			
 
				+    --checkpoint_name "valid.cer_ctc.ave.pb"
			
 
				+```
			
 
				+- Decode with multi-thread CPUs:
			
 
				+```shell
			
 
				+    bash infer.sh \
			
 
				+    --model "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch" \
			
 
				+    --data_dir "./data/test" \
			
 
				+    --output_dir "./results" \
			
 
				+    --gpu_inference false \
			
 
				+    --njob 64 \
			
 
				+    --checkpoint_dir "./checkpoint" \
			
 
				+    --checkpoint_name "valid.cer_ctc.ave.pb"
			
 
				+```
			
--- a/egs_modelscope/asr_vad_punc/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/demo.py
+++ b/egs_modelscope/asr_vad_punc/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/demo.py
@@ -0,0 +1,16 @@
 
				+from modelscope.pipelines import pipeline
			
 
				+from modelscope.utils.constant import Tasks
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    audio_in = 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav'
			
 
				+    output_dir = None
			
 
				+    inference_pipeline = pipeline(
			
 
				+        task=Tasks.auto_speech_recognition,
			
 
				+        model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
			
 
				+        vad_model='damo/speech_fsmn_vad_zh-cn-16k-common-pytorch',
			
 
				+        punc_model='damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch',
			
 
				+        output_dir=output_dir
			
 
				+    )
			
 
				+    rec_result = inference_pipeline(audio_in=audio_in)
			
 
				+    print(rec_result)
			
 
				+
		`@@ -0,0 +1 @@`
		`+../../egs_modelscope/punctuation/TEMPLATE/README.md`
		`@@ -0,0 +1 @@`
		`+../../egs_modelscope/speaker_diarization/TEMPLATE/README.md`
		`@@ -0,0 +1 @@`
		`+../../egs_modelscope/speaker_verification/TEMPLATE/README.md`