游雁 2 vuotta sitten
vanhempi
sitoutus
c857b7dd67

+ 5 - 5
README_zh.md

@@ -19,7 +19,7 @@ FunASR希望在语音识别的学术研究和工业应用之间架起一座桥
 |<a href="#快速开始"> 快速开始 </a>
 |<a href="https://alibaba-damo-academy.github.io/FunASR/en/index.html"> 教程文档 </a>
 |<a href="./docs/model_zoo/modelscope_models.md"> 模型仓库 </a>
-|<a href="./runtime/readme_cn.md"> 服务部署 </a>
+|<a href="#服务部署"> 服务部署 </a>
 |<a href="#联系我们"> 联系我们 </a>
 </h4>
 </div>
@@ -31,12 +31,12 @@ FunASR希望在语音识别的学术研究和工业应用之间架起一座桥
 
 <a name="最新动态"></a>
 ## 最新动态
-- 20223/10/17: 英文离线文件转写服务一键部署的CPU版本发布,详细信息参阅([一键部署文档](funasr/runtime/docs/SDK_tutorial_en_zh.md))
+- 20223/10/17: 英文离线文件转写服务一键部署的CPU版本发布,详细信息参阅([一键部署文档](runtime/readme_cn.html#cpu))
 - 2023/10/13: [SlideSpeech](https://slidespeech.github.io/): 一个大规模的多模态音视频语料库,主要是在线会议或者在线课程场景,包含了大量与发言人讲话实时同步的幻灯片。
 - 2023.10.10: [Paraformer-long-Spk](https://github.com/alibaba-damo-academy/FunASR/blob/main/egs_modelscope/asr_vad_spk/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn/demo.py)模型发布,支持在长语音识别的基础上获取每句话的说话人标签。
 - 2023.10.07: [FunCodec](https://github.com/alibaba-damo-academy/FunCodec): FunCodec提供开源模型和训练工具,可以用于音频离散编码,以及基于离散编码的语音识别、语音合成等任务。
-- 2023.09.01: 中文离线文件转写服务2.0 CPU版本发布,新增ffmpeg、时间戳与热词模型支持,详细信息参阅([一键部署文档](funasr/runtime/docs/SDK_tutorial_zh.md))
-- 2023.08.07: 中文实时语音听写服务一键部署的CPU版本发布,详细信息参阅([一键部署文档](funasr/runtime/docs/SDK_tutorial_online_zh.md))
+- 2023.09.01: 中文离线文件转写服务2.0 CPU版本发布,新增ffmpeg、时间戳与热词模型支持,详细信息参阅([一键部署文档](runtime/readme_cn.html#id6))
+- 2023.08.07: 中文实时语音听写服务一键部署的CPU版本发布,详细信息参阅([一键部署文档](runtime/readme_cn.html#id3))
 - 2023.07.17: BAT一种低延迟低内存消耗的RNN-T模型发布,详细信息参阅([BAT](egs/aishell/bat))
 - 2023.06.26: ASRU2023 多通道多方会议转录挑战赛2.0完成竞赛结果公布,详细信息参阅([M2MeT2.0](https://alibaba-damo-academy.github.io/FunASR/m2met2_cn/index.html))
 
@@ -116,7 +116,7 @@ FunASR支持预训练或者进一步微调的模型进行服务部署。目前
 - 中文离线文件转写服务(GPU版本),进行中
 - 更多支持中
 
-详细信息可以参阅([服务部署文档](funasr/runtime/readme_cn.md))。
+详细信息可以参阅([服务部署文档](runtime/readme_cn.md))。
 
 
 <a name="社区交流"></a>

+ 4 - 4
docs/index.rst

@@ -71,10 +71,10 @@ Overview
    :maxdepth: 1
    :caption: Runtime and Service
 
-   ./funasr/runtime/readme.md
-   ./funasr/runtime/docs/SDK_tutorial_online.md
-   ./funasr/runtime/docs/SDK_tutorial.md
-   ./funasr/runtime/html5/readme.md
+   ./runtime/readme.md
+   ./runtime/docs/SDK_tutorial_online.md
+   ./runtime/docs/SDK_tutorial.md
+   ./runtime/html5/readme.md
 
 
 

+ 1 - 0
docs/runtime

@@ -0,0 +1 @@
+../runtime

BIN
docs/runtime/demo.gif


+ 0 - 1
docs/runtime/export.md

@@ -1 +0,0 @@
-../../funasr/export/README.md

+ 0 - 1
docs/runtime/grpc_cpp.md

@@ -1 +0,0 @@
-../../funasr/runtime/grpc/Readme.md

+ 0 - 1
docs/runtime/grpc_python.md

@@ -1 +0,0 @@
-../../funasr/runtime/python/grpc/Readme.md

+ 0 - 1
docs/runtime/html5.md

@@ -1 +0,0 @@
-../../funasr/runtime/html5/readme.md

BIN
docs/runtime/img.png


+ 0 - 1
docs/runtime/libtorch_python.md

@@ -1 +0,0 @@
-../../funasr/runtime/python/libtorch/README.md

+ 0 - 1
docs/runtime/onnxruntime_cpp.md

@@ -1 +0,0 @@
-../../funasr/runtime/onnxruntime/readme.md

+ 0 - 1
docs/runtime/onnxruntime_python.md

@@ -1 +0,0 @@
-../../funasr/runtime/python/onnxruntime/README.md

+ 0 - 1
docs/runtime/websocket_cpp.md

@@ -1 +0,0 @@
-../../funasr/runtime/websocket/readme.md

+ 0 - 1
docs/runtime/websocket_python.md

@@ -1 +0,0 @@
-../../funasr/runtime/python/websocket/README.md

+ 1 - 3
egs_modelscope/asr/TEMPLATE/README_zh.md

@@ -30,12 +30,10 @@ inference_pipeline = pipeline(
     task=Tasks.auto_speech_recognition,
     model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
     vad_model='damo/speech_fsmn_vad_zh-cn-16k-common-pytorch',
-    #punc_model='damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch',
     punc_model='damo/punc_ct-transformer_cn-en-common-vocab471067-large',
 )
 
-rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/vad_example.wav', 
-                                batch_size_token=5000, batch_size_token_threshold_s=40, max_single_segment_time=6000)
+rec_result = inference_pipeline(audio_in='./vad_example.wav')
 print(rec_result)
 ```
 其中: 

BIN
runtime/docs/images/sdk_roadmap.jpg


+ 4 - 2
runtime/readme_cn.md

@@ -2,8 +2,10 @@
 
 English Version([docs](./readme.md))
 
-FunASR是由达摩院语音实验室开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。为了解决工业落地的最后一公里,将模型集成到业务中去,我们开发了FunASR runtime-SDK。
-SDK 支持以下几种服务部署:
+FunASR是由阿里巴巴通义-语音实验室开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。为了解决工业落地的最后一公里,将模型集成到业务中去,我们开发了社区软件包。
+支持以下几种服务部署:
+
+<img src="docs/images/sdk_roadmap.jpg"  width="900"/>
 
 - 中文离线文件转写服务(CPU版本),已完成
 - 中文流式语音识别服务(CPU版本),已完成