2 tahun lalu · 511caf64ff
--- a/egs_modelscope/speaker_diarization/speech_diarization_sond-en-us-callhome-8k-n16k4-pytorch/infer.py
+++ b/egs_modelscope/speaker_diarization/speech_diarization_sond-en-us-callhome-8k-n16k4-pytorch/infer.py
@@ -1,3 +1,9 @@
 
				+"""
			
 
				+Author: Speech Lab, Alibaba Group, China
			
 
				+TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization
			
 
				+https://arxiv.org/abs/2303.05397
			
 
				+"""
			
 
				+
			
 
				 from modelscope.pipelines import pipeline
			
 
				 from modelscope.utils.constant import Tasks
			
 
				 
			
--- a/egs_modelscope/speaker_diarization/speech_diarization_sond-zh-cn-alimeeting-16k-n16k4-pytorch/infer.py
+++ b/egs_modelscope/speaker_diarization/speech_diarization_sond-zh-cn-alimeeting-16k-n16k4-pytorch/infer.py
@@ -1,3 +1,9 @@
 
				+"""
			
 
				+Author: Speech Lab, Alibaba Group, China
			
 
				+SOND: Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis
			
 
				+https://arxiv.org/abs/2211.10243
			
 
				+"""
			
 
				+
			
 
				 from modelscope.pipelines import pipeline
			
 
				 from modelscope.utils.constant import Tasks
			
 
				 
			
--- a/funasr/models/e2e_diar_sond.py
+++ b/funasr/models/e2e_diar_sond.py
@@ -36,8 +36,12 @@ else:
 
				 
			
 
				 
			
 
				 class DiarSondModel(AbsESPnetModel):
			
 
				-    """Speaker overlap-aware neural diarization model
			
 
				-    reference: https://arxiv.org/abs/2211.10243
			
 
				+    """
			
 
				+    Author: Speech Lab, Alibaba Group, China
			
 
				+    SOND: Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis
			
 
				+    https://arxiv.org/abs/2211.10243
			
 
				+    TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization
			
 
				+    https://arxiv.org/abs/2303.05397
			
 
				     """
			
 
				 
			
 
				     def __init__(
			
--- a/funasr/models/e2e_sv.py
+++ b/funasr/models/e2e_sv.py
@@ -1,3 +1,7 @@
 
				+"""
			
 
				+Author: Speech Lab, Alibaba Group, China
			
 
				+"""
			
 
				+
			
 
				 import logging
			
 
				 from contextlib import contextmanager
			
 
				 from distutils.version import LooseVersion
			
--- a/funasr/models/encoder/resnet34_encoder.py
+++ b/funasr/models/encoder/resnet34_encoder.py
@@ -406,6 +406,12 @@ class ResNet34Diar(ResNet34):
 
				             tf2torch_tensor_name_prefix_torch="encoder",
			
 
				             tf2torch_tensor_name_prefix_tf="seq2seq/speech_encoder"
			
 
				     ):
			
 
				+        """
			
 
				+        Author: Speech Lab, Alibaba Group, China
			
 
				+        SOND: Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis
			
 
				+        https://arxiv.org/abs/2211.10243
			
 
				+        """
			
 
				+
			
 
				         super(ResNet34Diar, self).__init__(
			
 
				             input_size,
			
 
				             use_head_conv=use_head_conv,
			
@@ -633,6 +639,12 @@ class ResNet34SpL2RegDiar(ResNet34_SP_L2Reg):
 
				             tf2torch_tensor_name_prefix_torch="encoder",
			
 
				             tf2torch_tensor_name_prefix_tf="seq2seq/speech_encoder"
			
 
				     ):
			
 
				+        """
			
 
				+        Author: Speech Lab, Alibaba Group, China
			
 
				+        TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization
			
 
				+        https://arxiv.org/abs/2303.05397
			
 
				+        """
			
 
				+
			
 
				         super(ResNet34SpL2RegDiar, self).__init__(
			
 
				             input_size,
			
 
				             use_head_conv=use_head_conv,
			
--- a/funasr/tasks/diar.py
+++ b/funasr/tasks/diar.py
@@ -1,3 +1,11 @@
 
				+"""
			
 
				+Author: Speech Lab, Alibaba Group, China
			
 
				+SOND: Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis
			
 
				+https://arxiv.org/abs/2211.10243
			
 
				+TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization
			
 
				+https://arxiv.org/abs/2303.05397
			
 
				+"""
			
 
				+
			
 
				 import argparse
			
 
				 import logging
			
 
				 import os
			
--- a/funasr/tasks/sv.py
+++ b/funasr/tasks/sv.py
@@ -1,3 +1,7 @@
 
				+"""
			
 
				+Author: Speech Lab, Alibaba Group, China
			
 
				+"""
			
 
				+
			
 
				 import argparse
			
 
				 import logging
			
 
				 import os