3 лет назад · 9e8a52153d
--- a/funasr/bin/lm_calc_perplexity.py
+++ b/funasr/bin/lm_calc_perplexity.py
@@ -56,7 +56,7 @@ def calc_perplexity(
 
				     set_all_random_seed(seed)
			
 
				 
			
 
				     # 2. Build LM
			
 
				-    model, train_args = LMTask.build_model_from_file(train_config, model_file, device)
			
 
				+    model, train_args = LMTask.build_model_from_file(config_file=train_config, model_file=model_file, device=device)
			
 
				     # Wrape model to make model.nll() data-parallel
			
 
				     wrapped_model = ForwardAdaptor(model, "nll")
			
 
				     wrapped_model.to(dtype=getattr(torch, dtype)).eval()
			
@@ -111,6 +111,7 @@ def calc_perplexity(
 
				                     utt_ppl = log_base ** (_nll / ntoken / np.log(log_base))
			
 
				 
			
 
				                 # Write PPL of each utts for debugging or analysis
			
 
				+                writer["utt2nll"][key] = str(-_nll)
			
 
				                 writer["utt2ppl"][key] = str(utt_ppl)
			
 
				                 writer["utt2ntokens"][key] = str(ntoken)
			
 
				 
			
--- a/funasr/bin/lm_inference.py
+++ b/funasr/bin/lm_inference.py
@@ -0,0 +1,406 @@
 
				+#!/usr/bin/env python3
			
 
				+import argparse
			
 
				+import logging
			
 
				+from pathlib import Path
			
 
				+import sys
			
 
				+import os
			
 
				+from typing import Optional
			
 
				+from typing import Sequence
			
 
				+from typing import Tuple
			
 
				+from typing import Union
			
 
				+from typing import Dict
			
 
				+from typing import Any
			
 
				+from typing import List
			
 
				+
			
 
				+import numpy as np
			
 
				+import torch
			
 
				+from torch.nn.parallel import data_parallel
			
 
				+from typeguard import check_argument_types
			
 
				+
			
 
				+from funasr.tasks.lm import LMTask
			
 
				+from funasr.datasets.preprocessor import LMPreprocessor
			
 
				+from funasr.utils.cli_utils import get_commandline_args
			
 
				+from funasr.fileio.datadir_writer import DatadirWriter
			
 
				+from funasr.torch_utils.device_funcs import to_device
			
 
				+from funasr.torch_utils.forward_adaptor import ForwardAdaptor
			
 
				+from funasr.torch_utils.set_all_random_seed import set_all_random_seed
			
 
				+from funasr.utils import config_argparse
			
 
				+from funasr.utils.types import float_or_none
			
 
				+from funasr.utils.types import str2bool
			
 
				+from funasr.utils.types import str2triple_str
			
 
				+from funasr.utils.types import str_or_none
			
 
				+
			
 
				+def inference(
			
 
				+    output_dir: str,
			
 
				+    batch_size: int,
			
 
				+    dtype: str,
			
 
				+    ngpu: int,
			
 
				+    seed: int,
			
 
				+    num_workers: int,
			
 
				+    log_level: Union[int, str],
			
 
				+    train_config: Optional[str],
			
 
				+    model_file: Optional[str],
			
 
				+    log_base: Optional[float],
			
 
				+    key_file: Optional[str] = None,
			
 
				+    allow_variable_data_keys: bool = False,
			
 
				+    split_with_space: Optional[bool] = False,
			
 
				+    seg_dict_file: Optional[str] = None,
			
 
				+    data_path_and_name_and_type: Sequence[Tuple[str, str, str]] = None,
			
 
				+    raw_inputs: Union[List[Any], bytes, str] = None,
			
 
				+    **kwargs,
			
 
				+):
			
 
				+    inference_pipeline = inference_modelscope(
			
 
				+        output_dir=output_dir,
			
 
				+        raw_inputs=raw_inputs,
			
 
				+        batch_size=batch_size,
			
 
				+        dtype=dtype,
			
 
				+        ngpu=ngpu,
			
 
				+        seed=seed,
			
 
				+        num_workers=num_workers,
			
 
				+        log_level=log_level,
			
 
				+        key_file=key_file,
			
 
				+        train_config=train_config,
			
 
				+        model_file=model_file,
			
 
				+        log_base = log_base,
			
 
				+        allow_variable_data_keys = allow_variable_data_keys,
			
 
				+        split_with_space=split_with_space,
			
 
				+        seg_dict_file=seg_dict_file,
			
 
				+        **kwargs,
			
 
				+    )
			
 
				+    return inference_pipeline(data_path_and_name_and_type, raw_inputs)
			
 
				+
			
 
				+
			
 
				+def inference_modelscope(
			
 
				+    batch_size: int,
			
 
				+    dtype: str,
			
 
				+    ngpu: int,
			
 
				+    seed: int,
			
 
				+    num_workers: int,
			
 
				+    log_level: Union[int, str],
			
 
				+    key_file: Optional[str],
			
 
				+    train_config: Optional[str],
			
 
				+    model_file: Optional[str],
			
 
				+    log_base: Optional[float] = 10,
			
 
				+    allow_variable_data_keys: bool = False,
			
 
				+    split_with_space: Optional[bool] = False,
			
 
				+    seg_dict_file: Optional[str] = None,
			
 
				+    output_dir: Optional[str] = None,
			
 
				+    param_dict: dict = None,
			
 
				+    **kwargs,
			
 
				+):
			
 
				+    assert check_argument_types()
			
 
				+    logging.basicConfig(
			
 
				+        level=log_level,
			
 
				+        format="%(asctime)s (%(module)s:%(lineno)d) %(levelname)s: %(message)s",
			
 
				+    )
			
 
				+
			
 
				+    if ngpu >= 1 and torch.cuda.is_available():
			
 
				+        device = "cuda"
			
 
				+    else:
			
 
				+        device = "cpu"
			
 
				+
			
 
				+    # 1. Set random-seed
			
 
				+    set_all_random_seed(seed)
			
 
				+
			
 
				+    # 2. Build Model
			
 
				+    model, train_args = LMTask.build_model_from_file(
			
 
				+        train_config, model_file, device)
			
 
				+    wrapped_model = ForwardAdaptor(model, "nll")
			
 
				+    wrapped_model.to(dtype=getattr(torch, dtype)).to(device=device).eval()
			
 
				+    logging.info(f"Model:\n{model}")
			
 
				+
			
 
				+    preprocessor = LMPreprocessor(
			
 
				+        train=False,
			
 
				+        token_type=train_args.token_type,
			
 
				+        token_list=train_args.token_list,
			
 
				+        bpemodel=train_args.bpemodel,
			
 
				+        text_cleaner=train_args.cleaner,
			
 
				+        g2p_type=train_args.g2p,
			
 
				+        text_name="text",
			
 
				+        non_linguistic_symbols=train_args.non_linguistic_symbols,
			
 
				+        split_with_space=split_with_space,
			
 
				+        seg_dict_file=seg_dict_file
			
 
				+    )
			
 
				+
			
 
				+    def _forward(
			
 
				+        data_path_and_name_and_type,
			
 
				+        raw_inputs: Union[List[Any], bytes, str] = None,
			
 
				+        output_dir_v2: Optional[str] = None,
			
 
				+        param_dict: dict = None,
			
 
				+    ):
			
 
				+        results = []
			
 
				+        if output_dir_v2 is not None:
			
 
				+            writer = DatadirWriter(output_dir_v2)
			
 
				+        else:
			
 
				+            writer = None
			
 
				+
			
 
				+        if raw_inputs != None:
			
 
				+            line = raw_inputs.strip()
			
 
				+            key = "lm demo"
			
 
				+            if line=="":
			
 
				+                item = {'key': key, 'value': ""}
			
 
				+                results.append(item)
			
 
				+                return results
			
 
				+            batch = {}
			
 
				+            batch['text'] = line
			
 
				+            if preprocessor != None:
			
 
				+                batch = preprocessor(key, batch)
			
 
				+            
			
 
				+            #  Force data-precision
			
 
				+            for name in batch:
			
 
				+                value = batch[name]
			
 
				+                if not isinstance(value, np.ndarray):
			
 
				+                    raise RuntimeError(
			
 
				+                        f"All values must be converted to np.ndarray object "
			
 
				+                        f'by preprocessing, but "{name}" is still {type(value)}.'
			
 
				+                    )
			
 
				+                # Cast to desired type
			
 
				+                if value.dtype.kind == "f":
			
 
				+                    value = value.astype("float32")
			
 
				+                elif value.dtype.kind == "i":
			
 
				+                    value = value.astype("long")
			
 
				+                else:
			
 
				+                    raise NotImplementedError(f"Not supported dtype: {value.dtype}")
			
 
				+                batch[name] = value
			
 
				+            
			
 
				+            batch["text_lengths"] = torch.from_numpy(
			
 
				+                np.array([len(batch["text"])], dtype='int32'))
			
 
				+            batch["text"] = np.expand_dims(batch["text"], axis=0)
			
 
				+
			
 
				+            with torch.no_grad():
			
 
				+                batch = to_device(batch, device)
			
 
				+                if ngpu <= 1:
			
 
				+                    nll, lengths = wrapped_model(**batch)
			
 
				+                else:
			
 
				+                    nll, lengths = data_parallel(
			
 
				+                        wrapped_model, (), range(ngpu), module_kwargs=batch
			
 
				+                    )
			
 
				+                ## compute ppl
			
 
				+                ppl_out_batch = ""
			
 
				+                ids2tokens = preprocessor.token_id_converter.ids2tokens
			
 
				+                for sent_ids, sent_nll in zip(batch['text'], nll):
			
 
				+                    pre_word = "<s>"
			
 
				+                    cur_word = None
			
 
				+                    sent_lst = ids2tokens(sent_ids) + ['</s>']
			
 
				+                    ppl_out = " ".join(sent_lst) + "\n"
			
 
				+                    for word, word_nll in zip(sent_lst, sent_nll):
			
 
				+                        cur_word = word
			
 
				+                        word_nll = -word_nll.cpu()
			
 
				+                        if log_base is None:
			
 
				+                            word_prob = np.exp(word_nll)
			
 
				+                        else:
			
 
				+                            word_prob = log_base ** (word_nll / np.log(log_base))
			
 
				+                        ppl_out += '    p( {cur} | {pre} ) = {prob} [ {word_nll} ]\n'.format(
			
 
				+                            cur=cur_word, 
			
 
				+                            pre=pre_word, 
			
 
				+                            prob=round(word_prob.item(), 8),
			
 
				+                            word_nll=round(word_nll.item(), 8)
			
 
				+                            )
			
 
				+                        pre_word = cur_word
			
 
				+                    
			
 
				+                    sent_nll_mean = sent_nll.mean().cpu().numpy()
			
 
				+                    sent_nll_sum = sent_nll.sum().cpu().numpy()
			
 
				+                    if log_base is None:
			
 
				+                        sent_ppl = np.exp(sent_nll_mean)
			
 
				+                    else:
			
 
				+                        sent_ppl = log_base ** (sent_nll_mean / np.log(log_base))
			
 
				+                    ppl_out += 'logprob= {sent_nll} ppl= {sent_ppl}\n\n'.format(
			
 
				+                        sent_nll=round(-sent_nll_sum.item(), 4),
			
 
				+                        sent_ppl=round(sent_ppl.item(), 4)
			
 
				+                        )
			
 
				+                    ppl_out_batch += ppl_out
			
 
				+                    item = {'key': key, 'value': ppl_out}
			
 
				+                    if writer is not None:
			
 
				+                        writer["ppl"][key+":\n"] = ppl_out
			
 
				+                    results.append(item)
			
 
				+
			
 
				+            return results
			
 
				+                
			
 
				+        # 3. Build data-iterator
			
 
				+        loader = LMTask.build_streaming_iterator(
			
 
				+            data_path_and_name_and_type,
			
 
				+            dtype=dtype,
			
 
				+            batch_size=batch_size,
			
 
				+            key_file=key_file,
			
 
				+            num_workers=num_workers,
			
 
				+            preprocess_fn=preprocessor,
			
 
				+            collate_fn=LMTask.build_collate_fn(train_args, False),
			
 
				+            allow_variable_data_keys=allow_variable_data_keys,
			
 
				+            inference=True,
			
 
				+        )
			
 
				+
			
 
				+        # 4. Start for-loop
			
 
				+        total_nll = 0.0
			
 
				+        total_ntokens = 0
			
 
				+        ppl_out_all = ""
			
 
				+        for keys, batch in loader:
			
 
				+            assert isinstance(batch, dict), type(batch)
			
 
				+            assert all(isinstance(s, str) for s in keys), keys
			
 
				+            _bs = len(next(iter(batch.values())))
			
 
				+            assert len(keys) == _bs, f"{len(keys)} != {_bs}"
			
 
				+
			
 
				+            ppl_out_batch = ""
			
 
				+            with torch.no_grad():
			
 
				+                batch = to_device(batch, device)
			
 
				+                if ngpu <= 1:
			
 
				+                    # NOTE(kamo): data_parallel also should work with ngpu=1,
			
 
				+                    # but for debuggability it's better to keep this block.
			
 
				+                    nll, lengths = wrapped_model(**batch)
			
 
				+                else:
			
 
				+                    nll, lengths = data_parallel(
			
 
				+                        wrapped_model, (), range(ngpu), module_kwargs=batch
			
 
				+                    )
			
 
				+                ## print ppl
			
 
				+                ids2tokens = preprocessor.token_id_converter.ids2tokens
			
 
				+                for key, sent_ids, sent_nll in zip(keys, batch['text'], nll):
			
 
				+                    pre_word = "<s>"
			
 
				+                    cur_word = None
			
 
				+                    sent_lst = ids2tokens(sent_ids) + ['</s>']
			
 
				+                    ppl_out = " ".join(sent_lst) + "\n"
			
 
				+                    for word, word_nll in zip(sent_lst, sent_nll):
			
 
				+                        cur_word = word
			
 
				+                        word_nll = -word_nll.cpu()
			
 
				+                        if log_base is None:
			
 
				+                            word_prob = np.exp(word_nll)
			
 
				+                        else:
			
 
				+                            word_prob = log_base ** (word_nll / np.log(log_base))
			
 
				+                        ppl_out += '    p( {cur} | {pre} ) = {prob} [ {word_nll} ]\n'.format(
			
 
				+                            cur=cur_word, 
			
 
				+                            pre=pre_word, 
			
 
				+                            prob=round(word_prob.item(), 8),
			
 
				+                            word_nll=round(word_nll.item(), 8)
			
 
				+                            )
			
 
				+                        pre_word = cur_word
			
 
				+                    
			
 
				+                    sent_nll_mean = sent_nll.mean().cpu().numpy()
			
 
				+                    sent_nll_sum = sent_nll.sum().cpu().numpy()
			
 
				+                    if log_base is None:
			
 
				+                        sent_ppl = np.exp(sent_nll_mean)
			
 
				+                    else:
			
 
				+                        sent_ppl = log_base ** (sent_nll_mean / np.log(log_base))
			
 
				+                    ppl_out += 'logprob= {sent_nll} ppl= {sent_ppl}\n\n'.format(
			
 
				+                        sent_nll=round(-sent_nll_sum.item(), 4),
			
 
				+                        sent_ppl=round(sent_ppl.item(), 4)
			
 
				+                        )
			
 
				+                    ppl_out_batch += ppl_out
			
 
				+                    utt2nll = round(-sent_nll_sum.item(), 5)
			
 
				+                    item = {'key': key, 'value': ppl_out}
			
 
				+                    if writer is not None:
			
 
				+                        writer["ppl"][key+":\n"] = ppl_out
			
 
				+                        writer["utt2nll"][key] = str(utt2nll)
			
 
				+                    results.append(item)
			
 
				+
			
 
				+            ppl_out_all += ppl_out_batch
			
 
				+            
			
 
				+            assert _bs == len(nll) == len(lengths), (_bs, len(nll), len(lengths))
			
 
				+            # nll: (B, L) -> (B,)
			
 
				+            nll = nll.detach().cpu().numpy().sum(1)
			
 
				+            # lengths: (B,)
			
 
				+            lengths = lengths.detach().cpu().numpy()
			
 
				+            total_nll += nll.sum()
			
 
				+            total_ntokens += lengths.sum()
			
 
				+
			
 
				+        if log_base is None:
			
 
				+            ppl = np.exp(total_nll / total_ntokens)
			
 
				+        else:
			
 
				+            ppl = log_base ** (total_nll / total_ntokens / np.log(log_base))
			
 
				+
			
 
				+        avg_ppl = 'logprob= {total_nll} ppl= {total_ppl}\n'.format(
			
 
				+            total_nll=round(-total_nll.item(), 4),
			
 
				+            total_ppl=round(ppl.item(), 4)
			
 
				+            )
			
 
				+        item = {'key': 'AVG PPL', 'value': avg_ppl}
			
 
				+        ppl_out_all += avg_ppl
			
 
				+        if writer is not None:
			
 
				+            writer["ppl"]["AVG PPL : "] = avg_ppl
			
 
				+        results.append(item)
			
 
				+
			
 
				+        return results
			
 
				+
			
 
				+    return _forward
			
 
				+
			
 
				+
			
 
				+def get_parser():
			
 
				+    parser = config_argparse.ArgumentParser(
			
 
				+        description="Calc perplexity",
			
 
				+        formatter_class=argparse.ArgumentDefaultsHelpFormatter,
			
 
				+    )
			
 
				+
			
 
				+    parser.add_argument(
			
 
				+        "--log_level",
			
 
				+        type=lambda x: x.upper(),
			
 
				+        default="INFO",
			
 
				+        choices=("CRITICAL", "ERROR", "WARNING", "INFO", "DEBUG", "NOTSET"),
			
 
				+        help="The verbose level of logging",
			
 
				+    )
			
 
				+
			
 
				+    parser.add_argument("--output_dir", type=str, required=False)
			
 
				+    parser.add_argument(
			
 
				+        "--ngpu",
			
 
				+        type=int,
			
 
				+        default=0,
			
 
				+        help="The number of gpus. 0 indicates CPU mode",
			
 
				+    )
			
 
				+    parser.add_argument("--seed", type=int, default=0, help="Random seed")
			
 
				+    parser.add_argument(
			
 
				+        "--dtype",
			
 
				+        default="float32",
			
 
				+        choices=["float16", "float32", "float64"],
			
 
				+        help="Data type",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--num_workers",
			
 
				+        type=int,
			
 
				+        default=1,
			
 
				+        help="The number of workers used for DataLoader",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--batch_size",
			
 
				+        type=int,
			
 
				+        default=1,
			
 
				+        help="The batch size for inference",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--log_base",
			
 
				+        type=float_or_none,
			
 
				+        default=10,
			
 
				+        help="The base of logarithm for Perplexity. "
			
 
				+             "If None, napier's constant is used.",
			
 
				+        required=False
			
 
				+    )
			
 
				+
			
 
				+    group = parser.add_argument_group("Input data related")
			
 
				+    group.add_argument(
			
 
				+        "--data_path_and_name_and_type",
			
 
				+        type=str2triple_str,
			
 
				+        action="append",
			
 
				+        required=False
			
 
				+    )
			
 
				+    group.add_argument(
			
 
				+        "--raw_inputs",
			
 
				+        type=str,
			
 
				+        required=False
			
 
				+    )
			
 
				+    group.add_argument("--key_file", type=str_or_none)
			
 
				+    group.add_argument("--allow_variable_data_keys", type=str2bool, default=False)
			
 
				+
			
 
				+    group.add_argument("--split_with_space", type=str2bool, default=False)
			
 
				+    group.add_argument("--seg_dict_file", type=str_or_none)
			
 
				+
			
 
				+    group = parser.add_argument_group("The model configuration related")
			
 
				+    group.add_argument("--train_config", type=str)
			
 
				+    group.add_argument("--model_file", type=str)
			
 
				+
			
 
				+    return parser
			
 
				+
			
 
				+
			
 
				+def main(cmd=None):
			
 
				+    print(get_commandline_args(), file=sys.stderr)
			
 
				+    parser = get_parser()
			
 
				+    args = parser.parse_args(cmd)
			
 
				+    kwargs = vars(args)
			
 
				+    inference(**kwargs)
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    main()
			
 
				+
			
--- a/funasr/bin/lm_inference_launch.py
+++ b/funasr/bin/lm_inference_launch.py
@@ -0,0 +1,130 @@
 
				+#!/usr/bin/env python3
			
 
				+# Copyright ESPnet (https://github.com/espnet/espnet). All Rights Reserved.
			
 
				+#  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
			
 
				+
			
 
				+import argparse
			
 
				+import logging
			
 
				+import os
			
 
				+import sys
			
 
				+from typing import Union, Dict, Any
			
 
				+
			
 
				+from funasr.utils import config_argparse
			
 
				+from funasr.utils.cli_utils import get_commandline_args
			
 
				+from funasr.utils.types import str2bool
			
 
				+from funasr.utils.types import str2triple_str
			
 
				+from funasr.utils.types import str_or_none
			
 
				+from funasr.utils.types import float_or_none
			
 
				+
			
 
				+
			
 
				+def get_parser():
			
 
				+    parser = config_argparse.ArgumentParser(
			
 
				+        description="Calc perplexity",
			
 
				+        formatter_class=argparse.ArgumentDefaultsHelpFormatter,
			
 
				+    )
			
 
				+
			
 
				+    parser.add_argument(
			
 
				+        "--log_level",
			
 
				+        type=lambda x: x.upper(),
			
 
				+        default="INFO",
			
 
				+        choices=("CRITICAL", "ERROR", "WARNING", "INFO", "DEBUG", "NOTSET"),
			
 
				+        help="The verbose level of logging",
			
 
				+    )
			
 
				+    parser.add_argument("--output_dir", type=str, required=True)
			
 
				+    parser.add_argument("--gpuid_list", type=str, required=True)
			
 
				+    parser.add_argument(
			
 
				+        "--ngpu",
			
 
				+        type=int,
			
 
				+        default=0,
			
 
				+        help="The number of gpus. 0 indicates CPU mode",
			
 
				+    )
			
 
				+    parser.add_argument("--seed", type=int, default=0, help="Random seed")
			
 
				+    parser.add_argument("--njob", type=int, default=1, help="Random seed")
			
 
				+    parser.add_argument(
			
 
				+        "--dtype",
			
 
				+        default="float32",
			
 
				+        choices=["float16", "float32", "float64"],
			
 
				+        help="Data type",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--num_workers",
			
 
				+        type=int,
			
 
				+        default=1,
			
 
				+        help="The number of workers used for DataLoader",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--batch_size",
			
 
				+        type=int,
			
 
				+        default=1,
			
 
				+        help="The batch size for inference",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--log_base",
			
 
				+        type=float_or_none,
			
 
				+        default=10,
			
 
				+        help="The base of logarithm for Perplexity. "
			
 
				+             "If None, napier's constant is used.",
			
 
				+        required=False
			
 
				+    )
			
 
				+
			
 
				+    group = parser.add_argument_group("Input data related")
			
 
				+    group.add_argument(
			
 
				+        "--data_path_and_name_and_type",
			
 
				+        type=str2triple_str,
			
 
				+        action="append",
			
 
				+        required=False
			
 
				+    )
			
 
				+    group.add_argument(
			
 
				+        "--raw_inputs",
			
 
				+        type=str,
			
 
				+        required=False
			
 
				+    )
			
 
				+    group.add_argument("--key_file", type=str_or_none)
			
 
				+    group.add_argument("--allow_variable_data_keys", type=str2bool, default=False)
			
 
				+
			
 
				+    group.add_argument("--split_with_space", type=str2bool, default=False)
			
 
				+    group.add_argument("--seg_dict_file", type=str_or_none)
			
 
				+
			
 
				+    group = parser.add_argument_group("The model configuration related")
			
 
				+    group.add_argument("--train_config", type=str)
			
 
				+    group.add_argument("--model_file", type=str)
			
 
				+    group.add_argument("--mode", type=str, default="lm")
			
 
				+    return parser
			
 
				+
			
 
				+def inference_launch(mode, **kwargs):
			
 
				+    if mode == "transformer":
			
 
				+        from funasr.bin.lm_inference import inference_modelscope
			
 
				+        return inference_modelscope(**kwargs)
			
 
				+    else:
			
 
				+        logging.info("Unknown decoding mode: {}".format(mode))
			
 
				+        return None
			
 
				+
			
 
				+
			
 
				+def main(cmd=None):
			
 
				+    print(get_commandline_args(), file=sys.stderr)
			
 
				+    parser = get_parser()
			
 
				+    args = parser.parse_args(cmd)
			
 
				+    kwargs = vars(args)
			
 
				+    kwargs.pop("config", None)
			
 
				+
			
 
				+    # set logging messages
			
 
				+    logging.basicConfig(
			
 
				+        level=args.log_level,
			
 
				+        format="%(asctime)s (%(module)s:%(lineno)d) %(levelname)s: %(message)s",
			
 
				+    )
			
 
				+    logging.info("Decoding args: {}".format(kwargs))
			
 
				+
			
 
				+    # gpu setting
			
 
				+    if args.ngpu > 0:
			
 
				+        jobid = int(args.output_dir.split(".")[-1])
			
 
				+        gpuid = args.gpuid_list.split(",")[(jobid - 1) // args.njob]
			
 
				+        os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
			
 
				+        os.environ["CUDA_VISIBLE_DEVICES"] = gpuid
			
 
				+
			
 
				+    kwargs.pop("gpuid_list", None)
			
 
				+    kwargs.pop("njob", None)
			
 
				+    results = inference_launch(**kwargs)
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    main()
			
 
				+
			
--- a/funasr/bin/lm_train.py
+++ b/funasr/bin/lm_train.py
@@ -1,22 +1,46 @@
 
				 #!/usr/bin/env python3
			
 
				-from funasr.tasks.lm import LMTask
			
 
				-
			
 
				-
			
 
				-def get_parser():
			
 
				-    parser = LMTask.get_parser()
			
 
				-    return parser
			
 
				 
			
 
				+import os
			
 
				 
			
 
				-def main(cmd=None):
			
 
				-    """LM training.
			
 
				-
			
 
				-    Example:
			
 
				-
			
 
				-        % python lm_train.py asr --print_config --optim adadelta
			
 
				-        % python lm_train.py --config conf/train_asr.yaml
			
 
				-    """
			
 
				-    LMTask.main(cmd=cmd)
			
 
				+from funasr.tasks.lm import LMTask
			
 
				 
			
 
				 
			
 
				-if __name__ == "__main__":
			
 
				-    main()
			
 
				+# for LM Training
			
 
				+def parse_args():
			
 
				+    parser = LMTask.get_parser()
			
 
				+    parser.add_argument(
			
 
				+        "--gpu_id",
			
 
				+        type=int,
			
 
				+        default=0,
			
 
				+        help="local gpu id.",
			
 
				+    )
			
 
				+    args = parser.parse_args()
			
 
				+    return args
			
 
				+
			
 
				+
			
 
				+def main(args=None, cmd=None):
			
 
				+    # for LM Training
			
 
				+    LMTask.main(args=args, cmd=cmd)
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    args = parse_args()
			
 
				+
			
 
				+    # setup local gpu_id
			
 
				+    os.environ['CUDA_VISIBLE_DEVICES'] = str(args.gpu_id)
			
 
				+
			
 
				+    # DDP settings
			
 
				+    if args.ngpu > 1:
			
 
				+        args.distributed = True
			
 
				+    else:
			
 
				+        args.distributed = False
			
 
				+    assert args.num_worker_count == 1
			
 
				+
			
 
				+    # re-compute batch size: when dataset type is small
			
 
				+    if args.dataset_type == "small" and args.ngpu != 0:
			
 
				+        if args.batch_size is not None:
			
 
				+            args.batch_size = args.batch_size * args.ngpu
			
 
				+        if args.batch_bins is not None:
			
 
				+            args.batch_bins = args.batch_bins * args.ngpu
			
 
				+
			
 
				+    main(args=args)
			
--- a/funasr/bin/tokenize_text.py
+++ b/funasr/bin/tokenize_text.py
@@ -0,0 +1,283 @@
 
				+#!/usr/bin/env python3
			
 
				+import argparse
			
 
				+from collections import Counter
			
 
				+import logging
			
 
				+from pathlib import Path
			
 
				+import sys
			
 
				+from typing import List
			
 
				+from typing import Optional
			
 
				+
			
 
				+from typeguard import check_argument_types
			
 
				+
			
 
				+from funasr.utils.cli_utils import get_commandline_args
			
 
				+from funasr.text.build_tokenizer import build_tokenizer
			
 
				+from funasr.text.cleaner import TextCleaner
			
 
				+from funasr.text.phoneme_tokenizer import g2p_choices
			
 
				+from funasr.utils.types import str2bool
			
 
				+from funasr.utils.types import str_or_none
			
 
				+
			
 
				+
			
 
				+def field2slice(field: Optional[str]) -> slice:
			
 
				+    """Convert field string to slice
			
 
				+
			
 
				+    Note that field string accepts 1-based integer.
			
 
				+
			
 
				+    Examples:
			
 
				+        >>> field2slice("1-")
			
 
				+        slice(0, None, None)
			
 
				+        >>> field2slice("1-3")
			
 
				+        slice(0, 3, None)
			
 
				+        >>> field2slice("-3")
			
 
				+        slice(None, 3, None)
			
 
				+    """
			
 
				+    field = field.strip()
			
 
				+    try:
			
 
				+        if "-" in field:
			
 
				+            # e.g. "2-" or "2-5" or "-7"
			
 
				+            s1, s2 = field.split("-", maxsplit=1)
			
 
				+            if s1.strip() == "":
			
 
				+                s1 = None
			
 
				+            else:
			
 
				+                s1 = int(s1)
			
 
				+                if s1 == 0:
			
 
				+                    raise ValueError("1-based string")
			
 
				+            if s2.strip() == "":
			
 
				+                s2 = None
			
 
				+            else:
			
 
				+                s2 = int(s2)
			
 
				+        else:
			
 
				+            # e.g. "2"
			
 
				+            s1 = int(field)
			
 
				+            s2 = s1 + 1
			
 
				+            if s1 == 0:
			
 
				+                raise ValueError("must be 1 or more value")
			
 
				+    except ValueError:
			
 
				+        raise RuntimeError(f"Format error: e.g. '2-', '2-5', or '-5': {field}")
			
 
				+
			
 
				+    if s1 is None:
			
 
				+        slic = slice(None, s2)
			
 
				+    else:
			
 
				+        # -1 because of 1-based integer following "cut" command
			
 
				+        # e.g "1-3" -> slice(0, 3)
			
 
				+        slic = slice(s1 - 1, s2)
			
 
				+    return slic
			
 
				+
			
 
				+
			
 
				+def tokenize(
			
 
				+    input: str,
			
 
				+    output: str,
			
 
				+    field: Optional[str],
			
 
				+    delimiter: Optional[str],
			
 
				+    token_type: str,
			
 
				+    space_symbol: str,
			
 
				+    non_linguistic_symbols: Optional[str],
			
 
				+    bpemodel: Optional[str],
			
 
				+    log_level: str,
			
 
				+    write_vocabulary: bool,
			
 
				+    vocabulary_size: int,
			
 
				+    remove_non_linguistic_symbols: bool,
			
 
				+    cutoff: int,
			
 
				+    add_symbol: List[str],
			
 
				+    cleaner: Optional[str],
			
 
				+    g2p: Optional[str],
			
 
				+):
			
 
				+    assert check_argument_types()
			
 
				+
			
 
				+    logging.basicConfig(
			
 
				+        level=log_level,
			
 
				+        format="%(asctime)s (%(module)s:%(lineno)d) %(levelname)s: %(message)s",
			
 
				+    )
			
 
				+    if input == "-":
			
 
				+        fin = sys.stdin
			
 
				+    else:
			
 
				+        fin = Path(input).open("r", encoding="utf-8")
			
 
				+    if output == "-":
			
 
				+        fout = sys.stdout
			
 
				+    else:
			
 
				+        p = Path(output)
			
 
				+        p.parent.mkdir(parents=True, exist_ok=True)
			
 
				+        fout = p.open("w", encoding="utf-8")
			
 
				+
			
 
				+    cleaner = TextCleaner(cleaner)
			
 
				+    tokenizer = build_tokenizer(
			
 
				+        token_type=token_type,
			
 
				+        bpemodel=bpemodel,
			
 
				+        delimiter=delimiter,
			
 
				+        space_symbol=space_symbol,
			
 
				+        non_linguistic_symbols=non_linguistic_symbols,
			
 
				+        remove_non_linguistic_symbols=remove_non_linguistic_symbols,
			
 
				+        g2p_type=g2p,
			
 
				+    )
			
 
				+
			
 
				+    counter = Counter()
			
 
				+    if field is not None:
			
 
				+        field = field2slice(field)
			
 
				+
			
 
				+    for line in fin:
			
 
				+        line = line.rstrip()
			
 
				+        if field is not None:
			
 
				+            # e.g. field="2-"
			
 
				+            # uttidA hello world!! -> hello world!!
			
 
				+            tokens = line.split(delimiter)
			
 
				+            tokens = tokens[field]
			
 
				+            if delimiter is None:
			
 
				+                line = " ".join(tokens)
			
 
				+            else:
			
 
				+                line = delimiter.join(tokens)
			
 
				+
			
 
				+        line = cleaner(line)
			
 
				+        tokens = tokenizer.text2tokens(line)
			
 
				+        if not write_vocabulary:
			
 
				+            fout.write(" ".join(tokens) + "\n")
			
 
				+        else:
			
 
				+            for t in tokens:
			
 
				+                counter[t] += 1
			
 
				+
			
 
				+    if not write_vocabulary:
			
 
				+        return
			
 
				+    
			
 
				+    ## FIXME
			
 
				+    ## del duplicate add_symbols in counter
			
 
				+    for symbol_and_id in add_symbol:
			
 
				+        # e.g symbol="<blank>:0"
			
 
				+        try:
			
 
				+            symbol, idx = symbol_and_id.split(":")
			
 
				+        except ValueError:
			
 
				+            raise RuntimeError(f"Format error: e.g. '<blank>:0': {symbol_and_id}")
			
 
				+        symbol = symbol.strip()
			
 
				+        if symbol in counter:
			
 
				+            del counter[symbol]
			
 
				+
			
 
				+    # ======= write_vocabulary mode from here =======
			
 
				+    # Sort by the number of occurrences in descending order
			
 
				+    # and filter lower frequency words than cutoff value
			
 
				+    words_and_counts = list(
			
 
				+        filter(lambda x: x[1] > cutoff, sorted(counter.items(), key=lambda x: -x[1]))
			
 
				+    )
			
 
				+    # Restrict the vocabulary size
			
 
				+    if vocabulary_size > 0:
			
 
				+        if vocabulary_size < len(add_symbol):
			
 
				+            raise RuntimeError(f"vocabulary_size is too small: {vocabulary_size}")
			
 
				+        words_and_counts = words_and_counts[: vocabulary_size - len(add_symbol)]
			
 
				+
			
 
				+    # Parse the values of --add_symbol
			
 
				+    for symbol_and_id in add_symbol:
			
 
				+        # e.g symbol="<blank>:0"
			
 
				+        try:
			
 
				+            symbol, idx = symbol_and_id.split(":")
			
 
				+            idx = int(idx)
			
 
				+        except ValueError:
			
 
				+            raise RuntimeError(f"Format error: e.g. '<blank>:0': {symbol_and_id}")
			
 
				+        symbol = symbol.strip()
			
 
				+
			
 
				+        # e.g. idx=0  -> append as the first symbol
			
 
				+        # e.g. idx=-1 -> append as the last symbol
			
 
				+        if idx < 0:
			
 
				+            idx = len(words_and_counts) + 1 + idx
			
 
				+        words_and_counts.insert(idx, (symbol, None))
			
 
				+
			
 
				+    # Write words
			
 
				+    for w, c in words_and_counts:
			
 
				+        fout.write(w + "\n")
			
 
				+
			
 
				+    # Logging
			
 
				+    total_count = sum(counter.values())
			
 
				+    invocab_count = sum(c for w, c in words_and_counts if c is not None)
			
 
				+    logging.info(f"OOV rate = {(total_count - invocab_count) / total_count * 100} %")
			
 
				+
			
 
				+
			
 
				+def get_parser() -> argparse.ArgumentParser:
			
 
				+    parser = argparse.ArgumentParser(
			
 
				+        description="Tokenize texts",
			
 
				+        formatter_class=argparse.ArgumentDefaultsHelpFormatter,
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--log_level",
			
 
				+        type=lambda x: x.upper(),
			
 
				+        default="INFO",
			
 
				+        choices=("CRITICAL", "ERROR", "WARNING", "INFO", "DEBUG", "NOTSET"),
			
 
				+        help="The verbose level of logging",
			
 
				+    )
			
 
				+
			
 
				+    parser.add_argument(
			
 
				+        "--input", "-i", required=True, help="Input text. - indicates sys.stdin"
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--output", "-o", required=True, help="Output text. - indicates sys.stdout"
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--field",
			
 
				+        "-f",
			
 
				+        help="The target columns of the input text as 1-based integer. e.g 2-",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--token_type",
			
 
				+        "-t",
			
 
				+        default="char",
			
 
				+        choices=["char", "bpe", "word", "phn"],
			
 
				+        help="Token type",
			
 
				+    )
			
 
				+    parser.add_argument("--delimiter", "-d", default=None, help="The delimiter")
			
 
				+    parser.add_argument("--space_symbol", default="<space>", help="The space symbol")
			
 
				+    parser.add_argument("--bpemodel", default=None, help="The bpemodel file path")
			
 
				+    parser.add_argument(
			
 
				+        "--non_linguistic_symbols",
			
 
				+        type=str_or_none,
			
 
				+        help="non_linguistic_symbols file path",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--remove_non_linguistic_symbols",
			
 
				+        type=str2bool,
			
 
				+        default=False,
			
 
				+        help="Remove non-language-symbols from tokens",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--cleaner",
			
 
				+        type=str_or_none,
			
 
				+        choices=[None, "tacotron", "jaconv", "vietnamese", "korean_cleaner"],
			
 
				+        default=None,
			
 
				+        help="Apply text cleaning",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--g2p",
			
 
				+        type=str_or_none,
			
 
				+        choices=g2p_choices,
			
 
				+        default=None,
			
 
				+        help="Specify g2p method if --token_type=phn",
			
 
				+    )
			
 
				+
			
 
				+    group = parser.add_argument_group("write_vocabulary mode related")
			
 
				+    group.add_argument(
			
 
				+        "--write_vocabulary",
			
 
				+        type=str2bool,
			
 
				+        default=False,
			
 
				+        help="Write tokens list instead of tokenized text per line",
			
 
				+    )
			
 
				+    group.add_argument("--vocabulary_size", type=int, default=0, help="Vocabulary size")
			
 
				+    group.add_argument(
			
 
				+        "--cutoff",
			
 
				+        default=0,
			
 
				+        type=int,
			
 
				+        help="cut-off frequency used for write-vocabulary mode",
			
 
				+    )
			
 
				+    group.add_argument(
			
 
				+        "--add_symbol",
			
 
				+        type=str,
			
 
				+        default=[],
			
 
				+        action="append",
			
 
				+        help="Append symbol e.g. --add_symbol '<blank>:0' --add_symbol '<unk>:1'",
			
 
				+    )
			
 
				+
			
 
				+    return parser
			
 
				+
			
 
				+
			
 
				+def main(cmd=None):
			
 
				+    print(get_commandline_args(), file=sys.stderr)
			
 
				+    parser = get_parser()
			
 
				+    args = parser.parse_args(cmd)
			
 
				+    kwargs = vars(args)
			
 
				+    tokenize(**kwargs)
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    main()
			
--- a/funasr/datasets/preprocessor.py
+++ b/funasr/datasets/preprocessor.py
@@ -58,6 +58,15 @@ def seg_tokenize(txt, seg_dict):
 
				             continue
			
 
				     return out_txt.strip().split()
			
 
				 
			
 
				+def seg_tokenize_wo_pattern(txt, seg_dict):
			
 
				+    out_txt = ""
			
 
				+    for word in txt:
			
 
				+        if word in seg_dict:
			
 
				+            out_txt += seg_dict[word] + " "
			
 
				+        else:
			
 
				+            out_txt += "<unk>" + " "
			
 
				+    return out_txt.strip().split()
			
 
				+
			
 
				 
			
 
				 def framing(
			
 
				         x,
			
@@ -372,6 +381,70 @@ class CommonPreprocessor(AbsPreprocessor):
 
				         data = self._text_process(data)
			
 
				         return data
			
 
				 
			
 
				+## FIXME
			
 
				+class LMPreprocessor(CommonPreprocessor):
			
 
				+    def __init__(
			
 
				+            self,
			
 
				+            train: bool,
			
 
				+            token_type: str = None,
			
 
				+            token_list: Union[Path, str, Iterable[str]] = None,
			
 
				+            bpemodel: Union[Path, str, Iterable[str]] = None,
			
 
				+            text_cleaner: Collection[str] = None,
			
 
				+            g2p_type: str = None,
			
 
				+            unk_symbol: str = "<unk>",
			
 
				+            space_symbol: str = "<space>",
			
 
				+            non_linguistic_symbols: Union[Path, str, Iterable[str]] = None,
			
 
				+            delimiter: str = None,
			
 
				+            rir_scp: str = None,
			
 
				+            rir_apply_prob: float = 1.0,
			
 
				+            noise_scp: str = None,
			
 
				+            noise_apply_prob: float = 1.0,
			
 
				+            noise_db_range: str = "3_10",
			
 
				+            speech_volume_normalize: float = None,
			
 
				+            speech_name: str = "speech",
			
 
				+            text_name: str = "text",
			
 
				+            split_with_space: bool = False,
			
 
				+            seg_dict_file: str = None,
			
 
				+    ):
			
 
				+        super().__init__(train,
			
 
				+                         token_type,
			
 
				+                         token_list,
			
 
				+                         bpemodel,
			
 
				+                         text_cleaner,
			
 
				+                         g2p_type,
			
 
				+                         unk_symbol,
			
 
				+                         space_symbol,
			
 
				+                         non_linguistic_symbols,
			
 
				+                         delimiter,
			
 
				+                         rir_scp,
			
 
				+                         rir_apply_prob,
			
 
				+                         noise_scp,
			
 
				+                         noise_apply_prob,
			
 
				+                         noise_db_range,
			
 
				+                         speech_volume_normalize,
			
 
				+                         speech_name,
			
 
				+                         text_name,
			
 
				+                         split_with_space,
			
 
				+                         seg_dict_file,
			
 
				+                         )
			
 
				+
			
 
				+    def _text_process(
			
 
				+            self, data: Dict[str, Union[str, np.ndarray]]
			
 
				+    ) -> Dict[str, np.ndarray]:
			
 
				+        if self.text_name in data and self.tokenizer is not None:
			
 
				+            text = data[self.text_name]
			
 
				+            text = self.text_cleaner(text)
			
 
				+            if self.split_with_space:
			
 
				+                tokens = text.strip().split(" ")
			
 
				+                if self.seg_dict is not None:
			
 
				+                    tokens = seg_tokenize_wo_pattern(tokens, self.seg_dict)
			
 
				+            else:
			
 
				+                tokens = self.tokenizer.text2tokens(text)
			
 
				+            text_ints = self.token_id_converter.tokens2ids(tokens)
			
 
				+            data[self.text_name] = np.array(text_ints, dtype=np.int64)
			
 
				+        assert check_return_type(data)
			
 
				+        return data
			
 
				+
			
 
				 
			
 
				 class CommonPreprocessor_multi(AbsPreprocessor):
			
 
				     def __init__(
			
--- a/funasr/lm/espnet_model.py
+++ b/funasr/lm/espnet_model.py
@@ -46,10 +46,10 @@ class ESPnetLanguageModel(AbsESPnetModel):
 
				 
			
 
				         # 1. Create a sentence pair like '<sos> w1 w2 w3' and 'w1 w2 w3 <eos>'
			
 
				         # text: (Batch, Length) -> x, y: (Batch, Length + 1)
			
 
				-        x = F.pad(text, [1, 0], "constant", self.eos)
			
 
				+        x = F.pad(text, [1, 0], "constant", self.sos)
			
 
				         t = F.pad(text, [0, 1], "constant", self.ignore_id)
			
 
				         for i, l in enumerate(text_lengths):
			
 
				-            t[i, l] = self.sos
			
 
				+            t[i, l] = self.eos
			
 
				         x_lengths = text_lengths + 1
			
 
				 
			
 
				         # 2. Forward Language model
			
--- a/funasr/tasks/abs_task.py
+++ b/funasr/tasks/abs_task.py
@@ -43,6 +43,7 @@ from funasr.iterators.abs_iter_factory import AbsIterFactory
 
				 from funasr.iterators.chunk_iter_factory import ChunkIterFactory
			
 
				 from funasr.iterators.multiple_iter_factory import MultipleIterFactory
			
 
				 from funasr.iterators.sequence_iter_factory import SequenceIterFactory
			
 
				+from funasr.main_funcs.collect_stats import collect_stats
			
 
				 from funasr.optimizers.sgd import SGD
			
 
				 from funasr.optimizers.fairseq_adam import FairseqAdam
			
 
				 from funasr.samplers.build_batch_sampler import BATCH_TYPES
			
@@ -1272,6 +1273,52 @@ class AbsTask(ABC):
 
				 
			
 
				         if args.dry_run:
			
 
				             pass
			
 
				+        elif args.collect_stats:
			
 
				+            # Perform on collect_stats mode. This mode has two roles
			
 
				+            # - Derive the length and dimension of all input data
			
 
				+            # - Accumulate feats, square values, and the length for whitening
			
 
				+
			
 
				+            if args.valid_batch_size is None:
			
 
				+                args.valid_batch_size = args.batch_size
			
 
				+
			
 
				+            if len(args.train_shape_file) != 0:
			
 
				+                train_key_file = args.train_shape_file[0]
			
 
				+            else:
			
 
				+                train_key_file = None
			
 
				+            if len(args.valid_shape_file) != 0:
			
 
				+                valid_key_file = args.valid_shape_file[0]
			
 
				+            else:
			
 
				+                valid_key_file = None
			
 
				+
			
 
				+            collect_stats(
			
 
				+                model=model,
			
 
				+                train_iter=cls.build_streaming_iterator(
			
 
				+                    data_path_and_name_and_type=args.train_data_path_and_name_and_type,
			
 
				+                    key_file=train_key_file,
			
 
				+                    batch_size=args.batch_size,
			
 
				+                    dtype=args.train_dtype,
			
 
				+                    num_workers=args.num_workers,
			
 
				+                    allow_variable_data_keys=args.allow_variable_data_keys,
			
 
				+                    ngpu=args.ngpu,
			
 
				+                    preprocess_fn=cls.build_preprocess_fn(args, train=False),
			
 
				+                    collate_fn=cls.build_collate_fn(args, train=False),
			
 
				+                ),
			
 
				+                valid_iter=cls.build_streaming_iterator(
			
 
				+                    data_path_and_name_and_type=args.valid_data_path_and_name_and_type,
			
 
				+                    key_file=valid_key_file,
			
 
				+                    batch_size=args.valid_batch_size,
			
 
				+                    dtype=args.train_dtype,
			
 
				+                    num_workers=args.num_workers,
			
 
				+                    allow_variable_data_keys=args.allow_variable_data_keys,
			
 
				+                    ngpu=args.ngpu,
			
 
				+                    preprocess_fn=cls.build_preprocess_fn(args, train=False),
			
 
				+                    collate_fn=cls.build_collate_fn(args, train=False),
			
 
				+                ),
			
 
				+                output_dir=output_dir,
			
 
				+                ngpu=args.ngpu,
			
 
				+                log_interval=args.log_interval,
			
 
				+                write_collected_feats=args.write_collected_feats,
			
 
				+            )
			
 
				         else:
			
 
				             logging.info("Training args: {}".format(args))
			
 
				             # 6. Loads pre-trained model
			
--- a/funasr/tasks/lm.py
+++ b/funasr/tasks/lm.py
@@ -58,7 +58,7 @@ class LMTask(AbsTask):
 
				         # NOTE(kamo): add_arguments(..., required=True) can't be used
			
 
				         # to provide --print_config mode. Instead of it, do as
			
 
				         required = parser.get_default("required")
			
 
				-        required += ["token_list"]
			
 
				+        # required += ["token_list"]
			
 
				 
			
 
				         group.add_argument(
			
 
				             "--token_list",