首页天道酬勤自动语音识别器,ld3320语音识别模块编程教学

自动语音识别器,ld3320语音识别模块编程教学

张世龙 05-12 05:18 18次浏览

在此说明ASR脚本的流程。 ASR脚本模板中的脚本(asr.sh )包括14个阶段。

以下是各阶段的简单概要。

阶段1 :创建与学习集、验证集和评估集对应的数据目录的阶段。 将函数调用到: local/data.sh。

第2阶段(可选)根据谈话速度的变化扩展数据的阶段。 speed _ pur turb _ factors仅在指定了选项时运行。 培训集目录中的数据。 在第1阶段创建的wav.scp中,使用sox命令进行扩展。

第三阶段:特征提取阶段。 feats _ type的处理因选项而异。 默认值为feats_type=raw,wav.scp仅格式,不提取要素。 feats_type=raw如果要使用其他功能,请使用Kaldi特征提取。 在这种情况下,必须编译Kaldi。

第四阶段:过滤词语的阶段。 删除学习和验证集的最短阈值以下和最长阈值以上的语音。 可以分别指定最小和最大阈值-min_wav_duration和-max_wav_duration选项。

第5阶段:创建符号列表(词典)的阶段。 使用的符号类型取决于选项-token_type。 token_type=char或token_type=bpe可在ASR中使用。 如果token_type=bpe,则SentencePiece将其拆分为子字。

第6阶段(可选)计算语言模型学习统计信息的阶段。 要动态更改批次大小,请获取各数据的形状信息(系列的长度和大小数)。 如果不使用语言模型,则可以通过将-uss_lm选项设置为uss_lm=false跳过Stage6到8。

第7阶段(可选) :学习语言模型的阶段。 根据-lm_config和-lm_args选项学习语言模型。

第8阶段(可选) :计算所学习语言模型的困惑度(PPL )的阶段。 评价语言模型。

第9阶段:计算用于训练ASR模型的统计数据的阶段。 计算数据的形状信息(系列长度和维数),动态变更批量大小,计算训练数据整体的统计信息(平均值和方差值),使特征正规化。

第10阶段:学习ASR模型的阶段。 根据-asr_config和-asr_args选项训练ASR模型。

第11阶段:使用所学习的模型进行解码的阶段。 根据-inference_config和-inference_args选项,使用学习的语言模型和ASR模型进行估计。

第12阶段:评估解码结果的阶段。 计算字符错误率(CER )和单词错误率(WER )。

阶段13-14 (可选)将经过培训的模型打包并上传到Zenodo的阶段。 要使用它,必须在Zenodo中注册用户并发布任务。 有关详细信息,请参见ESPnet Model Zoo。

所有可用选项都可以在asr.sh --help中找到。

让我给你看一部分内联代码。

$ cdespnet/eg S2/template/as R1 $./ASR.sh-- help 2020-09-14t 15336038336049 (ASR.sh 3360208360 main )/AAA ASR.sh-- train-set train _ set _ name-- valid-set valid _ set _ name-- test _ sets test _ set _ names-src processesstartsfromthespecifiedstage (default='1' )-- stop _ stage # processesisstoppedatthespecifiedstage (default=) --skip _ data _ prep # skipdatapreparationstages ) default skiptrainingstages (default=' false ' )-- skip _ eval # skkskip sippackinganduploadingstages (默认=' true ' )-- ngpu # thenumberofgpus (0' uses CPU,otherwise use gpu,默认=' 1 thenumberofparalleljobsindecoding (默认=' 32 ' )--gpu_inference # W

hether to perform gpu decoding(default="false"). --dumpdir # Directory to dump features(default="dump"). --expdir # Directory to save experiments(default="exp"). --python # Specify python to execute espnet commands(default="python3"). # Data preparation related --local_data_opts # The options given to local/data.sh(default=""). # Speed perturbation related --speed_perturb_factors # speed perturbation factors, e.g. "0.9 1.0 1.1"(separated by space, default=""). # Feature extraction related --feats_type # Feature type(raw, fbank_pitch or extracted, default="raw"). --audio_format # Audio format(only in feats_type=raw, default="flac"). --fs # Sampling rate(default="16k"). --min_wav_duration # Minimum duration in second(default="0.1"). --max_wav_duration # Maximum duration in second(default="20"). # Tokenization related --token_type # Tokenization type(char or bpe, default="bpe"). --nbpe # The number of BPE vocabulary(default="30"). --bpemode # Mode of BPE(unigram or bpe, default="unigram"). --oov # Out of vocabulary symbol(default="<unk>"). --blank # CTC blank symbol(default="<blank>"). --sos_eos # sos and eos symbole(default="<sos/eos>"). --bpe_input_sentence_size # Size of input sentence for BPE(default="100000000"). --bpe_nlsyms # Non-linguistic symbol list for sentencepiece, separated by a comma.(default=""). --bpe_char_cover # Character coverage when modeling BPE(default="1.0"). # Language model related --lm_tag # Suffix to the result dir for language model training(default=""). --lm_exp # Specify the direcotry path for LM experiment. # If this option is specified, lm_tag is ignored(default=""). --lm_config # Config for language model training(default=""). --lm_args # Arguments for language model training(default=""). # e.g., --lm_args "--max_epoch 10" # Note that it will overwrite args in lm config. --use_word_lm # Whether to use word language model(default="false"). --word_vocab_size # Size of word vocabulary(default="10000"). --num_splits_lm # Number of splitting for lm corpus(default="1"). # ASR model related --asr_tag # Suffix to the result dir for asr model training(default=""). --asr_exp # Specify the direcotry path for ASR experiment. # If this option is specified, asr_tag is ignored(default=""). --asr_config # Config for asr model training(default=""). --asr_args # Arguments for asr model training(default=""). # e.g., --asr_args "--max_epoch 10" # Note that it will overwrite args in asr config. --feats_normalize # Normalizaton layer type(default="global_mvn"). --num_splits_asr # Number of splitting for lm corpus (default="1"). # Decoding related --inference_tag # Suffix to the result dir for decoding(default=""). --inference_config # Config for decoding(default=""). --inference_args # Arguments for decoding(default=""). # e.g., --inference_args "--lm_weight 0.1" # Note that it will overwrite args in inference config. --inference_lm # Language modle path for decoding(default="valid.loss.ave.pth"). --inference_asr_model # ASR model path for decoding(default="valid.acc.ave.pth"). --download_model # Download a model from Model Zoo and use it for decoding(default=""). # [Task dependent] Set the datadir name created by local/data.sh --train_set # Name of training set(required). --valid_set # Name of validation set used for monitoring/tuning network training(required). --test_sets # Names of test sets. # Multiple items(e.g., both dev and eval sets) can be specified(required). --srctexts # Used for the training of BPE and LM and the creation of a vocabulary list(required). --lm_dev_text # Text file path of language model development set(default=""). --lm_test_text # Text file path of language model evaluation set(default=""). --nlsyms_txt # Non-linguistic symbol list if existing(default="none"). --cleaner # Text cleaner(default="none"). --g2p # g2p method(default="none"). --lang # The language type of corpus(default=noinfo). --asr_speech_fold_length # fold_length for speech data during ASR training(default="800"). --asr_text_fold_length # fold_length for text data during ASR training(default="150"). --lm_fold_length # fold_length for LM training(default="150").
探灵笔记下载安装,印象笔记下载安装