AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection

code github repo

Speech audio examples

This section provides a few speech audio snippets in the AS-70 dataset. Paper section 2.2

Mild

Conversation

Transcription: 他们那里是在小/b学三/b年级,他就开始学习英/b语[英语]了,然后。(They start learning English in the third grade there, and then.)

Command

Transcription: 导航到城南嘉/p盛福特四S店。(Navigate to Chengnan Jiasheng Ford 4S Store.)

Moderate

Conversation

Transcription: 因为我就是[就是]目前感[目前感]受到的话就是人多,哦对,还[还]有[还有/p还有]另外一个方面就是它的工资相对来说不是那么高。(The main thing I feel right now is that there are too many people. Oh, right, another thing is that the salary is not that high.)

Command

Transcription: 播放天上掉个猪八/b[猪八]戒。(Play the song "Tian Shang Diao Ge Zhu Ba Jie")

Severe

Conversation

Transcription: 总体/p[总体/p]来[来]说,深圳还是/p挺[挺/p挺]不[挺不]错[挺不/r挺不错]的就是。(Overall, Shenzhen is still pretty good.)

Command

Transcription: 北[北北北北]京[京]赛/p特[特特特/r]奥莱[莱莱莱莱]。(Beijing Scitech Outlet)


Data partition

PWS speaker number per stuttering severities and partitions. Paper section 3.1

Automatic Speech Recognition (ASR) results

This section provides ASR model results. Paper section 3.2

Conformer Wenetspeech model

Conversation

  • Ground truth: 我是在那个江西的一个 (I am from a place in Jiangxi)
  • Pretrained 50% CER: 我是在个江阳气的歌
  • Finetuned 20% CER: 嗯我是在那个江西的一个歌

Command

  • Ground truth: 明天早上六点十五分吃稀饭 (Eat congee at 6:15 AM tomorrow morning)
  • Pretrained 41.67% CER: 明天早早上六六点十五分只吃洗洗饭
  • Finetuned 0% CER: 明天早上六点十五分吃稀饭

Chinese-hubert-large Wenetspeech model

Conversation

  • Ground truth: 嗯我们的话先给他看一些那种那种就是相关的一些就是 (Well, let's show him some of those, those are related, right)
  • AISHELL1 finetuned 58.33% CER: 我们的画或花欣给他看一些内种内容就是相关的一相关的一些董事
  • AS-70 finetuned 16.67% CER: 我们的话先给它看一些那种就是相关的一些就是

Command

  • Ground truth: 关闭语音 (Turn off voice)
  • AISHELL1 finetuned 100% CER: 观关闭于疑因
  • AS-70 finetuned 0% CER: 关闭语音

Whisper large-v2 model

Conversation

  • Ground truth: 想法然后画出来的一些 这些图吗然后可以用来就是一种进行的一进行一种那种参考我觉得 (I think these are some pictures that are drawn from ideas, and then they can be used as a reference for a kind of)
  • Pretrained 1064% CER: 想法然后画出来的一些些些 这些图嘛然后可可以用来就是一种进行的一进 行 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一
  • Finetuned 5.13% CER: 想法然后画出来的一些 这些图嘛然后可以用来就是一种进行的 进行一种那种参考我觉得

Command

  • Ground truth: 听真的爱你 (Listen to I Really Love You)
  • Pretrained 4420% CER: 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听 听
  • Finetuned 40% CER: 听转身的爱你

Stuttering Event Detection (SED) results

This section provides SED model results. conv: conversation, comm: commands. Each cell shows the F1-score (%). Paper section 3.3

StutterNet model

Conformer model

wav2vec2 model