跳到主要內容

發表文章

目前顯示的是 2018的文章

Mozilla Deep Speech 中文心得

因為一些特殊原因 導致我需要開始接觸 Speech to text (STT) 這塊領域 完全對這方面不熟,於是乎就開始了收集資料之旅 有些推薦的教學影片如果有想知道STT如何實踐的,可以去看 李宏毅老師的影片 真的看完就豁然開朗了起來!!! 建議有興趣的可以去看看 這篇主要是怕自己忘記如何實踐Deep speech for 中文 因為在  discourse.mozilla.org 看了很多篇 慢慢整理 所以有了這篇的紀錄 來記錄自己的心路歷程 首先是數據的部份 訓練的語料庫我是用THCHS30的 open data (期待之後Common voice 出中文的資料集) 還有一些自己錄的音檔、TED的影片&字幕 等等 THCHS30的資料下載點:  http://www.openslr.org/18/ 有興趣的人也是可以去下載 AISHELL 的資料 AISHELL 下載點: http://www.openslr.org/33/ 只是這兩個資料都需要稍稍整理一下 正文開始! 1. 需要建立自己的alphabet.txt 因為是中文 所以不能用Deep speech的alphabet.txt (因為裡面是a b c d) 所以需要添加自己的中文字(是字不是詞) 所有語料庫中 有出現過的字 都必須出現在這份檔案中 所以我就... 寫個小小的script 把所有transcript中的字都塞進去這裡面 因為中文字大概有幾萬個字吧...慢慢列是會要人命的... 當然網路上可能有大神們整理過的 找找看或許有吧 2. 建立 train, dev, test 三個資料夾 然後把音檔全部都丟丟進去 分配的比率 看個人喜好 我自己是 70 : 20 : 10 見仁見智 然後建立 train.csv, dev.csv, test.csv 這三個csv中,應該有三種資料 (依序):路徑、檔案大小(bytes)、音檔對應到的文字(transcript) 大概像是這樣子: wav_filename,wav_filesize,transcript data/thchs30_data/test/D11_750.wav,333356,東 北 軍 的 一 些 愛 國 將 士 馬 佔 山 李...