Mozilla 的這款開源的文字轉語音 TTS(Text-to-Speech)引擎,是一個用於生成高級文本到語音的庫。它建立在最新的研究基礎上,旨在實現訓練的簡易性、速度和質量之間的最佳權衡。它帶有預訓練的模型和測量數據集質量的工具,已經在 20 多種語言的產品和研究項目中使用。
一些體驗:
- 雖然我在 Python 3.9 下運行沒有任何問題,但是爲了少出問題,最好是用 3.6。
- 安裝完所有依賴,虛擬環境的文件夾達到 3.1 GB,自帶的英文模型 107 MB,下載的中文模型 654 MB。
- 我電腦沒有 GPU,生成一句話大概耗時 6 秒左右。
- 項目自帶了一個 TTS 服務器,直接運行 tts-server 就可以在網頁上體驗 TTS。
- TTS 有時候(尤其是中文)會抽風。(後來發現是文本沒有加句號導致的)
兩個示例:
The human voice is the most perfect instrument of all.
我們的祖國是花園
如果想要把語音轉換成文字可以使用Mozilla的開源語音轉文字庫DeepSpeech。
本文更新於 2022/04/15。