nEVER Panic

软件

Mozilla 的開源文字轉語音庫

Mozilla 的這款開源的文字轉語音 TTS(Text-to-Speech)引擎，是一個用於生成高級文本到語音的庫。它建立在最新的研究基礎上，旨在實現訓練的簡易性、速度和質量之間的最佳權衡。它帶有預訓練的模型和測量數據集質量的工具，已經在 20 多種語言的產品和研究項目中使用。

一些體驗：

雖然我在 Python 3.9 下運行沒有任何問題，但是爲了少出問題，最好是用 3.6。
安裝完所有依賴，虛擬環境的文件夾達到 3.1 GB，自帶的英文模型 107 MB，下載的中文模型 654 MB。
我電腦沒有 GPU，生成一句話大概耗時 6 秒左右。
項目自帶了一個 TTS 服務器，直接運行 tts-server 就可以在網頁上體驗 TTS。
TTS 有時候（尤其是中文）會抽風。（後來發現是文本沒有加句號導致的）

兩個示例：

The human voice is the most perfect instrument of all.

我們的祖國是花園

如果想要把語音轉換成文字可以使用Mozilla的開源語音轉文字庫DeepSpeech。

本文更新於 2022/04/15。

標籤软件

發佈留言取消回覆