以看到的這條豆瓣廣播為例。保存圖片後打開Online OCR(遊客每小時可轉換15個文件),上傳圖片即可轉換為文本。對於標準字型的文本識別率還是蠻高的,但是換行時會有多餘的空格。人工刪除空個後打開這個繁體簡體轉換/編碼轉換,粘貼文本到輸入框,點擊轉換為繁體按鈕,即可轉換實現繁簡轉換。
在 Fedora39 上可以安裝 gImageReader 來執行 tesseract-ocr。PDF 文件也可以直接打開。用鼠標選取要識別的區域,右鍵選識別就可以了。
sudo dnf install gimagereader-gtk #安裝簡體中文、繁體中文、繁體中文直排支持 sudo dnf install tesseract-langpack-chi_sim tesseract-langpack-chi_tra tesseract-langpack-chi_tra_vert tesseract-script-hans tesseract-script-hant tesseract-script-hant_vert
本文更新於 2024/04/18。