這是tesseract3.04簡(jiǎn)體中文語(yǔ)言包c(diǎn)hi_sim下載,谷歌開(kāi)源OCR,tesseract的最新版本3.04的,對(duì)應(yīng)的簡(jiǎn)體中文語(yǔ)言包,可以不用翻墻下了。
tesseract3.04簡(jiǎn)體中文語(yǔ)言包c(diǎn)hi_sim可以直接將圖片中的文字進(jìn)行識(shí)別,其最新版本3.0已經(jīng)支持中文OCR,并提供了一個(gè)命令行工具,轉(zhuǎn)換成文本信息。tesseract-ocr官方下載據(jù)說(shuō)曾經(jīng)的圖像識(shí)別能力排名第三。tesseract-ocr中文版可以識(shí)別多種格式的圖像文件并將其轉(zhuǎn)換成文本,目前已支持60多種語(yǔ)言(包括中文)。 Tesseract最初由HP公司開(kāi)發(fā),后來(lái)由Google維護(hù),目前發(fā)布在Googel Project上。
tesseract3.04簡(jiǎn)體中文語(yǔ)言包c(diǎn)hi_sim是原先惠普開(kāi)發(fā)的圖像識(shí)別類庫(kù),后面成為Open source,據(jù)說(shuō)曾經(jīng)的圖像識(shí)別能力排名第三,為大家提供的版本是3.02.02 for windows。
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用簡(jiǎn)體中文字庫(kù)(需要下載中文字庫(kù)文件,解壓后,存放到tessdata目錄下去,字庫(kù)文件擴(kuò)展名為 .raineddata 簡(jiǎn)體中文字庫(kù)文件名為: chi_sim.traineddata)
-psm 7 表示告訴tesseract code.jpg圖片是一行文本 這個(gè)參數(shù)可以減少識(shí)別錯(cuò)誤率. 默認(rèn)為 3
configfile 參數(shù)值為tessdata\configs 和 tessdata\tessconfigs 目錄下的文件名