尚書七號(hào)

尚書7號(hào)文字識(shí)別系統(tǒng)

軟件語言：簡體中文	軟件授權(quán)：免費(fèi)軟件
適用系統(tǒng)：Windows	創(chuàng)建時(shí)間：2021-01-12
軟件廠商/開發(fā)者信息：獨(dú)立開發(fā)者

本地下載毒霸安全下載

錦囊更多

尚書七號(hào)OCR如何識(shí)別提取圖片文字？不用手動(dòng)打字 2020-07-09
提升Git體驗(yàn)：探索Gitui——高效的終端UI工具 2024-01-05
Stirling PDF - 強(qiáng)大的本地 PDF 管理工具 2024-01-05

資訊更多

尚書七號(hào)ocr已注冊(cè)版 v1.0 免費(fèi)版更新 2019-07-31
微信Mac插件——微信小助手，是一款功能強(qiáng)大的插件 2024-01-08
完美解碼：打造頂級(jí)視聽盛宴的終極使用指南 2024-01-06

軟件特色

簡繁字集：除了簡體漢字外，還可以混識(shí)臺(tái)灣繁體字5400多個(gè)以及香港繁體字和GBK漢字。

識(shí)別字體種類：能識(shí)別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字體，并支持多種字體混排。

識(shí)別字號(hào):初號(hào) 小六號(hào)字體。

表格識(shí)別:可以自動(dòng)判斷、拆分、識(shí)別和還原各種通用型印刷體表格。

可支持繁體WINDOWS系統(tǒng)

使用方法:

1、打開尚書七號(hào),選擇打開圖象。（我用的版本可以識(shí)別的格式有bmp、tif、jpg）

2、選擇開始識(shí)別或按F8。識(shí)別結(jié)果將顯示在窗口上部，下部顯示版面分析結(jié)果。其中紅線為可識(shí)別部分，綠線為不可識(shí)別。

3、選擇輸出--到指定格式文件，將識(shí)別結(jié)果保存為需要的格式。

詳細(xì)操作

1．尚書7號(hào)OCR軟件是MICROTEK中晶科技公司，向漢王科技購買授權(quán)，贈(zèng)送給用戶使用的軟件，該軟件是放在了掃描儀隨機(jī)的驅(qū)動(dòng)光盤中，用戶可以選擇安裝。

2．軟件安裝完畢后，用戶請(qǐng)點(diǎn)擊桌面左下角“開始”，找到“尚書7號(hào)OCR”軟件圖標(biāo)，并點(diǎn)擊。打開尚書7號(hào)OCR的使用界面。

3．打開尚書7號(hào)OCR的“文件”采單下的“選擇掃描儀”，選擇對(duì)應(yīng)掃描儀的驅(qū)動(dòng)“MICROTEK SCANWIZARD 5”的選項(xiàng)。并選擇“確定”。

4．選擇“文件”菜單下的“掃描”，將打開掃描儀的驅(qū)動(dòng)。下面的界面是掃描儀的“高級(jí)控制面板”。

5．用戶請(qǐng)注意選擇SCANWIZARD 5軟件中，左面“設(shè)置”窗口中的“圖像類型”，請(qǐng)選擇“RGB色彩”或者“灰階”的類型，并注意掃描儀分辨率是300PPI。

6．當(dāng)用戶作完“預(yù)覽”后，設(shè)置需要掃描的范圍，就可以點(diǎn)擊“掃描”按鈕，掃描儀將開始掃描的工作。將掃描好的文件，直接傳遞到尚書7號(hào)OCR默認(rèn)的目錄中（默認(rèn)的存儲(chǔ)圖像文件的目錄是用戶計(jì)算機(jī)C盤下的SHOCR2002目錄下的IMAGE目錄）。掃描完畢后，請(qǐng)用戶關(guān)閉掉掃描儀驅(qū)動(dòng)程序SCANWIZARD 5.用戶可以看到需要掃描的文件已經(jīng)傳遞給尚書7號(hào)中，默認(rèn)的文件名是HW001.JPG。

7．請(qǐng)用戶選擇尚書7號(hào)軟件中的“編輯”菜單下的“自動(dòng)傾斜校正”，讓尚書7號(hào)軟件對(duì)掃描進(jìn)來的圖像作相應(yīng)的旋轉(zhuǎn)，以保證圖像中的文字是水平排列，而非傾斜。因?yàn)樘^傾斜的文字，將影響到尚書軟件的識(shí)別效果。

9．版面分析完畢后，用戶可以看到對(duì)應(yīng)的文字塊，都有對(duì)應(yīng)的識(shí)別框被選擇。

10．用戶此時(shí)，請(qǐng)注意，對(duì)應(yīng)的識(shí)別框，其屬性是否正確。識(shí)別框分別有“橫欄”、“豎欄”、“表格”和“圖像”等四種屬性，分別有四種不同顏色的選框來表示。

11．核對(duì)無誤后，用戶可以使用“識(shí)別”菜單下的“開始識(shí)別”按鈕。得到結(jié)果......

12．此時(shí)實(shí)際上已經(jīng)進(jìn)入文字校對(duì)狀態(tài)......

13．當(dāng)用戶校對(duì)完畢后，或者不在尚書7號(hào)內(nèi)作校對(duì)，用戶可以選擇“輸出”菜單下的“到指定格式文件”.

用戶可以看到，識(shí)別的結(jié)果，有TXT、RTF、HTML、XLS等格式可以選擇。默認(rèn)的輸出的目錄是用戶計(jì)算機(jī)C盤下的SHOCR2002目錄下的OUTPUT目錄。用戶選擇一個(gè)對(duì)應(yīng)的文件名，就可以存盤了。為了方便，用戶可以選擇“輸出到外部編輯器”的選項(xiàng)，這樣存盤的同時(shí)，尚書7號(hào)OCR會(huì)自動(dòng)調(diào)出對(duì)應(yīng)的編輯軟件，如TXT存盤可以自動(dòng)調(diào)用NOTEPAD軟件，RTF存盤將自動(dòng)調(diào)用WORD軟件，XLS存盤將自動(dòng)調(diào)用EXCEL軟件。

一個(gè)簡單的OCR操作就此完成了。

識(shí)別

識(shí)別說明

用掃描儀掃描的文字圖像，不能對(duì)個(gè)別文字進(jìn)行編輯修改，在教學(xué)中，需要利用文字識(shí)別軟件，將文字圖像進(jìn)行識(shí)別，將圖像格式轉(zhuǎn)化成文本格式，常見的文字識(shí)別軟件有很多，主要功能基本相同，尚書七號(hào)就是其中很優(yōu)秀的一款。用尚書七號(hào)對(duì)文字圖像識(shí)別轉(zhuǎn)化的過程，利用其主菜單：“文件”、“編輯”、“識(shí)別”、“輸出”可以很方便地完成。

識(shí)別步驟

步驟1：獲取文字圖像文件。

選擇“文件”菜單下的“掃描”或“打開圖像”（將已經(jīng)掃描好的圖像文件打開）命令，打開圖像文件。如果連接了多臺(tái)掃描儀，可以選擇“文件”菜單下的“選擇掃描儀”命令，調(diào)用掃描儀。

步驟2：對(duì)掃描的圖像頁進(jìn)行調(diào)整

選擇“編輯”菜單下“圖像頁面的處理”子菜單下的“圖像頁的傾斜校正”（提供自動(dòng)和手動(dòng)實(shí)現(xiàn)方法）及“旋轉(zhuǎn)”等命令，將掃描的圖像頁進(jìn)行調(diào)整。

步驟3：版面分析與文字識(shí)別轉(zhuǎn)化

版面分析，選擇識(shí)別范圍，在進(jìn)行文字識(shí)別前要選擇識(shí)別范圍，識(shí)別過程的核心是“版面分析”。尚書七號(hào)的自動(dòng)版面分析功能很強(qiáng)，對(duì)報(bào)紙雜志等復(fù)雜的版面，也能保持很高的分析正確率。

設(shè)置好后，直接點(diǎn)擊“開始識(shí)別”的按鈕就可以進(jìn)行文字識(shí)別了。

步驟4：校對(duì)修改

自動(dòng)識(shí)別完畢，識(shí)別結(jié)果的“文本窗口”會(huì)彈出，這個(gè)窗口能夠提供識(shí)別結(jié)果的校對(duì)，為了校對(duì)方便，尚書七號(hào)增加了光標(biāo)跟隨顯示原圖像行的校對(duì)方法（如圖3出現(xiàn)的黃色提示行的出現(xiàn)）。

提供的校對(duì)方法，一眼就能夠看到圖像原文和識(shí)別出文本的差別，如果發(fā)現(xiàn)識(shí)別有誤，可以進(jìn)行修改。

步驟5：輸出

如果檢查修改后確認(rèn)無誤，選擇識(shí)別結(jié)果的“輸出”菜單，輸出的文件格式有：RTF、HTML、XLS、2126，可以根據(jù)自己的需要選擇對(duì)應(yīng)的格式。如果用戶想得到類似原文的識(shí)別結(jié)果，請(qǐng)選擇RTF格式。把RTF格式輸出的文件用WORD打開后，會(huì)發(fā)現(xiàn)幾乎保留了原文的所有痕跡，包括原來頁面中的彩色圖像，都已經(jīng)保留在WORD中了。

注意

1、圖片質(zhì)量。批量識(shí)別時(shí)，首先應(yīng)確保要識(shí)別的圖片質(zhì)量。如不能識(shí)別還需要重新處理，甚至?xí)?dǎo)致軟件死掉，浪費(fèi)時(shí)間。我本人就曾深受其苦。圖片分辨率應(yīng)稍高，肉眼看感覺偏大，因?yàn)樽R(shí)別工具是有點(diǎn)近視的，文字和底色對(duì)比要求不高，通常來說，肉眼能看清楚即可，底色發(fā)灰或發(fā)黑基本不會(huì)影響識(shí)別結(jié)果。

2、避免有不規(guī)則形狀（圖片）出現(xiàn)。識(shí)別工具在進(jìn)行版面分析時(shí)，只能采用方形切割，當(dāng)圖片中存在文字環(huán)繞不規(guī)則形狀時(shí)，則無法將文字和該形狀劃分開，則將出現(xiàn)錯(cuò)誤或無法識(shí)別。此時(shí)，較快的辦法是在PS中，吸取該圖片附近的頁面底色，用粗畫筆將該區(qū)域涂上，不必講求效果，顏色沒有太大差別即可，重新保存圖片。

3、避免圖象傾斜。尚書七號(hào)中也有自動(dòng)傾斜校正和手動(dòng)傾斜校正工具，但即使經(jīng)過校正，識(shí)別率還是低很多。如果是拍攝的書本，可能會(huì)產(chǎn)生一定弧度，此時(shí)保證行的兩端對(duì)齊即可。另外在拍攝時(shí)應(yīng)避免高光等會(huì)使圖象各部分亮度反差大的情況。

4.為了得到較好的OCR使用效果，建議用戶將掃描儀的驅(qū)動(dòng)SCANWIZARD 5軟件，由初始安裝的標(biāo)準(zhǔn)控制面板，切換到高級(jí)控制面板狀態(tài)。

文檔識(shí)別

1．過程與上面所介紹，基本一樣，只是用戶需要注意存盤格式。

2．一般，如果用戶需要對(duì)該文字，進(jìn)行重新排版工作，請(qǐng)用戶選擇TXT存盤，然后再將其內(nèi)容拷貝到WORD中。

3．如果用戶希望保留稿件的原有格式，并能夠作版面的恢復(fù)，請(qǐng)使用RTF格式存盤，該格式將有版面的恢復(fù)功能。但是用戶只能針對(duì)其中的文字，作一些個(gè)別字的調(diào)整，無法作大范圍的排版方式的修改。

OCR識(shí)別

1．其中，掃描、自動(dòng)傾斜矯正過程同普通文稿是一樣的。

2．但是注意“版面分析”后，對(duì)其結(jié)果進(jìn)行檢查。應(yīng)該在表格上，經(jīng)過版面分析后，有一個(gè)蘭色的框，選中了表格部分，如果不是，用戶需要修改欄屬性或者考慮手動(dòng)劃定識(shí)別區(qū)域。

3．注意輸出結(jié)果的選擇，如果是需要重新排版，用戶應(yīng)該分別用TXT和XLS格式存盤，然后將TXT中的文字和XLS中的表格分別拷貝到WORD，進(jìn)行排版。

轉(zhuǎn)換技巧

1、可以將書攤平，一次將兩邊都掃描或拍攝下來，節(jié)省時(shí)間。處理圖片時(shí)不必剪開，這時(shí)要用到尚書七號(hào)的分欄工具了。直接用鼠標(biāo)在打開的圖象上拖拽，可出現(xiàn)選框，分成左右兩個(gè)分欄，分欄左上角的編號(hào)就是識(shí)別結(jié)果的排列順序。它會(huì)將自動(dòng)按照編號(hào)順序?qū)⑺蟹謾诘膬?nèi)容連接在一起。

2、手動(dòng)分欄可解決部分圖象無法識(shí)別的問題。在進(jìn)行識(shí)別后，可以看到版面分析結(jié)果，有時(shí)候由于圖象質(zhì)量原因，自動(dòng)分析出的有效版面只是很小的一部分。此時(shí)可以按ctrl+del取消版面分析結(jié)果，用鼠標(biāo)拖拽，劃定需要識(shí)別的范圍，重新進(jìn)行識(shí)別。當(dāng)圖片質(zhì)量問題不大時(shí)，這個(gè)辦法有效。

有時(shí)候（尤其是拍攝所得圖片），文字扭曲嚴(yán)重，即使用PS也無法調(diào)整好?？蓢L試手動(dòng)分欄，多劃分幾欄，每一欄包含一行或少數(shù)幾行文字，這樣對(duì)于每個(gè)分欄來說，它所包含的范圍內(nèi)誤差度相對(duì)減小，可提高識(shí)別率。

3、使用批量識(shí)別功能。尚書七號(hào)可以一次性識(shí)別大量圖片。但在實(shí)際應(yīng)用中，依次識(shí)別不宜過多，便于隨時(shí)檢查識(shí)別結(jié)果，發(fā)現(xiàn)錯(cuò)誤及時(shí)修正。

4、批量識(shí)別圖象時(shí)，保存文件也要花費(fèi)大量時(shí)間。事實(shí)上，尚書七號(hào)在識(shí)別文件的同時(shí)，會(huì)在圖片所在文件夾生成文本文檔，名稱與圖片名稱相同。因此，如果不是特別需要，可以不必再保存輸出結(jié)果。

如所識(shí)別內(nèi)容屬于一部分，可以將左側(cè)的圖象列表全選（ctrl+A），再選擇“輸出--到指定格式文件”，則當(dāng)前所有識(shí)別內(nèi)容按照?qǐng)D片排列順序保存在一個(gè)文件中。

我使用的尚書七號(hào)不能記憶保存路徑，每次選擇保存時(shí)，都會(huì)默認(rèn)打開程序安裝目錄下的“outout”文件夾，不必每次都選擇路徑，可以先保存在這里，然后一起轉(zhuǎn)移文件。

5、如果想保留文件中的圖片，在輸出結(jié)果時(shí)選用RTF格式，再用word打開，可以看到格式完全正確的文字和圖片了。

6、用書本的頁碼給文件命名是明智的選擇。我曾經(jīng)用內(nèi)容摘要命名，自以為清晰明了，結(jié)果在最后修正錯(cuò)誤字符時(shí)悔恨交加。

7、當(dāng)一個(gè)圖象完全無法識(shí)別時(shí)，可稍稍增加亮度或?qū)Ρ榷?，有時(shí)候只差那么一點(diǎn)點(diǎn)，它也不給你工作。

8、分欄的幾個(gè)類型。當(dāng)單擊一個(gè)分欄時(shí)，工具欄中會(huì)相應(yīng)分欄類型的按紐會(huì)按下。分欄有橫欄（橫排文字）、豎欄（豎排文字）、圖片、表格等幾個(gè)類型，一般情況下可以自動(dòng)識(shí)別類型，但手動(dòng)分欄時(shí)一定要選擇相應(yīng)的類型，以提高識(shí)別率。

以上問題針對(duì)拍攝情況而言，掃描的話相信會(huì)減少問題，如果能拆書的話，最好還是拆吧。

版本列表

尚書七號(hào)ocr已注冊(cè)版 v1.0 免費(fèi)版

尚書七號(hào)ocr是一款操作簡單、功能簡單的文字識(shí)別系統(tǒng)，識(shí)別能力高，速度快，只需將紙質(zhì) ...

軟件大?。?span id="uqi28gg" class="gray">44.42 MB 更新時(shí)間：2019-07-31

詳情