快捷登錄,享 免費下載
首頁 > 軟件列表 > 尚書七號
尚書七號

尚書七號

尚書7號文字識別系統(tǒng)

軟件語言:簡體中文
軟件授權(quán):免費軟件
適用系統(tǒng):Windows
創(chuàng)建時間:2021-01-12
軟件廠商/開發(fā)者信息:獨立開發(fā)者

軟件特色

簡繁字集:除了簡體漢字外,還可以混識臺灣繁體字5400多個以及香港繁體字和GBK漢字。

識別字體種類:能識別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字體,并支持多種字體混排。

識別字號:初號 小六號字體。

表格識別:可以自動判斷、拆分、識別和還原各種通用型印刷體表格。

可支持繁體WINDOWS系統(tǒng)

使用方法:

1、打開尚書七號,選擇打開圖象。(我用的版本可以識別的格式有bmp、tif、jpg)

2、選擇開始識別或按F8。識別結(jié)果將顯示在窗口上部,下部顯示版面分析結(jié)果。其中紅線為可識別部分,綠線為不可識別。

3、選擇輸出--到指定格式文件,將識別結(jié)果保存為需要的格式。

詳細(xì)操作

1.尚書7號OCR軟件是MICROTEK中晶科技公司,向漢王科技購買授權(quán),贈送給用戶使用的軟件,該軟件是放在了掃描儀隨機(jī)的驅(qū)動光盤中,用戶可以選擇安裝。

2.軟件安裝完畢后,用戶請點擊桌面左下角“開始”,找到“尚書7號OCR”軟件圖標(biāo),并點擊。打開尚書7號OCR的使用界面。

3. 打開尚書7號OCR的“文件”采單下的“選擇掃描儀”,選擇對應(yīng)掃描儀的驅(qū)動“MICROTEK SCANWIZARD 5”的選項。并選擇“確定”。

4. 選擇“文件”菜單下的“掃描”,將打開掃描儀的驅(qū)動。下面的界面是掃描儀的“高級控制面板”。

5. 用戶請注意選擇SCANWIZARD 5軟件中,左面“設(shè)置”窗口中的“圖像類型”,請選擇“RGB色彩”或者“灰階”的類型,并注意掃描儀分辨率是300PPI。

6. 當(dāng)用戶作完“預(yù)覽”后,設(shè)置需要掃描的范圍,就可以點擊“掃描”按鈕,掃描儀將開始掃描的工作。將掃描好的文件,直接傳遞到尚書7號OCR默認(rèn)的目錄中(默認(rèn)的存儲圖像文件的目錄是用戶計算機(jī)C盤下的SHOCR2002目錄下的IMAGE目錄)。掃描完畢后,請用戶關(guān)閉掉掃描儀驅(qū)動程序SCANWIZARD 5.用戶可以看到需要掃描的文件已經(jīng)傳遞給尚書7號中,默認(rèn)的文件名是HW001.JPG。

7. 請用戶選擇尚書7號軟件中的“編輯”菜單下的“自動傾斜校正”,讓尚書7號軟件對掃描進(jìn)來的圖像作相應(yīng)的旋轉(zhuǎn),以保證圖像中的文字是水平排列,而非傾斜。因為太過傾斜的文字,將影響到尚書軟件的識別效果。

9. 版面分析完畢后,用戶可以看到對應(yīng)的文字塊,都有對應(yīng)的識別框被選擇。

10. 用戶此時,請注意,對應(yīng)的識別框,其屬性是否正確。識別框分別有“橫欄”、“豎欄”、“表格”和“圖像”等四種屬性,分別有四種不同顏色的選框來表示。

11. 核對無誤后,用戶可以使用“識別”菜單下的“開始識別”按鈕。得到結(jié)果......

12. 此時實際上已經(jīng)進(jìn)入文字校對狀態(tài)......

13. 當(dāng)用戶校對完畢后,或者不在尚書7號內(nèi)作校對,用戶可以選擇“輸出”菜單下的“到指定格式文件”.

用戶可以看到,識別的結(jié)果,有TXT、RTF、HTML、XLS等格式可以選擇。默認(rèn)的輸出的目錄是用戶計算機(jī)C盤下的SHOCR2002目錄下的OUTPUT目錄。用戶選擇一個對應(yīng)的文件名,就可以存盤了。為了方便,用戶可以選擇“輸出到外部編輯器”的選項,這樣存盤的同時,尚書7號OCR會自動調(diào)出對應(yīng)的編輯軟件,如TXT存盤可以自動調(diào)用NOTEPAD軟件,RTF存盤將自動調(diào)用WORD軟件,XLS存盤將自動調(diào)用EXCEL軟件。

一個簡單的OCR操作就此完成了。

識別

識別說明

用掃描儀掃描的文字圖像,不能對個別文字進(jìn)行編輯修改,在教學(xué)中,需要利用文字識別軟件,將文字圖像進(jìn)行識別,將圖像格式轉(zhuǎn)化成文本格式,常見的文字識別軟件有很多,主要功能基本相同,尚書七號就是其中很優(yōu)秀的一款。用尚書七號對文字圖像識別轉(zhuǎn)化的過程,利用其主菜單:“文件”、“編輯”、“識別”、“輸出”可以很方便地完成。

識別步驟

步驟1:獲取文字圖像文件。

選擇“文件”菜單下的“掃描”或“打開圖像”(將已經(jīng)掃描好的圖像文件打開)命令,打開圖像文件。如果連接了多臺掃描儀,可以選擇“文件”菜單下的“選擇掃描儀”命令,調(diào)用掃描儀。

步驟2:對掃描的圖像頁進(jìn)行調(diào)整

選擇“編輯”菜單下“圖像頁面的處理”子菜單下的“圖像頁的傾斜校正”(提供自動和手動實現(xiàn)方法)及“旋轉(zhuǎn)”等命令,將掃描的圖像頁進(jìn)行調(diào)整。

步驟3:版面分析與文字識別轉(zhuǎn)化

版面分析,選擇識別范圍,在進(jìn)行文字識別前要選擇識別范圍,識別過程的核心是“版面分析”。尚書七號的自動版面分析功能很強(qiáng),對報紙雜志等復(fù)雜的版面,也能保持很高的分析正確率。

設(shè)置好后,直接點擊“開始識別”的按鈕就可以進(jìn)行文字識別了。

步驟4:校對修改

自動識別完畢,識別結(jié)果的“文本窗口”會彈出,這個窗口能夠提供識別結(jié)果的校對,為了校對方便,尚書七號增加了光標(biāo)跟隨顯示原圖像行的校對方法(如圖3出現(xiàn)的黃色提示行的出現(xiàn))。

提供的校對方法,一眼就能夠看到圖像原文和識別出文本的差別,如果發(fā)現(xiàn)識別有誤,可以進(jìn)行修改。

步驟5:輸出

如果檢查修改后確認(rèn)無誤,選擇識別結(jié)果的“輸出”菜單,輸出的文件格式有:RTF、HTML、XLS、2126,可以根據(jù)自己的需要選擇對應(yīng)的格式。如果用戶想得到類似原文的識別結(jié)果,請選擇RTF格式。把RTF格式輸出的文件用WORD打開后,會發(fā)現(xiàn)幾乎保留了原文的所有痕跡,包括原來頁面中的彩色圖像,都已經(jīng)保留在WORD中了。

注意

1、圖片質(zhì)量。批量識別時,首先應(yīng)確保要識別的圖片質(zhì)量。如不能識別還需要重新處理,甚至?xí)?dǎo)致軟件死掉,浪費時間。我本人就曾深受其苦。圖片分辨率應(yīng)稍高,肉眼看感覺偏大,因為識別工具是有點近視的,文字和底色對比要求不高,通常來說,肉眼能看清楚即可,底色發(fā)灰或發(fā)黑基本不會影響識別結(jié)果。

2、避免有不規(guī)則形狀(圖片)出現(xiàn)。識別工具在進(jìn)行版面分析時,只能采用方形切割,當(dāng)圖片中存在文字環(huán)繞不規(guī)則形狀時,則無法將文字和該形狀劃分開,則將出現(xiàn)錯誤或無法識別。此時,較快的辦法是在PS中,吸取該圖片附近的頁面底色,用粗畫筆將該區(qū)域涂上,不必講求效果,顏色沒有太大差別即可,重新保存圖片。

3、避免圖象傾斜。尚書七號中也有自動傾斜校正和手動傾斜校正工具,但即使經(jīng)過校正,識別率還是低很多。如果是拍攝的書本,可能會產(chǎn)生一定弧度,此時保證行的兩端對齊即可。另外在拍攝時應(yīng)避免高光等會使圖象各部分亮度反差大的情況。

4.為了得到較好的OCR使用效果,建議用戶將掃描儀的驅(qū)動SCANWIZARD 5軟件,由初始安裝的標(biāo)準(zhǔn)控制面板,切換到高級控制面板狀態(tài)。

文檔識別

1. 過程與上面所介紹,基本一樣,只是用戶需要注意存盤格式。

2. 一般,如果用戶需要對該文字,進(jìn)行重新排版工作,請用戶選擇TXT存盤,然后再將其內(nèi)容拷貝到WORD中。

3. 如果用戶希望保留稿件的原有格式,并能夠作版面的恢復(fù),請使用RTF格式存盤,該格式將有版面的恢復(fù)功能。但是用戶只能針對其中的文字,作一些個別字的調(diào)整,無法作大范圍的排版方式的修改。

OCR識別

1. 其中,掃描、自動傾斜矯正過程同普通文稿是一樣的。

2. 但是注意“版面分析”后,對其結(jié)果進(jìn)行檢查。應(yīng)該在表格上,經(jīng)過版面分析后,有一個蘭色的框,選中了表格部分,如果不是,用戶需要修改欄屬性或者考慮手動劃定識別區(qū)域。

3. 注意輸出結(jié)果的選擇,如果是需要重新排版,用戶應(yīng)該分別用TXT和XLS格式存盤,然后將TXT中的文字和XLS中的表格分別拷貝到WORD,進(jìn)行排版。

轉(zhuǎn)換技巧

1、可以將書攤平,一次將兩邊都掃描或拍攝下來,節(jié)省時間。處理圖片時不必剪開,這時要用到尚書七號的分欄工具了。直接用鼠標(biāo)在打開的圖象上拖拽,可出現(xiàn)選框,分成左右兩個分欄,分欄左上角的編號就是識別結(jié)果的排列順序。它會將自動按照編號順序?qū)⑺蟹謾诘膬?nèi)容連接在一起。

2、手動分欄可解決部分圖象無法識別的問題。在進(jìn)行識別后,可以看到版面分析結(jié)果,有時候由于圖象質(zhì)量原因,自動分析出的有效版面只是很小的一部分。此時可以按ctrl+del取消版面分析結(jié)果,用鼠標(biāo)拖拽,劃定需要識別的范圍,重新進(jìn)行識別。當(dāng)圖片質(zhì)量問題不大時,這個辦法有效。

有時候(尤其是拍攝所得圖片),文字扭曲嚴(yán)重,即使用PS也無法調(diào)整好??蓢L試手動分欄,多劃分幾欄,每一欄包含一行或少數(shù)幾行文字,這樣對于每個分欄來說,它所包含的范圍內(nèi)誤差度相對減小,可提高識別率。

3、使用批量識別功能。尚書七號可以一次性識別大量圖片。但在實際應(yīng)用中,依次識別不宜過多,便于隨時檢查識別結(jié)果,發(fā)現(xiàn)錯誤及時修正。

4、批量識別圖象時,保存文件也要花費大量時間。事實上,尚書七號在識別文件的同時,會在圖片所在文件夾生成文本文檔,名稱與圖片名稱相同。因此,如果不是特別需要,可以不必再保存輸出結(jié)果。

如所識別內(nèi)容屬于一部分,可以將左側(cè)的圖象列表全選(ctrl+A),再選擇“輸出--到指定格式文件”,則當(dāng)前所有識別內(nèi)容按照圖片排列順序保存在一個文件中。

我使用的尚書七號不能記憶保存路徑,每次選擇保存時,都會默認(rèn)打開程序安裝目錄下的“outout”文件夾,不必每次都選擇路徑,可以先保存在這里,然后一起轉(zhuǎn)移文件。

5、如果想保留文件中的圖片,在輸出結(jié)果時選用RTF格式,再用word打開,可以看到格式完全正確的文字和圖片了。

6、用書本的頁碼給文件命名是明智的選擇。我曾經(jīng)用內(nèi)容摘要命名,自以為清晰明了,結(jié)果在最后修正錯誤字符時悔恨交加。

7、當(dāng)一個圖象完全無法識別時,可稍稍增加亮度或?qū)Ρ榷?,有時候只差那么一點點,它也不給你工作。

8、分欄的幾個類型。當(dāng)單擊一個分欄時,工具欄中會相應(yīng)分欄類型的按紐會按下。分欄有橫欄(橫排文字)、豎欄(豎排文字)、圖片、表格等幾個類型,一般情況下可以自動識別類型,但手動分欄時一定要選擇相應(yīng)的類型,以提高識別率。

以上問題針對拍攝情況而言,掃描的話相信會減少問題,如果能拆書的話,最好還是拆吧。

版本列表