快捷登錄,享 免費(fèi)下載
首頁 > 軟件列表 > 網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件
網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件

網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件

軟件語言:簡體中文
軟件授權(quán):免費(fèi)軟件
適用系統(tǒng):Windows
創(chuàng)建時(shí)間:2020-12-14
軟件廠商/開發(fā)者信息:獨(dú)立開發(fā)者

介紹

網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件是一款 互聯(lián)網(wǎng)數(shù)據(jù)采集、編輯、 存儲(chǔ)、發(fā)布為一體的工具軟件。系統(tǒng)支持多任務(wù)、 多線程、代理IP 等策略,可以高效的采集各類網(wǎng)頁數(shù)據(jù)、及下載各類文件,同時(shí)還提供了數(shù)據(jù)加工工具,可以在數(shù)據(jù)采集的同時(shí)就可完成數(shù)據(jù)加工操作,提升最終數(shù)據(jù)呈現(xiàn)的質(zhì)量,網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件支持各類常用的數(shù)據(jù)庫,包括MS SqlServer、MySql及Access,同時(shí)還支持web方式進(jìn)行數(shù)據(jù)提交。

自網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件V5.0版開始,提供免費(fèi)版本。

發(fā)展

網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件的前身是Soukey采摘數(shù)據(jù)采集器,至今已2年時(shí)間,最新版本為V5.0,并擴(kuò)展了兩個(gè)有效的工具:數(shù)據(jù)加工及發(fā)布工具,靜默運(yùn)行監(jiān)控工具。

技術(shù)平臺(tái)

網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件基于Microsoft VS2005開發(fā),開發(fā)語言為C#,所以運(yùn)行需在windows平臺(tái)及Microsoft .NetFramework2.0以上環(huán)境運(yùn)行。

授權(quán)方式

網(wǎng)絡(luò)礦工數(shù)據(jù)采集軟件V5.0開始提供免費(fèi)版,其他版本按照用戶數(shù)授權(quán),不綁定計(jì)算機(jī);

詳細(xì)功能

數(shù)據(jù)采集功能

1、 多任務(wù)、多線程,支持一個(gè)任務(wù)運(yùn)行多個(gè)實(shí)例;采集規(guī)則與運(yùn)行實(shí)例分離的好處是修改任務(wù)信息后,并不影響已經(jīng)運(yùn)行的任務(wù);

2、支持圖片、 Flash及文件下載;下載并不支持多線程處理;

3、網(wǎng)址配置支持參數(shù)定制,及外部字典參數(shù);通過字典方式可擴(kuò)展自定義的參數(shù)值;

4、支持 Cookie、 POST采集;可記錄Cookie,采集需要登錄的網(wǎng)站數(shù)據(jù),也可通過手工登錄進(jìn)行采集;

5、支持導(dǎo)航、自動(dòng)翻頁;可進(jìn)行網(wǎng)址導(dǎo)航,譬如:通過新聞列表采集新聞內(nèi)容;支持多層導(dǎo)航;

6、可采集Ajax數(shù)據(jù);關(guān)于Ajax技術(shù)網(wǎng)站,需要通過HTTP 嗅探器探測其真實(shí)地址;推薦使用 Fiddler;

7、采集數(shù)據(jù)臨時(shí)存儲(chǔ)、斷點(diǎn)續(xù)采;臨時(shí)存儲(chǔ)數(shù)據(jù)格式為XML;

8、支持?jǐn)?shù)據(jù)導(dǎo)出,文件、數(shù)據(jù)庫;數(shù)據(jù)庫支持Access、MS SqlServer、MySql,文件支持文本文件和Excel;數(shù)據(jù)導(dǎo)出支持手工和自動(dòng),手工導(dǎo)出僅支持文件形式;

9 、提供網(wǎng)址編/解碼工具;支持 UTF-8、 GB2312、 GBK、 Big5;

10、在線數(shù)據(jù)發(fā)布;支持在線數(shù)據(jù)發(fā)布,數(shù)據(jù)發(fā)布支持Cookie;

11、 數(shù)據(jù)采集支持采集數(shù)據(jù)加工; 可對采集數(shù)據(jù)進(jìn)行字符串替換、截取、附加等操作,可自動(dòng)去除網(wǎng)頁符號(hào),支持正則;

12、支持 任務(wù)計(jì)劃;可定時(shí)執(zhí)行任務(wù),最小間隔為:0.5小時(shí);

13、支持任務(wù)觸發(fā)器;可觸發(fā)采集任務(wù)、數(shù)據(jù)庫 存儲(chǔ)過程及可執(zhí)行文件,支持采集完成及發(fā)布完成觸發(fā);

14、支持采集數(shù)據(jù)網(wǎng)址的自動(dòng)輸出;可作為內(nèi)容引用、錯(cuò)誤查找使用;

15、支持采集延時(shí); 針對訪問限制的網(wǎng)站,可采用采集延時(shí)控制單位時(shí)間內(nèi)對網(wǎng)站的采集次數(shù);

16、支持分層數(shù)據(jù)采集; 即通常所說的分頁采集、級(jí)聯(lián)采集,支持1對1及1對N的數(shù)據(jù)關(guān)系;

17、支持Url Base64編碼 針對部分網(wǎng)站采用Base64編碼Url進(jìn)行了支持,可采集此類網(wǎng)站數(shù)據(jù);

18、支持外部字典數(shù)據(jù)導(dǎo)入可成批導(dǎo)入字典數(shù)據(jù);

19、 支持HTTPHeaders自定義支持HTTPHeaders自定義;

20、增加了導(dǎo)航自動(dòng)翻頁功能 ;

21、支持采集規(guī)則 通配符及自定義 正則表達(dá)式 ;

22、支持U碼識(shí)別、網(wǎng)址轉(zhuǎn)移 ;

23、增加代理 輪詢引擎支持?jǐn)?shù)據(jù)采集 ;

24、增加導(dǎo)航提取范圍;

25、增加自定義導(dǎo)航規(guī)則處理;大部分導(dǎo)航都是由可識(shí)別的Url進(jìn)行的,但也存在特殊情況,譬如:是由提交表單來完成,針對此種情況采用此功能可實(shí)現(xiàn)對導(dǎo)航規(guī)則的處理;

26、支持外部參數(shù)采集任務(wù); 利用此種類型的采集任務(wù)可以再本地配置搜索引擎,用戶網(wǎng)站信息的搜索;典型應(yīng)用:企業(yè)黃頁查詢;

27、支持導(dǎo)航層分頁;利用此功能可以按照簡化采集任務(wù)的配置,甚至可以通過一個(gè)入口地址采集所有的信息內(nèi)容;

28、直接入庫;可將采集的數(shù)據(jù)直接存入數(shù)據(jù)庫,利用此種方式,系統(tǒng)可采集成百上千萬條數(shù)據(jù),而不影響系統(tǒng)性能。數(shù)據(jù)庫支持Access、MS Sqlserver及MySql;

數(shù)據(jù)編輯功能

1、采集 數(shù)據(jù)輸出數(shù)據(jù)多種規(guī)則加工;對采集數(shù)據(jù)可實(shí)現(xiàn)多種數(shù)據(jù)加工規(guī)則的應(yīng)用,通過此方法,可以更加靈活的采集到需要的數(shù)據(jù)內(nèi)容。;

2、提供數(shù)據(jù)加工模塊;可對采集數(shù)據(jù)靈活的進(jìn)行 數(shù)據(jù)修改,調(diào)整表結(jié)構(gòu),然后再進(jìn)行數(shù)據(jù)發(fā)布操作。同時(shí)還可利用此功能實(shí)現(xiàn) 外部數(shù)據(jù)的加工及發(fā)布操作;

3、支持?jǐn)?shù)據(jù)合并; 可應(yīng)用于分頁文章采集,并自動(dòng)合并成一篇文章的采集形式;

高級(jí)功能

1、 提供Mini瀏覽器;可用于Cookie及POST數(shù)據(jù)的捕獲;

2、 軟件界面支持多語言 網(wǎng)絡(luò)礦工僅支持中文簡體,后期會(huì)擴(kuò)展英文版本;

3、支持 任務(wù)計(jì)劃輸出到同一個(gè)采集文件;可應(yīng)用為數(shù)據(jù)遞增采集;

4、提供采集規(guī)則分析器;通過采集規(guī)則分析器,可方便的查看采集規(guī)則配置的正確性;

5、支持 代理服務(wù)器;當(dāng)前僅支持HTTP代理;

6、 提供 網(wǎng)絡(luò)監(jiān)控雷達(dá)服務(wù),可根據(jù)用戶規(guī)則監(jiān)控網(wǎng)絡(luò)數(shù)據(jù),并及時(shí)預(yù)警、處理;

7、提供正則分析工具,輔助分析采集規(guī)則配置的正確性;

8、增加靜默運(yùn)行模式,即無人值守采集功能,可自動(dòng)執(zhí)行,自動(dòng)優(yōu)化資源,并將執(zhí)行情況自動(dòng)記錄日志;

9、提供 日志管理功能;

10、增加雷達(dá)監(jiān)控URL提重功能;

V2012新增功能

1、增加了xPath可視化配置;

2、增加了OCR文本識(shí)別的功能;

3、增加了多頁采集的功能;

4、增加了__doPostBack函數(shù)的支持;

5、增加了自我導(dǎo)航能力,可實(shí)現(xiàn)單頁面數(shù)據(jù)一對多關(guān)系的采集;

6、增加了多sql語句的支持;

V2012SP1 新功能

1、增加了嗅探器的功能,可檢測HTTP通訊,可有效發(fā)現(xiàn)ajax、iframe請求的頁面進(jìn)行探測;

2、全面支持可視化配置;

3、增加配置助手,可自動(dòng)對網(wǎng)頁進(jìn)行分析產(chǎn)生表格、文章的采集規(guī)則;同時(shí)也可通過配置助手自動(dòng)配置采集規(guī)則;

4、優(yōu)化了V2012的界面操作,提升軟件的易用性,同時(shí)也修正了V2012中的很多bug,使軟件運(yùn)行更加穩(wěn)定;

V5.0新功能

1、支持?jǐn)U展插件,支持三種類別插件:獲取Cookie類、數(shù)據(jù)編輯類及數(shù)據(jù)發(fā)布類;

2、支持發(fā)布模板,可通過制作的發(fā)布模板進(jìn)行數(shù)據(jù)發(fā)布操作;

3、提供同義詞替換及段落合并的數(shù)據(jù)編輯規(guī)則;

版本列表