火車頭數據采集平臺是一款用于搜索獲取全網數據的網絡輔助工具,可以靈活迅速地抓取網頁中大量非結構化的文本,圖片等資源信息,通過一系列的分析處理,準確挖掘出所需數據。并可以選擇發布到網站后臺、導入數據庫或者保存在本地Excel,Word等格式的文件中。火車采集器是目前最受歡迎的網頁數據采集軟件,有需要進行采集操作的用戶快來獲取吧!

火車頭數據采集平臺安裝方法
1、等待火車采集器下載完成,然后解壓縮并雙擊exe文件,進入安裝向導,點擊下一步。

2、點擊【瀏覽】設置軟件的安裝位置,然后點擊【安裝】。

3、稍等片即可完成安裝,勾選【運行 火車采集器 9.3】選項,點擊【完成】即可運行。

特色
1、無限級多張采集,能夠完成無盡深層的采集
2、每日任務序列運作管理方法,適用Cron關系式
3、無限級排序任務管理,每日任務垃圾回收站功能
4、RSS詳細地址采集功能
5、列表頁分頁查詢采集獲得功能
6、列表頁額外主要參數獲得功能
7、列表頁及標識XPath數據可視化獲取功能
8、標識純正則替換功能
9、Http插口查詢運作狀況
10、導出來紀錄為單獨或好幾個Txt、html文檔
11、標識間隨意搭配功能
12、對于標識內容再次推送Http要求功能
13、無限級列表網站地址采集
14、從Http頭信息內容中讀取數據
15、題目內容文章正文獲取功能
16、Aspx列表分頁查詢自鑒別
17、多網址站群系統式web公布
18、導出來紀錄為Word格式
19、導出來全部紀錄為Excel格式
20、應用任意二級(適用Socket代理)
21、多拓展間數據傳輸功能
22、免費下載的圖片全自動加加強型圖片水印功能
23、Ocr鑒別(圖片轉換為文本)
24、Http插口管理方法采集器運作
25、Mongodb數據庫儲存數據信息
26、主從關系網絡服務器分布式系統采集
火車頭數據采集平臺使用方法
1.在程序主界面中,點擊“新建”下拉箭頭,從中選擇“任務”項。

2.在彈出的窗口中,輸入“任務名”,同時點擊“起始網址”欄目右側的“添加”按鈕。

3.接下來就極為重要的一步,就是對要進行采集的網站進行分板,對所采取的網站中各片文章的URL進行綜合分析并找出規律,最后按如圖進行填寫。

4.然后切換至“第二步:采集內容規則”選項卡中,我們需要對網頁內容進行分板。在此以“搜狗瀏覽器”為例,右擊要進行分析的網頁,從彈出的菜單中選擇“審查元素”項。

5.在“開發式模式”界面中,點擊“選擇頁面中的一個元素去透視”按鈕,接著點擊“標題”內容,此時就可以在“開發者”窗口中顯示標題所對應的標簽,此例為“h2"。

6.接下來在”采集內容規則“界面中,點擊“添加”按鈕來添加“標題”項,或者直接雙擊“標題”項進行修改。在彈出的界面中,勾選”前后截取“,將設置前后輟分別為"“、”".

7.利用同樣的方法添加其它采集內容的規則。切換至“第三步:發布內容設置”選項卡,勾選“啟用 方式二”,并進行如圖設置。
8.最后從任務列表中,勾選要采集的內容,點擊“開始”按鈕就可以按規則采集網站中的網頁內容啦。

數據轉換
數據采集下來后可選擇保存到sqlite、mysql、sqlserver三種類型的數據庫中。
默認保存為sqlite數據庫,可轉換為其他類型,其中sqlite是可以保存在本地數據庫的。
mysql、sqlserver既可以保存在本地數據庫,也可以保存到遠程數據庫。
工具菜單--數據轉換
如需轉換原有數據庫請勾選“轉換內容庫”,否則數據庫內容將被清空。
分組右鍵功能
在分組上右擊,支持導入任務,導出分組,導入分組等。
導入任務:分組上右擊--導入任務,可以導入.ljobx后綴的任務。
導出分組:分組上右擊--導出分組,批量導出任務分組,可以導出.lgrp后綴的分組。
導入分組:分組上右擊--導入分組,批量導入任務分組,可以導入.lgrp后綴的分組。

采集規則
起始網址
采集規則制作的第一步驟,點擊向導添加,①→②,出現如圖界面。

分3種方式:普通網址,批量網址,文本導入。
獲取內容網址
有常規模式和高級模式兩種。
1.常規模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內容頁A鏈接。
它有2種方式:a.自動獲取地址鏈接 b.手動設置規則獲取。
2.高級模式:該模式對0級,多級,POST類型網址的抓取有效。
即起始網址就是內容頁網址;
或者需要對多級列表網址采集才能得到最終內容頁鏈接;
或者是post網址類型抓取等情況下使用高級模式。
0級及多級網址獲取
起始網址就是內容頁網址,直接采集起始網址里的內容。
何為多級?
即有多級列表,需要設置多級網址步驟后,才能得到最終內容頁鏈接。
列表上下頁分頁
對于設置列表分頁,下圖的起始網址--批量網址設置是最常見也是最常用的。
登錄采集
登錄信息設置: 對于部分需要登錄的網站,需要設置此項。
更新內容
1.優化標簽數據處理中字符替換。
2.對文件探測無效導致文件下載失敗問題優化。
3.處理用戶名包含特殊符號不能登錄問題。
4.修復數據管理批量操作數據有異常彈窗提示。
5.修復二級代理卡死問題。
6.完善自動獲取cookie失敗問題。
7.發布到word,自動轉義"<"、">"為"<"、">"。
8.修復:勾選發布選項,采集最大數無效。
9.修復oracle鏈接問題。
10.支持oss存儲。
11.修復:下載地址后面有斜杠,下載文件時無后綴名。
注:火車采集器無破解版,提供為官方版本