SysNucleus WebHarvy是一款網頁數(shù)據(jù)抓取工具,擁有自動檢測模式,可提取多個頁面的數(shù)據(jù),并將其導出到數(shù)據(jù)庫或文件夾中。WebHarvy中支持運行JavaScript和表達式,讓你可以靈活抓取數(shù)據(jù),需要的朋友趕緊下載吧!
WebHarvy 特點
點擊界面
WebHarvy是一個視覺網絡刮板。絕對不需要編寫任何腳本或代碼來抓取數(shù)據(jù)。您將使用WebHarvy的內置瀏覽器瀏覽網頁。您可以選擇要點擊的數(shù)據(jù)。這很容易!
自動模式檢測
WebHarvy自動識別網頁中發(fā)生的數(shù)據(jù)模式。因此,如果您需要從網頁上刮取項目列表(名稱,地址,電子郵件,價格等),則無需執(zhí)行任何其他配置。如果數(shù)據(jù)重復,WebHarvy會自動刪除它。
導出抓取的數(shù)據(jù)
您可以以多種格式保存從網頁中提取的數(shù)據(jù)。WebHarvyWebScraper的當前版本允許您將抓取的數(shù)據(jù)導出為Excel,XML,CSV,JSON或TSV文件。您也可以將抓取的數(shù)據(jù)導出到SQL數(shù)據(jù)庫。
從多個頁面提取數(shù)據(jù)
通常,網頁在多個頁面上顯示產品列表等數(shù)據(jù)。WebHarvy可以自動抓取并從多個頁面提取數(shù)據(jù)。只需指出“鏈接到下一頁”,WebHarvyWebScraper就會自動從所有頁面中抓取數(shù)據(jù)。
基于關鍵字的Scraping
通過自動提交搜索表單的輸入關鍵字列表來抓取數(shù)據(jù)。任何數(shù)量的輸入關鍵字可以提交給多個輸入文本字段來執(zhí)行搜索。可以提取所有輸入關鍵字組合的搜索結果數(shù)據(jù)。
通過代理服務器
為了匿名抓取并防止網絡抓取軟件被網絡服務器阻止,您可以選擇通過代理服務器或V PN訪問目標網站??梢允褂脝蝹€代理服務器地址或代理服務器地址列表。
類別提取
WebHarvyWebScraper允許您從鏈接列表中獲取數(shù)據(jù),從而導致網站中出現(xiàn)類似的頁面/列表。這使您可以使用單一配置來刮取網站內的類別和子類別。
正則表達式
WebHarvy允許您在網頁的文本或HTML源代碼上應用正則表達式(RegEx)并刪除匹配的部分。這種強大的技術為您提供更多的靈活性,同時抓取數(shù)據(jù)。
運行JavaScript
在提取數(shù)據(jù)之前在瀏覽器中運行您自己的JavaScript代碼。這可以用來與頁面元素交互或者調用已經在目標頁面中實現(xiàn)的JavaScript函數(shù)。
下載圖片
可以下載圖像或者提取圖像URL。WebHarvy可以自動提取電子商務網站的產品詳細信息頁面中顯示的多個圖像。
自動瀏覽器交互
WebHarvy可以很容易地配置執(zhí)行任務,如點擊鏈接,選擇列表/下拉選項,輸入文本到一個字段,滾動頁面等。
安裝教程
1、下載并安裝SysNucleus WebHarvy
2、安裝完成后將Crck文件夾中的WebHarvy.exe復制到安裝目錄中替換
3、破解完成