CrawlWorm Picture是一款功能強(qiáng)大的圖片爬取工具,軟件支持對(duì)任意網(wǎng)站的圖片爬取和下載功能,主要運(yùn)用于圖片站使用,軟件鏈接數(shù)據(jù)庫(kù),直接將某個(gè)站的圖片全部下載并進(jìn)行分類(lèi)到數(shù)據(jù)庫(kù)中,方便用戶建站使用。
基本簡(jiǎn)介
本軟件屬于網(wǎng)絡(luò)類(lèi)應(yīng)用軟件,在Windows平臺(tái)使用的網(wǎng)絡(luò)圖片爬取工具,主要功能為根據(jù)提供的網(wǎng)站地址,分析網(wǎng)頁(yè)源碼獲取網(wǎng)站的圖片資源,能夠?qū)崿F(xiàn)簡(jiǎn)單分類(lèi)并存儲(chǔ)到數(shù)據(jù)庫(kù)和硬盤(pán)中。
功能介紹
(1)本技術(shù)需配合SQL Server數(shù)據(jù)庫(kù)使用
(2)獲取圖片
在獲取圖片時(shí),需要用戶自己輸入要抓取的根網(wǎng)址,這里的根網(wǎng)址需要保證其真實(shí)存在,如果不存在則會(huì)提示網(wǎng)頁(yè)源代碼獲取失敗,從而導(dǎo)致任務(wù)啟動(dòng)失敗。
(3)搜索參數(shù)設(shè)置
在搜索參數(shù)設(shè)置的時(shí)候,需要慎重考慮其各個(gè)參數(shù)之間的制約關(guān)系,有以下幾種情況需要說(shuō)明。
如果搜索深度設(shè)置過(guò)大,那么就需要將抓取數(shù)據(jù)容量設(shè)置的大一些,否則任務(wù)會(huì)因?yàn)樽ト∪萘坎蛔愣黄韧V棺ト」ぷ鳌?/p>
如果能夠保證自己的網(wǎng)絡(luò)連接正常,則選擇不使用代理服務(wù)器。因?yàn)槭褂么矸?wù)器,在任務(wù)執(zhí)行過(guò)程中,如果代理服務(wù)器失效或者停止活動(dòng),則需要重新選擇代理服務(wù)器,這中間會(huì)耗費(fèi)大量時(shí)間來(lái)更換代理服務(wù)器。
在選擇開(kāi)始執(zhí)行時(shí)間時(shí),不易將執(zhí)行時(shí)間設(shè)置的過(guò)長(zhǎng),因?yàn)樵O(shè)置的過(guò)長(zhǎng)會(huì)使任務(wù)長(zhǎng)期處于等待狀態(tài),建議只有在任務(wù)較少的情況下這樣設(shè)置。
(4)關(guān)鍵字管理
在關(guān)鍵字管理中,需要注意的是在添加主關(guān)鍵字的時(shí)候,要同時(shí)添加一個(gè)與主關(guān)鍵字名字相同的子關(guān)鍵字,因?yàn)樵趫D片進(jìn)行分類(lèi)的時(shí)候,首先比對(duì)的是子關(guān)鍵字,只有子關(guān)鍵字匹配之后才能確定其分類(lèi)歸屬。
另外需要注意的是,刪除主關(guān)鍵字時(shí)會(huì)將與其相關(guān)的所有子關(guān)鍵字一同刪除。
(5)多任務(wù)
鑒于對(duì)任務(wù)耗費(fèi)資源的考慮,同時(shí)執(zhí)行的任務(wù)個(gè)數(shù)設(shè)定為5個(gè),超過(guò)5個(gè)的任務(wù)只能處于等待狀態(tài),只有5個(gè)被執(zhí)行任務(wù)中有結(jié)束的,處于等待的任務(wù)才能被執(zhí)行。