功能介紹
Spider的抓取方式可以分為Spider與URL,簡(jiǎn)單點(diǎn)理解就是一個(gè)你可以放一個(gè)頁面或域名開始抓取,另外一個(gè)則是放一個(gè)url文件進(jìn)去抓取。你在輸入好url或選擇好url文件后則會(huì)開始抓取內(nèi)容,那么問題來了,Spider可以為我們抓取頁面的什么內(nèi)容呢?
頁面鏈接
文件類型與編碼
HTTP狀態(tài)碼和狀態(tài)
Title與長度
Description與長度
Keywords與長度
H1標(biāo)簽文本與長度
H2標(biāo)簽文本與長度
Canonical URL
其他(文件大小,字?jǐn)?shù),層數(shù),內(nèi)鏈數(shù)量,站外鏈接數(shù)量等)
對(duì)于鏈接抓取的限制上,Spider也做了許多功能。首先是下面的特殊限制:
檢查圖片
檢查css文件
檢查js文件
檢查swf文件,也就是Flash之類的
檢查外部鏈接
檢查目錄以外的鏈接
跟蹤標(biāo)識(shí)Nofollow的站內(nèi)鏈接
跟蹤表示Nofollow的外部鏈接
忽略robots.txt
總共抓取數(shù)量
總共抓取層數(shù)
這里大家可能還是看不太懂,那Adrian為大家簡(jiǎn)單舉例解釋一下。
案例一:D姐想要抓UC所有頁面,其中不包括CSS,JS,SWF(因?yàn)檫@些浪費(fèi)時(shí)間和資源)。那么就可以取消勾選四個(gè)選項(xiàng)了;
案例二:民工想要像蜘蛛一樣爬取UC的頁面,那么就可以只勾選Ignore robots.txt這一項(xiàng)了;
案例三:何元想要只抓dx的首頁所有鏈接,全部勾選上,除了不要勾Ignore與Limit search toal就可以了,當(dāng)然記得勾上Limit Search Depth 并設(shè)置層級(jí)為1;
如果還看不懂,那我也無能為力了,只能是找D姐給你好好培訓(xùn)一下SEO了。
其實(shí)Spider的功能有許多,我就不一一提及了。說幾個(gè)我常用的功能吧!
第一個(gè),正則爬行頁面。
在configuration中的include和exclude里都有可以寫正則的地方,在那里你可以設(shè)置你想要特定抓取爬行的鏈接。至于怎么使壞,需要你自己想象了。
第二個(gè),速度限制。
在configuration中的Speed中有關(guān)于速度的限制,這里需要提一下的是速度上的限制不僅僅指的是線程,還有限制抓取URL速度,例如你想要1 URL/S,又或者是2 URL/S。這個(gè)功能可以躲避部分有防重復(fù)爬行限制的網(wǎng)站。
第三個(gè),User Agent設(shè)置。
在configuration中有一個(gè)User Agent里可以設(shè)置你的身份,你可以設(shè)置為某搜索引擎的蜘蛛或?yàn)g覽器都可以。
第四個(gè),自定義字段檢查功能。
同樣是在configuration中的custom,這個(gè)功能可以說是比較好用的功能,主要是可以讓Spider在爬行抓取的同時(shí)可以根據(jù)你所設(shè)置的自定義字段進(jìn)行篩選。例如:我在Custom設(shè)置了包含DVD這個(gè)字眼,那么所有出現(xiàn)DVD字眼的頁面都會(huì)特別篩選出來。
還有其他的功能,如:代理抓取,制作sitemap,導(dǎo)出url等功能,都是比較實(shí)用的。