秋式網(wǎng)站日志分析器是一款功能強(qiáng)大的網(wǎng)站日志分析工具,原版2.0版本名為點(diǎn)格網(wǎng)站日志分析器,現(xiàn)更名為秋式網(wǎng)站日志分析器。通過它,用戶可分析爬蟲抓取頁(yè)面有效性,并可通過日志分析蜘蛛返回的狀態(tài)碼及時(shí)發(fā)現(xiàn)網(wǎng)站里面是否存在錯(cuò)誤或者蜘蛛無法爬取的頁(yè)面,同時(shí)通過這些返回的信息用戶還可排查網(wǎng)站頁(yè)面中存在的404錯(cuò)誤頁(yè)面、500服務(wù)器錯(cuò)誤等這些噪音內(nèi)容上噪音頁(yè)面上的錯(cuò)誤信息,并以此可減少搜索引擎在一些噪音頁(yè)面上,如重復(fù)頁(yè)面、低質(zhì)量頁(yè)面、空內(nèi)容頁(yè)面、404頁(yè)面、不排名頁(yè)面等的抓取頻率。全新的秋式網(wǎng)站日志分析器3.0進(jìn)行了整體的全面升級(jí),著重修正了“避免線程沖突引發(fā)導(dǎo)致軟件自動(dòng)退出”的問題,同時(shí)支持Linux下的IIS日志,并增加了IP分析和對(duì)360搜索引擎的支持。
新功能:
1、整體升級(jí),避免線程沖突引發(fā)導(dǎo)致軟件自動(dòng)退出的問題。
3、支持Linux下的IIS日志
4、增加IP分析
5、增加360搜索引擎的支持
功能特色:
1、可分析爬蟲抓取頁(yè)面有效性,并可通過日志分析蜘蛛返回的狀態(tài)碼及時(shí)發(fā)現(xiàn)網(wǎng)站里面是否存在錯(cuò)誤或者蜘蛛無法爬取的頁(yè)面
2、通過程序提供的返回的信息用戶還可排查網(wǎng)站頁(yè)面中存在的404錯(cuò)誤頁(yè)面、500服務(wù)器錯(cuò)誤等這些噪音內(nèi)容上噪音頁(yè)面上的錯(cuò)誤信息
3、通過秋式網(wǎng)站日志分析器的日志查看,用戶還可減少搜索引擎在一些噪音頁(yè)面上,如重復(fù)頁(yè)面、低質(zhì)量頁(yè)面、空內(nèi)容頁(yè)面、404頁(yè)面、不排名頁(yè)面等的抓取頻率
網(wǎng)站日志分析介紹作為一名seoer,對(duì)網(wǎng)站日志分析是必需要掌握的一項(xiàng)基本的技能,通過日志分析可以分析爬蟲抓取頁(yè)面有效性,通過日志分析蜘蛛返回的狀態(tài)碼能及時(shí)發(fā)現(xiàn)網(wǎng)站里面是否存在錯(cuò)誤或者蜘蛛無法爬取的頁(yè)面,排查網(wǎng)站頁(yè)面中存在的404錯(cuò)誤頁(yè)面,500服務(wù)器錯(cuò)誤等這些噪音內(nèi)容上噪音頁(yè)面上(重復(fù)頁(yè)面,低質(zhì)量頁(yè)面,空內(nèi)容頁(yè)面,404頁(yè)面,不排名頁(yè)面等)
一、網(wǎng)站日志可以為我們做什么?
1.可以分析爬蟲抓取頁(yè)面有效性(減少搜索引擎在一些噪音頁(yè)面上:重復(fù)頁(yè)面,低質(zhì)量頁(yè)面,空內(nèi)容頁(yè)面,404頁(yè)面,不排名頁(yè)面的抓取頻率)
2.排查網(wǎng)站頁(yè)面中存在的404錯(cuò)誤頁(yè)面,500服務(wù)器錯(cuò)誤等
3.頁(yè)面重要內(nèi)容是否被爬蟲完整爬到并且快速遍歷
4.正確分辨蜘蛛爬蟲
二、常見HTTP狀態(tài)碼解讀
1.200代碼,表示蜘蛛爬取正常
2.404代碼,訪問的這個(gè)鏈接是錯(cuò)誤鏈接
3.301代碼,永久重定向
4.302代碼,表示臨時(shí)重定向
5.304代碼,客戶端已經(jīng)執(zhí)行了GET,但文件未變化
6.500代碼,表示網(wǎng)站內(nèi)部程序或服務(wù)器有錯(cuò)
三、日志代碼解讀
從日志文件當(dāng)中可以解讀出兩個(gè)部分內(nèi)容:
【搜索引擎抓取情況】
1.從日志文件中,可以大家看到搜索引擎抓取了一些404頁(yè)面及低質(zhì)量重負(fù)頁(yè)面(噪音行為)
PS:可以通過nslookup ip 識(shí)別蜘蛛的真假
★/date-2016-01.html(低質(zhì)量重負(fù)頁(yè)面)
★/author-1.html(低質(zhì)量重負(fù)頁(yè)面)
★/downloads/(低質(zhì)量頁(yè)面)
★/contact.html(死鏈接接),但這里有個(gè)問題,這個(gè)頁(yè)面返回的狀態(tài)碼為200而不是404,但頁(yè)面卻跳轉(zhuǎn)到404頁(yè)面,從中可以發(fā)現(xiàn)服務(wù)器設(shè)置一定有問題
2.所以,當(dāng)我們有一些頁(yè)面不希望他們抓取的時(shí)候,我們需要在robots中進(jìn)行規(guī)范。規(guī)范robots一個(gè)重要的手段,就是robots.txt。爬蟲糾偏,讓爬蟲花更多的精力放在我的詳情頁(yè)面上
【用戶訪問網(wǎng)站情況】
關(guān)于用戶網(wǎng)站訪問情況, 主要分析用戶訪問網(wǎng)站行為軌跡及用戶屬性,在這就不進(jìn)行講述