精品秘无码一区二区三区老师-精品秘一区二三区免费雷安-精品蜜桃秘一区二区三区-精品蜜桃秘一区二区三区粉嫩-精品蜜桃一区二区三区-精品蜜臀国产aⅴ一区二区三区

LOGO OA教程 ERP教程 模切知識(shí)交流 PMS教程 CRM教程 開(kāi)發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

[點(diǎn)晴CRM客戶管理系統(tǒng)]簡(jiǎn)單分析搜索引擎蜘蛛的爬取策略

admin
2013年3月27日 22:24 本文熱度 9275

搜索引擎蜘蛛每天是怎么樣去爬取我們的網(wǎng)的呢?針對(duì)這些你有多少的了解?那搜索引擎蜘蛛的爬取過(guò)程又是怎么樣的呢?在搜索引擎蜘蛛系統(tǒng)中,待爬取URL隊(duì)列是很關(guān)鍵的部分,需要蜘蛛爬取的網(wǎng)頁(yè)URL在其中順序排列,形成一個(gè)隊(duì)列結(jié)構(gòu),調(diào)度程序每次從隊(duì)列頭取出某個(gè)URL,發(fā)送給網(wǎng)頁(yè)下載器頁(yè)面內(nèi)容,每個(gè)新下載的頁(yè)面包含的URL會(huì)追加到待爬取URL隊(duì)列的末尾,如此形成循環(huán),整個(gè)爬蟲(chóng)系統(tǒng)可以說(shuō)是由這個(gè)隊(duì)列驅(qū)動(dòng)運(yùn)轉(zhuǎn)的。同樣我們的網(wǎng)站每天都要經(jīng)過(guò)這樣一個(gè)隊(duì)列,讓搜索引擎進(jìn)行爬取的。


那么待爬取URL隊(duì)列中的頁(yè)面URL  的排列順序是如何來(lái)確定的呢?上面我們說(shuō)了將新下載頁(yè)面中的包含的鏈接追加到隊(duì)列尾部,這固然是一種確定隊(duì)列URL順序的方法,但并非唯一的手段,事實(shí)上,還可以采納很多其他技術(shù)來(lái)實(shí)現(xiàn),將隊(duì)列中待爬取的URL進(jìn)行排序。那么究竟搜索引擎蜘蛛是按照什么樣的策略進(jìn)行的爬取呢?以下我們來(lái)進(jìn)行更深入的分析吧。


第一、寬度優(yōu)化遍歷策略


寬度優(yōu)化遍歷是一種非常簡(jiǎn)單直觀且歷史很悠久的遍歷方法,在搜索引擎爬蟲(chóng)一出現(xiàn)就開(kāi)始采用了。新提出的抓取策略往往會(huì)將這種方法作為比較基準(zhǔn),但應(yīng)該注意到的是,這種策略也是一種相當(dāng)強(qiáng)悍的方法,很多新方法實(shí)際效果不見(jiàn)昨比寬度優(yōu)化遍歷策略好,所以至今這種方法也是很多實(shí)際爬蟲(chóng)系統(tǒng)優(yōu)先采用的爬取策略。網(wǎng)頁(yè)爬取順序基本是按照網(wǎng)頁(yè)的重要性排序的。之所以如此,有研究人員認(rèn)為,如果某個(gè)網(wǎng)頁(yè)包含很多入鏈,那么更有可能被寬度優(yōu)化遍歷策略早早爬到,而入鏈這個(gè)數(shù)從側(cè)面體現(xiàn)了網(wǎng)頁(yè)的重要性,即實(shí)際上寬度優(yōu)化遍歷策略隱含了一些網(wǎng)頁(yè)優(yōu)化級(jí)假設(shè)。


搜索引擎優(yōu)化


第二、非完全pagerank策略


PageRank是一種著名的鏈接分析算法,可以用來(lái)衡量網(wǎng)頁(yè)的重要性。很自然地,可以想到用PageRank的思想來(lái)對(duì)URL優(yōu)化級(jí)進(jìn)行排序。但是這里有個(gè)問(wèn)題,PageRank是個(gè)全局性算法,也就是說(shuō)當(dāng)所有網(wǎng)頁(yè)下載完成后,其計(jì)算結(jié)果才是可靠的,而爬蟲(chóng)的目的就是去下載網(wǎng)頁(yè),在運(yùn)行過(guò)程中只能看到一部分頁(yè)面,所以在爬取階段的網(wǎng)頁(yè)是無(wú)法獲得可靠的PageRank得分的。對(duì)于已經(jīng)下載的網(wǎng)頁(yè),加上待爬取的URL隊(duì)列中的一URL一起,形成網(wǎng)頁(yè)集合,在此集合內(nèi)進(jìn)行PageRank計(jì)算,計(jì)算完成之后,將待爬取URL隊(duì)列里的網(wǎng)頁(yè)按照按照PageRank得分由高低排序,形成的序列就是爬蟲(chóng)接下來(lái)應(yīng)該依次爬取的URL列表。這也是為何稱之為“非完全PageRank”的原因,。


第三、OPIC策略( Online Page Importance Computation)


OPIC的字面含義是“在線頁(yè)面重要性計(jì)算”,可以將其看做是一種改進(jìn)的PageRank算法。在算法開(kāi)始之前,每個(gè)互聯(lián)網(wǎng)頁(yè)面都給予相同的現(xiàn)金,每當(dāng)下載了某個(gè)頁(yè)面P后,P就將自己擁有的現(xiàn)金平均分配給頁(yè)面中包含的鏈接頁(yè)面,氫自己的現(xiàn)金清空。而對(duì)于待爬取URL隊(duì)列中的網(wǎng)頁(yè),則根據(jù)其手頭擁有的現(xiàn)金金額多少排序,優(yōu)先下載現(xiàn)金最充裕的網(wǎng)頁(yè),OPIC從大的框架上與PageRank思路基本一致,區(qū)別在于:PageRank每次需要迭代計(jì)算,而OPIC策略不需要迭代過(guò)程。所以計(jì)算速度遠(yuǎn)遠(yuǎn)快與PageRank,適合實(shí)時(shí) 計(jì)算使用。同時(shí),PageRank,在計(jì)算時(shí),存在向無(wú)鏈接關(guān)系網(wǎng)頁(yè)的遠(yuǎn)程跳轉(zhuǎn)過(guò)程,而OPIC沒(méi)有這一計(jì)算因子。實(shí)驗(yàn)結(jié)果表明,OPIC是較好的重要性衡量策略,效果略優(yōu)于寬度優(yōu)化遍歷策略。


第四、大站優(yōu)化策略


大部?jī)?yōu)化策略思路很直接:以網(wǎng)站為單位來(lái)選題網(wǎng)頁(yè)重要性,對(duì)于待爬取URL隊(duì)列中的網(wǎng)頁(yè)根據(jù)所屬網(wǎng)站歸類,如果哪個(gè)網(wǎng)站等待下載的頁(yè)面最多,則優(yōu)化先下載這些鏈接,其本質(zhì)思想傾向于優(yōu)先下載大型網(wǎng)站。因?yàn)榇笮途W(wǎng)站往往包含更多的頁(yè)面。鑒于大型網(wǎng)站往往是著名企業(yè)的內(nèi)容,其網(wǎng)頁(yè)質(zhì)量一般較高,所以這個(gè)思路雖然簡(jiǎn)單,但是有一定依據(jù)。實(shí)驗(yàn)表明這個(gè)算法效果也要略優(yōu)先于寬度優(yōu)先遍歷策略。


第五、網(wǎng)頁(yè)更新策略


互聯(lián)網(wǎng)的動(dòng)態(tài)是其顯著特征,隨時(shí)都有新出現(xiàn)的頁(yè)面,頁(yè)面的內(nèi)容被更改或者本來(lái)存在的頁(yè)面刪除。對(duì)于爬蟲(chóng)來(lái)說(shuō),并非將網(wǎng)頁(yè)抓取到本地就算完成任務(wù),也要體現(xiàn)出互聯(lián)網(wǎng)這種動(dòng)態(tài)性。本地下載的網(wǎng)頁(yè)可被看做是互聯(lián)網(wǎng)頁(yè)的鏡像,爬蟲(chóng)要盡可能保證其一致性。可以假設(shè)一種情況:某 個(gè)網(wǎng)頁(yè)已被刪除或者內(nèi)容做出重大變動(dòng),而搜索引擎對(duì)此惘然無(wú)知,仍然按其舊有內(nèi)容排序,將其作為搜索結(jié)果提供給用記,其用戶體驗(yàn)度之糟糕不言而喻。所以對(duì)于已經(jīng)爬取的網(wǎng)頁(yè),爬蟲(chóng)還要負(fù)責(zé)保持其內(nèi)容和互聯(lián)網(wǎng)頁(yè)面內(nèi)容的同步,這取決于爬蟲(chóng)所彩用的網(wǎng)頁(yè)更新策略。網(wǎng)頁(yè)更新策略的任務(wù)是要決定何時(shí)重新爬取之前已經(jīng)下載過(guò)和網(wǎng)頁(yè),以盡可能使得本地下載網(wǎng)頁(yè)和互聯(lián)網(wǎng)原始頁(yè)面內(nèi)容保持一致。常用的網(wǎng)頁(yè)更新策略有三種:歷史參考策略,用戶體驗(yàn)度策略和聚類抽樣策略。


(1)什么是歷史參考策略?


歷史參考策略是最直觀的一種更新策略,它建立于如下假設(shè)之上:過(guò)去頻繁更新的網(wǎng)頁(yè),那么將來(lái)也會(huì)頻繁更新,所以為了預(yù)估某個(gè)網(wǎng)頁(yè)何時(shí)進(jìn)行更新,可以通過(guò)參考其歷史更新情況來(lái)做出決定。


從這一點(diǎn)可以看出,我們網(wǎng)站的更新一定要有規(guī)律的進(jìn)行,這樣才能讓搜索引擎蜘蛛更好的來(lái)關(guān)注你的網(wǎng)站,把握你的網(wǎng)站,很多人在更新網(wǎng)站的時(shí)候,不知道為什么要做規(guī)律性的更新,這就是真正存在的原因。


(2)什么是用戶體驗(yàn)度策略?


這個(gè)很明顯,大家都知道。一般來(lái)說(shuō),搜索引擎用戶提交查詢結(jié)果后,相關(guān)的搜索結(jié)果可能成千上萬(wàn),而用戶沒(méi)有耐心去查看排在后面的搜索結(jié)果,往往只盾前三頁(yè)搜索內(nèi)容,用戶體驗(yàn)策略就是利用搜索引擎用戶的這個(gè)特點(diǎn)來(lái)設(shè)計(jì)更新策略的。


(3)聚類抽樣策略


上面介紹的兩種網(wǎng)頁(yè)更新策略嚴(yán)重依賴網(wǎng)頁(yè)的歷史更新信息,因?yàn)檫@是能夠進(jìn)行后續(xù)計(jì)算的基礎(chǔ)。但在現(xiàn)實(shí)中為每個(gè)網(wǎng)頁(yè)保存歷史信息,搜索系統(tǒng)會(huì)增加 額外的負(fù)擔(dān)。從另外一個(gè)角度考慮,如果是首次爬取的網(wǎng)頁(yè),因?yàn)闆](méi)有歷史信息,所以也就無(wú)法按照這兩種思路去預(yù)估其更新周期,聚類抽樣,策略即是為了解決上述缺點(diǎn)而提出的。網(wǎng)頁(yè)一般具有一些屬性,根據(jù)這些屬性可以預(yù)測(cè)其更新周期,具有相信屬性的網(wǎng)頁(yè),其更新周期也是類似的。


通過(guò)以上對(duì)搜索引擎蜘蛛的爬取過(guò)程以及爬取策略進(jìn)行了簡(jiǎn)單的了解之后,你是否應(yīng)該有些考慮了?試著對(duì)自己的網(wǎng)站進(jìn)行改變了?以上的一些原因說(shuō)明了搜索引擎的更新是有規(guī)律以及有章法進(jìn)行的,要想更能適應(yīng)搜索引擎的更新原則和蜘蛛爬取原則,我們就應(yīng)該從更基礎(chǔ)的入手去進(jìn)行全面的分析和總結(jié)。


該文章在 2013/3/27 22:24:58 編輯過(guò)
關(guān)鍵字查詢
相關(guān)文章
正在查詢...
點(diǎn)晴ERP是一款針對(duì)中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國(guó)內(nèi)大量中小企業(yè)的青睞。
點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對(duì)港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場(chǎng)、車隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點(diǎn),圍繞調(diào)度、堆場(chǎng)作業(yè)而開(kāi)發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體,是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。
點(diǎn)晴WMS倉(cāng)儲(chǔ)管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購(gòu)管理,倉(cāng)儲(chǔ)管理,倉(cāng)庫(kù)管理,保質(zhì)期管理,貨位管理,庫(kù)位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號(hào)管理軟件。
點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi),不限功能、不限時(shí)間、不限用戶的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved

主站蜘蛛池模板: 99精华一二三 | 人妻无码一区二区三区 | 精东传媒VS天美传媒在线老牛 | 麻豆天美 果冻 星空国产 | 亚洲欧美一区二区在线 | 国产小受呻吟gv视频在线观看 | 亚洲大成色www永久网站动图 | 国产免费九九久久精品一区 | 91久久国产电影 | 精品国产乱码久久久人妻 | 精品人妻一区二区三区日产乱码 | 亚洲专区动漫专区 | 中国国产免费一级片 | 人妻精品丰满熟妇区 | 亚洲成人免费电影 | 果冻传媒广告网站入口 | 亚洲免费在线看 | 亚洲国产精品久久久久制服 | 国产自偷自偷免费一区 | 熟妇女人妻丰满 | 国产亚洲日韩在线一区二区三区 | 最新国产女同在线 | 亚洲欧美日韩久久一区二区 | ts人妖在线观看 | 人妖和人妖互交性xxxx视频 | 欧美金发尤物大战黑人 | 欧美疯狂做爰XXXX高清 | 无码高潮又爽又黄A片日本动漫 | 国产高清一区二区三区视频 | 国产成人无码视频在线观看 | 成人A片产无码免费视频软件 | 在线观看无码av久久久久久99精品 | 日韩精品人妻系列无码专区 | 无码人妻a∨一区二区三区四区 | 亚洲av乱码一区二区三区按摩 | 国产浓毛大泬熟妇视频 | 成人无码精品一区二区三区亚洲区 | 中日黄色录像一级片免费播放 | 国模娜娜一区二区三区 | 国产真实乱人偷精品人妻 | 中日韩精品无码一区二区三区 |