搜索引擎的工作原理之索引

來源:www.302817.tw 作者:筆者小丹 時間:2020-5-20 11:18:35 瀏覽:53次

    搜索引擎的三大功能:爬取、索引和排名。而在我們確定了網站已經被爬行以后,下一步來進行操作的就是確保網站的內容路徑能夠被索引。我們要明確的知道,即便是網站被搜索引擎發現和爬行了,但是并不意味著網站就可以被搜索引擎所索引儲存在索引庫中。在對搜索引擎爬行進行分析的時候,我們明白了網站是如何被搜索引擎發現和爬行的,而索引就是用來發現我們的頁面對其進行儲存的。搜索引擎找打對應的網頁后,會像照相機一樣來記錄它,同時在這個過程中會對該頁面進行數據分析和篩選,然后再判斷是否將該頁面儲存到索引庫中。

    下面我們來分析的內容就搜索引擎索引的工作原理以及如來讓我們的網站被搜索引擎收錄到數據庫中。我們是否可以看到Googlebot搜索引擎如何快照到我們的頁面?答案是肯定的,要知道網站頁面的緩存版本將反映Googlebot上次對其進行爬網的快照。Google以不同的頻率抓取和緩存網頁。我們可以通過單擊搜索引擎結果頁中URL旁邊的下拉箭頭并選擇“快照”來查看頁面的已緩存版本的外觀:我們還可以查看網站的純文本形式以確定是否有效地檢索和緩存了我們的重要內容。

    那么收錄的頁面是否還有可能從索引中刪除呢?這個答案也是肯定,造成已經被收錄的頁面被再次“放棄”刪除的原因有很多,我們常見的原因有:

    1、URL返回“找不到”錯誤(4XX)或服務器錯誤(5XX),這可能是偶然的頁面已移動并且未設置301重定向或故意的頁面被刪除并進行了404處理以便將其從索引中刪除。

    2、網址中添加了noindex元標記,網站所有者可以添加此標記,以指示搜索引擎從其索引中省略該頁面。

    3、該網址已因違反搜索引擎的網站站長指南而受到了人工懲罰,因此已從索引中刪除。

    4、網站阻止了URL的爬網并添加了訪問者訪問該頁面之前需要使用密碼。

    如果我們認為不再顯示以前在Google索引中的網站頁面,則可以使用URL Inspection工具來了解該頁面的狀態,或者使用具有“更新索引”功能的Google抓取方式來向索引提交各個URL。 那么,搜索引擎又是如何為我們的網站建立索引的呢?

    1、機器人元指令

    元指令是我們可以向搜索引擎提供的有關如何處理網頁的說明。我們可以告訴搜索引擎抓取工具,如不要在搜索結果中將此頁面編入索引或不要將任何鏈接資產傳遞給任何頁面上的鏈接。這些指令是通過HTML頁面<head>中的Robots Meta標簽或HTTP標頭中的X-Robots-Tag執行的。

    2、元指令影響索引編制,而不是爬網

    Googlebot需要抓取我們的頁面才能查看其meta指令,因此,如果我們試圖阻止抓取工具訪問某些頁面,那么meta指令就無法做到這一點。 必須抓取搜索引擎標簽以使其受到尊重。

    3、機器人元標記

    可以在網頁HTML的<head>中使用robots元標記。它可以排除所有或特定的搜索引擎。以下是最常見的meta指令,以及我們可能在哪些情況下應用它們。

    (1)index/noindex告訴引擎是否應該對頁面進行爬網并將其保留在搜索引擎的索引中以進行檢索。如果我們選擇使用“noindex”,則表示正在與搜索引擎進行通訊,以使該網頁不包含在搜索結果中。默認情況下,搜索引擎假定它們可以索引所有頁面,因此不需要使用“index”值??赡苁褂玫臅r間:如果我們嘗試從Google網站索引中剪裁薄頁,但仍希望訪問者可以訪問它們,則可以將頁面標記為“noindex”。

    (2)follow/nofollow告訴搜索引擎頁面上的鏈接是應該跟隨還是不被跟隨。 關注會導致搜索引擎跟蹤我們頁面上的鏈接,并將鏈接所有權傳遞給這些URL?;蛘呶覀冞x擇使用“nofollow”,則搜索引擎將不會跟蹤或將任何鏈接資產傳遞給頁面上的鏈接。默認情況下,假定所有頁面都具有“跟隨”屬性??赡艿氖褂脮r間:嘗試防止頁面被索引以及爬蟲程序不跟蹤頁面上的鏈接時,nofollow通常與noindex一起使用。

    (3)noarchive用于限制搜索引擎保存頁面的緩存副本。默認情況下,引擎將維護已索引的所有頁面的可見副本,用戶可以通過搜索結果中的緩存鏈接來訪問它們??赡苁褂玫臅r間:如果我們經營一個電子商務網站并且價格定期變化,則可以考慮使用noarchive標簽,以防止用戶看到過時的價格。

    說了很多理論的知識,我們舉個一個元機器人noindex,nofollow標簽的例子:<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>…</body></html>該代碼是排除所有搜索引擎將頁面編入索引或跟蹤任何頁面上的鏈接。如果我們要排除多個抓取工具則可以使用多個機器人排除代碼。

    4、元指令影響索引編制,而不是爬網

    Googlebot需要抓取我們的頁面才能查看其meta指令,因此,如果我們試圖阻止抓取工具訪問某些頁面,那么meta指令就無法做到這一點。必須抓取搜索引擎標簽,以使其受到尊重。

    5、X機器人標簽

    x-robots標記用于URL的HTTP標頭中,如果我們想大規模阻止搜索引擎,則比meta標記提供更多的靈活性和功能,因為我們可以使用正則表達式,阻止非HTML文件以及應用站點范圍內的noindex標記。機器人元標記中使用的派生詞也可以在X-Robots-Tag中使用。

    只要我們了解影響爬網和索引的不同方法將幫助我們避免可能導致無法找到重要頁面的常見陷阱。

    (轉載請注明轉自:www.302817.tw,謝謝!珍惜別人的勞動成果,就是在尊重自己!)


上一篇:搜索引擎的工作原理之排名

下一篇:搜索引擎的工作原理之抓取

返回列表

網站建設知識

品牌創意網站建設 上市公司網站建設 大型門戶類網站建設 全方位網站運營代理
企業官方網站建設 B2C電子商務網站建設 專題活動網站(MINISITE)

更多 +聯系我們

24小時服務熱線:400-1180-360

業務 QQ:  444961110傳真: 0311-80979256

渠道合作:  [email protected]

更多 +關于我們

河北供求互聯信息技術有限公司(河北供求網)誕生于2003年4月,是康靈集團旗下子公司,也是河北省首批從事網站建設、電子商務開發,并獲得國家工業和信息化部資質認證的企業。公司自成立以來,以傳播互聯網文化為已任, 以高科技為起點,以網絡營銷研究與應用為核心,致力于為各企事業單位提供網絡域名注冊、虛擬主機租用、網站制作與維護、網站推廣和宣傳、網站改版與翻譯、移動互聯網營銷平臺開發與運營、企業郵局、網絡支付、系統集成、軟件開發、電子商務解決方案等優質的信息技術服務,與中國科學院計算機網絡信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯通、中國數據、萬網、中資源、陽光互聯、點點客、北龍中網、電信通等達成戰略合作伙伴關系。

版權所有 ? 河北供求互聯信息技術有限公司-最優秀的石家莊網站建設公司,為您提供石家莊網站建設、網站推廣等優質服務.   
服務熱線:400-1180-360 傳真:0311-80979256 增值電信業務經營許可證:冀B2-20105159 冀ICP備09010972號

在線留言
免費試用
掃一掃

掃一掃
贈送神秘大禮

全國免費服務熱線
400-1180-360

返回頂部
浙江11选五遗漏值 山东十一选五走势图爱彩乐 在线配资 吉林十一选五开奖结果一定牛 988福彩快3 幸运赛车网址 pc蛋蛋漏洞利用工具 2018双色球手机版下载 股票涨跌由什么决定停 辽宁省十一选五开奖 福建快三今日开奖