搜索引擎的工作原理之抓取

來源:www.302817.tw 作者:筆者小丹 時間:2020-5-19 11:21:53 瀏覽:57次

    搜索引擎的存在是為了發現,抓取,整合互聯網中的內容,在用戶進行提出問題進行搜索時候能夠快速的為用戶提出相關的結果展示。為了讓我們的網站能夠展示在搜索引擎結果中,我們的內容必須要對搜索引擎友好,可見性。也就是說在SEO優化的難題中,首先是要讓搜索引擎發現我們的網站,否則我們的網站內容則永遠不可能出現的搜索引擎結果頁中。   
    搜索引擎的主要有三個功能板塊:

    1、抓?。涸诰W絡上抓取內容,查看網站找到的每個URL的代碼對于的相應內容。

    2、索引:存儲和組織在爬網過程中找到的內容,頁面進入索引后,就會在運行中顯示為相關查詢的結果。

    3、排名:提供最能回答用戶查詢的內容,這意味著搜索結果的排序方式從最相關到最不相關。

    抓取是一種發現過程,搜索引擎在其中發現一組機器人也就是我們所說的搜索引擎蜘蛛,來尋找新的和更新的內容。內容可以有所不同,可以是網頁,圖片,視頻,PDF等但無論格式如何,內容都是通過鏈接發現的。

    Googlebot首先獲取一些網頁,然后按照這些網頁上的鏈接查找新的URL。通過沿著鏈接的這種路徑跳動,蜘蛛可以找到新內容并將其添加到名為Caffeine的索引中,以后當用戶搜索到該URL上的內容為很適合。搜索引擎處理并存儲他們在索引中找到的信息,索引是他們發現并認為足以為用戶服務的所有內容的龐大數據庫。當有人進行搜索時,搜索引擎會在索引中搜索高度相關的內容,然后對這些內容進行排序,以解決用戶的查詢,我們搜索結果的相關性排序稱為排名。通常,我們可以假設網站的排名越高,搜索引擎認為該網站與查詢的相關性就越高。

    有可能阻止我們的部分或全部網站訪問搜索引擎爬網程序,或者指示搜索引擎避免將某些頁面存儲在其索引中。盡管我們這樣做有一定的原因,但是如果我們希望用戶找到我們的內容,則必須首先確保抓取工具可以訪問該內容并將其編入索引。否則,一切的優化工作將都是徒勞。我們都認為SEO排名是由數據來決定的,所以是客觀的,公平的。其實不然!許多初學者想知道特定搜索引擎的相對重要性。大多數人都知道Google擁有最大的市場份額,但是對Bing,Yahoo和其他公司進行優化對它有多重要呢? 事實是,盡管存在30多個主要的網絡搜索引擎,但SEO社區實際上只關注Google。因為絕大多數人都在Google搜索網站。如果我們將Google Images,Google Maps和YouTube包括在內,則超過90%的網絡搜索是在Google上進行的,這是Bing和Yahoo的總和的近20倍。

    介紹了搜索引擎的主要功能原理,下面我們來分析搜索原理的第一部分—爬行抓取。

    正如我們剛剛了解到的那樣,確保對我們的網站進行爬網和建立索引是在搜索引擎結果頁中顯示的先決條件。如果我們已經有一個網站,則最好先查看索引中有多少頁面,然后再開始。這將對Google是否正在爬網并找到我們想要的所有頁面,以及我們不需要的所有頁面產生一些深刻的見解。檢查索引頁面的一種方法是高級搜索運算符“ site:aaa.com”。轉到Google,然后在搜索欄中輸入“ site:aaa.com”這將返回Google在其指定網站的索引中具有的結果。Google所顯示的結果數量并不確切,但是它確實使我們對網站上哪些頁面建立了索引以及它們當前在搜索結果中的顯示方式有一個明確的了解。為了獲得更準確的結果,請在Google Search Console中監控和使用“索引覆蓋率”報告。如果我們目前沒有免費的Google Search Console帳戶,可以注冊一個。使用此工具,我們可以提交網站的網站地圖,并監視實際上已將多少已提交的頁面添加到Google的索引中。

    如果我們沒有在搜索結果中顯示任何位置,則可能有以下幾種原因:

1、我們的網站是全新的,尚未進行爬網。

    2、我們的網站未從任何外部網站鏈接到。

    3、我們網站的導航使機器人很難有效地對其進行爬網。

    4、我們的網站包含一些稱為蜘蛛指令的基本代碼,這些基本代碼會阻止搜索引擎。

    如果我們使用Google Search Console或“ site:aaa.com”高級搜索運算符,但發現索引中缺少某些重要頁面和/或某些不重要的頁面被錯誤地編入索引,則可以進行一些優化 實施,以更好地指導Googlebot我們要如何抓取網絡內容。告訴搜索引擎如何抓取我們的網站可以使我們更好地控制索引中的內容。大多數人都考慮過確保Google可以找到自己的重要頁面,但是很容易忘記,有些頁面可能是我們不希望Googlebot找到的。這些內容可能包括諸如內容稀少的舊URL,重復的URL特殊的促銷代碼頁,登臺或測試頁之類的內容。

    要使Googlebot遠離我們網站的某些頁面和部分,請使用robots.txt。Robots.txt文件位于網站的根目錄中,建議我們應該和不應該搜索網站的哪些部分,以及它們搜索網站的速度,通過特定的robots.txt指令。那么,Googlebot如何處理robots.txt文件呢?

    1、如果Googlebot找不到網站的robots.txt文件,則會繼續抓取該網站。

    2、如果Googlebot找到了網站的robots.txt文件,則通常會遵守建議并繼續抓取該網站。

    3、如果Googlebot在嘗試訪問網站的robots.txt文件時遇到錯誤,并且無法確定該網站是否存在,它將不會抓取該網站。

    抓取是Googlebot離開前將在我們的網站上抓取的URL的平均數量,因此抓取預算優化可確保Googlebot不會浪費時間在不重要的頁面上進行抓取,而忽略了重要頁面的風險。在擁有成千上萬個網址的大型網站上,抓取預算是最重要的,但是阻止抓取工具訪問我們絕對不在意的內容絕不是一個壞主意。只要確保不阻止爬網程序訪問我們添加了其他指令的頁面即可。如果某個頁面禁止了Googlebot,將無法看到該頁面上的說明。當然,并非所有的網絡機器人都遵循robots.txt。有惡意的人會構建不遵循此協議的漫游器。實際上,一些不良用戶會使用robots.txt文件來查找我們的私人內容所在的位置。盡管將爬網程序阻止在諸如登錄和管理頁面之類的私人頁面中以使其不顯示在索引中似乎合乎邏輯,但將這些URL的位置放在可公開訪問的robots.txt文件中也意味著存在惡意意圖的人可以更輕松地找到它們。最好讓這些頁面NoIndex并在登錄表單后設置它們,而不是將它們放在robots.txt文件中。

    通過將某些參數附加到URL,某些站點在多個不同的URL上提供相同的內容。如果我們曾經在線購物,則可能已通過過濾器縮小了搜索范圍,每次優化時,URL都會略有變化。Google如何知道要提供給用戶的URL版本? Google在自行找出代表性URL方面做得很好,但是我們可以使用Google Search Console中的URL Parameters功能來確切告訴Google我們希望他們如何對待網頁。如果我們使用此功能告訴Googlebot“不使用參數抓取網址”,那么我們實際上是在要求從Googlebot隱藏該內容,這可能會導致這些頁面從搜索結果中刪除。如果這些參數創建了重復的頁面,那就是我們想要的,但是如果我們希望這些頁面被索引,那是不理想的。

    蜘蛛可以找到我們所有的重要內容嗎?既然我們已經知道了確保搜索引擎抓取工具遠離我們不重要的內容的一些策略,那么讓我們了解一下可以幫助Googlebot查找重要頁面的優化方法。有時,搜索引擎將能夠通過爬網找到我們網站的某些部分,但是其他頁面或部分可能由于某種原因而被遮蓋。重要的是要確保搜索引擎能夠發現我們想要索引的所有內容而不僅僅是首頁。如果我們要求用戶在訪問某些內容之前登錄,填寫表格或回答調查,搜索引擎將不會看到那些受保護的頁面。爬網程序是不會登錄的。機器人程序無法使用搜索表單。有些人認為,如果他們在自己的網站上放置搜索框,則搜索引擎將能夠找到其訪客搜索的所有內容。非文本媒體形式如圖片,視頻,GIF等不應用于顯示希望被索引的文本。盡管搜索引擎在識別圖片方面變得越來越好,但并不能保證它們現在仍能夠閱讀和理解圖片。始終最好在網頁的<HTML>標記內添加文本。就像爬蟲需要通過其他站點的鏈接來發現我們的站點一樣,它也需要我們自己站點上的鏈接路徑來引導頁面之間的鏈接。如果我們有要搜索引擎查找的頁面,但未從任何其他頁面鏈接到該頁面,則與隱藏頁面一樣好。許多網站都犯了嚴重的錯誤,即以搜索引擎無法訪問的方式來構建導航結構,從而阻礙了其在搜索結果中列出的功能。

    常見的導航錯誤可能使爬網程序無法看到我們的所有站點:移動導航顯示的結果與pc導航不同,菜單項不在HTML中的任何類型的導航,例如啟用JavaScript的導航。Google在抓取和理解Java方面已經做得更好,但是仍然不是一個完美的過程。確保某些東西被Google找到,理解和建立索引的更可靠方法是將其放入HTML中。個性化或相對于其他類型的訪問者顯示獨特的導航方式似乎掩蓋了搜索引擎爬蟲,忘記通過導航鏈接到我們網站上的主頁-記住,鏈接是爬蟲遵循的進入新頁面的路徑。這就是為什么網站必須具有清晰的導航和有用的URL文件夾結構至關重要的原因。

    信息體系結構是一種組織和標記網站上的內容以提高用戶效率和可發現性的實踐。最好的信息體系結構是直觀的,這意味著用戶不必費心思量即可瀏覽我們的網站或查找內容。那么可以使用網地圖,網站地圖就是它的外觀,爬網程序可用來發現我們的內容并將其編入索引的站點上URL列表。確保Google查找優先級最高的頁面的最簡單方法之一是創建符合Google標準的文件,然后通過Google Search Console提交文件。盡管提交網站地圖并不能代替良好的站點導航,但可以肯定地幫助爬網程序遵循通往所有重要頁面的路徑。確保僅包含要由搜索引擎索引的URL,并確保為抓取工具提供一致的方向。例如,如果我們已經通過robots.txt阻止了該網址,則不要在我們的網站地圖中包含該網址,或者在我們的網站地圖中包含重復的網址,而不是首選的范本。如果我們的網站沒有其他鏈接到該網站,則仍可以通過在Google Search Console中提交XML網站地圖來對其進行索引。不能保證他們將在索引中包含一個提交的URL,但是去嘗試一下。

    有很多朋友有過這樣的疑問:蜘蛛嘗試訪問我們的URL時是否出錯?

    其實,在搜索我們網站上的URL的過程中,蜘蛛可能會遇到錯誤。我們可以轉到Google Search Console的“抓取錯誤”報告,以檢測可能發生此錯誤的網址該報告將向我們顯示服務器錯誤和未發現的錯誤。服務器日志文件還可以向我們顯示此信息,以及其他信息如抓取頻率的數據庫,但是由于訪問和剖析服務器日志文件是一種更高級的策略。我們必須先了解服務器錯誤和“未找到”錯誤,然后才能對抓取錯誤報告進行有意義的任何操作。

    4xx代碼:當搜索引擎抓取工具由于客戶端錯誤而無法訪問我們的內容時

    4xx錯誤是客戶端錯誤,這意味著請求的URL語法錯誤或無法實現。最常見的4xx錯誤之一是“ 404 –未找到”錯誤。這些可能是由于URL錯字,已刪除頁面或斷開的重定向而引起的,僅舉幾個例子。當搜索引擎搜索到404時,它們將無法訪問該URL。當用戶點擊404時,他們可能會感到沮喪而離開。

    5xx代碼:當搜索引擎抓取工具由于服務器錯誤而無法訪問我們的內容時

    5xx錯誤是服務器錯誤,這意味著網頁所在的服務器無法滿足用戶或搜索引擎訪問該頁面的請求。在Google Search Console的“抓取錯誤”報告中,有一個專門針對這些錯誤的標簽。這些通常是由于對URL的請求超時而導致的,因此Googlebot放棄了該請求。查看Google的文檔,以了解有關解決服務器連接問題的更多信息。

    不過,有一種方法可以告知用戶和搜索引擎我們的頁面已301(永久)重定向。

    假設我們將頁面從aaa.com/b-c/移至aaa.com/d/。搜索引擎和用戶需要一個橋梁,以從舊URL過渡到新URL。該橋是301重定向。當我們實施301時:當我們未實施301時:鏈接資產將鏈接的資產從頁面的舊位置轉移到新URL。如果沒有301,則來自先前URL的權限不會傳遞到URL的新版本。索引幫助Google查找和索引頁面的新版本,僅在我們的網站上出現404錯誤并不會損害搜索性能,但是讓排名/被投放的頁面404可能會導致它們不在索引之列,排名和訪問量隨之而來。用戶體驗確保用戶找到他們要查找的頁面。允許訪問者單擊無效鏈接會將他們帶到錯誤頁面,而不是預期的頁面,這可能會用戶降低體驗。

    301狀態代碼本身表示該頁面已永久移動到新位置,因此請避免將URL重定向到不相關的頁面,即原來的URL內容實際上不存在的URL。如果頁面正在為查詢排名,而我們將其301鏈接到具有不同內容的URL,則該頁面的排名可能會下降,因為與該特定查詢相關的內容不再存在。301負責任地移動URL。我們還可以選擇302重定向頁面,但這應該保留給臨時移動,以及在不太需要傳遞鏈接凈值的情況下。302有點像繞道而行我們暫時通過某條路徑吸引流量,但不會永遠這樣。所以,一定要注意重定向鏈接。如果Googlebot必須進行多次重定向,可能很難到達我們的頁面。Google稱這些為“重定向鏈”,他們建議盡可能限制它們。如果我們將aaa.com/1重定向到aaa.com/2,然后再決定將其重定向到aaa.com/3,則最好消除中間人,只需將aaa.com/1重定向到aaa.com/3。在確定我們的網站針對爬網能力進行了優化之后,下一個優化操作就是要確保它可以被索引。

  (轉載請注明轉自:www.302817.tw,謝謝!珍惜別人的勞動成果,就是在尊重自己!)


上一篇:搜索引擎的工作原理之索引

下一篇:SEO是什么,為什么那么重要?

返回列表

網站建設知識

品牌創意網站建設 上市公司網站建設 大型門戶類網站建設 全方位網站運營代理
企業官方網站建設 B2C電子商務網站建設 專題活動網站(MINISITE)

更多 +聯系我們

24小時服務熱線:400-1180-360

業務 QQ:  444961110傳真: 0311-80979256

渠道合作:  [email protected]

更多 +關于我們

河北供求互聯信息技術有限公司(河北供求網)誕生于2003年4月,是康靈集團旗下子公司,也是河北省首批從事網站建設、電子商務開發,并獲得國家工業和信息化部資質認證的企業。公司自成立以來,以傳播互聯網文化為已任, 以高科技為起點,以網絡營銷研究與應用為核心,致力于為各企事業單位提供網絡域名注冊、虛擬主機租用、網站制作與維護、網站推廣和宣傳、網站改版與翻譯、移動互聯網營銷平臺開發與運營、企業郵局、網絡支付、系統集成、軟件開發、電子商務解決方案等優質的信息技術服務,與中國科學院計算機網絡信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯通、中國數據、萬網、中資源、陽光互聯、點點客、北龍中網、電信通等達成戰略合作伙伴關系。

版權所有 ? 河北供求互聯信息技術有限公司-最優秀的石家莊網站建設公司,為您提供石家莊網站建設、網站推廣等優質服務.   
服務熱線:400-1180-360 傳真:0311-80979256 增值電信業務經營許可證:冀B2-20105159 冀ICP備09010972號

在線留言
免費試用
掃一掃

掃一掃
贈送神秘大禮

全國免費服務熱線
400-1180-360

返回頂部
浙江11选五遗漏值 十一运夺金走势图遗漏 广西十一选五开奖结中三个多少钱果 陕西十一选五遗漏查询 广西十一选五历史开奖结果 广东快乐十分走势图表彩经网 捷克酷喜乐彩色墨水 江苏11选五走势图一定牛 信义集团股票行情 吉林十一选五走势图表最大遗漏 湖北快三计划手机版