
robots.txt與搜尋引擎收錄結果
2012 Nov 01 未分類
(本文故事為真實發生,惟須保障當事人權益,所有名稱皆為虛構。) 那是一個下著大雨的午後,有某間公司收到客戶投訴,說搜尋引擎所搜尋到的結果,點進去卻到了錯誤的頁面 由於某公司略有一點規模,所以客服就照著SOP流程把需求送到了「行銷部負責網站設計的人員」手上 但是再怎麼管網站設計,也管不了搜尋引擎是怎麼搜尋的,看了看,發現在搜尋結果的主網址後面多了兩碼:
http://大公司.com → http://大公司.com/gj
多了一個詭異的gj,自然就導到404頁面,但是親愛的,你,負責的是網站設計,怎麼去改變搜尋引擎收錄結果呢? [title]搜尋蜘蛛[/title] 搜尋引擎因為要經常保障搜尋到的內容是最新的,所以日夜不停地有一種機器人,在爬所有的網站內容,我們匿稱其為「搜尋蜘蛛」 有時候,當我們在網站內容裡加了一些測試的內容,以這個案例來說就是/gj 資料夾,會不小心被蜘蛛爬到 他會非常盡責地將新內容收錄到搜尋結果內,並且查看此內容SEO的狀態 極少的可能性,只有當資料夾名稱和服務內容高度相關時,會像這個案例一樣,被推到搜尋結果的頂端 造成了嚴重的導向錯誤,這時候你怎麼改也是沒有作用的,因為決定權在搜尋引擎身上。 (順帶一提,原來用不同瀏覽器會看到不同搜尋結果,想必GOOGLE對於瀏覽器的分類結果也已經做到很完整) [title]robots.txt[/title] 不要怕,冷靜下來去看根目錄,會發現一隻和藹可親的檔案叫做robots.txt,可千萬不要把它當作種進網站的木馬了唷~~ robots.txt是你用來與搜尋引擎的蜘蛛溝通的文件,他規定了搜尋蜘蛛「那些你可以看、那些你不可以看」 主要的code有三段:- User-agent: [name_spider] (通常以*表示全部的搜尋引擎)
- Allow: [/name_folder/] (通常以/表示根目錄)
- Disallow: [/name_folder/]
0則留言