robots.txt與搜尋引擎收錄結果

2012 Nov 01 未分類

(本文故事為真實發生，惟須保障當事人權益，所有名稱皆為虛構。) 那是一個下著大雨的午後，有某間公司收到客戶投訴，說搜尋引擎所搜尋到的結果，點進去卻到了錯誤的頁面 由於某公司略有一點規模，所以客服就照著SOP流程把需求送到了「行銷部負責網站設計的人員」手上但是再怎麼管網站設計，也管不了搜尋引擎是怎麼搜尋的，看了看，發現在搜尋結果的主網址後面多了兩碼：

http://大公司.com → http://大公司.com/gj

多了一個詭異的gj，自然就導到404頁面，但是親愛的，你，負責的是網站設計，怎麼去改變搜尋引擎收錄結果呢？ [title]搜尋蜘蛛[/title] 搜尋引擎因為要經常保障搜尋到的內容是最新的，所以日夜不停地有一種機器人，在爬所有的網站內容，我們匿稱其為「搜尋蜘蛛」 有時候，當我們在網站內容裡加了一些測試的內容，以這個案例來說就是/gj 資料夾，會不小心被蜘蛛爬到他會非常盡責地將新內容收錄到搜尋結果內，並且查看此內容SEO的狀態極少的可能性，只有當資料夾名稱和服務內容高度相關時，會像這個案例一樣，被推到搜尋結果的頂端造成了嚴重的導向錯誤，這時候你怎麼改也是沒有作用的，因為決定權在搜尋引擎身上。 (順帶一提，原來用不同瀏覽器會看到不同搜尋結果，想必GOOGLE對於瀏覽器的分類結果也已經做到很完整) [title]robots.txt[/title] 不要怕，冷靜下來去看根目錄，會發現一隻和藹可親的檔案叫做robots.txt，可千萬不要把它當作種進網站的木馬了唷~~ robots.txt是你用來與搜尋引擎的蜘蛛溝通的文件，他規定了搜尋蜘蛛「那些你可以看、那些你不可以看」 主要的code有三段：

User-agent: [name_spider] (通常以*表示全部的搜尋引擎)
Allow: [/name_folder/] (通常以/表示根目錄)
Disallow: [/name_folder/]

分別用來規定搜尋蜘蛛的種類，允許搜尋的內容，與不給搜尋的內容。以這個案例來說，只要加上 Disallow: /gj/ 就可以囉~~ [title]後話[/title] 我個人覺得比較不可思議的是，這樣的事情該公司的IT不會解決，最後要由一個非相關人員尋找外部資源來搞定... 只能說越大的公司越恐龍啊....