robots.txt與搜尋引擎收錄結果

(本文故事為真實發生,惟須保障當事人權益,所有名稱皆為虛構。)

那是一個下著大雨的午後,有某間公司收到客戶投訴,說搜尋引擎所搜尋到的結果,點進去卻到了錯誤的頁面

由於某公司略有一點規模,所以客服就照著SOP流程把需求送到了「行銷部負責網站設計的人員」手上

但是再怎麼管網站設計,也管不了搜尋引擎是怎麼搜尋的,看了看,發現在搜尋結果的主網址後面多了兩碼:

http://大公司.com   →    http://大公司.com/gj

多了一個詭異的gj,自然就導到404頁面,但是親愛的,你,負責的是網站設計,怎麼去改變搜尋引擎收錄結果呢?

 
[title]搜尋蜘蛛[/title]

搜尋引擎因為要經常保障搜尋到的內容是最新的,所以日夜不停地有一種機器人,在爬所有的網站內容,我們匿稱其為「搜尋蜘蛛」

有時候,當我們在網站內容裡加了一些測試的內容,以這個案例來說就是/gj 資料夾,會不小心被蜘蛛爬到

他會非常盡責地將新內容收錄到搜尋結果內,並且查看此內容SEO的狀態

極少的可能性,只有當資料夾名稱和服務內容高度相關時,會像這個案例一樣,被推到搜尋結果的頂端

造成了嚴重的導向錯誤,這時候你怎麼改也是沒有作用的,因為決定權在搜尋引擎身上。

(順帶一提,原來用不同瀏覽器會看到不同搜尋結果,想必GOOGLE對於瀏覽器的分類結果也已經做到很完整)

 
[title]robots.txt[/title]

不要怕,冷靜下來去看根目錄,會發現一隻和藹可親的檔案叫做robots.txt,可千萬不要把它當作種進網站的木馬了唷~~

robots.txt是你用來與搜尋引擎的蜘蛛溝通的文件,他規定了搜尋蜘蛛「那些你可以看、那些你不可以看」

主要的code有三段:

  • User-agent: [name_spider] (通常以*表示全部的搜尋引擎)
  • Allow: [/name_folder/]        (通常以/表示根目錄)
  • Disallow: [/name_folder/]

 

分別用來規定搜尋蜘蛛的種類允許搜尋的內容,與不給搜尋的內容

以這個案例來說,只要加上 Disallow: /gj/  就可以囉~~

 
[title]後話[/title]

我個人覺得比較不可思議的是,這樣的事情該公司的IT不會解決,最後要由一個非相關人員尋找外部資源來搞定…

只能說越大的公司越恐龍啊….