(本文故事為真實發生,惟須保障當事人權益,所有名稱皆為虛構。)
那是一個下著大雨的午後,有某間公司收到客戶投訴,說搜尋引擎所搜尋到的結果,點進去卻到了錯誤的頁面
由於某公司略有一點規模,所以客服就照著SOP流程把需求送到了「行銷部負責網站設計的人員」手上
但是再怎麼管網站設計,也管不了搜尋引擎是怎麼搜尋的,看了看,發現在搜尋結果的主網址後面多了兩碼:
http://大公司.com → http://大公司.com/gj
多了一個詭異的gj,自然就導到404頁面,但是親愛的,你,負責的是網站設計,怎麼去改變搜尋引擎收錄結果呢?
[title]搜尋蜘蛛[/title]
搜尋引擎因為要經常保障搜尋到的內容是最新的,所以日夜不停地有一種機器人,在爬所有的網站內容,我們匿稱其為「搜尋蜘蛛」
有時候,當我們在網站內容裡加了一些測試的內容,以這個案例來說就是/gj 資料夾,會不小心被蜘蛛爬到
他會非常盡責地將新內容收錄到搜尋結果內,並且查看此內容SEO的狀態
極少的可能性,只有當資料夾名稱和服務內容高度相關時,會像這個案例一樣,被推到搜尋結果的頂端
造成了嚴重的導向錯誤,這時候你怎麼改也是沒有作用的,因為決定權在搜尋引擎身上。
(順帶一提,原來用不同瀏覽器會看到不同搜尋結果,想必GOOGLE對於瀏覽器的分類結果也已經做到很完整)
[title]robots.txt[/title]
不要怕,冷靜下來去看根目錄,會發現一隻和藹可親的檔案叫做robots.txt,可千萬不要把它當作種進網站的木馬了唷~~
robots.txt是你用來與搜尋引擎的蜘蛛溝通的文件,他規定了搜尋蜘蛛「那些你可以看、那些你不可以看」
主要的code有三段:
- User-agent: [name_spider] (通常以*表示全部的搜尋引擎)
- Allow: [/name_folder/] (通常以/表示根目錄)
- Disallow: [/name_folder/]
分別用來規定搜尋蜘蛛的種類,允許搜尋的內容,與不給搜尋的內容。
以這個案例來說,只要加上 Disallow: /gj/ 就可以囉~~
[title]後話[/title]
我個人覺得比較不可思議的是,這樣的事情該公司的IT不會解決,最後要由一個非相關人員尋找外部資源來搞定…
只能說越大的公司越恐龍啊….