現在搜尋引擎的功力實在太強了,什麼網頁都可以被他抓到,之前 Apache log 檔沒有遊客的紀錄,但是 Google、Yahoo 搜尋機器人卻是一大堆。
不過並不是所有網頁都會被搜尋引擎建立索引供他人搜尋,大多數的搜尋引擎都遵守一共同的規定,這些規定可讓搜尋引擎不搜尋你的網頁。
方法一:robot.txt
在你的網站跟目錄建立一個名為 robot.txt 的檔案,搜尋引擎在開始搜尋網站之前都會讀取這個檔案,這個檔案裡可以設定網站中哪些目錄不允許搜尋,也可以設定哪些搜尋引擎不可以搜尋,設定檔內容如下:
User-agent: *
Disallow: /mp3
Disallow: /file/phoneBook.htm
詳細解說請參考:A Standard for Robot Exclusion
方法二:HTML <meta> tag
在你的網頁中新增 <meta> 標籤,並在標籤中設定搜尋規範。例如:<meta name="robots" content="noindex, follow">
詳細設定方法請參考:About the Robots <META> tag
有個小問題 :p
s/robot.txt/robots.txt/