11.4 robots.txt

  在網站根目錄下撰寫一個 robots.txt 設定檔,可以禁止或允許搜尋引擎搜尋特定的目錄或檔案。最常用的指令包括 User-agentDisallowAllow,語法是:
User-agent: 搜尋引擎名稱
Disallow: /禁止搜尋的目錄/
Allow: /允許搜尋的目錄/

User-agent: 搜尋引擎名稱
Disallow: /禁止搜尋的檔案
Allow: /允許搜尋的檔案

User-agent: 搜尋引擎名稱
Disallow: /禁止搜尋的目錄/禁止搜尋的檔案
Allow: /允許搜尋的目錄/允許搜尋的檔案
  使用 robots.txt 的優點:搜尋引擎往往會檢索並快取網路上的資料,尤其是 Google,擁有 一套強大的搜尋指令,可以讓破壞者輕易地找到網路上的個人資料或是具有安全性露洞的網站,這就是著名的 Google Hacking。因此我們可以使用 robots.txt 來防範搜尋引擎對隱密資料的收集。
  使用 robots.txt 的缺點:為了讓搜尋引擎能讀取 robots.txt,我們必需將這個檔案的權限設為公開。但這也意謂著任何人都看得到 robots.txt 裡的隱密資料清單,有心人士反而可以透過這個設定檔找出一些不該被公開的資料,因此只靠 robots.txt 來保障安全性絕對是不夠的。其他的缺點包括不具強制力 (只是主流搜尋引擎大都遵守這個規範),以及沒有一套正式的標準等等。
註:關於搜尋引擎的名稱,Google Search 搜尋引擎為 Googlebot,而 * 則表示針對所有的搜尋引擎。