如何禁止子網域加入搜尋索引,避免網頁曝光

Feature image for 如何禁止子網域加入搜尋索引,避免網頁曝光

在這篇文章中,你將學到幾種方式,可以禁止子網域被加入搜尋引擎索引。

為什麼需要禁止子網域被索引?

假設你擁有一個網站,其中有一個子網域的目錄,該目錄可能是用於測試、開發環境、暫存內容或其他原因,不希望網頁被 Google 搜尋引擎索引,也就是不想讓該子網域被搜尋引擎收錄。

這種情況很常見,例如:

  • 測試環境(staging)不應該出現在搜尋結果中
  • 開發中的功能頁面需要保持私密
  • 內部使用的管理介面或工具頁面

以下提供 3 個簡單且有效的方式:

方法一:使用 robots.txt 檔案

robots.txt 是最常見的方式,用來告訴搜尋引擎哪些網頁不應該被檢索。這是一個標準的協議,所有主要的搜尋引擎都會遵守。

檔案內容範例:

User-agent: *
Disallow: /

這個設定會告訴所有搜尋引擎的爬蟲(User-agent: *),不要檢索這個子網域下的任何網頁(Disallow: /)。

實作步驟:

將檔案放在子網域的根目錄中即可。例如,如果你的子網域是 test.example.com,則將 robots.txt 放在 test.example.com/robots.txt

測試方式:

透過 robots.txt 測試工具來測試 robots.txt,確保設定正確。

注意事項:

需要注意的是,robots.txt 並不能百分百保證網頁不會被加入索引,它只是告訴 Google 檢索器不要檢索哪些網頁。如果網頁已經被索引,仍需要透過其他方式移除,例如使用 Google Search Console 的移除工具。

方法二:使用 meta 標籤

在子網域目錄中的網頁加入 meta 標籤,這是最可靠的方式。這個方法可以針對單一網頁進行設定,比 robots.txt 更精確。

HTML 標籤範例:

<meta name="robots" content="noindex"/>

上面標籤需要放在 <head></head> 之間。

其他常用的 meta 標籤選項:

  • noindex:不要索引這個網頁
  • nofollow:不要追蹤這個網頁的連結
  • noindex, nofollow:同時禁止索引和追蹤連結
  • noarchive:不要儲存這個網頁的快取版本

為什麼這個方法更可靠?

使用 meta 標籤的方式,可以確保 Google 不會將這個網頁顯示在搜尋結果中。這個方法比 robots.txt 更可靠,因為它是直接告訴搜尋引擎不要索引這個特定網頁,而不是依賴爬蟲遵守 robots.txt 的規則。

測試方式:

使用網址檢查工具來確認網頁是否已被正確設定為不索引。

方法三:不要建立任何連結

網頁內容不要有任何對外連結,也不要有任何網頁連進來,這樣可以避免爬蟲自動找到網頁。爬蟲找不到,自然就無法加入索引。

這個方法的原理:

搜尋引擎的爬蟲通常是透過連結來發現新網頁的。如果一個網頁沒有任何外部連結指向它,爬蟲就很難發現它。這就像是在一個沒有路標的孤島上,外人很難找到它。

限制與建議:

這個方法雖然簡單,但效果有限,因為如果網址被直接輸入或分享,搜尋引擎仍然可能發現並索引這些網頁。例如:

  • 如果有人直接輸入網址
  • 如果網址被分享到社群媒體
  • 如果網址出現在其他網站上

因此,建議搭配前兩種方式使用,以達到最佳效果。最安全的做法是同時使用 robots.txtmeta 標籤。

什麼是爬蟲?

爬蟲(Crawler,也稱為 Spider 或 Bot)是一種軟體程式,會自動讀取網頁內容,截取網頁連結,由這些連結發現其他網頁。搜尋引擎就是透過這種方式爬取整個網路,建立索引資料庫。

爬蟲的工作流程:

  1. 從已知的網址開始(例如首頁)
  2. 讀取網頁內容
  3. 提取網頁中的所有連結
  4. 將這些連結加入待爬取清單
  5. 重複上述步驟,持續探索整個網站

如何幫助搜尋引擎爬取你的網站?

為了方便搜尋引擎讀取你的網站,提升搜尋排名,可以提交 sitemap.xml,這樣搜尋引擎就可以精確快速地爬取網站所有內容。Sitemap 就像是一張地圖,告訴搜尋引擎你的網站有哪些頁面,以及這些頁面的重要性。

總結

禁止子網域被搜尋引擎索引有幾種方式,每種方式都有其優缺點:

  • robots.txt:適合整個子網域,設定簡單,但可靠性較低
  • meta 標籤:最可靠的方式,可以針對單一網頁設定,但需要在每個網頁中加入
  • 不建立連結:簡單但效果有限,建議作為輔助方法

最佳實踐:

建議同時使用 robots.txtmeta 標籤,這樣可以確保即使其中一種方法失效,另一種方法仍然可以保護你的子網域不被索引。對於重要的測試環境或開發網站,這種雙重保護是必要的。

參考資料