如何禁止子網域加入搜尋索引,避免網頁曝光

在這篇文章中,你將學到幾種方式,可以禁止子網域被加入搜尋引擎索引。
為什麼需要禁止子網域被索引?
假設你擁有一個網站,其中有一個子網域的目錄,該目錄可能是用於測試、開發環境、暫存內容或其他原因,不希望網頁被 Google 搜尋引擎索引,也就是不想讓該子網域被搜尋引擎收錄。
這種情況很常見,例如:
- 測試環境(staging)不應該出現在搜尋結果中
- 開發中的功能頁面需要保持私密
- 內部使用的管理介面或工具頁面
以下提供 3 個簡單且有效的方式:
方法一:使用 robots.txt 檔案
robots.txt 是最常見的方式,用來告訴搜尋引擎哪些網頁不應該被檢索。這是一個標準的協議,所有主要的搜尋引擎都會遵守。
檔案內容範例:
User-agent: *
Disallow: /
這個設定會告訴所有搜尋引擎的爬蟲(User-agent: *),不要檢索這個子網域下的任何網頁(Disallow: /)。
實作步驟:
將檔案放在子網域的根目錄中即可。例如,如果你的子網域是 test.example.com,則將 robots.txt 放在 test.example.com/robots.txt。
測試方式:
透過 robots.txt 測試工具來測試 robots.txt,確保設定正確。
注意事項:
需要注意的是,robots.txt 並不能百分百保證網頁不會被加入索引,它只是告訴 Google 檢索器不要檢索哪些網頁。如果網頁已經被索引,仍需要透過其他方式移除,例如使用 Google Search Console 的移除工具。
方法二:使用 meta 標籤
在子網域目錄中的網頁加入 meta 標籤,這是最可靠的方式。這個方法可以針對單一網頁進行設定,比 robots.txt 更精確。
HTML 標籤範例:
<meta name="robots" content="noindex"/>
上面標籤需要放在 <head> 和 </head> 之間。
其他常用的 meta 標籤選項:
noindex:不要索引這個網頁nofollow:不要追蹤這個網頁的連結noindex, nofollow:同時禁止索引和追蹤連結noarchive:不要儲存這個網頁的快取版本
為什麼這個方法更可靠?
使用 meta 標籤的方式,可以確保 Google 不會將這個網頁顯示在搜尋結果中。這個方法比 robots.txt 更可靠,因為它是直接告訴搜尋引擎不要索引這個特定網頁,而不是依賴爬蟲遵守 robots.txt 的規則。
測試方式:
使用網址檢查工具來確認網頁是否已被正確設定為不索引。
方法三:不要建立任何連結
網頁內容不要有任何對外連結,也不要有任何網頁連進來,這樣可以避免爬蟲自動找到網頁。爬蟲找不到,自然就無法加入索引。
這個方法的原理:
搜尋引擎的爬蟲通常是透過連結來發現新網頁的。如果一個網頁沒有任何外部連結指向它,爬蟲就很難發現它。這就像是在一個沒有路標的孤島上,外人很難找到它。
限制與建議:
這個方法雖然簡單,但效果有限,因為如果網址被直接輸入或分享,搜尋引擎仍然可能發現並索引這些網頁。例如:
- 如果有人直接輸入網址
- 如果網址被分享到社群媒體
- 如果網址出現在其他網站上
因此,建議搭配前兩種方式使用,以達到最佳效果。最安全的做法是同時使用 robots.txt 和 meta 標籤。
什麼是爬蟲?
爬蟲(Crawler,也稱為 Spider 或 Bot)是一種軟體程式,會自動讀取網頁內容,截取網頁連結,由這些連結發現其他網頁。搜尋引擎就是透過這種方式爬取整個網路,建立索引資料庫。
爬蟲的工作流程:
- 從已知的網址開始(例如首頁)
- 讀取網頁內容
- 提取網頁中的所有連結
- 將這些連結加入待爬取清單
- 重複上述步驟,持續探索整個網站
如何幫助搜尋引擎爬取你的網站?
為了方便搜尋引擎讀取你的網站,提升搜尋排名,可以提交 sitemap.xml,這樣搜尋引擎就可以精確快速地爬取網站所有內容。Sitemap 就像是一張地圖,告訴搜尋引擎你的網站有哪些頁面,以及這些頁面的重要性。
總結
禁止子網域被搜尋引擎索引有幾種方式,每種方式都有其優缺點:
- robots.txt:適合整個子網域,設定簡單,但可靠性較低
- meta 標籤:最可靠的方式,可以針對單一網頁設定,但需要在每個網頁中加入
- 不建立連結:簡單但效果有限,建議作為輔助方法
最佳實踐:
建議同時使用 robots.txt 和 meta 標籤,這樣可以確保即使其中一種方法失效,另一種方法仍然可以保護你的子網域不被索引。對於重要的測試環境或開發網站,這種雙重保護是必要的。
參考資料
- ← Previous
Google PageSpeed Insights,優化網站速度,一定要瞭解的指標 - Next →
如何刪除 WordPress 未使用的圖檔

