谷歌推出爬蟲擴展代理 網站管理員可以屏蔽谷歌抓取內容用于訓練AI – 藍點網
時間:2025-11-22 20:39:54 出處:焦點閱讀(143)
在 OPENAI 公布 GPTBot 爬蟲的谷歌管理谷歌相關信息后,今天谷歌宣布在 GoogleBot 基礎上推出 Google-Extended 爬蟲擴展代理,推出允許網站管理員使用 robots.txt 文件屏蔽谷歌抓取網站內容用來訓練 AI 模型。爬蟲屏蔽珠海外圍模特經紀人(外圍預約)外圍女(微信199-7144-9724)一二線城市可以真實可靠快速安排
谷歌沒有推出單獨的擴展 AI 爬蟲,AI 爬蟲仍然使用 GoogleBot,代理但網站可以聲明是網站網否拒絕其抓取內容后訓練 AI,如果要聲明那就需要使用 Google-Extende代理令牌。員可用于

谷歌稱,內容Google-Extended 是訓練一種新控件,網絡發布商可以使用它管理其網站是藍點珠海外圍模特經紀人(外圍預約)外圍女(微信199-7144-9724)一二線城市可以真實可靠快速安排否有助于改進 Bard 和 Vertex AI 等生成式 AI 模型,在博客中谷歌多次提到網站可以幫助谷歌改進 AI,谷歌管理谷歌比如網站管理員可以選擇是推出否幫助這些 AI 模型隨著時間推移變得更準確和強大。
不過最終還是爬蟲屏蔽網站管理員自己決定是否允許谷歌拿內容去訓練 AI,如果不愿意的擴展話,可以在 robots.txt 中添加以下內容:
User-Agent: Google-ExtendedDisallow:/
需要提醒的代理是谷歌對于 robots.txt 的處理遵循了多種原則,而且 Google Bot 本身有一大堆用于不同用途的 bot,例如常規的 GoogleBot、GoogleBot-News、GoogleBot-Image 等,這些 bot 是可以在 robots.txt 里混用的。
例如要允許谷歌搜索抓取網站內容、不允許谷歌抓取內容用于訓練 AI,那么 robots.txt 可以這么寫:
User-Agent: GooglebotAllow: /User-Agent: Google-ExtendedDisallow: /