7 月初埃隆馬斯克帶領的原已經有搜 X 曾屏蔽谷歌搜索爬蟲抓取內容,這導致谷歌搜索無法在用戶搜索 X 用戶名時展示最新的推特推文摘要,不過后面 X 對谷歌解封了。屏蔽V型《192-1819-1410》臨沂外圍上門提供外圍女小姐上門服務快速安排人到付款
但其他搜索引擎就沒那么幸運了,除谷如果使用 site:twitter.com 指令在必應搜索上查詢的歌外話,你會發現必應收錄的索引 X 內容只有 12.1 萬條,而谷歌搜索則是擎阻 4.22 億條。
發生了什么?止數抓原因是 X 屏蔽了除谷歌搜索以外的所有搜索引擎爬蟲,至于原因嘛也很簡單,據被V型《192-1819-1410》臨沂外圍上門提供外圍女小姐上門服務快速安排人到付款埃隆馬斯克不想 X 的藍點數據被其他人抓取拿去訓練 AI,所有屏蔽了諸如 Bingbot、原已經有搜MSNbot、推特Yandex 等搜索引擎爬蟲。屏蔽


那谷歌為什么是例外的呢?估計馬斯克都要罵街了,因為之前有傳聞稱杰克多西時代的歌外推特與谷歌達成了相關協議,允許谷歌抓取內容,目前這一協議尚未到期。
藍點網通過互聯網檔案館排查發現,X 是在 2023 年 7 月 24 日執行屏蔽操作的,更新后的 robots.txt 文件僅允許 Googlebot 抓取內容,其他所有爬蟲均被封禁。
所以現在諸如必應搜索上的推特內容極少也就是這個原因,后面估計索引數量會進一步降低,如果谷歌的協議到期了估計內容也都會消失。
不過 robots.txt 畢竟只是君子協定 (這不是法律規定,之前某大數字被某度起訴抓取某度百科內容時,就辯稱這是 robots.txt 只是行業管理而非法律規定),所以仍然有各種來路不明的爬蟲試圖抓取推特上的內容拿去賣數據。
對于這種情況埃隆馬斯克也早有準備,在協議規定未經同意獲取內容屬于違反協議的行為,馬斯克對這些未經同意的抓取行為直接起訴。
附 X robots.txt 的最新內容:
# Google Search Engine Robot# ==========================User-agent: GooglebotAllow: /?_escaped_fragment_Allow: /*?lang=Allow: /hashtag/*?src=Allow: /search?q=%23Allow: /i/api/Disallow: /search/realtimeDisallow: /search/usersDisallow: /search/*/gridAllow: /*?ref_src=Allow: /*?src=Disallow: /*?Disallow: /*/followersDisallow: /*/followingDisallow: /account/deactivatedDisallow: /settings/deactivated# 下面的指令代表禁止搜索爬蟲抓取內容# ========================================================User-agent: *Disallow: /