4 days ago
Perplexity 被 Cloudflare 點名偷抓網頁內容,偽裝 Chrome 已非初犯
Perplexity 被 Cloudflare 點名偷抓網頁內容,偽裝 Chrome 已非初犯
去年曾被 Wired 等多家媒體指責擅用內容的 Perplexity 日前又被 Cloudflare 抓包,稱其不顧反爬蟲規則,偷偷偽裝成 Chrome 瀏覽器擷取受限網頁資料。先前 Cloudflare 的多家客戶反映自己明明已在 檔案(類似拒絕爬蟲的「君子協定」)和 WAF(防火牆)中將 Perplexity 的兩個官方爬蟲 PerplexityBot 及 Perplexity-User 拒之門外,但內容卻仍被 Perplexity 獲取並呈現在其搜尋結果中。
為了驗證客戶的投訴,Cloudflare 直接註冊了多個全新網域,並為其設下了全面禁止爬蟲的規則。但在如此嚴格限制下,當 Cloudflare 向 Perplexity 詢問關於這些從未在任何地方公開過的測試網域時,卻仍從 AI 那裡得到了詳細的資訊。經過深入分析後,Cloudflare 總結出了 Perplexity 所用的手法。偷抓內容的爬蟲會將自己的用戶代理(User Agent)偽裝成在 macOS 上使用 Chrome 瀏覽器的普通使用者,這樣它便能繞過封鎖混入正常的用家流量之中。
Cloudflare
根據 Cloudflare 的統計,該爬蟲每天會向全球網站發送多達 600 萬次請求,而且過程中還會不斷切換不在 Perplexity 公開列表內的 IP 甚至 ASN。面對 Perplexity 如此踐踏基本信任機制的行為,Cloudflare 最終做出了撤銷其「已驗證機器人」資格的決定,並將加推新規則進一步封鎖 Perplexity 的爬蟲。
對於 Cloudflare 的指責,Perplexity 發言人 Jesse Dwyer 辯稱對方貼出的圖片「顯示並未擷取到任何內容」。後來他更表示爬蟲「甚至不是 Perplexity 的」,並直言這一切完全是 Cloudflare 的「行銷手段」。值得一提的是,在 Cloudflare 的文章中過去也遭到過不少批評的 OpenAI 竟然被立為了遵守規則的正面典範。後者的爬蟲機器人在遇到 Cloudflare 的「釣魚執法」實驗時立即停止了抓取,還真是沒有對比就沒有傷害呢。
緊貼最新科技資訊、網購優惠,追隨 Yahoo Tech 各大社交平台!
🎉📱 Tech Facebook:
🎉📱 Tech Instagram:
🎉📱 Tech WhatsApp 社群:
🎉📱 Tech WhatsApp 頻道:
🎉📱 Tech Telegram 頻道: