
Image by Marco Verch, from Ccnull
AI Labyrint: Cloudflares nya verktyg lurar AI-sökrobotar med falska webbsidor
Cloudflare har tillkännagett ”AI Labyrinth”, ett verktyg designat för att bekämpa AI-drivna webbskrapor som extraherar data från webbplatser utan tillstånd.
Har bråttom? Här är snabbfakta:
- Verktyget genererar realistiskt men onödigt AI-skapad innehåll för att slösa skrapares tid.
- AI Labyrinth riktar in sig på botar som ignorerar robots.txt, inklusive de från Anthropic och Perplexity AI.
- Det fungerar som en nästa generations honeypot, upptäcker och identifierar obehöriga crawlers.
Istället för att helt blockera dessa robotar, leder AI Labyrinth dem vilse i en oändlig labyrint av AI-genererade sidor, vilket slösar bort deras tid och datorkraft.
”När vi upptäcker obehörig crawling, istället för att blockera begäran, kommer vi att länka till en serie av AI-genererade sidor som är övertygande nog att locka en crawler att traversera dem,” förklarade Cloudflare i ett blogginlägg.
”Men trots att det ser verkligt ut, är detta innehåll inte faktiskt innehåll på den webbplats vi skyddar, så crawlningsroboten slösar tid och resurser,” tillade Cloudflare.
ArsTechnica påpekar att AI-skrapor är ett problem eftersom de skördar enorma mängder data från webbplatser, ofta utan tillstånd, för att träna AI-modeller. Detta skapar flera problem: det kan kränka immateriella rättigheter, genom att kringgå de kontroller som webbplatsägare använder för att reglera tillgången.
Dessutom kan skrapning leda till missbruk av känslig eller proprietär data. Volymen av skrapning har ökat dramatiskt, med Cloudflare som rapporterar över 50 miljarder skrapningsförfrågningar dagligen.
Denna storskaliga dataextraktion tömmer webbplatsresurser, påverkar webbplatsens prestanda och integritet samtidigt som den bidrar till de växande farhågorna om dataexploatering inom AI-utveckling.
Medan ägare av webbplatser traditionellt förlitar sig på robots.txt filen för att berätta för botar vad de kan och inte kan komma åt, har många AI-företag–inklusive stora aktörer som Anthropic och Perplexity AI–anklagats för att ignorera dessa direktiv, som rapporterats av The Verge.
Cloudflares AI Labyrint erbjuder en mer aggressiv strategi för att hantera dessa oönskade robotar. Verktyget fungerar som en ”nästa generations honeypot”, och drar robotar djupare in i ett artificiellt nätverk av innehåll som verkar verkligt men som i slutändan är värdelöst för AI-träning.
Till skillnad från traditionella honeypots, som robotar har lärt sig att identifiera, skapar AI Labyrint realistiskt utseende men irrelevant information med hjälp av Cloudflares Workers AI-plattform.
”Ingen riktig människa skulle gå fyra länkar djup in i en labyrint av AI-genererat nonsens”, noterade Cloudflare. ”Varje besökare som gör det är mycket troligt en bot, så detta ger oss ett helt nytt verktyg för att identifiera och fingerprinta dåliga bots.”
Det AI-genererade innehållet är utformat för att vara vetenskapligt korrekt men orelaterat till den faktiska webbplatsen som skyddas.
Detta säkerställer att verktyget inte bidrar till desinformation samtidigt som det fortfarande förvirrar AI-skrapare. De vilseledande sidorna är osynliga för mänskliga besökare och påverkar inte sökmotorernas rankning.
AI Labyrinth finns tillgängligt som en gratis, opt-in funktion för alla Cloudflare-användare. Webbplatsadministratörer kan aktivera det genom sin Cloudflare-kontrollpanel under inställningarna för Bot Management.
Företaget beskriver detta som bara början på AI-drivna motåtgärder, med framtida planer på att göra de falska sidorna ännu mer bedrägliga.
Katt-och-råtta-leken mellan webbplatser och AI-samlare fortsätter, med Cloudflare som tar en innovativ inställning till att skydda online-innehåll. Dock finns det fortfarande frågor om hur snabbt AI-företag kommer att anpassa sig till dessa fällor och om denna strategi kan leda till en eskalering i kampen om webbdata.
Lämna en kommentar
Avbryt