80% от трафика вече не са хора и това е

39 000 заявки в минута: как AI ботовете атакуват уеб сайтовете и защо това е по-лошо от DDoS

80% от трафика към този момент не са хора и това е новата действителност в интернет.

В нов отчет на Fastly Threat Insights откриватели проучват над 6,5 трилиона уеб поръчки месечно, с цел да разпознават новите модели в трафика от AI ботове. Този сегмент от автоматизирани системи се разраства бързо и към този момент оказва видимо влияние върху интернет инфраструктурата, натоварването на уеб страниците и метода на достъп до наличието.

Според отчета пиковата интензивност на обособените ботове доближава до 39 000 поръчки в минута към един запас, което може да претрупа даже доста огромните сървъри и да провокира резултати, сравними с DDoS офанзивите. Най-често подложени на напън са уеб страниците в региона на онлайн търговията, развлеченията и високите технологии, чиито бази данни и обновени каталози са от необикновен интерес за разработчиците на езикови модели. В резултат на това притежателите на уеб сайтове се сблъскват с възходящи разноски, изкривени статистики за трафика и спад в продуктивността.

Най-големият размер трафик се генерира от обхождащи стратегии, които събират наличие за образование на ИИ моделите – към 80% от всички поръчки. На Meta се падат повече от половината обхождания, на Гугъл – още 23%, а на OpenAI – към 20%. За съпоставяне, фетчърите – ботовете, които изтеглят страници сега на потребителска поръчка – генерират единствено една пета от активността. Но те са тези, които основават най-тежките скокове на натоварване: съвсем целият сегмент принадлежи на OpenAI, чиито ботове ChatGPT и OAI-SearchBot реализират 98% от всички визити в действително време. Отделните съперници, като Perplexity, към момента демонстрират по-ниски размери, само че делът им непрестанно нараства.

Не по-малко значима роля играе и географията на източниците на данни: преобладаващата част от данните за образование идват от Северна Америка. Това значи, че доста модели наследяват културните и политическите пристрастия на района. По-разнообразно покритие демонстрират Diffbot и ICC Crawler, които интензивно събират материали от Европа, Близкия изток и Африка. В Азия се вижда приносът на японските играчи – SoftBank и държавния институт NICT, които се концентрират върху локалния сегмент на интернет.

Ситуацията се разграничава според от района и промишлеността. В Северна Америка съвсем 90% от трафика се образува от краулерите, до момента в който в Европа доминират фечърите – до 59%. За просветителния бранш те са главният проблем: студентите и откривателите всеобщо употребяват ChatGPT, което непосредствено се отразява в натоварване на ресурсите. В медийната и развлекателната промишленост се следи сходна картина: анкетьорите се насочват към най-новите изявления и вести, което води до внезапно увеличение на поръчките. За разлика от тях, в опазването на здравето, обществения бранш и електронната търговия до 96% от търсенията идват от търсачи – краулери.

Fastly акцентира, че 87% от трафика на ботовете като цяло е злоумишлен – от кражба на удостоверения до рекламни измами – а в тази ситуация на ИИ ботовете рискът е и от неконтролирано потребление на наличие и прикрито монетизиране на непознатите запаси. За да се понижи натискът, компанията предлага многопластова отбрана – от потреблението на стандарти като robots.txt и X-Robots-Tag до внедряването на капчи, ограничавания на скоростта и профилирани решения за ръководство на ботовете. Една от опциите е пренасочване на поръчките към платформите за лицензиране, което разрешава освен да се управлява достъпът, само че и да се получават доходи за потреблението на наличието при образованието на другите модели.

Специално внимание се обръща и на добросъвестните оператори. Авторите на отчета ги приканват да бъдат транспарантни: да разгласяват диапазони от IP адреси, да показват User-Agent с неповторимо име, да съблюдават разпоредбите на robots.txt и да лимитират честотата на поръчките. OpenAI дава образец, като намерено разгласява адресните обхвати на своите ботове, а Common Crawl поддържа прогнозируем график за обхождане, който улеснява подготовката на притежателите на уеб сайтове. Нарушаването на тези правила води до блокиране и повишение на недоверието, до момента в който транспарантните политики оказват помощ за построяването на устойчиви взаимоотношения сред разработчиците на изкуствен интелект и онлайн общността.