Скрапингът на текст и изображения от уеб ресурсите се превърна

...
Скрапингът на текст и изображения от уеб ресурсите се превърна
Коментари Харесай

Дилема пред AI ботовете: блокиране или плащане


Скрапингът на текст и изображения от уеб ресурсите се трансформира в нормална процедура за образование на AI моделите (снимка: CC0 Public Domain)

Популярната облачна услуга Cloudflare създаде нов инструмент за одит на изкуствения разсъдък, който ще разреши на притежателите на уеб сайтове да следят по какъв начин наличието им се употребява от AI ботове и да подхващат деяние: или да блокират достъпа до информацията, или да дефинират цена за потреблението ѝ.

По-рано Cloudflare показа инструмент, който просто предотвратяваше събирането на текстове и изображения за образование на AI, или така наречен скрапинг. Сега компанията уголемява функционалността с стартиране на AI Audit – инструмент, който дава опция на притежателите на уеб сайтове да проучват дейностите на AI ботовете и да си обезпечат доходи от наличието.

Скрапингът на текст и изображения се трансформира в нормална процедура на AI разработчиците, защото интернет дава обилие от наличие, което може да се употребява за образование на модели. Това обаче е спорна процедура, защото сходни дейности са несправедливи, съгласно множеството издатели, изключително когато не знаят, че техните материали се употребяват – всъщност нелегално.

Въпреки това, водещи AI компании като OpenAI, Гугъл, Meta, Stability AI, IBM и Microsoft намерено признават, че употребяват наличие от издатели, цитирайки доктрината за почтена приложимост. Критиците обаче настояват, че скрапингът ще се отрази отрицателно на издателите посредством загуба на трафик и евентуални облаги.

Например, уебсайт за предписания може да загуби забележителна част от аудиторията си, поради чатботове, които употребяват наличието му, с цел да дават отговор на потребителски запитвания. Ако потребителят получава информация от изкуствения разсъдък, тогава той надали ще има тласък да посети самия уебсайт, даже и да е посочен като източник.

Някои издатели към този момент са почнали да блокират достъпа на AI ботовете до техните запаси. Например, предишния месец Ню Йорк Таймс и CNN публично блокираха GPTBot на OpenAI. В същото време други уеб сайтове, като Reddit, оферират достъп до тяхното наличие против възнаграждение посредством специфични API (приложни програмни интерфейси), които AI фирмите могат да употребяват.

Cloudflare се ангажира да даде опция на всички притежатели на уеб страници да управляват по какъв начин се употребява тяхното наличие. Инструментът AI Audit, който включва функционалност за блокиране на достъпа до всевъзможни AI ботове и разбори, е основан да подсигурява бистрота при взаимоотношението сред основателите на наличие и разработчиците на AI.

Инструментът ще помогне на издателите да дефинират по кое време, какъв брой постоянно и за какво AI моделите имат достъп до страниците на уеб страницата, както и да откриват ботове, които показват източника на данните, и тези, които не го вършат.

Освен това AI Audit ще помогне на притежателите на уеб сайтове да дефинират обективна цена за достъп до наличието въз основа на пазарни цени, избрани от огромни издатели като Reddit. Това е належащо, защото дребните уеб сайтове нямат запаси или експертен опит, с цел да дефинират цена на наличието си и да договарят с компании за изкуствен интелект. В същото време самите компании също нямат опция да подписват обособени съглашения с всеки един от милионите уеб сайтове.

„ Ако основателите на наличие нямат този надзор, качеството на онлайн информацията ще се утежни или ще стане налична единствено посредством платени абонаменти ”, споделя съоснователят и основен изпълнителен шеф на Cloudflare Матю Принс.

„ С мащаба и световната инфраструктура на Cloudflare можем да предоставим инструментите и да зададем стандарти, които дават на уебсайтовете, издателите и основателите на наличие надзор и заслужено заплащане за техния принос към интернет, като в същото време разрешават на доставчиците на AI модели да продължат да вършат нововъведения ”, добавя той.
Източник: technews.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР