Новият модел Claude надмина Google в подпомагането на терористите, но

ИИ, който може да бъде убеден да създаде биологично оръжие: Claude Opus 4 плаши дори своите създатели

Новият модел Claude надмина Гугъл в подпомагането на терористите, само че компанията е подготвена да се отбрани.

Anthropic пусна нова версия на своя изкуствен интелект Claude Opus 4, само че го направи с невиждани защитни ограничения. Причината е сериозна – вътрешните проби са посочили, че моделът може да помогне на неопитни консуматори да основат биологични оръжия.

Главният академик на Anthropic Джаред Каплан призна, че новият изкуствен интелект теоретично е кадърен да поучава по какъв начин да се синтезират вируси като COVID-19 и даже доста рискови варианти на грипа.

„ Нашето моделиране демонстрира, че това би било допустимо “, отбелязва ученият.

Следователно Claude Opus 4 е първият модел на компанията, който се пуска на пазара под по този начин нареченото равнище на сигурност ASL-3. Това значи нараснала киберсигурност, отбрана против опити за заобикаляне на рестриктивните мерки и спомагателни системи за разкриване на евентуално рискови поръчки.

Каплан акцентира, че компанията не твърди сигурно, че рисковете от новия модел са огромни, само че не може и да ги изключи.

„ Ако не сме сигурни и не можем да изключим риска, че даден модел ще помогне на някой дилетант да сътвори разрушително оръжие, избираме да се презастраховаме “, изяснява той.

Anthropic е създал многопластова система за отбрана. Специални класификатори с изкуствен интелект сканират поръчките на потребителите и отговорите на моделите за рисково наличие. Системата ревизира изключително деликатно дългите вериги от характерни въпроси, които биха могли да значат опити за основаване на биологично оръжие.

Компанията се бори интензивно и с по този начин наречените джейлбрейкове – хитри запитвания, които карат ИИ да не помни за рестриктивните мерки си в региона на сигурността. Но в този случай потребителите, които неведнъж се пробват да заобиколят отбраните, биват изключвани от услугата. Освен това Anthropic започва стратегия за хонорари – един откривател към този момент е получил 25 000 $ за откриването на универсални способи за хакване на новия ИИ.

Специфични проби демонстрираха, че Claude Opus 4 в действителност превъзхожда елементарното търсене посредством Гугъл и предходните модели на изкуствен интелект в способността си да оказва помощ на неопитните хора при осъществяването на евентуално рискови задания. Експертите по биологична сигурност са удостоверили „ доста по-високото “ равнище на успеваемост на новия модел.

Anthropic се надява, че комбинацията от всички отбрани ще предотврати съвсем всички случаи на злонамерено потребление.

„ Не желая да настоявам, че системата е съвършена – би било прекомерно елементарно да кажем, че нашите системи е невероятно да бъдат хакнати “, признава Каплан. – Но ние сме го създали доста, доста мъчно. “

Ситуацията се трансформира във значим тест за цялата промишленост на изкуствения разсъдък. Claude се конкурира директно с ChatGPT и генерира годишни доходи от над 2 милиарда $. Anthropic твърди, че нейната политика на отговорно развиване основава стопански тласък за основаване на ограничения за сигурност авансово – в противоположен случай компанията рискува да загуби клиенти, тъй като не може да пуска нови модели.

Критиците обаче акцентират, че всички сходни задължения на фирмите за изкуствен интелект остават доброволни и могат да бъдат анулирани когато и да е. Не съществуват никакви законни наказания за нарушаването им, като се изключи възможните вреди върху репутацията. В подтекста на многомилиардната конкуренция за превъзходство на ИИ специалистите се притесняват, че сходни ограничавания могат да бъдат отхвърлени тъкмо когато са най-необходими.

При все това, при неналичието на законово регламентиране на ИИ, политиката на Anthropic остава едно от дребното съществуващи ограничавания върху държанието на ИИ фирмите. Ако Anthropic потвърди, че може да се лимитира без стопански загуби, това може да има позитивно влияние върху практиките за сигурност в цялата промишленост.

Каплан признава сериозността на обстановката: задоволителен е единствено един нападател, с цел да пробие отбраната и да провокира безпорядък.

„ Други рискови неща, които един терорист може да направи, могат да убият 10 или 100 души “, споделя той. – Наскоро видяхме по какъв начин Коронавирус убива милиони хора. “