Изпълнителният директор на Anthropic Дарио Амодей е загрижен за работата

Изпълнителен директор на Anthropic: DeepSeek се представя „най-лошо“ в теста за сигурност на данните за биооръжия

Изпълнителният шеф на Anthropic Дарио Амодей е угрижен за работата на китайския DeepSeek и неговия модел R1. В изявление за подкаста ChinaTalk на Jordan Schneider той сподели, че по време на тест за сигурност DeepSeek е генерирал информация за биооръжие.

Представянето на DeepSeek беше „ най-лошото от всички модели, които в миналото сме тествали “ — споделя Амодей. Според него моделът „ няма бариери против генерирането на сензитивна информация„.

Anthropic постоянно организира проби на разнообразни AI-модели, с цел да оцени техните евентуални опасности за националната сигурност. По този метод екипът изследва дали моделите могат да генерират обвързвана с биологични оръжия информация, която не се намира елементарно в Гугъл или в учебниците. Той не прецизира кой модел на DeepSeek е тествал Anthropic.

Докато Амодей не има вяра, че все още моделите на DeepSeek са „ рискови “ във връзка с даването на сензитивна информация, те могат да станат такива в близко бъдеще. Той похвали екипа на DeepSeek като „ надарени инженери„, само че посъветва компанията да „ одобри съществено сигурността на AI„.

Амодей също поддържа строгия надзор върху износа на чипове за Китай. Той изрази опасения, че сходни чипове могат да дадат преимущество на китайската войска.

Междувременно откриватели по сигурността на Cisco по-рано споделиха, че DeepSeek-R1 не е съумял да блокира нито една злонамерена подкана в тестванията за сигурност, постигайки 100% успеваемост на джейлбрейка. По този метод моделът генерира злонамерена информация за киберпрестъпления и други противозаконни действия. Въпреки това, модели като Llama-3.1-405B на Meta и GPT-4o на OpenAI също са показали високи резултати, надлежно 96% и 86%.

Компанията за киберсигурност KELA също разкри, че е съумяла да хакне DeepSeek-R1, с цел да сътвори злонамерени изходни данни. Например, методът „ Evil Jailbreak “ експлоатира модела, насърчавайки го да одобри ролята на „ зла “ персона, свободна от етични или други ограничавания. Изследователите означават, че DeepSeek-R1 е сходен на ChatGPT, само че е доста по-уязвим.