Учените предупредиха за съществуването на невидима заплаха за изкуствения интелект:

DarkMind манипулира изкуствения интелект

Учените предизвестиха за съществуването на „ невидима ” опасност за изкуствения разсъдък: Стелт офанзива, наречена DarkMind, може да манипулира разсъжденията на AI, без да бъде видяна намесата ѝ.

Колкото по-умен е изкуственият разсъдък, толкоз по-уязвим е той за скрити офанзиви, сочи ново проучване.

Учени от университета в Сейнт Луис създадоха стелт офанзива против езикови модели с изкуствен интелект, наречена DarkMind. Тя е в положение безшумно да манипулира процеса на размишление на AI, което може да има съществени последствия за сигурността на системите, употребяващи AI модели.

Авторите на проучването Зен Го и Реза Турани откриха накърнимост в парадигмата на „ веригата на мисълта ” (CoT), която доста модерни езикови модели, в това число ChatGPT, употребяват за решение на комплицирани проблеми. DarkMind употребява тази накърнимост, като инжектира „ скрити задействания ” в персонализирани приложения, основани на AI езикови модели.

Особеност на офанзивата DarkMind е, че тя остава неоткрита при естествена приложимост на AI модела и се задейства от избрани модели на размишление. Това я прави извънредно сложна за разкриване благодарение на общоприети способи за сигурност.

Изследователите са провели проби, които демонстрират, че DarkMind е доста ефикасен способ за офанзива против разнообразни езикови модели, в това число най-съвременните като GPT-4 и LLaMA-3. Нещо повече, по-напредналите модели с по-добри качества за размишление се оказват по-уязвими на тази офанзива.

Учените означават, че DarkMind може да се приложи към разнообразни области на размишление. Освен това основаването на такава офанзива не изисква задълбочено познаване на езиковите модели, което усилва риска от необятното ѝ потребление.

Като се има поради възходящото потребление на AI езикови модели в разнообразни промишлености, в това число банкиране и опазване на здравето, офанзивите от вида на DarkMind съставляват сериозна опасност за сигурността. Те могат да манипулират вземането на решения от AI без явни признаци за интервенция.

Учените акцентират, че проучването им разкрива сериозна празнота в сигурността на актуалните езикови модели. Те ще продължат да учат този проблем и възнамеряват да разработят нови защитни механизми, като инспекции за поредност и разкриване на враждебни задействания. Разработката на Го и Турани открива нова посока в проучванията на сигурността на изкуствения разсъдък и акцентира нуждата от по-добри ограничения за сигурност, с цел да се подсигуряват устойчивостта и сигурността на системите, основани на AI езикови модели.