Ново проучване на подразделението DeepMind на Google показва, че изкуственият

Това не се очакваше: DeepMind представи AI, който превъзхожда хората в проверката на фактите

Ново изследване на подразделението DeepMind на Гугъл демонстрира, че изкуственият разсъдък може да надмине хората в инспекцията на обстоятелства. Това са обстоятелствата генерирани от езикови модели като GPT и Gemini. Системата, наречена SAFE, разделя генерирания текст на части и неведнъж ги съпоставя с резултатите от търсачката на Гугъл, с цел да оцени точността на изказванията. SAFE съответствува с човешките оценки в 72% от случаите. А при различие решението на изкуствения разсъдък е вярно в 76% от случаите.

Експертите обаче обръщат внимание на непрозрачността на изследването. Не излиза наяве да вземем за пример дали участниците, с които е сравняван изкуственият разсъдък, са били квалифицирани в региона на инспекцията на съответните обстоятелства. А резултатите от опита директно зависят от това.

В научната работа е показан метода Search-Augmented Factuality Evaluator (SAFE). SAFE употребява огромен езиков модел за разтрошаване на генерирания текст на обособени обстоятелства. След това дефинира точността на всяко изказване, като го съпоставя с резултатите от търсачката на Гугъл.

Изследователите съпоставят SAFE с хората при инспекция на набор от данни, съдържащ почти 16 000 обстоятелството. Оценките на SAFE съответстват с тези на хората в 72% от случаите. Още по-забележително е, че при извадка от 100 различия сред SAFE и оценителите, преценката на изкуствения разсъдък е била вярна в 76% от случаите.

Едно от очевидните преимущества на SAFE е цената. Използването на тази ИИ система е към 20 пъти по-евтино от инспекцията на същите обстоятелства от хора. Тъй като размерът на информацията, генерирана от езиковите модели, продължава да нараства бързо, съществуването на доходоносен и мащабируем метод за инспекция на изказванията ще става все по-важно.

Екипът на DeepMind употребява SAFE, с цел да оцени фактическата акуратност на 13 съществени езикови модела от четири фамилии (Gemini, GPT, Claude и PaLM-2) в теста LongFact. Резултатите демонстрират, че по-големите модели са склонни да създават по-малко фактологични неточности. Но даже най-добре представящите се модели генерират много погрешни изказвания. Това акцентира рисковете от несъразмерното разчитане на езиковите модели, които могат да дадат неточна информация. Инструментите за автоматизирана инспекция на обстоятелствата, като SAFE, понижават тези опасности.

Въпреки че в публикацията се твърди, че „ сътрудниците на LLM могат да реализират гигантски рейтинги “, някои специалисти слагат под въпрос какво в действителност значи „ гигантски “ тук. Според откривателя на изкуствения разсъдък Гари Маркъс евентуално тук се има поради, че SAFE евентуално е по-добър от междинния човек „ от тълпата “. Човек без нужната подготовка. Но с цел да показва в действителност гигантски качества, SAFE би трябвало да бъде съпоставен с специалисти по инспекция на обстоятелствата. А освен с служащи от тълпата. Конкретните данни за оценителите – подготовка, заплащане и развой на инспекция на обстоятелствата – са от решаващо значение за вярното контекстуализиране на резултатите. Строгите и транспарантни съпоставения с човешки оценители ще разрешат да се мери същинският прогрес на изкуствения разсъдък.

Кодът на SAFE и наборът от данни на LongFact са оповестени с отворен код в GitHub. Това дава опция и на други откриватели да учат и развиват тази забавна работата.