Новият инструмент за оценка LongEval въвежда общи стандарти за валидиране

Документацията LongEval: грандиозен пробив в областта на оценката на текстовете генерирани от ChatGPT

Новият инструмент за оценка LongEval вкарва общи стандарти за валидиране на текстовете на изкуствения разсъдък.

Напоследък обществеността остро реагира на излизането на генеративните невронни мрежи като ChatGPT. Мнозина виждат в тази технология огромна крачка напред в връзката, до момента в който други предсказват пагубните ѝ последствия.

Въпреки това генерираният от ИИ текст стана прочут със своите дефекти и човешката оценка остава златният стандарт за гарантиране на точността, изключително когато се генерират дълги резюмета (резюмета и дисертации) на комплицирани текстове. Но в това време понастоящем няма признати стандарти за човешката оценка на дългите резюмета, което поражда подозрения даже по отношение на „ златния стандарт “.

За да се оправи с тази обстановка, екип от учени в региона на компютърните науки от Съединени американски щати показа набор от насоки, наречени „ LongEval “. Принципите бяха показани на европейския клон на Асоциацията за компютърна филология, където получиха премията за най-хубава разработка.

Според специалистите понастоящем не съществува благонадежден метод за оценка на дългите генерирани текстове без човешко присъединяване, а даже съществуващите протоколи за човешка оценка са скъпи, лишават доста време и мощно варират.

В хода на изследването екипът е разгледал 162 научни публикации по отношение на дългите биографии. Анализът сподели, че 73% от документите въобще не са били подложени на човешка оценка, а останалите са били подложени на разнообразни техники за оценка.

За да насърчат ефикасните, възпроизводими и стандартизирани протоколи за човешка оценка на генерирани автобиографии, създателите на изследването изготвиха лист с три изчерпателни насоки, които обгръщат по какъв начин и какво би трябвало да прочете оценителят, с цел да реши надеждността на автобиографията.

Ръководството LongEval включва следните рекомендации:

Оценяване достоверността на обобщенията на обособените фрагменти (изречения или клаузи), а не на целия текст. Това усъвършенства съгласуваността на оценките сред другите оценители и понижава работното им натоварване Използване на автоматизирано подравняване на частите на автобиографиите към източниците, с цел да се улесни намирането на съответната информация в дългите документи. Това също по този начин оказва помощ да се избегнат грешките, свързани с перифразирането или обобщаването на информация в автобиографиите; Да се избере подобаващ набор от фрагменти за оценка според от задачата на проучването. Например може да се оценят всички фрагменти, случайна подгрупа или единствено тези, които съдържат основна информация.

Изследователите са приложили LongEval към два набора от данни за обобщаване на дълги текстове в разнообразни области (SQuALITY и PubMed) и демонстрираха, че по-фината оценка понижава вариациите в оценките за годност на всички текстове. Експертите също по този начин демонстрираха, че оценките от частичните систематизирания корелират мощно с тези от цялостните резюмета.

Експертите дават обещание, че LongEval ще разреши на хората „ тъкмо и бързо да правят оценка логаритмите за генериране на дълъг текст “. Експертите са разгласили LongEval като библиотека на Python и общността ще може да употребява и развива LongEval в своите проучвания.