ChatGPT стана глупав: учените от Станфорд откриха причината
Група откриватели от Станфорд разгледаха еволюцията на чатботовете на OpenAI и заключиха, че ChatGPT в действителност е станал „ по-глупав “ през последните няколко месеца, съгласно резултатите от теста. Това научно проучване беше отговор на оплаквания от доста консуматори на формалния конгрес на OpenAI, които се оплакаха от неприятни отговори от езиковия модел ChatGPT-4 и чат бота Bing на Microsoft, работещ върху него.
За да дефинират дали ChatGPT се усъвършенства или утежнява с течение на времето, откривателите са употребявали следните способи за оценка на неговите благоприятни условия:
решение на математически задачи;отговори на чувствителни/опасни въпроси;генериране на код;визуално мислене.
Изследователите акцентират, че дилемите, изброени нагоре, са деликатно подбрани, с цел да се проучват „ разнообразните и потребни благоприятни условия на тези LLMs “ (големи езикови модели). Но по-късно те откриха, че тяхното показване и държание е изцяло друго и не за по-добро.
Например, GPT-4 във версията от март дефинира простите цифри доста добре (97,6% точност), само че към този момент с актуализацията през юни GPT-4 отговори на същите въпроси доста едва (2,4% точност). Интересното е, че остарелият GPT-3.5 (версия от юни 2022 г.) се оказа доста по-добър в тази задача от GPT-3.5 (версия от март 2023 г.). Оказва се, че разработчиците са се опитвали да подобрят своя чатбот, само че в този момент става все по-зле с всяка актуализация.
Как качеството на ChatGPT-3.5 и ChatGPT-4 се е трансформирало с времето Снимка: Станфордски университет
Като такава причина откривателите подозират, че OpenAI се пробва да спести от разноските за работа на ChatGPT, защото поддръжката му е прекомерно скъпа (според някои отчети, до $700 хиляди на ден). Затова те настройват невронната мрежа по този начин, че да дава отговори със същото качество, само че с по-малко запаси. Проучванията обаче демонстрират, че спестяванията отиват встрани за компанията - качеството на отговорите пада. Така че, съгласно учените, ChatGPT не е станал по-глупав, той просто е станал " по-евтин ".
Изследователите от Станфорд споделят, че тези резултати от теста демонстрират какъв брой доста се е трансформирало държанието на GPT-3.5 и GPT-4 за релативно къс интервал от време. Това акцентира нуждата от настояща оценка на държанието на LLM в индустриалните приложения. Учените възнамеряват да продължат да актуализират резултатите посредством постоянно оценяване на GPT-3.5, GPT-4 и други LLM и следене на тяхното развиване.
За да дефинират дали ChatGPT се усъвършенства или утежнява с течение на времето, откривателите са употребявали следните способи за оценка на неговите благоприятни условия:
решение на математически задачи;отговори на чувствителни/опасни въпроси;генериране на код;визуално мислене.
Изследователите акцентират, че дилемите, изброени нагоре, са деликатно подбрани, с цел да се проучват „ разнообразните и потребни благоприятни условия на тези LLMs “ (големи езикови модели). Но по-късно те откриха, че тяхното показване и държание е изцяло друго и не за по-добро.
Например, GPT-4 във версията от март дефинира простите цифри доста добре (97,6% точност), само че към този момент с актуализацията през юни GPT-4 отговори на същите въпроси доста едва (2,4% точност). Интересното е, че остарелият GPT-3.5 (версия от юни 2022 г.) се оказа доста по-добър в тази задача от GPT-3.5 (версия от март 2023 г.). Оказва се, че разработчиците са се опитвали да подобрят своя чатбот, само че в този момент става все по-зле с всяка актуализация.
Като такава причина откривателите подозират, че OpenAI се пробва да спести от разноските за работа на ChatGPT, защото поддръжката му е прекомерно скъпа (според някои отчети, до $700 хиляди на ден). Затова те настройват невронната мрежа по този начин, че да дава отговори със същото качество, само че с по-малко запаси. Проучванията обаче демонстрират, че спестяванията отиват встрани за компанията - качеството на отговорите пада. Така че, съгласно учените, ChatGPT не е станал по-глупав, той просто е станал " по-евтин ".
Изследователите от Станфорд споделят, че тези резултати от теста демонстрират какъв брой доста се е трансформирало държанието на GPT-3.5 и GPT-4 за релативно къс интервал от време. Това акцентира нуждата от настояща оценка на държанието на LLM в индустриалните приложения. Учените възнамеряват да продължат да актуализират резултатите посредством постоянно оценяване на GPT-3.5, GPT-4 и други LLM и следене на тяхното развиване.
Източник: glasnews.bg
КОМЕНТАРИ




