Хванаха Google да лъже за изкуствения си интелект
Gemini AI се оказва не толкоз добър в обработката на огромни количества данни, колкото твърди компанията
Ново проучване слага под подозрение изказванията на Гугъл по отношение на опциите на изкуствения разсъдък Gemini за обработка на огромни размери данни, като демонстрира, че неговата успеваемост при разбор на дълги текстове и видеоклипове е доста по-ниска от декларираната.
Неотдавнашни изследвания разкриват обилни дефекти в работата на водещите модели на Гугъл за генеративен изкуствен интелект - Gemini 1.5 Pro и 1.5 Flash, оповестява TechCrunch.
Гугъл неведнъж е подчертавала способността на Gemini да обработва големи количества данни с помощта на огромния контекстуален прозорец, потвърждавайки, че моделите могат да проучват документи със стотици страници и да търсят информация във видеоклипове. Две самостоятелни изследвания обаче демонстрират, че на процедура тези модели се оправят доста по-зле с тези задания.
Изследователи от Масачузетския университет в Амхърст, Института за изкуствен интелект " Алън " (Allen Institute for AI) и Принстънския университет (Princeton University) тестваха Gemini за способността му да дава отговор на въпроси по отношение на наличието на художествени книги. Книгата, показана за теста, съдържа към 260 000 думи (около 520 страници). Резултатите са разочароващи. Gemini 1.5 Pro дава отговор вярно единствено в 46.7% от случаите, а Gemini 1.5 Flash - в едвам 20%. Осредняването на резултатите демонстрира, че нито един от моделите не може да реализира по-висока от инцидентна акуратност.
Маржена Карпинска, съавтор на проучването, съобщи: " Въпреки че модели като Gemini 1.5 Pro механически могат да се оправят с дълги текстове, наблюдавахме доста случаи, показващи, че моделите в действителност не схващат наличието. "
Второто изследване, извършено от учени от Калифорнийския университет в Санта Барбара, се концентрира върху способността на Gemini 1.5 Flash да проучва графично съдъражение, по-конкретно слайдове с изображения. Резултатите също са незадоволителни - от 25 изображения ИИ дава правилни отговори единствено в половината от случаите, а при увеличение на броя на изображенията точността на отговорите понижава до 30%, което слага под подозрение успеваемостта на модела при работа с мултимедийни данни.
Все отново би трябвало да се означи, че нито едно от проучванията не е минало през процеса на рецензиране, а също така не са тествани последните версии на моделите с подтекст от 2 милиона лексеми. Въпреки това резултатите повдигат съществени въпроси за действителните благоприятни условия на моделите с генеративен изкуствен интелект като цяло и до каква степен основателни са маркетинговите изказвания на софтуерните колоси.
Изследването идва на фона на възходящия песимизъм във връзка с генеративния ИИ. Неотдавнашни изследвания на интернационалната консултантска компания Boston Consulting Group демонстрираха, че към половината от интервюираните висши ръководители не чакат доста повишение на продуктивността от потреблението на генеративен ИИ и са загрижени за вероятни неточности и проблеми със сигурността на данните.
От друга страна, специалистите приканват за създаване на по-обективни критерии за оценка на опциите на ИИ, както и за по-строг надзор и самостоятелна рецензия. Гугъл към момента не е коментирала резултатите от тези изследвания.
Ново проучване слага под подозрение изказванията на Гугъл по отношение на опциите на изкуствения разсъдък Gemini за обработка на огромни размери данни, като демонстрира, че неговата успеваемост при разбор на дълги текстове и видеоклипове е доста по-ниска от декларираната.
Неотдавнашни изследвания разкриват обилни дефекти в работата на водещите модели на Гугъл за генеративен изкуствен интелект - Gemini 1.5 Pro и 1.5 Flash, оповестява TechCrunch.
Гугъл неведнъж е подчертавала способността на Gemini да обработва големи количества данни с помощта на огромния контекстуален прозорец, потвърждавайки, че моделите могат да проучват документи със стотици страници и да търсят информация във видеоклипове. Две самостоятелни изследвания обаче демонстрират, че на процедура тези модели се оправят доста по-зле с тези задания.
Изследователи от Масачузетския университет в Амхърст, Института за изкуствен интелект " Алън " (Allen Institute for AI) и Принстънския университет (Princeton University) тестваха Gemini за способността му да дава отговор на въпроси по отношение на наличието на художествени книги. Книгата, показана за теста, съдържа към 260 000 думи (около 520 страници). Резултатите са разочароващи. Gemini 1.5 Pro дава отговор вярно единствено в 46.7% от случаите, а Gemini 1.5 Flash - в едвам 20%. Осредняването на резултатите демонстрира, че нито един от моделите не може да реализира по-висока от инцидентна акуратност.
Маржена Карпинска, съавтор на проучването, съобщи: " Въпреки че модели като Gemini 1.5 Pro механически могат да се оправят с дълги текстове, наблюдавахме доста случаи, показващи, че моделите в действителност не схващат наличието. "
Второто изследване, извършено от учени от Калифорнийския университет в Санта Барбара, се концентрира върху способността на Gemini 1.5 Flash да проучва графично съдъражение, по-конкретно слайдове с изображения. Резултатите също са незадоволителни - от 25 изображения ИИ дава правилни отговори единствено в половината от случаите, а при увеличение на броя на изображенията точността на отговорите понижава до 30%, което слага под подозрение успеваемостта на модела при работа с мултимедийни данни.
Все отново би трябвало да се означи, че нито едно от проучванията не е минало през процеса на рецензиране, а също така не са тествани последните версии на моделите с подтекст от 2 милиона лексеми. Въпреки това резултатите повдигат съществени въпроси за действителните благоприятни условия на моделите с генеративен изкуствен интелект като цяло и до каква степен основателни са маркетинговите изказвания на софтуерните колоси.
Изследването идва на фона на възходящия песимизъм във връзка с генеративния ИИ. Неотдавнашни изследвания на интернационалната консултантска компания Boston Consulting Group демонстрираха, че към половината от интервюираните висши ръководители не чакат доста повишение на продуктивността от потреблението на генеративен ИИ и са загрижени за вероятни неточности и проблеми със сигурността на данните.
От друга страна, специалистите приканват за създаване на по-обективни критерии за оценка на опциите на ИИ, както и за по-строг надзор и самостоятелна рецензия. Гугъл към момента не е коментирала резултатите от тези изследвания.
Източник: dnesplus.bg
КОМЕНТАРИ




