Още един специализиран ИИ: Google представи Gemini Live – AI асистент с памет, естествена реч и компютърно зрение
Във вторник по време на конференцията Гугъл I/O 2024 бе оповестена нова функционалност за чатбота с изкуствен интелект на Gemini. Това е Gemini Live, която дава опция на потребителите да водят „ задълбочени “ гласови разговори с Gemini на своите смарт телефони. Потребителите могат да прекъсват Gemini по време на репликите му, с цел да задават уточняващи въпроси, а чатботът ще се приспособява към речта на потребителя в действително време. Освен това Gemini може да вижда и да реагира на заобикалящата потребителя среда, като употребява камерите на смарт телефона или предоставени му фотоси и видеа.
Gemini Live е в прочут смисъл композиция от платформата за компютърно зрение Гугъл Lens и виртуалния помощник Гугъл Assistant, както и тяхното по-нататъшно развиване. На пръв взор Gemini Live не наподобява като коренно усъвършенстване на съществуващата технология. Но Гугъл твърди, че системата употребява нови техники за генеративен изкуствен интелект, с цел да обезпечи по-добър и по-малко податлив към неточности разбор на изображенията, и комбинира тези техники с усъвършенстван речеви енджин за по-последователен, прочувствено експресивен и реален многогласен разговор.
Техническите нововъведения, употребявани в Gemini Live, се дължат частично на плана Astra – новата самодейност на DeepMind за основаване на приложения и „ сътрудници “, основани на изкуствен интелект, които да схващат в действително време разнообразни източници на данни – текст, аудио и изображения.
„ Винаги сме желали да създадем повсеместен сътрудник, който да е потребен в всекидневието “, съобщи на брифинга Демис Хасабис, основен изпълнителен шеф на DeepMind. – Представете си сътрудници, които могат да виждат и чуват какво вършим, да схващат по-добре подтекста, в който се намираме, и да реагират бързо в диалог, което прави темпото и качеството на взаимоотношението доста по-естествени “.
![]( https://i0.wp.com/www.kaldata.com/wp-content/uploads/2024/05/50051015.webp?resize=696%2C390&ssl=1 )
Gemini Live, който ще бъде показан едвам по-късно тази година, ще може да дава отговор на въпроси за предмети, които се намират в полезрението на камерата на смарт телефона (или неотдавна са се намирали в него), като да вземем за пример в кой квартал се намира потребителят или името на счупена част от велосипед. Или пък потребителят ще може да насочи системата към част от компютърен код, а Live ще изясни защо дава отговор той. А когато попитате къде може да са очилата на потребителя, Gemini Live ще му каже къде ги е видял за финален път. А и какъв брой елементарно ще бъде намирането на изгубеното дистанционно управление на тв приемника!
Live може да се трансформира и в самобитен виртуален ментор, като оказва помощ на потребителите да репетират тирада за обещано събитие, да мислят за нови хрумвания и така нататък Live може да ви каже кои умения да наблегнете на идно изявление за работа или стаж или да ви даде съвет за обществено говорене.
![]( https://i0.wp.com/www.kaldata.com/wp-content/uploads/2024/05/52051015.webp?resize=696%2C409&ssl=1 )
Способността на Gemini Live да „ помни “ какво се е случило неотдавна е допустима с помощта на архитектурата на главния модел Gemini 1.5 Pro, както и на други „ характерни “ генеративни модели, само че в по-малка степен. Gemini 1.5 Pro има доста огромен контекстен прозорец, което значи, че може да поеме и обработи огромно количество данни – към час видео – преди да приготви отговора. Гугъл означи, че Gemini Live ще запомни всичко, което се е случвало през последните няколко часа.
Gemini Live наподобява на генеративния изкуствен интелект, употребен в очилата на Meta, които по сходен метод могат да преглеждат изображения, снимани от камера, и да ги интерпретират в съвсем действително време. Съдейки по демонстрациите, които Гугъл сподели по време на презентацията, Live също по този начин доста наподобява на неотдавна обновения ChatGPT на OpenAI.
![]( https://i0.wp.com/www.kaldata.com/wp-content/uploads/2024/05/21051015.webp?resize=696%2C487&ssl=1 )
Основната разлика сред новия ChatGPT и Gemini Live е, че решението на Гугъл няма да е гратис. След като бъде пуснато, Live ще бъде извънредно за Gemini Advanced – по-сложна версия на Gemini, която е налична за клиентите на Гугъл One AI Premium Plan против 20 $ на месец.
Може би като отпратка към очилата на Meta, една от демонстрациите на Гугъл сподели човек, носещ AR очила, оборудвани с приложение, сходно на Gemini Live. Въпреки това Гугъл, желаейки да избегне следващия неуспех със смарт очилата, отхвърли да каже дали този или сходен артикул с генеративен AI ще се появи на пазара в близко бъдеще.
![](/img/banner.png)
![Промоции](/data/promomall.png?5)