Петър Цанков, LatticeFlow: Повечето AI модели не работят заради лош набор от данни
ВизиткаПетър Цанков е съосновател и изпълнителен шеф на LatticeFlow, компания за диагностирицане и коригиране на изкуствен интелект (AI). LatticeFlow е записана в Швейцария, като с изключение на Цанков в екипа от съоснователи има и различен българин - Мартин Вечев, началник на института INSAIT. В края на 2022 година.Цанков ще бъде един от участниците на тазгодишното издание на конференцията Digitalk, която ще се организира на 18 май в Sofia Event Center. Там той ще приказва точно за проблемите при разработка и развиване на AI модели. ВизиткаПетър Цанков е съосновател и изпълнителен шеф на LatticeFlow, компания за диагностирицане и коригиране на изкуствен интелект (AI). LatticeFlow е записана в Швейцария, като с изключение на Цанков в екипа от съоснователи има и различен българин - Мартин Вечев, началник на института INSAIT. В края на 2022 година.Цанков ще бъде един от участниците на тазгодишното издание на конференцията Digitalk, която ще се организира на 18 май в Sofia Event Center. Там той ще приказва точно за проблемите при разработка и развиване на AI модели. Въпреки триумфа на ChatGPT съгласно статистиката към 80% от разработваните модели на изкуствен интелект се провалят. Защо?
- Първо, тъй като са разнообразни неща. ChatGPT е езиков модел, който взе подготвена технология, добави още един пласт към нея и се трансформира в доста добър събеседник за диалози по необятен набор от тематики. Генеративните изкуствени интелекти са тъкмо такива - те са положителни в доста неща, само че нито един от тях не е доста добър в нещо съответно. Ако един експерт стартира да си приказва с него за финанси да вземем за пример, незабавно ще си проличат пропуските.
Другото са надлежно профилираните модели, които би трябвало да вземат решение съответен проблем и то извънредно добре. Това са и разнообразни подходи. Не можем да употребяваме ChatGPT да диагностицира пациенти в болница, това би довело до безпорядък. Но пък за диагностика, разчитане на фотоси и други има профилирани модели, които се употребяват и сега.
Реклама Но остава въпросът: за какво множеството от тях не стигат досега, в който могат да се употребяват на процедура?
- Основният проблем е, че е доста мъчно да ги направиш толкоз положителни, че да можеш да им се довериш. При множеството модели в първия миг всички са впечатлени. Така стана и с ChatGPT. Бързо по-късно бяха открити пропуски и че моделът, въпреки и впечатляващ, е надалеч от съвършен. Когато става дума за профилирани модели, които ти карат колата или вземат решение медицински въпроси, тогава няма място за такива неточности.
Въпрос на систематични неточности при вкарването на данни или друго?
- Основният проблем е наборът на данни. Качеството на данните е изключително значимо, само че не е единствeният фактор. Тук рискът е да се каже, че качеството на данните е най-важно и всичко останало да остане на назад във времето. В LatticeFlow постоянно виждаме, че клиентите имат по-дълбоки проблеми, като да вземем за пример по какъв начин са подадени софтуерно тези данни, по какъв начин са анотирани и така нататък Това е човешката част - хора, които демонстрират на модела кой е правилният отговор в дадена обстановка и след милион сходни дребни частички тестване, той се научава.
Много постоянно данните са небалансирани - да вземем за пример 99% фотоси, които са положителни и 1% фотоси, които са характерни. Такъв дисбаланс прави работата доста мъчно. Представи си, че си възпитаник и решаваш 99% алгебра и 1% тригонометрия. Очевидно няма да си доста добър по тригонометрия. Грешно анотираните данни са различен проблем - това е като да не схванеш какво е заданието на задачата. Тук още веднъж казусът е човешки. Например, в случай че хората не са анотирали добре дадени модели, могат да се получат неточности като дали колата е кола или целият паркинг е кола.
От позиция на LatticeFlow забелязвате ли обилни промени в бранша след стартирането на ChatGPT?
- Основното, което видяхме е, че на крайния консуматор му просветна един елементарен факт: изкуственият разсъдък не е нещо, което ще се случи след 10 години, а нещо, което се случва в този момент. Това, което ChatGPT направи, е да покаже на всички какви са опциите на тази технология.
Реклама
От фирмите забелязахме най-вече засилен интерес към езиковите модели и генеративния AI. Цялата промишленост разбра, че би трябвало да стартира да влага в тази сфера, тъй като не е игра, а въпрос на бизнес оцеляване.
Когато диагностицирате един модел, кой е най-честият проблем?
- Грешно анотираните данни са най-масовия проблем. Между 20 и 50% от данните всекидневно имат някакъв проблем, което е голям %. Често виждаме и така наречен " слепи петна ", т.е. данни, където моделът изобщо не схваща какво вижда и надлежно не работи.
Винаги в диалог за изкуствен интелект се стига до " Терминатор " въпроса. Предвид бързото развиване на технологията, и изключително в случай че приемем, че то ще продължи експоненциално, има ли от какво да се опасяваме във връзка с пазара на труда?
- Това за мен са два въпроса. Според мен ще има синергия сред хората и изкуствения разсъдък, т.е. те ще си оказват помощ. Същевременно има действителен риск, тъй като технологията се развива доста бързо, да се случат фрапантно бързи промени в живота ни, което ще повлияе на доста хора. Някои специалности ще се автоматизират, това към този момент се случва. Съответно има действителна заплаха нагаждането на хората да бъде по-бавно, в сравнение с развиването на технологията. Една държавна политика всекидневно е в границите на години, до момента в който тук си приказваме за дни и седмици.
Има ли опция, както споделя Ювал Ноа Харари, да се появи една " безполезна " класа хора, чиято активност може да се автоматизира?
- Да, има такава опция и тя към този момент се случва. Ако тези хора не се преквалифицират, те няма да има какво да вършат.
- Първо, тъй като са разнообразни неща. ChatGPT е езиков модел, който взе подготвена технология, добави още един пласт към нея и се трансформира в доста добър събеседник за диалози по необятен набор от тематики. Генеративните изкуствени интелекти са тъкмо такива - те са положителни в доста неща, само че нито един от тях не е доста добър в нещо съответно. Ако един експерт стартира да си приказва с него за финанси да вземем за пример, незабавно ще си проличат пропуските.
Другото са надлежно профилираните модели, които би трябвало да вземат решение съответен проблем и то извънредно добре. Това са и разнообразни подходи. Не можем да употребяваме ChatGPT да диагностицира пациенти в болница, това би довело до безпорядък. Но пък за диагностика, разчитане на фотоси и други има профилирани модели, които се употребяват и сега.
Реклама Но остава въпросът: за какво множеството от тях не стигат досега, в който могат да се употребяват на процедура?
- Основният проблем е, че е доста мъчно да ги направиш толкоз положителни, че да можеш да им се довериш. При множеството модели в първия миг всички са впечатлени. Така стана и с ChatGPT. Бързо по-късно бяха открити пропуски и че моделът, въпреки и впечатляващ, е надалеч от съвършен. Когато става дума за профилирани модели, които ти карат колата или вземат решение медицински въпроси, тогава няма място за такива неточности.
Въпрос на систематични неточности при вкарването на данни или друго?
- Основният проблем е наборът на данни. Качеството на данните е изключително значимо, само че не е единствeният фактор. Тук рискът е да се каже, че качеството на данните е най-важно и всичко останало да остане на назад във времето. В LatticeFlow постоянно виждаме, че клиентите имат по-дълбоки проблеми, като да вземем за пример по какъв начин са подадени софтуерно тези данни, по какъв начин са анотирани и така нататък Това е човешката част - хора, които демонстрират на модела кой е правилният отговор в дадена обстановка и след милион сходни дребни частички тестване, той се научава.
Много постоянно данните са небалансирани - да вземем за пример 99% фотоси, които са положителни и 1% фотоси, които са характерни. Такъв дисбаланс прави работата доста мъчно. Представи си, че си възпитаник и решаваш 99% алгебра и 1% тригонометрия. Очевидно няма да си доста добър по тригонометрия. Грешно анотираните данни са различен проблем - това е като да не схванеш какво е заданието на задачата. Тук още веднъж казусът е човешки. Например, в случай че хората не са анотирали добре дадени модели, могат да се получат неточности като дали колата е кола или целият паркинг е кола.
От позиция на LatticeFlow забелязвате ли обилни промени в бранша след стартирането на ChatGPT?
- Основното, което видяхме е, че на крайния консуматор му просветна един елементарен факт: изкуственият разсъдък не е нещо, което ще се случи след 10 години, а нещо, което се случва в този момент. Това, което ChatGPT направи, е да покаже на всички какви са опциите на тази технология.
Реклама
От фирмите забелязахме най-вече засилен интерес към езиковите модели и генеративния AI. Цялата промишленост разбра, че би трябвало да стартира да влага в тази сфера, тъй като не е игра, а въпрос на бизнес оцеляване.
Когато диагностицирате един модел, кой е най-честият проблем?
- Грешно анотираните данни са най-масовия проблем. Между 20 и 50% от данните всекидневно имат някакъв проблем, което е голям %. Често виждаме и така наречен " слепи петна ", т.е. данни, където моделът изобщо не схваща какво вижда и надлежно не работи.
Винаги в диалог за изкуствен интелект се стига до " Терминатор " въпроса. Предвид бързото развиване на технологията, и изключително в случай че приемем, че то ще продължи експоненциално, има ли от какво да се опасяваме във връзка с пазара на труда?
- Това за мен са два въпроса. Според мен ще има синергия сред хората и изкуствения разсъдък, т.е. те ще си оказват помощ. Същевременно има действителен риск, тъй като технологията се развива доста бързо, да се случат фрапантно бързи промени в живота ни, което ще повлияе на доста хора. Някои специалности ще се автоматизират, това към този момент се случва. Съответно има действителна заплаха нагаждането на хората да бъде по-бавно, в сравнение с развиването на технологията. Една държавна политика всекидневно е в границите на години, до момента в който тук си приказваме за дни и седмици.
Има ли опция, както споделя Ювал Ноа Харари, да се появи една " безполезна " класа хора, чиято активност може да се автоматизира?
- Да, има такава опция и тя към този момент се случва. Ако тези хора не се преквалифицират, те няма да има какво да вършат.
Източник: capital.bg
КОМЕНТАРИ




