Изкуственият интелект днес е навсякъде – от препоръките в смартфоните

...
Изкуственият интелект днес е навсякъде – от препоръките в смартфоните
Коментари Харесай

Физиката на машинния разум: как геометрията ни помага да разберем логиката на невронните мрежи

Изкуственият разсъдък през днешния ден е на всички места – от рекомендациите в смарт телефоните до комплицираните научни открития. В основата на множеството от тези системи са дълбоки невронни мрежи, които, сходно на човешкия мозък, се учат от големи количества данни. Но ето го и парадоксът: ние сме основали тези системи, само че постоянно не разбираме изцяло какво тъкмо се случва в техните цифрови „ глъбини “. Дълго време процесът на учене на изкуствения разсъдък беше „ черна кутия “ – виждаме резултата, само че вътрешната логичност остава неразбираема.

Какво би било, в случай че ключът към разгадаването на тази тайнственост не се крие в още по-сложни логаритми, а в елементарна механика, позната ни още от гимназията? Наскоро група учени от Швейцария и Китай предложиха поразително елегантна концепция: да се симулира работата на комплицирана невронна мрежа с помощта на… елементарна верига от блокчета и пружинки. Това не ви ли звучи необичайно? Може би. Но точно в тази елементарност се крие гениалността, която може да промени метода ни към основаването и персонализирането на изкуствения разсъдък.

От закачалките до земетресенията: по какъв начин се раждат научните аналогии

Историята на това изобретение сама по себе си наподобява на увлекателна детективска история. Всичко стартира с наблюдението на по този начин наречения „ закон за делене на данните “. Учените забелязали, че добре подготвената невронна мрежа обработва информацията пласт по пласт и на всеки „ етаж “ от тази конструкция данните стават все по-организирани. Така да вземем за пример, в случай че мрежата се научи да разграничава котките от кучетата, то на всеки нов пласт изображенията на тези животни стават все по-ясно разграничени в математическото пространство. И всеки пласт способства почти еднообразно за това делене.

Но тази красива причинност не всеки път работи. Веднага щом се променяха параметрите на образованието – скоростта или равнището на „ шума “ – хармонията се нарушаваше. Именно тази мистерия предиздвикала откривателите да потърсят по-фундаментално пояснение. И тук, както постоянно се случва в науката, помогнаха случайността и интердисциплинарният опит.

Един от създателите на проучването също е работил в региона на геофизиката, където блоковите и пружинните модели се употребяват за моделиране на земетресенията и придвижването на тектоничните плочи. Неочаквано той видял поразителна аналогия. Раждането на аналогията било толкоз изобретателно, че учените си разменяли фотоси на предмети от всекидневието по време на отпуските си – сгъваеми линийки, плъзгащи се закачалки, горещи чинии – пробвайки се да намерят идеалния физически първообраз на невронната мрежа. Тази занимателна история чудесно илюстрира, че великите открития от време на време се раждат не от суховатите формули, а от изострената вътрешен глас и способността да се виждат взаимовръзки там, където никой не ги е търсил.

 Фазовите диаграми на кривите на натоварване по време на образованието на GNS (показани в червено) за съотношението на нелинейността към (а) шума на данните, (b) скоростта на образование, (c) отпадането и (d) размера на партидата

Физиката на образованието: какво е общото сред невронната мрежа и веригата от пружини?

Нека разгледаме тази прилика. Представете си няколко дървени блокчета, които лежат на масата и са свързани с пружини. Нека в този момент да издърпаме най-външното блокче. Какво се случва?

Слоевете на една невронна мрежа са блокове. Всеки блок в нашата скица е един пласт от невронната мрежа. Процесът на делене на данните е разтягането на пружините. Доколкото невронната мрежа „ разпределя “ данните на единия пласт, пружината сред двата блока се разтяга. Сложността на казуса (нелинейността) е триенето. Ако данните са доста комплицирани и сложни за делене, блоковете като че ли се плъзгат по грапава, лепкава повърхнина. Силата на търкане им пречи да се движат елементарно. Шумът в образованието е вибрацията. В действителното образование с изкуствен интелект постоянно има детайл на случайност или „ звук “. В нашия модел това е еквивалентно на момента, в който стартираме леко да разклащаме масата. Блоковете подскачат, отскачайки за миг от повърхността, и триенето понижава. Това разрешава на пружините да преразпределят напрежението и да се подредят.
 Илюстрация на аналогията сред верига от блокове и пружини и дълбока невронна мрежа

Именно последната точка се оказа основна. Когато при образованието на невронните мрежи има оптимално равнище на „ звук “, той, сходно на вибрациите, оказва помощ на всички пластове да работят координирано и всеки от тях способства еднообразно за разделянето на данните. Ако няма звук и задачата е сложна (високо триене), тогава цялото натоварване пада върху последните, „ дълбоки “ пластове, до момента в който първите съвсем не работят. Те се „ заклещват “, неспособни да преодолеят триенето.

Карта за черната кутия: фазовата диаграма на ученето

Най-ценното в този метод е неговата прогностична мощ. Въз основа на своя модел учените са съумели да построят самобитна карта или фазова диаграма, сходна на тези, които разказват положенията на материята (лед, вода, пара) във физиката. Тази диаграма ясно демонстрира по какъв начин ще се държи невронната мрежа според от два основни параметъра: равнището на нелинейност (триенето) и шума (вибрациите).

Като огледа тази диаграма, разработчикът може незабавно да разбере в какъв „ режим “ работи неговият модел. Дали е в „ замразено “ положение, при което ранните пластове са неактивни? Или може би в него има прекалено много „ звук “ и образованието е безредно? Или пък се намира в онази „ златна среда “, в която всички пластове работят в съгласие като добре смазана машина? Това трансформира нереалното контролиране на милиардите параметри в понятен физически развой.

 Криви на натоварването при сходимост (а) и траектории (b)-(d) за MLP със седем скрити пласта и функционалност ReLU върху набора от данни MNIST (_1) спрямо блока и пружината на модела (_2)

Практическият смисъл: за какво на инженера по изкуствен интелект му е належащо да знае за пружините?

Това проучване не е просто хубаво теоретично упражнение. То разкрива напълно съответни на практика благоприятни условия.

Диагностика и оптимизация. Представете си, че невронната мрежа е мост. Използвайки този модел, можете да създадете „ карта на напрежението “ за ИИ, която демонстрира кои пластове са „ претрупани “ (което може да докара до преобучение и грешки) и кои пластове са „ неактивни “ (което демонстрира архитектурно излишество). Това ще разреши прецизна конфигурация даже на великански модели като огромните езикови модели (LLM). Ускорено образование. Като се разбере по какъв начин шумът и сложността въздействат на процеса, можете целеустремено да „ разклащате “ невронната мрежа на верните стадии, с цел да ускорите сходимостта ѝ към вярното решение. Това може да спести големи изчислителни запаси и време. Нов метод за създаване на изкуствен интелект. Доминиращият метод през днешния ден е методът на „ законите за мащабиране “: с цел да създадем ИИ по-интелигентен, просто усилваме неговия размер и количеството данни. Новият способ предлага по-елегантен метод – не да усилваме безсмислено мощността, а да настройваме тънко вътрешната динамичност на системата, въз основа на разбираеми физически правила.
 Динамика на кривите на натоварване за дълбоки CNN. (а) Точност на тестовите данни като функционалност на загубите при образованието. (b) Съответните криви на натоварване по време на образованието. В опитите вкарваме 5% отпадане в модела 20 x 200 и 30% отпадане в модела 40 x 200

От интуицията към инструмента: нов взор към машинния разсъдък

Тази научна работа е прегледен образец за това по какъв начин фундаменталната просвета може да даде мощен подтик на приложните технологии. Тя връща човешката вътрешен глас в света на огромните данни и комплицираните логаритми. Много по-лесно е интуитивно да се разбере по какъв начин се държат пружините и кубчетата, в сравнение с да се оперира с милиарди математически параметри.

Това проучване трансформира една „ черна кутия “ в транспарантен механизъм, който може освен да се следи, само че и целеустремено да се проектира. Може би в бъдеще инженерите по изкуствен интелект ще приказват не за „ скорост на учене “, а за „ коефициент на търкане “, и не за „ регулация “, а за „ мощ на осцилация “. И този нов език, заимстван от физиката, ще ни помогне да създадем по-ефективен, благонадежден и, най-важното, понятен изкуствен интелект.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР