Разрешаване на мистерия на машинното обучение
Големите езикови модели като GPT-3 на OpenAI са солидни невронни мрежи, които могат да генерират човешки текст, от лирика до програмен код. Обучени благодарение на голям брой интернет данни, тези модели за машинно образование вземат дребна част от въведен текст и по-късно плануват текста, който е евентуално да последва.
Но това не е всичко, което тези модели могат да създадат. Изследователите изследват любопитен феномен, прочут като учене в подтекст, при който огромен езиков модел се научава да извърши задача, откакто е видял единствено няколко образеца - макар обстоятелството, че не е бил подготвен за тази задача. Например, някой може да даде на модела няколко примерни фрази и техните усеща (положителни или отрицателни), след което да го подкани с ново изречение и моделът може да даде вярното мнение.
Обикновено модел на машинно образование като GPT-3 би трябвало да бъде преобучен с нови данни за тази нова задача. По време на този развой на образование моделът актуализира своите параметри, до момента в който обработва нова информация, с цел да научи задачата. Но при образование в подтекст параметрите на модела не се актуализират, тъй че наподобява, че моделът научава нова задача, без да научи нищо.
Учени от MIT, Гугъл Research и Станфордския университет се стремят да разгадаят тази тайнственост. Те изучаваха модели, които са доста сходни на огромните езикови модели, с цел да видят по какъв начин могат да учат без актуализиране на параметри.
Теоретичните резултати на откривателите демонстрират, че тези солидни модели на невронни мрежи са способни да съдържат по-малки, по-прости линейни модели, заровени вътре в тях. След това огромният модел може да приложи елементарен логаритъм за образование, с цел да образова този по-малък, линеен модел за осъществяване на нова задача, като употребява единствено информация, която към този момент се съдържа в по-големия модел. Неговите параметри остават закрепени.
Важна стъпка към разбирането на механизмите зад ученето в подтекст, това проучване отваря вратата за повече проучвания към логаритмите за учене, които тези огромни модели могат да ползват, споделя Екин Акюрек, студент по компютърни науки и водещ създател на публикация, изследваща този феномен. С по-добро схващане на образованието в подтекст откривателите биха могли да дадат опция на моделите да извършват нови задания без нужда от скъпоструващо преквалификация.
„ Обикновено, в случай че желаете да настроите тънко тези модели, би трябвало да съберете характерни за домейна данни и да извършите някои комплицирани инженерни действия. Но в този момент можем просто да му дадем вход, пет образеца, и той реализира това, което желаеме. Така че, в -контекстното образование е голословно ефикасен феномен на учене, който би трябвало да бъде свестен ", споделя Акюрек.
Към Akyürek в отчета се причисляват Дейл Шуурманс, откривател в Гугъл Brain и професор по компютърни науки в Университета на Алберта; както и старши създатели Джейкъб Андреас, асистент-професор на консорциума X в катедрата по електротехника и компютърни науки на Масачузетския софтуерен институт и член на Лабораторията за компютърни науки и изкуствен интелект на Масачузетския софтуерен институт (CSAIL); Tengyu Ma, помощник по компютърни науки и статистика в Станфорд; и Дани Джоу, основен академик и проучвателен шеф в Гугъл Brain. Изследването ще бъде показано на Международната конференция за репрезентации за образование.
Модел в модела
В общността за проучване на машинното образование доста учени имат вяра, че огромните езикови модели могат да правят образование в подтекст заради метода, по който са подготвени, споделя Акюрек.
Например GPT-3 има стотици милиарди параметри и е подготвен посредством четене на големи текстове в интернет, от публикации в Wikipedia до изявления в Reddit. Така че, когато някой покаже примерните модели на нова задача, той евентуално към този момент е видял нещо доста сходно, защото неговият обучителен набор от данни включва текст от милиарди уеб страници. То повтаря модели, които е видяло по време на образование, вместо да се учи да извършва нови задания.
Акюрек допусна, че обучаемите в подтекста не просто съответстват с към този момент следени модели, само че вместо това в действителност се учат да извършват нови задания. Той и други опитаха, като дадоха на тези модели подкани, употребявайки синтетични данни, които не можеха да видят на никое място преди, и откриха, че моделите към момента могат да се учат единствено от няколко образеца. Акюрек и сътрудниците му смятаха, че може би тези модели на невронни мрежи имат по-малки модели за машинно образование вътре в тях, които моделите могат да обучат, с цел да изпълнят нова задача.
„ Това би могло да изясни съвсем всички явления на образование, които сме виждали с тези огромни модели “, споделя той.
За да тестват тази догадка, откривателите са употребявали модел на невронна мрежа, наименуван трансформатор, който има същата архитектура като GPT-3, само че е бил особено подготвен за образование в подтекст.
Чрез проучване на архитектурата на този трансформатор те теоретично потвърдиха, че той може да напише линеен модел в своите скрити положения. Невронната мрежа е формирана от доста пластове от взаимосвързани възли, които обработват данни. Скритите положения са пластовете сред входния и изходния пласт.
Техните математически оценки демонстрират, че този линеен модел е записан някъде в най-ранните пластове на трансформатора. След това трансформаторът може да актуализира линейния модел посредством използване на елементарни логаритми за образование.
По създание моделът симулира и образова по-малка версия на себе си.
Проучване на скрити пластове
Изследователите изследваха тази догадка, употребявайки опити за сондиране, при които те погледнаха в скритите пластове на трансформатора, с цел да се опитат да възстановят несъмнено количество.
„ В този случай се опитахме да възстановим действителното решение на линейния модел и бихме могли да покажем, че параметърът е записан в скритите положения. Това значи, че линейният модел е някъде там “, споделя той.
Изграждайки тази теоретична работа, откривателите може да са в положение да разрешат на трансформатор да прави образование в подтекст, като прибавят единствено два пласта към невронната мрежа. Все още има доста механически елементи за уточняване, преди този момент да стане допустимо, предизвестява Акюрек, само че това може да помогне на инженерите да основат модели, които могат да извършват нови задания без нужда от преквалификация с нови данни.
„ Документът хвърля светлина върху едно от най-забележителните свойства на актуалните огромни езикови модели – способността им да се учат от данните, дадени в техните входове, без категорично образование. Използвайки опростения случай на линейна регресия, създателите демонстрират теоретично по какъв начин моделите могат да ползват общоприети логаритми за образование, до момента в който четат входните си данни, и емпирично кои логаритми за образование дават отговор най-добре на тяхното следено държание “, споделя Майк Луис, откривател във Фейсбук AI Research, който не беше участващи в тази работа. „ Тези резултати са трамплин към разбирането по какъв начин моделите могат да научат по-сложни задания и ще оказват помощ на откривателите да проектират по-добри способи за образование на езикови модели, с цел да подобрят в допълнение тяхната успеваемост. “
Продължавайки напред, Akyürek възнамерява да продължи да изследва образованието в подтекст с функционалности, които са по-сложни от линейните модели, които са изучавали в тази работа. Те биха могли също да приложат тези опити към огромни езикови модели, с цел да видят дали тяхното държание също се разказва от елементарни логаритми за образование. В допълнение, той желае да се задълбочи в видовете данни за авансово образование, които могат да разрешат учене в подтекст.
„ С тази работа хората към този момент могат да пресъздават по какъв начин тези модели могат да се учат от мостри. Така че, уповавам се, че това трансформира възгледите на някои хора по отношение на ученето в подтекста “, споделя Акюрек. „ Тези модели не са толкоз тъпи, колкото си мислят хората. Те не просто запомнят тези задания. Те могат да научат нови задания и ние показахме по какъв начин може да се направи това.




