Тензорен процесор от трето поколениеОт Каз СейтоТензорният процесор е интегрална

Защо TPU е толкова подходящ за дълбоко машинно обучение

Тензорен процесор от трето потомство
От Каз Сейто

Тензорният процесор е интегрална скица със особено приложение (ASIC), създадена безусловно от нулата от компанията Гугъл. Тя е предопределена за другите логаритми за машинно образование. Чипът се употребява в няколко съществени продукта на Гугъл, в това число Translate, Photos, Search Assistant и Gmail. Облачният тензорен процесор (TPU) обезпечава прерогативи като мащабируемост и лекост на потребление. По време на конференцията Гугъл Next ‘18 ние зявихме, че Cloud TPU v2 към този момент е наличен за всички консуматори, в това число и с безплатни пробни сметки. Новият Cloud TPU v3 към този момент е наличен за алфа проби.

Но извънредно доста хора питат, каква е разликата сред CPU, GPU и TPU? Ние направихме демонстрационен уебсайт, в който са качени презентация и анимация, отговарящи на този въпрос. Нека се спрем малко по-подробно на някои особености при тези процесори.
Как работят невронните мрежи
Преди да стартираме сравнението сред CPU, GPU и TPU, да разгледаме какъв вид калкулации се употребяват в машинното образование и по-конкретно, в невронните мрежи.

Представете си, че използваме еднослойна невронна мрежа за различаване на ръкописни числа, както е показано в идващото изображение.

Ако за изображението използваме мрежа с размер 28х28 пиксела от скалата на сивото, то тя може да бъде преобразувана във вектор от 784 смисли, които от време на време се назовават измерения. Невронът, разпознаващ да вземем за пример цифрата 8, приема тези смисли и ги умножава със смислите на параметъра (червените линии на изображението).

Въпросният „параметър“ в действителност работи като филтър, който извлича присъщите особености на данните. Тези особености съдържат информацията за сходствата в изображенията.

Това е най-простото пояснение на класификацията на данните от невронните мрежи. Използват се дейностите умножение на данните със съответните параметри (цвета на точките) и тяхното математическо събиране (сумата на точките отдясно). Най-високият резултат значи най-хубаво съвпадане с въведените данни, и съответният параметър е и най-правилният отговор.

По-просто казано, в невронните мрежи се прави голям брой умножения и събиране на данни и параметри. Използва се най-вече умножение на матрици, което се учи в учебно заведение в уроците по алгебра. Проблемът тук е, че би трябвало да се правят голям брой матрични умножения, освен това допустимо най-бързо, само че и с най-малка консумация на електрическа сила.
Как работи CPU
Как можем да използваме общоприетия централен процесор за решаването на тази задача? CPU се базира на архитектурата на Фон Нойман и неговата работа напълно опростено може да бъде показана по следния метод:

Главното предимство на CPU е неговата еластичност. Благодарение на архитектурата на Фон Нойман, процесорът може да извършва напълно разнообразни стратегии за милиони разнообразни цели и задания. CPU се употребява за обработката на текст, за ръководство на ракетни мотори, за изпълняването на банкови транзакции, както и за систематизиране на изображенията, разпознати от невронната мрежа.

Но точно тъй като CPU е толкоз еластичен, съвсем в никакъв случай не се знае каква ще бъде идната процесорна директива на програмата. Този процесор би трябвало да съхранява резултатите от всяко пресмятане в памет, ситуирана в чипа. Това са по този начин наречените регистри или кеш памет от първо равнище. Достъпът до тази памет e минус в архитектурата на CPU, известen като тясното място в архитектурата на Фон Нойман. И макар че големият брой калкулации за невронните мрежи прави предсказуеми идващите стъпки, всяко аритметично логическо устройство (АЛУ или ALU) на CPU със своите множители и суматори, извършва всички интервенции поредно, като всякога се обръща към паметта за указания и данни. Това лимитира пропускателната дарба и по този метод се употребява доста електрическа сила.
Как работи GPU
За увеличение на пропускателната дарба спрямо CPU, графичният процесор употребява елементарна напълно банален тактика: за какво в процесора да не сложим хиляди ALU? В актуалния GPU има към 2500-5000 ALU, което дава опция за едновременното осъществяване на хиляди умножения и събирания.

Тази архитектура работи доста добре с приложенията, употребяващи всеобща паралелизация, като да вземем за пример умножение на матрици в невронните мрежи. При типичния развой на образование на невронната мрежа, пропускателната дарба е над 10 пъти по-висока спрямо CPU. Ето за какво към сегашен ден GPU е най-популярната процесорна архитектура за надълбоко машинно образование.

Но GPU си остава процесор с общо предопределение, който би трябвало да поддържа милиони разнообразни приложения и най-разнообразен програмен продукт. А това още веднъж ни връща към фундаменталния проблем за тясното място в архитектурата на Фон Нойман. За всяко пресмятане в хилядите ALU, графичният процесор би трябвало да реализира достъп до регистрите или общата памет, с цел да запише или прочете междинните данни от изчисленията. Но тъй като GPU прави голям брой паралелни калкулации в своите ALU, той изразходва съразмерно повече сила за самите калкулации и за достъпа до паметта, и това е и повода кристалът да графичния процесор да заема толкоз огромна повърхност.
Как работи TPU
Когато разработвахме в Гугъл новия TPU, ние създадохме архитектура, предопределена за осъществяването на тъкмо избрана задача. Вместо да вършим следващия процесор с общо предопределение, ние разработихме матричен процесор, особено за работа в невронните мрежи. TPU не може да се употребява в текстовите редактори, не може да ръководи ракетни мотори и да реализира банкови транзакции. Но той може да прави голям брой умножения и събирания за невронните мрежи с невероятна скорост. При това неговият размер е дребен, а потреблението на електрическа сила ниска.

Главната специфичност на TPU е радикалното унищожаване на тясното място в архитектурата на Фон Нойман. Понеже главната задача на TPU е обработването на матрици, разработчиците авансово знаят безусловно всички нужни стъпки за осъществяване на изчисленията. Ето за какво те взеха решение да поместят на кристала хиляди множители и суматори, които са физически съединени. По този метод се образува една голяма хардуерна матрица. В случая с Cloud TPU v2 се употребяват два масива с размерност 128х128, които общо имат 32 768 ALU за 16-битови смисли с плаваща запетая в един процесор.

Да погледнем, по какъв метод този масив прави пресмятанията в невронната мрежа. Първоначално TPU зарежда параметрите от паметта в матрицата от множители и суматори.

След това TPU зарежда данните от паметта. При осъществяването на всяко умножение, резултатът се подава на идващия множител, като всички умножения се правят редом. На изхода се получава резултатът от всички нужни умножения на данните и параметрите. По време на целия този развой въобще не се постанова какъвто и да било достъп до памет.

Ето за какво TPU показва доста по-голяма пропускателна дарба в невронните мрежи, като употребява по-малко сила и заема по-малко място.
Основно предимство: 5 пъти по-ниска цена
Какви прерогативи има TPU? На първо място е цената. Ето какъв брой коства работата на Cloud TPU v2 към месец август 2018 година:

В таблицата са съпоставени цените на общоприетите и TPU изчисленията за разнообразни браншове на Гугъл Cloud.

Станфордският университет предлага серията проби DAWNBench, измерващи бързодействието на компютърните системи с надълбоко машинно образование. Там могат да бъдат прегледани резултатите от другите комбинации от задания и модели за другите цифрови платформи.

През месец април 2018 година минималната себестойност на тренирането на невронна мрежа с архитектура, друга от TPU, струваше $72,40. С помощта на Cloud TPU v2 същата подготовка коства $12,87. Това е по-малко от 1/5 от себестойността. Именно това е силата и мощността на архитектурата, особено предопределена за невронните мрежи.