Google представи новия ИИ-ускорител TPU v6, наречен Trillium, който вече

Новият AI-ускорител Trillium на Google вече е достъпен в GCP облака

Гугъл показа новия ИИ-ускорител TPU v6, наименуван Trillium, който към този момент е наличен за тестване от потребителите посредством Гугъл Cloud Platform. Според Гугъл този ускорител се смята за най-модерното решение на компанията във връзка с цена и продуктивност, което го прави прелъстителен при дилемите за надълбоко образование и огромните AI-проекти.

Trillium беше публично показан през май тази година и има 32 GB HBM памет с пропускателна дарба от 1,6 TB/s. Устройството интегрира SparseCore блокове от трето потомство, предопределени да усъвършенстват обработката на AI, като системи за рекомендации и класиране на наличието. Интерфейсът ICI (Inter-Chip Interconnect), който обезпечава скорост за трансфер на данните до 3,58 Tbps, разрешава на тези ускорители да споделят дейно между тях в клъстер, което форсира обработката на огромните размери от данни.

Резултатите от тестванията на Trillium демонстрират, че продуктивността на образованието за модели като Gemma 2-27b, MaxText Default-32b и Llama2-70B се усилва с повече от четири пъти, а за LLama2-7b и Gemma2-9b с повече от три пъти спрямо TPU v5e.

При инференса на моделите Stable Diffusion XL и Trillium беше записано трикратно нарастване на продуктивността. По отношение на цена/производителност, TPU v6e показва нарастване от 1,8 пъти спрямо TPU v5e и съвсем двойно спрямо TPU v5p.

Сред основните преимущества на TPU v6e (Trillium версията) спрямо предходния TPU v5e са:

Повече от четирикратно нарастване на продуктивността при образование на AI модели Производителността на инференса се усилва до три пъти Подобрена енергийна успеваемост с 67% 4,7x нарастване на пиковата изчислителна продуктивност на чип Удвояване на потенциала на HBM Удвояване на пропускателната дарба на междучиповото свързване ICI

Всеки възел се състои от осем TPU v6e, ситуирани в два NUMA-домейна, два процесора със 180 vCPU, 1,44 TB RAM и четири 200G адаптера (по два за всеки CPU) за връзка с други системи. В клъстера могат да се обединят до 256 устройства Trillium, осигурявайки пропускателна дарба на мрежата до 25,6 Tbps. За съчетание на огромни клъстери в десетки хиляди ускорители се употребява оптичната платформа Гугъл Jupiter, която доближава пропускателна дарба от 13 Pbit/s. Trillium също е включен във високопроизводителната AI Hypercomputer платформа, предопределена за ресурсоемките ИИ-задачи.

Специалният програмен продукт Multislice разрешава на Trillium да мащабира продуктивността съвсем линейно, изключително при дилемите за образование на AI. Клъстерите, основани на TPU v6e, могат да доближат 91 Eflops при AI изчисленията, което е повече от четири пъти по-бързо от сходните, основани на TPU v5p, системи. Пиковата продуктивност на TPU v6e е 918 терафлопа за интервенции, употребяващи BF16 и 1836 терафлопа за INT8.