Google предложи революционната технология Device memory TCP за директен мрежови обмен между устройствата
Гугъл показа в листата за разработка на ядрото на Linux реализация на механизма Device memory TCP (devmem TCP), който разрешава непосредствено прекачване на данни по мрежата от паметта на някои устройства към паметта на други устройства, без междинно прекопирване на тези данни в буфери, ситуирани в систематичната памет на хоста. Реализацията към момента е на стадий RFC, т.е. тя е предоставена за разискване и обзор от общността, само че не е включена в главното Linux ядро.
Очаква се Device Memory TCP доста да увеличи успеваемостта на взаимоотношението в клъстерите и разпределените системи за машинно образование благодарение на спомагателни ускорителни карти. Използването на ускорители за машинно образование води до доста увеличение на размера на информацията, прехвърляна по време на образованието на моделите от паметта към паметта на GPU/TPU. В някои случаи образованието на моделите за машинно образование може да употребява единствено 50% от наличните изчислителни запаси на TPU, а един от методите за унищожаване на престоя и по-пълноценно потребление на ресурсите на GPU/TPU е да се усили пропускателната дарба и успеваемостта на прехвърлянето на данни.
Понастоящем прехвърлянето на данни сред устройствата на другите хостове се лимитира до прекопирване на данни от паметта на устройството в паметта на хоста, прекачване на информацията към различен хост по мрежата и прекопирване от паметта на целевия хост в паметта на друго устройство. Тази скица не е оптимална и при прекачване на огромни размери данни в допълнение натоварва паметта и пропускателната дарба на PCIe шината.
Новата технология Device Memory TCP дава опция за изключване на паметта на хоста от тази верига и директното прекачване на данни по мрежата от паметта на устройството и разполагането на данните, получени във тип на мрежови пакети, в паметта на устройството. За работата на Device Memory TCP е нужна мрежова карта, способна да обработва поотделно заглавията на пакетите и капсулираните данни (полезния товар) на мрежовите пакети в другите буфери. Данните се зареждат от паметта на устройството в буфера за потребен товар на мрежовата карта, като се употребява механизмът dmabuf, до момента в който заглавията се трансферират от главната памет и се запълват със систематичния TCP/IP стек. За да се увеличи успеваемостта, може в допълнение да се употребява способността на мрежовата карта да обработва поотделно потоците в другите опашки.
Необходимостта от високопроизводителен механизъм за връзка сред устройствата се усилва при разпределените приложения за машинно образование, където ускорителите са на разнообразни хостове и където данните за образование на моделите се трансферират от външни SSD дискове. Тестовете за продуктивност, извършени в настройка с 4 графични процесора и 4 мрежови кеша, демонстрираха, че Device Memory TCP реализира 96,6% от наличната линейна скорост при прекачване на данни непосредствено сред паметта на устройствата




