MIT създаде алгоритъм над 100 пъти ускоряващ анализа на големи данни
Учените от Масачузетския софтуерен институт сътвориха програмния логаритъм Taco, автоматизиращ компресията на тензорните таблици (3D матриците, формирани от огромно количество празни данни.
Нулите при умножаването на таблиците заемат прекалено много място в паметта, а оптимизацията на целия развой изисква огромни старания от програмистите.
Тензорните таблици в програмирането са елементарни двумерни масиви или просто таблици, математическите интервенции с които изискват персонализиран код, който нормално се отнася единствено за стеснен кръг от задания. В действителния свят се употребяват за сформиране на карти за бази данни – в Amazon да вземем за пример, ID на купувача се свързва със съответната стока, а тези данни могат да са свързани с рейтинга на купувача, който се намира в друга таблица.
Счита се, че работата с сходни таблици е по-лесна, в сравнение с с SQL бази данни, само че те имат явен минус – в случай че с единица бъде обозначена покупката, то всички останали кафези на таблицата се запълват с нули. При умножаването на сходни таблици, процесорът ненужно се натоварва и запълва паметта с нулеви данни. Като резултат от всичко това, тензорните таблици за цялата база данни на Amazon биха заели 107 екзабайта памет, което е 10 пъти повече от всички сървъри на Гугъл.
Досега програмистите независимо усъвършенстваха тези пресмятания, само че този развой е извънредно сложен и лишава доста време. Специалистите на MIT сътвориха логаритъм автоматизиращ целия развой. Сега програмистът би трябвало единствено да импортира файла с данните и да избере нужната математическа интервенция. Taco отстранява всички нулеви смисли, отстранява умноженията на нула и по-късно записва данните в паметта.
Taco дава опция и за осъществяването на голям брой умножения на таблици, без междинно записване на резултатите в непрекъснатата памет. Резултатът е впечатляващ: с помощта на Taco, тензорните таблици на Amazon в този момент заемат единствено към 14 GB дисково пространство, а интервенциите с тях се правят 100 пъти по-бързо.
Нулите при умножаването на таблиците заемат прекалено много място в паметта, а оптимизацията на целия развой изисква огромни старания от програмистите.
Тензорните таблици в програмирането са елементарни двумерни масиви или просто таблици, математическите интервенции с които изискват персонализиран код, който нормално се отнася единствено за стеснен кръг от задания. В действителния свят се употребяват за сформиране на карти за бази данни – в Amazon да вземем за пример, ID на купувача се свързва със съответната стока, а тези данни могат да са свързани с рейтинга на купувача, който се намира в друга таблица.
Счита се, че работата с сходни таблици е по-лесна, в сравнение с с SQL бази данни, само че те имат явен минус – в случай че с единица бъде обозначена покупката, то всички останали кафези на таблицата се запълват с нули. При умножаването на сходни таблици, процесорът ненужно се натоварва и запълва паметта с нулеви данни. Като резултат от всичко това, тензорните таблици за цялата база данни на Amazon биха заели 107 екзабайта памет, което е 10 пъти повече от всички сървъри на Гугъл.
Досега програмистите независимо усъвършенстваха тези пресмятания, само че този развой е извънредно сложен и лишава доста време. Специалистите на MIT сътвориха логаритъм автоматизиращ целия развой. Сега програмистът би трябвало единствено да импортира файла с данните и да избере нужната математическа интервенция. Taco отстранява всички нулеви смисли, отстранява умноженията на нула и по-късно записва данните в паметта.
Taco дава опция и за осъществяването на голям брой умножения на таблици, без междинно записване на резултатите в непрекъснатата памет. Резултатът е впечатляващ: с помощта на Taco, тензорните таблици на Amazon в този момент заемат единствено към 14 GB дисково пространство, а интервенциите с тях се правят 100 пъти по-бързо.
Източник: kaldata.com
КОМЕНТАРИ




