Невронна мрежа генерира изображенията на ястията по рецептите за тяхното приготвяне
IT експертите от университета в Тел Авив сътвориха невронна мрежа, която може да генерира изображенията на ястията по текста на рецептите за тяхното подготвяне. По този метод става допустимо да се разбере, какво ще се получи в последна сметка, в случай че един или различен пункт от рецептата бъде изменен или готвачът реши да добави нова съставка и/или да отстрани някои от съставките. Всичко това е разказано в научна работа и може да се приложи в практиката, още повече, че сорс кодът е свободен.
Новата невронна мрежа се назовава StackGAN V2 и е модифицирана версия на генеративна спортна мрежа (GAN). Обучението е осъществено посредством огромната база данни recipe1M с 52 хиляди изображения и предписания.
На невронната мрежа може да се подаде на процедура случаен лист със съставки и указания за подготвяне, и да се види по какъв начин ще наподобява крайният артикул.
„Всичко стартира с това, че помолих баба си да ми даде рецептата за нейните именити рибени рибени кюфтенца“ – споделя Ори Бар Ел (Ori Bar El), водещият създател на научната работа.
„Но заради своята напреднала възраст, тя към този момент не помнеше точната рецепта. А на мен ми бе забавно дали не може да се сътвори компютърна система, която по изображението да генерира готварската рецепта. Като помислих върху тази задача, взех решение че е прекомерно комплицирано да получа от фотографията на ястието точната готварска рецепта със всички скрити съставки и добавки, като да вземем за пример лук, сол, брашно, масло и така нататък А по-късно се сетих, че може да се направи противоположното – да се генерират изображенията въз основата на продуктите и метода на подготвяне. Тъй като множеството модерни системи с детайли на изкуствен интелект се употребяват най-вече да заменят хората в по-опростените и повтарящи се задания, взехме решение че ще е доста забавно да сложим за решение задача, която излиза отвън рамките на човешките благоприятни условия. Получи се„.
Генерирането на изображения по текст е комплицирана задача, която се употребява в редица приложения за машинно зрение. Най-новите научни работи демонстрират, че генеративните спортни мрежи (GAN) са доста ефикасни в тази област и са подобаващи за синтеза на реалистични изображения от лист с данни, които не варират прекалено много.
Неотдавна, в границите на ново научно проучване, бе оповестена базата данни recipe1M, съдържаща над 800 хиляди двойки готварски предписания и съответстващите им изображения. В тази база данни информацията варира в огромна степен, тъй като са употребявани доста категории разнородни артикули от целия свят. Текстът на рецептите от време на време съдържа десетки редове.
Именно с тази база данни учените от университета на Тел Авив образоваха своята невронна мрежа.
Изследователите признават, че системата към момента не е съвършена. Проблемът е, че генерираните изображения са с резолюция единствено 256х256 пиксела. Понякога те са с ниско качество, тъй като в базата данни има фотоси с недобро качество, снимани при слаба осветеност. Много от фотосите са каши и са надалеч от квадратната или правоъгълната форма, което затруднява машинното образование. С това се изяснява, за какво cGAN доста добре генерира изображенията на макарони, оризови ястия, супи и салати, само че се затруднява при хамбургерите и пилешкото.
В бъдеще основателите на новата невронна мрежа имат намерение да продължат работата и да дообучат системата благодарение на останалите предписания (още към 350 000 изображения). Поради съществуването на некачествени фотоси в базата, те имат намерение по-късно да продължат образованието посредством лични двойки рецепти/снимки.
Научната работа бе оповестена на 8 януари тази година в arXiv.org.
Новата невронна мрежа се назовава StackGAN V2 и е модифицирана версия на генеративна спортна мрежа (GAN). Обучението е осъществено посредством огромната база данни recipe1M с 52 хиляди изображения и предписания.
На невронната мрежа може да се подаде на процедура случаен лист със съставки и указания за подготвяне, и да се види по какъв начин ще наподобява крайният артикул.
„Всичко стартира с това, че помолих баба си да ми даде рецептата за нейните именити рибени рибени кюфтенца“ – споделя Ори Бар Ел (Ori Bar El), водещият създател на научната работа.
„Но заради своята напреднала възраст, тя към този момент не помнеше точната рецепта. А на мен ми бе забавно дали не може да се сътвори компютърна система, която по изображението да генерира готварската рецепта. Като помислих върху тази задача, взех решение че е прекомерно комплицирано да получа от фотографията на ястието точната готварска рецепта със всички скрити съставки и добавки, като да вземем за пример лук, сол, брашно, масло и така нататък А по-късно се сетих, че може да се направи противоположното – да се генерират изображенията въз основата на продуктите и метода на подготвяне. Тъй като множеството модерни системи с детайли на изкуствен интелект се употребяват най-вече да заменят хората в по-опростените и повтарящи се задания, взехме решение че ще е доста забавно да сложим за решение задача, която излиза отвън рамките на човешките благоприятни условия. Получи се„.
Генерирането на изображения по текст е комплицирана задача, която се употребява в редица приложения за машинно зрение. Най-новите научни работи демонстрират, че генеративните спортни мрежи (GAN) са доста ефикасни в тази област и са подобаващи за синтеза на реалистични изображения от лист с данни, които не варират прекалено много.
Неотдавна, в границите на ново научно проучване, бе оповестена базата данни recipe1M, съдържаща над 800 хиляди двойки готварски предписания и съответстващите им изображения. В тази база данни информацията варира в огромна степен, тъй като са употребявани доста категории разнородни артикули от целия свят. Текстът на рецептите от време на време съдържа десетки редове.
Именно с тази база данни учените от университета на Тел Авив образоваха своята невронна мрежа.
Изследователите признават, че системата към момента не е съвършена. Проблемът е, че генерираните изображения са с резолюция единствено 256х256 пиксела. Понякога те са с ниско качество, тъй като в базата данни има фотоси с недобро качество, снимани при слаба осветеност. Много от фотосите са каши и са надалеч от квадратната или правоъгълната форма, което затруднява машинното образование. С това се изяснява, за какво cGAN доста добре генерира изображенията на макарони, оризови ястия, супи и салати, само че се затруднява при хамбургерите и пилешкото.
В бъдеще основателите на новата невронна мрежа имат намерение да продължат работата и да дообучат системата благодарение на останалите предписания (още към 350 000 изображения). Поради съществуването на некачествени фотоси в базата, те имат намерение по-късно да продължат образованието посредством лични двойки рецепти/снимки.
Научната работа бе оповестена на 8 януари тази година в arXiv.org.
Източник: kaldata.com
КОМЕНТАРИ




