AlphaGo Zero, самообучаващата се програма за играта Го, създадена от

...
AlphaGo Zero, самообучаващата се програма за играта Го, създадена от
Коментари Харесай

AlphaGo Zero самостоятелно се научи да играе шах и отново победи всички

AlphaGo Zero, самообучаващата се стратегия за играта Го, основана от програмистите на DeepMind, пробния отдел на Гугъл, се научи да играе и други игри.
Обновяването на логаритъма е разказано в arXiv и в този момент програмата съвършено играе японския шах Шоги, както и типичен шах.

Първата версия на програмата AlphaGo бе показана през 2015 година и тогава използваше две невронни мрежи: едната изчисляваше вероятността на ходовете, а втората оценяваше позицията на фигурата. Оригиналната AlphaGo напълно разчиташе на човешкото образование и използваше информацията за удачните ходове, направени от хората, както и търсене посредством метода на Монте-Карло, който постоянно се употребява от компютрите-играчи. Алгоритъмът незабавно сподели своята успеваемост с успеха против Фан Хюей.

Разработчиците на DeepMind бързо усъвършенстваха логаритъма, разширявайки потреблението на подсиленото образование. Тогава AlphaGo победи Ли Седол – един от най-хубавите Го играчи в света. След това логаритъмът бе усъвършенстван и усъвършенстван още един път, и съумя да победи Ке Цзе – третият най-хубав състезател на Го в света. След това AlphaGo излезе от спорта.

Неотдавна основателите на тази стратегия показаха осъвременената версия AlphaGo Zero , създадена да употребява единствено подсилено образование, която съумя да победи всички предходни версии на програмата с резултат 100:0. Сега разработчиците образоваха логаритъма да играе типичен шах и японския шах Шоги.

Всъщност, в системата са заложени единствено разпоредбите на играта – метода на напредване на царицата, офицера, коня и така нататък На всичко останало програмата се е научила независимо, започвайки от инцидентна игра.

След първичното самообразование, AlphaGo Zero победи компютърната стратегия Stockfish, която от няколко години се смята за най-хубавия компютърен състезател на типичен шах. Резултатът е безапелационен – 100:0. А програмата за игра на Шоги – Elmo бе победена с резултат 92:8. Това е впечатляващо, тъй като в първия случай AlphaGo се е обучавала 4 часа, а във втория – единствено два.

Един от създателите на научната работа и на самата стратегия е Матю Лай (Matthew Lai), който отдавна се занимава с създаването на шахматен логаритъм, който се самообучава, като играе със себе си. Представената от него преди две години стратегия се самообучаваше в продължение на 72 часа, след което неговата успеваемост бе сравнима с успеваемостта на най-хубавите играчи на Международната шахматна федерация. Но тогава тази стратегия отстъпи пред Stockfish.

Първата значима победа на компютъра против професионален шахматист бе удържана още през 1977 година, когато компютърната стратегия DeepBlue победи международния първенец по шах Гари Каспаров.
Източник: kaldata.com

СПОДЕЛИ СТАТИЯТА


Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР