AlphaGo – program komputerowy do gry w go stworzony przez firmę DeepMind. W listopadzie 2015 roku jako pierwszy automat pokonał zawodowego gracza, Fan Hui, w pięciorundowym pojedynku na pełnej planszy w równej grze. Mecz zakończył się wynikiem 5:0. W marcu 2016 w meczu z jednym z najlepszych zawodowych graczy – Lee Sedolem – wygrał 4:1. W uznaniu wygranej AlphaGo otrzymał honorowy 9. dan od południowokoreańskiej federacji go.
Algorytm stojący za programem stanowi kombinację technik sieci neuronowych, uczenia maszynowego oraz wyszukiwania Monte Carlo.
22 grudnia 2016 roku został wybrany przez Science jako jeden z „przełomów roku”.
Go jest znacznie trudniejsze dla komputerów niż inne gry, takie jak szachy, ponieważ znacznie większy współczynnik rozgałęzienia utrudnia stosowanie tradycyjnych metod, takich jak algorytm alfa-beta, przechodzenie drzewa i wyszukiwanie heurystyczne.
Prawie dwie dekady po tym, jak IBM Computer Deep Blue pokonał mistrza świata w szachach Garri Kasparowa (w 1997 r.), najsilniejsze programy go z wykorzystaniem technik sztucznej inteligencji osiągnęły tylko poziom amatora 5-dan i wciąż nie mogły pokonać profesjonalnego gracza go bez handicapów. W 2012 roku program Zen, działający na czterech komputerach PC, pokonał Masakiego Takemiya (9p) dwa razy z użyciem 5 i 4 kamieni handicap. W 2013 roku Crazy Stone pokonał Yoshio Ishida (9p) w grach na czterokamiennych handicapach.
Według Davida Silvera projekt badawczy AlphaGo został utworzony około 2014 roku w celu sprawdzenia, jak dobrze sieć neuronowa wykorzystująca głębokie uczenie się może rywalizować w go. AlphaGo stanowi znaczną poprawę w stosunku do poprzednich programów go. W 500 grach przeciwko innym dostępnym programom go, w tym Crazy Stone i Zen, AlphaGo działające na jednym komputerze przegrało tylko raz. W podobnym meczu AlphaGo na wielu komputerach wygrała wszystkie 500 gier granych przeciwko innym programom Go i 77% gier rozgrywanych przeciwko AlphaGo działającemu na jednym komputerze. Wersja rozproszona w październiku 2015 r. używała 1202 CPU i 176 GPU.
W październiku 2015 r. dystrybuowana wersja AlphaGo pokonała profesjonalnego mistrza europejskiego go Fana Huia, 2-dan (z 9 dan możliwych), pięć do zera. Był to pierwszy raz, kiedy program komputerowy go pokonał profesjonalnego człowieka na pełnej planszy bez handicapów. Ogłoszenie wiadomości zostało opóźnione do 27 stycznia 2016 r., aby zbiegło się z publikacją w czasopiśmie „Nature” opisującego stosowane algorytmy.
Fan Hui vs AlphaGo – 1. runda
Fan Hui vs AlphaGo – 2. runda
Fan Hui vs AlphaGo – 3. runda
Fan Hui vs AlphaGo – 4. runda
Fan Hui vs AlphaGo – 5. runda
AlphaGo rozegrał 5 meczów z koreańskim zawodowcem go Lee Sedolem (9-dan), jednym z najlepszych graczy w go. Gra odbyła się w hotelu Four Seasons w Seulu, w Korei Południowej w dniach 9, 12, 13 i 15 marca 2016 r.. Rozgrywka była transmitowana na żywo. Aja Huang, członek zespołu DeepMind i amator 6-dan Go, umieszczał kamienie na planszy go według wskazówek AlphaGo, który działał w oparciu o Google Cloud Computing z serwerami z siedzibą w Stanach Zjednoczonych. Mecz stosował chińskie reguły z 7,5-punktowym komi, a każda ze stron miała dwie godziny czasu myślenia plus trzy okresy po 60 sekund na tak zwane byo-yomi. Wersja AlphaGo grająca przeciwko Lee wykorzystała podobną moc obliczeniową, jaka była stosowana w meczu Fan Hui. Economist poinformował, że używał 1.920 CPU i 280 GPU.
Lee Sedol był drugi na świecie pod względem liczby zwycięstw w mistrzostwach świata w go. Choć nie ma żadnego oficjalnego rankingu w międzynarodowym go, niektóre źródła uznały Lee Sedola za czwartego gracza na świecie w tamtym czasie. AlphaGo nie był specjalnie szkolony do gry przeciwko Lee Sedolowi.
Pierwsze trzy mecze wygrał AlphaGo po rezygnacji Sedola. Jednak Sedol pokonał AlphaGo w czwartej grze, wygrywając rezygnację w ruchu 180. Mimo to AlphaGo osiągnęła czwartą wygraną, zdobywając piątą grę po rezygnacji.
Nagroda wyniosła 1 milion USD. Od kiedy AlphaGo wygrało cztery z pięciu gier, i tym samym całą serię, nagroda została przekazana organizacjom charytatywnym, w tym UNICEF. Lee Sedol otrzymał 150 000 dolarów za udział we wszystkich 5 meczach i dodatkowe 20 000 dolarów za jego pojedynczą wygraną.
W czerwcu 2016 podczas prezentacji na uniwersytecie w Holandii Aja Huang, jeden z zespołów Deep Mind, ujawnił, że poprawił problem, który wystąpił podczas czwartej gry meczu między AlphaGo i Sedol, a po ruchu 78. (który przez wielu specjalistów został nazwany "ręką Boga"), grałby dokładnie i zachowywał przewagę, wystrzegając się błędów, które doprowadziły do przegranej. AlphaGo prowadziło całą grę i ruch Lee nie został zaliczony jako ten, który wygrał grę, ale spowodował, że moce obliczeniowe programu były przekierowywane i zmylone. Huang wyjaśnił, że polityka sieci AlphaGo w znalezieniu najdokładniejszej kolejności i kontynuacji ruchu nieprecyzyjnie doprowadziła AlphaGo do niewłaściwej kontynuacji po ruchu 78., ponieważ jego sieć wartościująca nie uznała, że 78. ruch Sedola jest najbardziej prawdopodobny i wtedy po ruchu AlphaGo nie mogła dokonać właściwego dostosowania do logicznej kontynuacji.
29 grudnia 2016 roku nowe konto o nazwie "Magist" z Korei Południowej zaczęło grać z profesjonalnymi graczami na serwerze Tygem. W dniu 30 grudnia zmieniono nazwę konta na "Master", a następnie 1 stycznia 2017 roku przeniesiono na serwer FoxGo. 4 stycznia DeepMind potwierdził, że "Magister" i "Master" były grającymi i ulepszonymi wersjami AlphaGo. Od 5 stycznia 2017 r. rekord internetowy AlphaGo wynosił 60 zwycięstw i 0 strat, w tym trzy zwycięstwa nad najlepszym graczem go, Ke Jie, który został poinformowany wcześniej, że "Master" jest wersją AlphaGo. Po tym, jak przegrał z "Masterem", Gu Li ofiarował kwotę 100 000 juanów (14 400 USD) na pierwszego człowieka, który mógł pokonać "Mastera". "Master" grał w tempie 10 gier dziennie. Wielu szybko zaczęło podejrzewać, że jest to sztuczna inteligencja z powodu niewielkich lub żadnych odstępów pomiędzy grami. Jej rywalami byli tak liczni mistrzowie świata, jak Ke Jie, Park Jeong-hwan, Yuta Iyama, Tuo Jiaxi, Mi Yuting, Shi Yue, Chen Yaoye, Li Qincheng, Gu Li, Chang Hao, Tang Weixing, Fan Tingyu, Zhou Ruiyang, Jiang Weijie, Chou Chun-hsun, Kim Ji-seok, Kang Dong-yun, Park Yeong-hun i Won Seong-jin; mistrzostw krajowych lub mistrzostw świata, takich jak Lian Xiao, Tan Xiao, Meng Tailing, Dang Yifei, Huang Yunsong, Yang Dingxin, Gu Zihao, Shin Jinseo, Cho Han-seung i An Sungjoon. Wszystkie 60 gier, z wyjątkiem jednego, prowadzone były w szybkim tempie z trzema 20 lub 30 sekundami byo-yomi. "Master" zaproponował przedłużenie byo-yomi do jednej minuty, kiedy grał z Nie Weipingem ze względu na jego wiek. Po wygraniu 59. gry, "Master" ujawnił się na czacie będąc kontrolowanym przez dr Aja Huang z zespołu DeepMind, potem zmienił swoją narodowość na Zjednoczone Królestwo. Po tych meczach współtwórca Google DeepMind, Demis Hassabis napisał na Twitterze: "czekamy na oficjalne, w pełni długie rozgrywki później tego roku [2017] we współpracy z organizacjami go i ekspertami".
Ludzcy gracze popełniają więcej pomyłek w szybkich grach online, niż w pełnych turniejach turniejowych ze względu na wymagany długi czas do namysłu. Nie wiadomo ostatecznie, czy AlphaGo odniesie taki sukces w turniejach, jak w internecie. Jednak eksperci z go są pod wrażeniem wydajności AlphaGo i jego stylu nieludzkiej gry; Ke Jie stwierdził, że „Gdy ludzkość przez tysiące lat ulepszała naszą taktykę, komputery informują nas, że ludzie są w pełni w błędzie... Chciałbym powiedzieć, że żaden człowiek nie dotknął krawędzi prawdy go”.
Wczesna wersja AlphaGo była testowana na sprzęcie z różnymi CPU i GPU, działającymi w trybie asynchronicznym lub rozproszonym. Każdemu ruchowi przyznano dwie sekundy czasu myślenia. Otrzymane oceny Elo są wymienione poniżej. W meczach z większą ilością czasu na ruch osiąga się wyższe oceny.
Konfiguracja | Wyszukiwane
wątki |
Liczba CPU | Liczba GPU | Ocena Elo |
---|---|---|---|---|
Pojedyncza | 40 | 48 | 1 | 2,181 |
Pojedyncza | 40 | 48 | 2 | 2,738 |
Pojedyncza | 40 | 48 | 4 | 2,850 |
Pojedyncza | 40 | 48 | 8 | 2,890 |
Rozproszona | 12 | 428 | 64 | 2,937 |
Rozproszona | 24 | 764 | 112 | 3,079 |
Rozproszona | 40 | 1,202 | 176 | 3,140 |
Rozproszona | 64 | 1,920 | 280 | 3,168 |
W maju 2016 r. firma Google przedstawiła własne, zastrzeżone urządzenia „tensorowe jednostki przetwarzania (TPU)”, które to zostały już wdrożone w wielu wewnętrznych projektach w Google, w tym meczu AlphaGo z Lee Sedolem.
Na szczycie Future of Go w maju 2017 r. DeepMind ujawnił, że wersja AlphaGo używana podczas tego szczytu nazywała się AlphaGo Master i że zmierzono siłę różnych wersji oprogramowania. AlphaGo Lee, wersja używana przeciwko Lee, mogła dać AlphaGo Fan, wersji stosowanej w grze AlphaGo vs. Fan Hui trzy kamienie, a AlphaGo Master była o kolejne trzy kamienie silniejsza.
Wersje | Hardware | Klasyfikacja Elo | Mecze |
---|---|---|---|
AlphaGo Fan | rozpowszechnione | blisko 3,000 | 5:0 przeciwko Fan Hui |
AlphaGo Lee | 50 TPU, rozpowszechnione | około 3,750 | 4:1 przeciwko Lee Sedol |
AlphaGo Master | jedna maszyna z TPU v2 | około 4,750 | 60:0 przeciwko profesjonalnym graczom;
Future of Go Summit |
Od roku 2016 algorytm AlphaGo wykorzystuje kombinację uczenia maszynowego i technik przechodzenia drzewa, w połączeniu z rozległym szkoleniem, zarówno grając przeciwko komputerom, jak i ludziom. Wykorzystuje on Monte-Carlo Tree Search, kierując się „wartością sieci” i „polityką sieci”, realizowaną za pomocą technologii sieci neuronowych. Do przesyłania danych wejściowych przed wysłaniem do sieci neuronowych stosuje się ograniczoną ilość wstępnego przetwarzania detekcji funkcji specyficznych dla danej gry (na przykład aby zaznaczyć, czy ruch pasuje do wzoru nakade).
Sieci neuronowe systemu zostały początkowo załadowane z ludzkiej wiedzy na temat rozgrywek. AlphaGo był początkowo szkolony, aby naśladować sztukę ludzką, próbując dopasować ruchy ekspertów do gier historycznych, wykorzystując bazę danych około 30 milionów ruchów. Gdy osiągnęła pewien stopień biegłości, trenowano ją dalej, grała przeciwko innym kopiom samej siebie, korzystając z nauki wzmocnienia, aby poprawić swoją grę. Aby uniknąć „lekceważenia” marnowania czasu swojego przeciwnika, program został specjalnie zaprogramowany do rezygnacji, jeśli jego ocena prawdopodobieństwa wygrania spadnie poniżej określonego progu. Na meczu w marcu 2016 r. przeciwko Lee, próg rezygnacji został ustalony na 20%.
Toby Manning, sędzia meczu AlphaGo vs. Fan Hui, opisuje styl programu jako „konserwatywny”. Styl gry AlphaGo zdecydowanie opowiada się za większym prawdopodobieństwem wygranej o mniejszej liczbie punktów niż mniejszym prawdopodobieństwem zdobycia większej liczby punktów. Strategia maksymalizacji prawdopodobieństwa wygrania różni się od tego, co ludzie robią, co ma na celu maksymalizację zysków pola gry i wyjaśnia niektóre dziwne ruchy.
Zwycięstwo AlphaGo w marcu 2016 było znaczącym krokiem w badaniach nad sztuczną inteligencją. Go był wcześniej uważany za trudny problem w uczeniu maszyn, który miał być poza zasięgiem technologii w tych czasach. Większość ekspertów uważała, że program go tak potężny jak AlphaGo był oddalony o co najmniej pięć lat, niektórzy eksperci uważali, że zanim komputer pokona mistrzów go, minie jeszcze około dziesięć lat. Większość obserwatorów meczów na początku 2016 oczekiwała, że Lee pokona AlphaGo.
W grach takich jak warcaby (w których z człowiekiem wygrał program Chinook), szachy, a teraz go, wygrana komputera w popularną grę planszową nie może już być interpretowana jako główny krok dla sztucznej inteligencji, jak to działo się dotychczas. Murray Campbell z Deep Blue nazwał AlphaGo zwycięstwem „końca ery... gry planszowe są mniej lub bardziej skończone i nadszedł czas, aby przejść dalej”.
W porównaniu z Deep Blue lub z Watsonem, algorytmy AlphaGo są potencjalnie bardziej ogólne i mogą być dowodem na to, że naukowa wspólnota dokonuje postępów w silnej sztucznej inteligencji. Niektórzy komentatorzy uważają, że zwycięstwo AlphaGo daje dobrą okazję, aby społeczeństwo zaczęło dyskutować nad przygotowaniami do ewentualnego przyszłego wpływu maszyn na inteligencję ogólnego przeznaczenia (jak zauważył przedsiębiorca Guy Suter, sama AlphaGo wie tylko, jak grać w go i nie ma ogólnej inteligencji: „Nie mogłaby się obudzić pewnego ranka i zdecydować, że chce nauczyć się używać broni palnej”). W marcu 2016 r. Stuart Russell stwierdził, że „techniki AI rozwijają się znacznie szybciej niż się spodziewano, co sprawia, że kwestia długoterminowego efektu staje się bardziej pilna” dodając, że „zapewnienie, że coraz silniejsze systemy AI pozostaną całkowicie pod kontrolą człowieka... jest wiele do zrobienia”. Niektórzy uczeni, np. Stephen Hawking ostrzegli (w maju 2015 r. przed meczami), że niektóre przyszłe samodoskonalące się AI mogą uzyskać rzeczywistą ogólną inteligencję, prowadzącą do nieoczekiwanego przejęcia nadzoru przez AI; inni uczeni nie zgadzają się. Ekspert AI Jean-Gabriel Ganascia uważa, że „takie rzeczy jak "rozsądek"... nigdy nie będą odtwarzalne” i mówi: „nie rozumiem, dlaczego mówimy o obawach, przeciwnie, to powoduje wiele nadziei w wielu dziedzinach, takich jak badania dotyczące zdrowia i przestrzeni kosmicznej”. Informatyk Richard Sutton: „Nie sądzę, że ludzie powinni się bać... ale myślę, że ludzie powinni zwracać uwagę”.
Facebook pracuje także nad własnym systemem do gry w Go Darkforest, opartym również na połączeniu uczenia maszynowego i przechodzeniu drzewa. Nie pokonał jeszcze zawodowego gracza. Darkforest przegrał z "CrazyStone" i "Zen" i ma być do nich podobny.
DeepZenGo, system opracowany przy wsparciu portalu Dwango i Uniwersytetu Tokio, przegrał 2-1 w listopadzie 2016 roku z mistrzem Go Cho Chikun, który zajmuje wysokie miejsce w Japonii.