آلفاگو یک برنامه رایانهای است که توسط ذهن عمیق گوگل در لندن، برای بازی تختهای گو توسعه یافتهاست. در اکتبر ۲۰۱۵، آلفاگو -اولین برنامهٔ رایانهای گو بود که با غلبه بر بازیکنهای حرفهای بازی گو بدون دادن آوانس روی یک تخته کامل در سایز ۱۹*۱۹انجام شد. و در مارچ ۲۰۱۶، بر لی سِدُل در پنج دوره بازی غلبه کرد، این اولین باری بود که یک برنامه رایانهای گو بر یکی از ۹-دانهای حرفهای بدون آوانس غلبه میکرد؛ اگرچه در چهارمین بازی به لی سدل باخت، اما لی، بازی آخر را درخواست دادو امتیاز آخر ۴ به ۱ بازی را به آلفاگو داد. در تشخیص غلبه بر لی سدل، جایزهٔ مفتخر۹-دان توسط انجمن بادوک کره به آلفاگو داده شد. الگوریتم آلفاگو از تکنیک جستجوی درختی مونت کارلو برای یافتن حرکات که مبتنی بر دانش قبلی یادگرفته از یادگیری ماشینی و مخصوصاً ازشبکه عصبی مصنوعی با یادگیری عمیق از هردوی انسان و اجرای رایانه است، استفاده میکند.
گو بسیار سختتر از بازیهایی مثل شطرنج، برای رایانهها به منظور برندهشدن است چون فاکتور شاخهبندی بزرگتر باعث منع سختتر برای استفاده از متدهای هوش مصنوعی سنتی مثل هرس کردن آلفا-بتا ،پیمایش درخت و جستجوی کاشف میشود.
دو دهه بعد از رایانهٔ آیبیام دیپ بلو، که قهرمان جهانی شطرنج، گری کاسپارف را در مسابقهٔ ۱۹۹۷ برد، قویترین برنامههای گو فقط با استفاده از تکنیکهای هوش مصنوعی به سطح آماتور دان پنج, رسیدند و هنوز نمیتوانستند که یک بازیکن غیرحرفهای گو را بدون آوانس ببرند. در ۲۰۱۲ برنامه نرمافزاری زِن که بر روی چهار رایانه شخصی کلاستر اجرا میشد، ماسکی تاکمیا را دو بار در پنج و چهار بار آوانس برد. در ۲۰۱۳ کریزی استون، یوشیا ایشیدا در چهار آوانس برد.
با توجه به گفته دیوید سیلور پیرامون آلفاگو، پروژه تحقیقاتی آلفاگو در حدود ۲۰۱۴ برای آزمایش چگونگی خوب کار کردن شبکههای عصبی با استفاده از یادگیری عمیق، میتواند در گو رقابت کند. آلفاگو پیشرفت مهمی را به نسبت برنامههای قبلی گو، نمایش داد. در ۵۰۰ بازی در برابر سایر برنامههای دردسترس گو، شامل کریزی استون و زِن، آلفاگو بر روی یک رایانه، همه غیراز یکی را برد. در یک همداوی مشابه، آلفاگو با اجرا بر روی چندین رایانه همهٔ ۵۰۰ بازی در برابر سایر برنامههای گو و ۷۷درصد بازیهای انجام شده در برابر آلفاگو اجرا شده بر روی یک رایانه اجرا میشد. نسخه توزیع شده در اکتبر ۲۰۱۵از ۱۲۰۲واحد پردازش مرکزی و ۱۷۶واحد پردازش گرافیکی استفاده میکردهاست.
در اکتبر ۲۰۱۵، نسخه توزیعشده از آلفاگو، قهرمان اروپایی گو، فن هوای را در یک ۲ دان(بدون ۹ دان ممکن) حرفهای، پنج به صفر شکست داد. این اولین باری بود که برنامه رایانهای گو، بر یک بازیکن انسانی حرفهای بر روی تخته کامل بدون آوانس، غلبه کرده بود. اعلام این اخبار تا ۲۷ ژوئیه ۲۰۱۶ به تأخیر افتاد تا با انتشار مجله کاغذی نیچر که الگوریتمهای استفاده شده را وصف میکرد، ادغام شود.
آلفاگو با بازیکن حرفهای کره شمالی گو،لی سدل که جزِ یکی از ۹ تای اول بهترین بازیکنهای گو بود، بازی کرد؛ با پنج بازی در هتل چهار فصل در سئول، کره شمالی در ۹ و ۱۰و ۱۲ و ۱۳ و ۱۵ مارچ ۲۰۱۶ که بهطور زنده پخش ویدئویی میشد. آجا هانگ، یکی از اعضای تیم ذهن عمیق و آماتور دان ۶ بازیکن گو، برای آلفاگو سنگها را بر روی تخته گو، قرار داد که از طریق رایانش ابری گوگل با کارگزارهایش که در ایالت متحده قرار گرفتهبود، اجرا میشد. بازی از قوانین چینی با ۷٫۵ امتیاز کُمیاستفاده میکرد؛ و هر طرف دو ساعت وقت تفکر به علاوه سه تا ۶۰ ثانیه دورههای بیویومی داشتند. نسخهٔ اجرا شدهٔ آلفاگو در برابر لی از یک حجم مشابهی از رایانش توانی که در بازی فن هوای استفاده میشد، استفاده کردهاست.
در زمان بازی، لی سدل دومین بیشترین تعداد فاتح رقابتهای ملی گو در جهان، است. در زمانیکه هیچ متد رسمی رتبهبندی در بازی ملی گونبود، برخی منابع، لی سدل را را چهارمین بازیکن برتر جهان در آن زمان رتبهبندی کردهبودند. آلفاگو تنها برای مواجه با لی آموزش دادهنشده بود. اولین سه بازی توسط آلفاگو پیرو واگذاری لی سدل به پیروزی رسید. اگرچه لی سدل آلفاگو را در چهارمین بازی برد، با واگذاری در ۱۸۰ حرکت پیروز شد. آلفاگو بعداً برای بدست آوردن پیروزی چهارم کار را ادامهداد، و پنجمین بازی را برد.
جایزه ۱ میلیون بود. با اینکه آلفاگو چهار از پنج بازی را برد اما جایزه به مراکز خیریه مثل یونیسف بخشیدهشد. و لی سدل ۱۵۰۰۰۰دلار برای مشارکت در هر پنج بازی به اضافهٔ ۲۰۰۰۰ دلار برای بردنش دریافت کرد. برای جزپیات بیشتر این بازی بر روی لینک کلیک کنید.
نسخه جدیدتر آلفاگو بر روی سختافزار با تعداد مختلف واحد پردازش مرکزی و واحد پردازش گرافیکی، که در حالت غیرهمزمان یا توزیعشده اجرا شدهاست. دو ثانیه زمان تفکر به هر حرکت داده شدهاست. نتایج ریتینگ الو در زیر لیست شدهاست. در این بازیها اکثر زمان هر حرکت از زمان نسبت داده شده، بیشتر بدستآمدهاست.
پیکربندی | جستجو تردهای |
تعداد واحد پردازنده مرکزی | تعداد واحد پردازنده گرافیکی | ریتینگ الو |
---|---|---|---|---|
یکه p. 10-11 | ۴۰ | ۴۸ | ۱ | ۲٬۱۵۱ |
یکه | ۴۰ | ۴۸ | ۲ | ۲٬۷۳۸ |
یکه | ۴۰ | ۴۸ | ۴ | ۲٬۸۵۰ |
یکه | ۴۰ | ۴۸ | ۸ | ۲٬۸۹۰ |
رایانش توزیعشده | ۱۲ | ۴۲۸ | ۶۴ | ۲٬۹۳۷ |
رایانش توزیعشده | ۲۴ | ۷۶۴ | ۱۱۲ | ۳٬۰۷۹ |
رایانش توزیعشده | ۴۰ | ۱٬۲۰۲ | ۱۷۶ | ۳٬۱۴۰ |
رایانش توزیعشده | ۶۴ | ۱٬۹۲۰ | ۲۸۰ | ۳٬۱۶۸ |
همزمان با ۲۰۱۶، الگوریتم آلفاگو از ترکیب یادگیری ماشینی و تکنیکهای جستجوی درختی، که با آموزش فراوان ادغام شدهبود، از هردوی انسان و اجرای رایانه، استفاده میکرد. همچنین از جستجوی درختی مونت کارلو، توسط شبکه ارزش و یک شبکه سیاسی، که هر دو از تکنولوژی شبکه عمیق عصبی استفاده میکردند، هدایت شدهاست. تعداد محدودی از بازیهای خاص، ویژگی شناسایی پیش پردازش (برای مثال:برای مشخص کردن که حرکات بازی از یک مدل نکده) قبل از اینکه به شبکههای عصبی فرستاده بشود، برای ورودی درخواست داده شدهاست.
سامانههای شبکههای عصبی در آغاز، از اجرای بازی انسانی خبره، خود راه انداز بودند. آلفاگو در آغاز برای تقلید بازی انسان برای تلاش در تطابق دادن حرکات بازیکنهای خبره از بازیهای ضبط شده قدیمی، با استفاده از یک پایگاه داده حاوی ۳۰ میلیون حرکت، آموزش داده شدهبود. یکبار به یک درجه معین از کارایی رسید که با تطابق تعداد فراوانی از اجرای بازیها در برابر امثال خود، با استفاده از تقویت یادگیری برای توسعهٔ بازیاش قبل تر آموزش داده شدهبود. به منظور جلوگیری از اتلاف توهینآمیزانهٔ زمان حریفانش، طوری برنامهریزی شدهاست که اگر احتمال برندهشدن زیر آستانهٔ معینی قرار گرفت، از بازی استعفا دهد. در بازی در برابر لی در مارچ ۲۰۱۶، آستانه استعفا دادن، ۲۰ درصد قرار داده شده بود.
تابی مانینگ، داور بازی آلفاگو و فن هوای، شیوهٔ برنامه مثل محافظه کار توصیف کردهاست. در طول بازی آلفاگو در برابر لی سدل، مفسران کرهای هوش مصنوعی شیوه بازی را به خوبی شباهت با بازیکن افسانهای لی چانگهو ، اعلام کردند. این شباهت میتواند با واقعیتی همچون لی چانگهو متناسب بشود. شیوه بازی آلفاگو همچنین با قدرت، احتمال برندهشدن بیشتر با امتیاز کمتر در برابر احتمال برندهشدن کمتر با امتیاز بیشتر را ترجیح میدهد.
فاتح آلفاگو مارچ ۲۰۱۶مرحلهای برجسته در تحقیقات هوش مصنوعی بودهاست. گو قبلاً مشکل سختی در یادگیری ماشین داشتهاست که انتظار میرفته که خارج از تکنولوژی آن زمان بودهاست. اکثر خبرگان بر این باور بودند که برنامه گو همانند آلفا گو در حداقل ۵ سال گذشته قدرتمند بوده؛ و برخی خبرگان فکر میکنند که حداقل یک دهه دیگر برای اینکه رایانهها بر قهرمانان گو غلبه کنند، نیاز است. اکثر بینندگان در آغاز دورههای ۲۰۱۶ توقع داشتند که لی، آلفاگو را ببرد.
با بازیهایی مثل چکر (توسط گروه چینوک حل شدهاست)، شطرنج و این روزها گو توسط رایانه برنده میشوند، فاتحان در بازیهای تختهای مشهور زمان زیادی نمیتوانستند همچون هوش مصنوعی، راهی را که استفاده میکند، بکارگیرند. دیپ بلو مری کمپبل که پیروزی آلفاگو را «به سر رسیدن انتهای تاریخ بازیهای تختهای، زیاد یا کم و زمان تغییر» نامیدهاست.
وقتی با دیپ بلو یا ویستون مقایسه میشود، الگوریتمهای زمینه شده آلفاگو، برای هدف عامتری کشش دارند، و ممکن است فرایندی را که جامعهٔ علمی به سوی هوش عام مصنوعی میسازد، به واقعیت تبدیل شود. برخی مفسران معتقدند که پیروزی آلفاگو فرصت مناسبی را برای جامعه میسازد تا، برای شروع بحث آمادهسازی در تأثیر آینده احتمالی از ماشینهایی که با هدف هوش عام ساخته میشوند (توسط مفسر، گوی سوتر نوشته شدهاست که آلفاگو خودش فقط میداند که چگونه گو بازی کند و دارای هدف عام هوشی نیست: آن نمیتواند یک روز از خواب بیدار شود و تصمیم بگیرد که چگونه از اسلحه گرم استفاده کند") در مارچ ۲۰۱۶، پژوهشگر هوش مصنوعی استوارت راسل تخمین زد که متدهای هوش مصنوعی سریعتر از آنچه مورد انتظار است پردازش میشوند که این سؤال را ایجاد میکند که در زمان طولانی نتیجه ضروری تر میشود «به علاوه آنکه به مظور اطمینان از افزایش سامانههای قدرتمند هوش مصنوعی، بطور کامل تحت کنترل انسان قرار میگیرند خیلی کارها باید انجام شود.»" برخی پژوهشگران مثل استیون هاوکینگ هشدار میدهند (در می ۲۰۱۵ قبل از بازیها) که برخی از خود توسعهدهندگان آینده هوش مصنوعی میتواند هوش عام واقعی را بدست بیاورد با توجه به عهدهگیری برخلاف انتظار هوش مصنوعی ، سایر پژوهشگران مخالفند: خبره هوش مصنوعی جین گابریل گاناسکیا معتقد است که "اشیا مثل حس معمولی هستند، ممکن است هیچ وقت دوباره تولید نشوند"و میگوید "من نمیدانم چرا ما دربارهٔ ترس صحبت میکنیم. بگونهای که، این مسئله امید را در خیلی چیزها مثل سلامتی و انفجار فضایی بالا میبرد" دانشمند رایانه ریچارد سوتن : «من فکر نمیکنم که لازم باشد مردم یترسند اما من فکر میکنم که مردم باید مراقب باشند.»
گو بازی مشهوری در چین، ژاپن و کره است و در دورههای ۲۰۱۶ حدود صد میلیون نفر در سراسر جهان آن را تماشا کردهاند. بسیاری از بازیکنهای برتر گو بازیهای ناصحیح آلفاگو را که بهطور ظاهری، حرکات قابل پرسش که آغازگر سرمست کردن تماشاگر است، را مشخص کردهاند و این حرکات ادراک را درگیر میکند: «همه و اما بازیکنهای برتر گو، شیوه خود را با تقلید از بازیکنهای برتر دیگر گرفتهاند. آلفاگو این جور بنظرمیآید که همهٔ حرکات رایج را خودش میسازد.» آلفاگو از انتظار قویتر بنظر میآید، حتی وقتی که با خودش در دوره اکتبر ۲۰۱۵ مقایسه میشود جاییکه رایانه برای اولین بار بدون آوانس یک بازیکن حرفهای گو را برد. روز بعد از اولین شکست لی، جیونگ اهرام رهبر خبرنگاران گو در یکی از بزرگترین روزنامههای روز کره شمالی گفت :" شب گذشته بسیار تلخ بود و خیلی از افراد الکل خوردند ." انجمن بادوک کره سازمانی که از حرفهایهای گو در کره شمالی حمایت میکند، به آلفاگو جایزه مفتخر ۹ دان برای نمایش مهارتهای خلاقانه و پیش بردن مراحل بازی داد.
بازیکن نوجوان ۱۸ ساله چینی که بهترین بازیکن جهانی گو شناخته شدهاست، که جی اعلام کرد که قادر خواهدبود که آلفاگو را شکست دهد اما از ترس تقلیدکردن آلفاگو از روش بازیاش، بازی با آلفاگو را رد کرد همانطور که بازیها انجام شدند، که جی بازگشت و بعد از تحلیل اولین سه بازی، تخمین زد که «خیلی احتمال دارد که ببازم» اما بعد از بازی چهارم با مشاهدهٔ خطای آلفاگو، دوباره اعتماد بنفس خود را بدست آورد.
تابی منینگ داور بازیهای آلفاگو در برابر فن هوای و هاجین لی، منشی فدراسیون ملی گو ، بازیکنهای گو به دو دلیل یادگیری خطاهایشان در بازیها و تقویت مهارتهایشان در آیندهُ میتوانند از رایانهها استفاده کنند.
بعد از بازی دوم، لی گفت من احساس "لال بودن" میکنم:از آغاز بازی من نمیتوانستم هیچ وقت یک حرکت دست بالا را در نظر بگیرم و آلفاگو برنده تام است." او بخاطر شکستهایش عذرخواهی کرد سه چیز را بعد از بازی تخمین زد و اقرار کرد که: «من توانایی آلفاگو را دست کم گرفته بودم و فکر میکردم ضعیف است.» او خاطر نشان کرد که این شکست، «شکست لی سدل» است و «شکست انسانی نیست». لی گفت از دست دادن احتمالی به ماشین «ناگریز» است اما گفت که «رباتها هیچ گاه زیبایی بازی را آنگونه که افراد حس میکنند، حس نمیکنند.» لی «پیروزی چهارمین بازیاش را پیروزی پرقیمتی میدانم و هیچ وقت آن را با چیزی عوض نمیکنم.»
فیس بوک بر روی سامانههای بازی گو خود،دارک فارست کار میکند. دارک فارست همچنین مبتنی بر ترکیب یادگیری ماشین و جستجوی درختی است. اگرچه یک بازیکن قوی در برابر سایر برنامههای رایانهای گو، مثل اوایل ۲۰۱۶، هنوز نتوانسته بود که بازیکن انسانی حرفهای را شکست بدهد، بازی میکنند. دارک فارست به کریزی استون و زن باختهاست و تخمین زدهمیشود که به قدرت مشابهی از کریزی استون و زن برسد.
در ۱ مارچ یک «پروژه گو عمیق زن» میان توسعهدهندگان برنامه زن رایانهای گو (یوجی اوجیما، هیدکی کاتو)، کمپانی رسانه و ارتباط از راهدور دنگو و تیم پژوهشی یادگیری عمیق در دانشگاه توکیو (توسعهدهندگان پانونزا) اعلام شد. انجمن زاپنی گو همچنین پشتیبانیاش از این پروژه را ضمانت کرد. هدف آنان، شکست آلفاگو در ۶ ماه تا ۱ سال است.
آلفاگو (مشکی) در برابر فن هوای، بازی چهارم(۸ اکتبر ۲۰۱۵)، آلفاگو با واگذاری برنده شد.