آلفاگو یک برنامه رایانه‌ای است که توسط ذهن عمیق گوگل در لندن، برای بازی تخته‌ای گو توسعه یافته‌است. در اکتبر ۲۰۱۵، آلفاگو -اولین برنامهٔ رایانه‌ای گو بود که با غلبه بر بازیکن‌های حرفه‌ای بازی گو بدون دادن آوانس روی یک تخته کامل در سایز ۱۹*۱۹انجام شد. و در مارچ ۲۰۱۶، بر لی سِدُل در پنج دوره بازی غلبه کرد، این اولین باری بود که یک برنامه رایانه‌ای گو بر یکی از ۹-دانهای حرفه‌ای بدون آوانس غلبه می‌کرد؛ اگرچه در چهارمین بازی به لی سدل باخت، اما لی، بازی آخر را درخواست دادو امتیاز آخر ۴ به ۱ بازی را به آلفاگو داد. در تشخیص غلبه بر لی سدل، جایزهٔ مفتخر۹-دان توسط انجمن بادوک کره به آلفاگو داده شد. الگوریتم آلفاگو از تکنیک جستجوی درختی مونت کارلو برای یافتن حرکات که مبتنی بر دانش قبلی یادگرفته از یادگیری ماشینی و مخصوصاً ازشبکه عصبی مصنوعی با یادگیری عمیق از هردوی انسان و اجرای رایانه است، استفاده می‌کند.

تاریخچه و رقابت‌ها

گو بسیار سختتر از بازی‌هایی مثل شطرنج، برای رایانه‌ها به منظور برنده‌شدن است چون فاکتور شاخه‌بندی بزرگتر باعث منع سختتر برای استفاده از متدهای هوش مصنوعی سنتی مثل هرس کردن آلفا-بتا ،پیمایش درخت و جستجوی کاشف می‌شود.

دو دهه بعد از رایانهٔ آی‌بی‌ام دیپ بلو، که قهرمان جهانی شطرنج، گری کاسپارف را در مسابقهٔ ۱۹۹۷ برد، قوی‌ترین برنامه‌های گو فقط با استفاده از تکنیک‌های هوش مصنوعی به سطح آماتور دان پنج, رسیدند و هنوز نمی‌توانستند که یک بازیکن غیرحرفه‌ای گو را بدون آوانس ببرند. در ۲۰۱۲ برنامه نرم‌افزاری زِن که بر روی چهار رایانه شخصی کلاستر اجرا می‌شد، ماسکی تاکمیا را دو بار در پنج و چهار بار آوانس برد. در ۲۰۱۳ کریزی استون، یوشیا ایشیدا در چهار آوانس برد.

با توجه به گفته دیوید سیلور پیرامون آلفاگو، پروژه تحقیقاتی آلفاگو در حدود ۲۰۱۴ برای آزمایش چگونگی خوب کار کردن شبکه‌های عصبی با استفاده از یادگیری عمیق، می‌تواند در گو رقابت کند. آلفاگو پیشرفت مهمی را به نسبت برنامه‌های قبلی گو، نمایش داد. در ۵۰۰ بازی در برابر سایر برنامه‌های دردسترس گو، شامل کریزی استون و زِن، آلفاگو بر روی یک رایانه، همه غیراز یکی را برد. در یک همداوی مشابه، آلفاگو با اجرا بر روی چندین رایانه همهٔ ۵۰۰ بازی در برابر سایر برنامه‌های گو و ۷۷درصد بازی‌های انجام شده در برابر آلفاگو اجرا شده بر روی یک رایانه اجرا می‌شد. نسخه توزیع شده در اکتبر ۲۰۱۵از ۱۲۰۲واحد پردازش مرکزی و ۱۷۶واحد پردازش گرافیکی استفاده می‌کرده‌است.

بازی در برابر فن هوای

در اکتبر ۲۰۱۵، نسخه توزیع‌شده از آلفاگو، قهرمان اروپایی گو، فن هوای را در یک ۲ دان(بدون ۹ دان ممکن) حرفه‌ای، پنج به صفر شکست داد. این اولین باری بود که برنامه رایانه‌ای گو، بر یک بازیکن انسانی حرفه‌ای بر روی تخته کامل بدون آوانس، غلبه کرده بود. اعلام این اخبار تا ۲۷ ژوئیه ۲۰۱۶ به تأخیر افتاد تا با انتشار مجله کاغذی نیچر که الگوریتم‌های استفاده شده را وصف می‌کرد، ادغام شود.

بازی در برابر لی سدل

آلفاگو با بازیکن حرفه‌ای کره شمالی گو،لی سدل که جزِ یکی از ۹ تای اول بهترین بازیکن‌های گو بود، بازی کرد؛ با پنج بازی در هتل چهار فصل در سئول، کره شمالی در ۹ و ۱۰و ۱۲ و ۱۳ و ۱۵ مارچ ۲۰۱۶ که به‌طور زنده پخش ویدئویی می‌شد. آجا هانگ، یکی از اعضای تیم ذهن عمیق و آماتور دان ۶ بازیکن گو، برای آلفاگو سنگ‌ها را بر روی تخته گو، قرار داد که از طریق رایانش ابری گوگل با کارگزارهایش که در ایالت متحده قرار گرفته‌بود، اجرا می‌شد. بازی از قوانین چینی با ۷٫۵ امتیاز کُمیاستفاده می‌کرد؛ و هر طرف دو ساعت وقت تفکر به علاوه سه تا ۶۰ ثانیه دوره‌های بیویومی داشتند. نسخهٔ اجرا شدهٔ آلفاگو در برابر لی از یک حجم مشابهی از رایانش توانی که در بازی فن هوای استفاده می‌شد، استفاده کرده‌است.

در زمان بازی، لی سدل دومین بیشترین تعداد فاتح رقابت‌های ملی گو در جهان، است. در زمانی‌که هیچ متد رسمی رتبه‌بندی در بازی ملی گونبود، برخی منابع، لی سدل را را چهارمین بازیکن برتر جهان در آن زمان رتبه‌بندی کرده‌بودند. آلفاگو تنها برای مواجه با لی آموزش داده‌نشده بود. اولین سه بازی توسط آلفاگو پیرو واگذاری لی سدل به پیروزی رسید. اگرچه لی سدل آلفاگو را در چهارمین بازی برد، با واگذاری در ۱۸۰ حرکت پیروز شد. آلفاگو بعداً برای بدست آوردن پیروزی چهارم کار را ادامه‌داد، و پنجمین بازی را برد.

جایزه ۱ میلیون بود. با اینکه آلفاگو چهار از پنج بازی را برد اما جایزه به مراکز خیریه مثل یونیسف بخشیده‌شد. و لی سدل ۱۵۰۰۰۰دلار برای مشارکت در هر پنج بازی به اضافهٔ ۲۰۰۰۰ دلار برای بردنش دریافت کرد. برای جزپیات بیشتر این بازی بر روی لینک کلیک کنید.

سخت‌افزار

نسخه جدیدتر آلفاگو بر روی سخت‌افزار با تعداد مختلف واحد پردازش مرکزی و واحد پردازش گرافیکی، که در حالت غیرهم‌زمان یا توزیع‌شده اجرا شده‌است. دو ثانیه زمان تفکر به هر حرکت داده شده‌است. نتایج ریتینگ الو در زیر لیست شده‌است. در این بازی‌ها اکثر زمان هر حرکت از زمان نسبت داده شده، بیشتر بدست‌آمده‌است.

پیکربندی و اجرا
پیکربندی جستجو
تردهای
تعداد واحد پردازنده مرکزی تعداد واحد پردازنده گرافیکی ریتینگ الو
یکه p. 10-11 ۴۰ ۴۸ ۱ ۲٬۱۵۱
یکه ۴۰ ۴۸ ۲ ۲٬۷۳۸
یکه ۴۰ ۴۸ ۴ ۲٬۸۵۰
یکه ۴۰ ۴۸ ۸ ۲٬۸۹۰
رایانش توزیع‌شده ۱۲ ۴۲۸ ۶۴ ۲٬۹۳۷
رایانش توزیع‌شده ۲۴ ۷۶۴ ۱۱۲ ۳٬۰۷۹
رایانش توزیع‌شده ۴۰ ۱٬۲۰۲ ۱۷۶ ۳٬۱۴۰
رایانش توزیع‌شده ۶۴ ۱٬۹۲۰ ۲۸۰ ۳٬۱۶۸

الگوریتم

همزمان با ۲۰۱۶، الگوریتم آلفاگو از ترکیب یادگیری ماشینی و تکنیک‌های جستجوی درختی، که با آموزش فراوان ادغام شده‌بود، از هردوی انسان و اجرای رایانه، استفاده می‌کرد. همچنین از جستجوی درختی مونت کارلو، توسط شبکه ارزش و یک شبکه سیاسی، که هر دو از تکنولوژی شبکه عمیق عصبی استفاده می‌کردند، هدایت شده‌است. تعداد محدودی از بازی‌های خاص، ویژگی شناسایی پیش پردازش (برای مثال:برای مشخص کردن که حرکات بازی از یک مدل نکده) قبل از اینکه به شبکه‌های عصبی فرستاده بشود، برای ورودی درخواست داده شده‌است.

سامانه‌های شبکه‌های عصبی در آغاز، از اجرای بازی انسانی خبره، خود راه انداز بودند. آلفاگو در آغاز برای تقلید بازی انسان برای تلاش در تطابق دادن حرکات بازیکن‌های خبره از بازی‌های ضبط شده قدیمی، با استفاده از یک پایگاه داده حاوی ۳۰ میلیون حرکت، آموزش داده شده‌بود. یک‌بار به یک درجه معین از کارایی رسید که با تطابق تعداد فراوانی از اجرای بازی‌ها در برابر امثال خود، با استفاده از تقویت یادگیری برای توسعهٔ بازی‌اش قبل تر آموزش داده شده‌بود. به منظور جلوگیری از اتلاف توهین‌آمیزانهٔ زمان حریفانش، طوری برنامه‌ریزی شده‌است که اگر احتمال برنده‌شدن زیر آستانهٔ معینی قرار گرفت، از بازی استعفا دهد. در بازی در برابر لی در مارچ ۲۰۱۶، آستانه استعفا دادن، ۲۰ درصد قرار داده شده بود.

شیوه بازی

تابی مانینگ، داور بازی آلفاگو و فن هوای، شیوهٔ برنامه مثل محافظه کار توصیف کرده‌است. در طول بازی آلفاگو در برابر لی سدل، مفسران کره‌ای هوش مصنوعی شیوه بازی را به خوبی شباهت با بازیکن افسانه‌ای لی چانگهو ، اعلام کردند. این شباهت می‌تواند با واقعیتی همچون لی چانگهو متناسب بشود. شیوه بازی آلفاگو همچنین با قدرت، احتمال برنده‌شدن بیشتر با امتیاز کمتر در برابر احتمال برنده‌شدن کمتر با امتیاز بیشتر را ترجیح می‌دهد.

واکنش به فاتح ۲۰۱۶در مقابل لی سدل

کمیته هوش مصنوعی

فاتح آلفاگو مارچ ۲۰۱۶مرحله‌ای برجسته در تحقیقات هوش مصنوعی بوده‌است. گو قبلاً مشکل سختی در یادگیری ماشین داشته‌است که انتظار می‌رفته که خارج از تکنولوژی آن زمان بوده‌است. اکثر خبرگان بر این باور بودند که برنامه گو همانند آلفا گو در حداقل ۵ سال گذشته قدرتمند بوده؛ و برخی خبرگان فکر می‌کنند که حداقل یک دهه دیگر برای اینکه رایانه‌ها بر قهرمانان گو غلبه کنند، نیاز است. اکثر بینندگان در آغاز دوره‌های ۲۰۱۶ توقع داشتند که لی، آلفاگو را ببرد.

با بازی‌هایی مثل چکر (توسط گروه چینوک حل شده‌است)، شطرنج و این روزها گو توسط رایانه برنده می‌شوند، فاتحان در بازی‌های تخته‌ای مشهور زمان زیادی نمی‌توانستند همچون هوش مصنوعی، راهی را که استفاده می‌کند، بکارگیرند. دیپ بلو مری کمپبل که پیروزی آلفاگو را «به سر رسیدن انتهای تاریخ بازی‌های تخته‌ای، زیاد یا کم و زمان تغییر» نامیده‌است.

وقتی با دیپ بلو یا ویستون مقایسه می‌شود، الگوریتم‌های زمینه شده آلفاگو، برای هدف عام‌تری کشش دارند، و ممکن است فرایندی را که جامعهٔ علمی به سوی هوش عام مصنوعی می‌سازد، به واقعیت تبدیل شود. برخی مفسران معتقدند که پیروزی آلفاگو فرصت مناسبی را برای جامعه می‌سازد تا، برای شروع بحث آماده‌سازی در تأثیر آینده احتمالی از ماشین‌هایی که با هدف هوش عام ساخته می‌شوند (توسط مفسر، گوی سوتر نوشته شده‌است که آلفاگو خودش فقط می‌داند که چگونه گو بازی کند و دارای هدف عام هوشی نیست: آن نمی‌تواند یک روز از خواب بیدار شود و تصمیم بگیرد که چگونه از اسلحه گرم استفاده کند") در مارچ ۲۰۱۶، پژوهشگر هوش مصنوعی استوارت راسل تخمین زد که متدهای هوش مصنوعی سریعتر از آنچه مورد انتظار است پردازش می‌شوند که این سؤال را ایجاد می‌کند که در زمان طولانی نتیجه ضروری تر می‌شود «به علاوه آنکه به مظور اطمینان از افزایش سامانه‌های قدرتمند هوش مصنوعی، بطور کامل تحت کنترل انسان قرار می‌گیرند خیلی کارها باید انجام شود.»" برخی پژوهشگران مثل استیون هاوکینگ هشدار می‌دهند (در می ۲۰۱۵ قبل از بازی‌ها) که برخی از خود توسعه‌دهندگان آینده هوش مصنوعی می‌تواند هوش عام واقعی را بدست بیاورد با توجه به عهده‌گیری برخلاف انتظار هوش مصنوعی ، سایر پژوهشگران مخالفند: خبره هوش مصنوعی جین گابریل گاناسکیا معتقد است که "اشیا مثل حس معمولی هستند، ممکن است هیچ وقت دوباره تولید نشوند"و می‌گوید "من نمی‌دانم چرا ما دربارهٔ ترس صحبت می‌کنیم. بگونه‌ای که، این مسئله امید را در خیلی چیزها مثل سلامتی و انفجار فضایی بالا می‌برد" دانشمند رایانه ریچارد سوتن : «من فکر نمی‌کنم که لازم باشد مردم یترسند اما من فکر می‌کنم که مردم باید مراقب باشند.»

کمیته گو

گو بازی مشهوری در چین، ژاپن و کره است و در دوره‌های ۲۰۱۶ حدود صد میلیون نفر در سراسر جهان آن را تماشا کرده‌اند. بسیاری از بازیکن‌های برتر گو بازی‌های ناصحیح آلفاگو را که به‌طور ظاهری، حرکات قابل پرسش که آغازگر سرمست کردن تماشاگر است، را مشخص کرده‌اند و این حرکات ادراک را درگیر می‌کند: «همه و اما بازیکن‌های برتر گو، شیوه خود را با تقلید از بازیکن‌های برتر دیگر گرفته‌اند. آلفاگو این جور بنظرمی‌آید که همهٔ حرکات رایج را خودش می‌سازد.» آلفاگو از انتظار قویتر بنظر می‌آید، حتی وقتی که با خودش در دوره اکتبر ۲۰۱۵ مقایسه می‌شود جایی‌که رایانه برای اولین بار بدون آوانس یک بازیکن حرفه‌ای گو را برد. روز بعد از اولین شکست لی، جیونگ اهرام رهبر خبرنگاران گو در یکی از بزرگترین روزنامه‌های روز کره شمالی گفت :" شب گذشته بسیار تلخ بود و خیلی از افراد الکل خوردند ." انجمن بادوک کره سازمانی که از حرفه‌ای‌های گو در کره شمالی حمایت می‌کند، به آلفاگو جایزه مفتخر ۹ دان برای نمایش مهارت‌های خلاقانه و پیش بردن مراحل بازی داد.

بازیکن نوجوان ۱۸ ساله چینی که بهترین بازیکن جهانی گو شناخته شده‌است، که جی اعلام کرد که قادر خواهدبود که آلفاگو را شکست دهد اما از ترس تقلیدکردن آلفاگو از روش بازی‌اش، بازی با آلفاگو را رد کرد همان‌طور که بازی‌ها انجام شدند، که جی بازگشت و بعد از تحلیل اولین سه بازی، تخمین زد که «خیلی احتمال دارد که ببازم» اما بعد از بازی چهارم با مشاهدهٔ خطای آلفاگو، دوباره اعتماد بنفس خود را بدست آورد.

تابی منینگ داور بازی‌های آلفاگو در برابر فن هوای و هاجین لی، منشی فدراسیون ملی گو ، بازیکن‌های گو به دو دلیل یادگیری خطاهایشان در بازی‌ها و تقویت مهارت‌هایشان در آیندهُ می‌توانند از رایانه‌ها استفاده کنند.

بعد از بازی دوم، لی گفت من احساس "لال بودن" می‌کنم:از آغاز بازی من نمی‌توانستم هیچ وقت یک حرکت دست بالا را در نظر بگیرم و آلفاگو برنده تام است." او بخاطر شکست‌هایش عذرخواهی کرد سه چیز را بعد از بازی تخمین زد و اقرار کرد که: «من توانایی آلفاگو را دست کم گرفته بودم و فکر می‌کردم ضعیف است.» او خاطر نشان کرد که این شکست، «شکست لی سدل» است و «شکست انسانی نیست». لی گفت از دست دادن احتمالی به ماشین «ناگریز» است اما گفت که «ربات‌ها هیچ گاه زیبایی بازی را آنگونه که افراد حس می‌کنند، حس نمی‌کنند.» لی «پیروزی چهارمین بازی‌اش را پیروزی پرقیمتی می‌دانم و هیچ وقت آن را با چیزی عوض نمی‌کنم.»

سامانه‌های مشابه

فیس بوک بر روی سامانه‌های بازی گو خود،دارک فارست کار می‌کند. دارک فارست همچنین مبتنی بر ترکیب یادگیری ماشین و جستجوی درختی است. اگرچه یک بازیکن قوی در برابر سایر برنامه‌های رایانه‌ای گو، مثل اوایل ۲۰۱۶، هنوز نتوانسته بود که بازیکن انسانی حرفه‌ای را شکست بدهد، بازی می‌کنند. دارک فارست به کریزی استون و زن باخته‌است و تخمین زده‌می‌شود که به قدرت مشابهی از کریزی استون و زن برسد.

در ۱ مارچ یک «پروژه گو عمیق زن» میان توسعه‌دهندگان برنامه زن رایانه‌ای گو (یوجی اوجیما، هیدکی کاتو)، کمپانی رسانه و ارتباط از راه‌دور دنگو و تیم پژوهشی یادگیری عمیق در دانشگاه توکیو (توسعه‌دهندگان پانونزا) اعلام شد. انجمن زاپنی گو همچنین پشتیبانی‌اش از این پروژه را ضمانت کرد. هدف آنان، شکست آلفاگو در ۶ ماه تا ۱ سال است.

نمونه‌ای از بازی

آلفاگو (مشکی) در برابر فن هوای، بازی چهارم(۸ اکتبر ۲۰۱۵)، آلفاگو با واگذاری برنده شد.

Alfago game.png

این مقاله با استفاده از مواد از مقاله ویکی پدیا آلفاگو است که تحت Creative Commons Attribution-Share-Alike License 3.0 منتشر می شود.