מפתח | DeepMind |
---|---|
מחזור חיים | 2017–הווה (כ־7 שנים) |
AlphaZero היא תוכנת מחשב, שפותחה על ידי DeepMind חברת מחקר בתחום הבינה המלאכותית, במטרה להגיע לרמות חשיבה גבוהות במשחקי שחמט, שוגי וגו. אלגוריתם זה משתמש בגישה הדומה ל-AlphaGo Zero.
ב-5 בדצמבר 2017, צוות DeepMind הציג את AlphaZero, אשר בתוך 24 שעות של אימונים השיג רמה על-אנושית (אנ') של משחק בשלושת המשחקים האלה על ידי הבסת תוכניות 0אלוף-העולם stockfish, אלמו, ואת גרסת של AlphaGo Zero. בכל אחד מהמקרים היא עשתה שימוש ביחידות עיבוד טנזורים מותאמות אישית (TPU), שתוכניות גוגל מותאמות לשימוש בהן. AlphaZero הוכשרה אך ורק באמצעות "משחק עצמי" תוך שימוש ב-5,000 מכשירי TPU מהדור הראשון כדי להפיק את המשחקים ו-64 דור שני של מכשירי TPU להכשרת רשתות נוירונים (אנ'), והכל במקביל, ללא גישה לספרות או שולחנות קצה. לאחר ארבע שעות של אימונים, העריכה DeepMind ש-AlphaZero שיחקה בשחמט הדירוג Elo גבוה יותר מ- Stockfish 8; לאחר 9 שעות אימונים, האלגוריתם ניצח את סטוקפיש 8 בטורניר מבוקר בזמן של 100 משחקים (28 ניצחונות, 0 הפסדים ו-72 תוצאות תיקו).[1][2] האלגוריתם המאומן שיחק במכונה אחת עם ארבעה TPU.
המאמר של DeepMind על AlphaZero פורסם בכתב העת "Science" ב-7 בדצמבר 2018.[3] בשנת 2019 פרסם DeepMind מאמר חדש המפרט את MuZero, אלגוריתם חדש המסוגל להכליל את עבודות AlphaZero, ומשחק הן את Atari והן את משחקי הלוח ללא ידיעת הכללים או ייצוגי המשחק.[4]
{{cite news}}
: (עזרה)
{{cite journal}}
: (עזרה)תחזוקה - ציטוט: postscript (link)