AlphaZero

**AlphaZero**
מפתח	DeepMind
מחזור חיים	2017–הווה (כ־7 שנים)

AlphaZero היא תוכנת מחשב, שפותחה על ידי DeepMind חברת מחקר בתחום הבינה המלאכותית, במטרה להגיע לרמות חשיבה גבוהות במשחקי שחמט, שוגי וגו. אלגוריתם זה משתמש בגישה הדומה ל-AlphaGo Zero.

ב-5 בדצמבר 2017, צוות DeepMind הציג את AlphaZero, אשר בתוך 24 שעות של אימונים השיג רמה על-אנושית (אנ') של משחק בשלושת המשחקים האלה על ידי הבסת תוכניות 0אלוף-העולם stockfish, אלמו, ואת גרסת של AlphaGo Zero. בכל אחד מהמקרים היא עשתה שימוש ביחידות עיבוד טנזורים מותאמות אישית (TPU), שתוכניות גוגל מותאמות לשימוש בהן. AlphaZero הוכשרה אך ורק באמצעות "משחק עצמי" תוך שימוש ב-5,000 מכשירי TPU מהדור הראשון כדי להפיק את המשחקים ו-64 דור שני של מכשירי TPU להכשרת רשתות נוירונים (אנ'), והכל במקביל, ללא גישה לספרות או שולחנות קצה. לאחר ארבע שעות של אימונים, העריכה DeepMind ש-AlphaZero שיחקה בשחמט הדירוג Elo גבוה יותר מ- Stockfish 8; לאחר 9 שעות אימונים, האלגוריתם ניצח את סטוקפיש 8 בטורניר מבוקר בזמן של 100 משחקים (28 ניצחונות, 0 הפסדים ו-72 תוצאות תיקו).^[1]^[2] האלגוריתם המאומן שיחק במכונה אחת עם ארבעה TPU.

המאמר של DeepMind על AlphaZero פורסם בכתב העת "Science" ב-7 בדצמבר 2018.^[3] בשנת 2019 פרסם DeepMind מאמר חדש המפרט את MuZero, אלגוריתם חדש המסוגל להכליל את עבודות AlphaZero, ומשחק הן את Atari והן את משחקי הלוח ללא ידיעת הכללים או ייצוגי המשחק.^[4]

^ Sarah Knapton; Leon Watson, ‏Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours, The Telegraph, 6 December 2017
^ Vincent, James (6 בדצמבר 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. נבדק ב-6 בדצמבר 2017. {{cite news}}: (עזרה)
^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan (7 בדצמבר 2018). "A general reinforcement learning algorithm that masters chess, shogi, and go through self-play". Science. 362 (6419): 1140–1144. Bibcode:2018Sci...362.1140S. doi:10.1126/science.aar6404. PMID 30523106free {{cite journal}}: (עזרה)תחזוקה - ציטוט: postscript (link)
^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis (2020). "Mastering Atari, Go, chess and shogi by planning with a learned model". Nature. 588 (7839): 604–609. arXiv:1911.08265. Bibcode:2020Natur.588..604S. doi:10.1038/s41586-020-03051-4. PMID 33361790.

[telegraph-1] Sarah Knapton; Leon Watson, ‏Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours, The Telegraph, 6 December 2017

[2] Vincent, James (6 בדצמבר 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. נבדק ב-6 בדצמבר 2017. {{cite news}}: (עזרה)

[Science20181207-3] Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan (7 בדצמבר 2018). "A general reinforcement learning algorithm that masters chess, shogi, and go through self-play". Science. 362 (6419): 1140–1144. Bibcode:2018Sci...362.1140S. doi:10.1126/science.aar6404. PMID 30523106free {{cite journal}}: (עזרה)תחזוקה - ציטוט: postscript (link)

[4] Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis (2020). "Mastering Atari, Go, chess and shogi by planning with a learned model". Nature. 588 (7839): 604–609. arXiv:1911.08265. Bibcode:2020Natur.588..604S. doi:10.1038/s41586-020-03051-4. PMID 33361790.

[1]

[2]

[3]

[4]

AlphaZero

From Wikipedia, the free encyclopedia · View on Wikipedia