Pages

Deel 4: Kunstmatige Intelligentie versus Lee Sedol: Verwachtingen en voorspellingen van de Match (De historische match van deep learning AlphaGo vs Lee Sedol)


Kunstmatige Intelligentie versus Lee Sedol: Verwachtingen en Voorspellingen van de Match

Onder de sterkste go spelers ter wereld zijn er maar weinig die echt geloven dat deep learning AlphaGo Lee Sedol kan verslaan in deze Google DeepMind challenging match. In plaats daarvan willen velen onder hen zich wel meten met het programma om eens even te laten zien wie er de baas is op het go-bord. De meeste belangstellenden en go-spelers baseren zich daarbij op de eerdere partijen van AlphaGo tegen Fan Hui, de aanwijsbare fouten die die versie van AlphaGo zo nu en dan maakte, en het feit dat Fan Hui een aantal missers knutselde die sterkere prof spelers waarschijnlijk niet zouden maken. Een paar voorbeelden van wat top 9p spelers over de match hebben gezegd: 

Changho Lee (9p): “ik hoorde over de match tussen Lee Sedol en AlphaGo. Ik ben verbaasd dat een AI programma een menselijke prof kan uitdagen voor een gelijkwaardige partij zonder handicap. Ik geloof dat DeepMind Lee Sedol heeft gekozen omdat ze dachten dat AlphaGo een kans heeft om te winnen. Het zal een interessante match worden maar ik denk dat Lee Sedol deze keer zal winnen”. 

Ke Jie( 9p): “ik heb altijd gedacht dat AI nooit in staat zou zijn om een mens te verslaan, in ieder geval dat dat niet binnen 10 jaar zou gebeuren. Maar dit is ongelofelijk … ik denk dat Lee Sedol de match zal winnen”.

Dongyoon Kang (9p): “ik heb de partijen bestudeerd van de match tussen AlphaGo en Fan Hui, en AlphaGo speelt werkelijk goed. Het maakt wel grote fouten waar standaard procedures gebruikelijk zijn. Ik begrijp niet hoe computers zulke fouten kunnen maken. Ik denk dat AlphaGo uiteindelijk zal verliezen na het winnen en verliezen van enkele van de vijf partijen. Tegelijkertijd zeggen mensen dat Lee Sedol  $ 1M gratis aan prijzengeld  heeft verdiend maar daar ben ik het niet mee eens. Ik zou de uitkomst  hebben gevreesd”.

Gu Li (9p): “zonder twijfel is dit een verbazingwekkende ontwikkeling. Ik geloof dat AlphaGo een mens in de toekomst zal kunnen verslaan”. 

Shi Yue (9p): “voor ons zal het waarschijnlijk een welkome mogelijkheid zijn als het programma het niveau van top spelers bereikt en toegankelijk is voor het algemene publiek. Ik zou zeker iedere dag tegen AlphaGo willen spelen, gebruikmakend van verschillende tactieken, om zodoende meer van go te leren begrijpen”. 

Changhyuk Yoo (9p, hoofd coach of Korean Baduk Team): “als AlphaGo's huidige speelsterkte vergelijkbaar is met dat wat het heeft laten zien tijdens de match met Fan Hui, dan zal Lee Sedol AlphaGo heel gemakkelijk verslaan. Echter, we weten niet hoeveel vooruitgang AlphaGo heeft geboekt gedurende de zes maanden na de Fan Hui match. Ik verwachtte oorspronkelijk dat het nog heel lang zou duren voordat AI op gelijke hoogte zou komen met menselijke go-spel, maar ik was verbaasd om te zien dat AlphaGo de match tegen Fan Hui won”. 


De belangrijkste onbekende in alle verwachtingen en voorspellingen wereldwijd over de uitkomst van de match is de relatieve sterkte van de huidige versie van AlphaGo ten opzichte van de versie ten tijde van de Fan Hui match: heeft DeepMind AlphaGo's manier van spelen in de tussentijd structureel kunnen verbeteren om het kaliber van een 9p te benaderen? Zo niet, dan lijkt het voorspellen van de uitkomst van de match een fluitje van een cent. 

Op basis van de Fan Hui match zijn er verschillende zwaktes in het spel van AlphaGo aangedragen (zie bijv. Younggil An, 8p): een gebrek aan begrip van het concept sente, geen inzicht in het principe van aji, het onjuist beoordelen van gecompliceerde zetten met consequenties verderop in de partij, problemen met het spelen van complexe en grote ko's en een duidelijk gebrek aan 'creativiteit' door telkens weer bekende patronen te volgen: AlphaGo imiteert het spel van professionals en volgt dan veelal standaard patronen die niet optimaal kunnen blijken te zijn in specifieke posities die vragen om precieze en scherpzinnige patroon afwijkingen. 

Myungwan Kim (9p) leverde ook commentaar op AlphaGo's schijnbaar gebrek aan bewustzijn van het hele bord: "terwijl professionals creatiever zijn en hun spel zullen variëren op basis van subtiele verschillen elders op het bord, maakt AlphaGo '5e-dan fouten' terwijl het kampt met de hele-bord situatie". Wellicht komt dit door de specifieke structuur van de onderliggende modellen van het programma: de neurale netwerken waarop AlphaGo gebaseerd is, zijn typisch locaal van aard en kunnen geen tot weinig samenhangend begrip opbouwen van het hele bord. Daardoor weten we gewoonweg nog niet hoe AlphaGo het zal doen wanneer de gevechten op het bord uitgebreider en/of complexer worden, of wanneer het bord meer vloeibaar is en meerdere locale posities nog niet uitgespeeld zijn. 

Volgens AI games programmeur Rémi Coulom kan AlphaGo geen informatie verwerken over een bordafstand van meer dan 13 punten vanwege de onderliggende architectuur. Dus als er een gevecht aan de ene kant van het bord plaatsvindt  is AlphaGo zeer waarschijnlijk niet in staat om lokale posities aan de andere kant van het bord correct te interpreteren. Daardoor kan het programma zwaar in de problemen komen in posities met belangrijke, niet-lokale spanningskrachten (bijvoorbeeld tijdens meerdere gevechten die tegelijkertijd over het hele bord plaatsvinden). 


DeepMind onderzoeks wetenschapper Thora Graepel legt uit: “Hoewel we dit programma hebben ontwikkeld, hebben we geen enkel idee met wat voor zetten AlphaGo zal komen. De gegenereerde zetten zijn een zelforganiserend en opkomend verschijnsel  voortvloeiend uit de training. We hebben alleen de data sets en de training algoritmes gecreërd. Maar de zetten waarmee AlphaGo  op de proppen komt is buiten ons bereik –en veel beter dan die wij, als go spelers, kunnen bedenken. Het programma is nogal autonoom en onafhankelijk van nature”. 

Directeur van DeepMind, Demis Hassabis, voegt toe: “AlphaGo speelde miljoenen en miljoenen keren tegen verschillende versies van zichzelf en werd daardoor iedere keer een heel beetje beter door te leren van gemaakte fouten”. Ongeveer twee weken voor aanvang van de match, gaf team lid Aja Huang (6d) nog kort commentaar: “We zijn nog steeds hard bezig om ons voor te bereiden op de match, AlphaGo wordt steeds sterker en sterker”. Leren van en verbeteren door de tegen zichzelf gespeelde partijen betekent dat AlphaGo nu onvermijdelijk een stuk sterker is dan tijdens de Fan Hui match. In antwoord op de vraag of er een bovengrens is aan AlphaGo's leervermogen antwoordde Hassabis: “Als die bestaat  zijn we die nog niet tegengekomen”. De belangrijke vraag is dan ook op welke vlakken AlphaGo verder verbeterd is door het DeepMind team. Welke slimme en effectieve upgrades van AlphaGo in de laatste vijf maanden kunnen we verwachten? Daarbij kunnen we grofweg vier klassen van verbeteringen maken (zie ook: 'Let it Go', Leo Dorst, UvA) data, algoritme en software, trainen en leren, hardware en rekentijd:

Data: 

-selectie van sterkere go-prof partijen (niet alleen ≥ 6d amateur van KGS, ook prof verzamelingen). Aangetoond is dat met kleine verbeteringen in de nauwkeurigheid bij het reproduceren van prof zetten, onmiddelijk grote sprongen voorwaarts in speelsterkte bereikt kunnen worden.
-uitbreiding van AlphaGo met joseki-, vorm- en/of complexe patroon bibliotheken
-diepgaande analyse van en training op partijen specifiek van Lee Sedol, eventueel ook gericht zwakke elementen in het spel van Lee Sedol (voor zover deze bestaan)  

Algoritme en Software

-AlphaGo heeft geleerd van de fouten die het maakte tijdens de Fan Hui match
-verbetering van AlphaGo's algoritmes voor bijvoorbeeld zet selectie en bord evaluatie
-voorkomen / omzeilen van specifieke probleem situaties (bijv. complexe ko-situaties)
-verbeteren en/of uitbreiden van kenmerk filters om stellingen beter en in meer detail te kunnen representeren, deze bepalen of een (gedeelte van een) positie tijdens een partij tegen Lee Sedol voldoende nauwkeurig herkend en geclassificeerd kan worden door AlphaGo
-verbetering van de balans tussen enerzijds AlphaGo's neurale netwerken voor zetbepaling en bordevaluatie en anderzijds de precieze doorrekening middels Monte Carlo Tree Simulatie
-uitbreiding van het aantal netwerk lagen om zodoende nieuwe, meer specifieke kenmerken herkennen
-meenemen van nieuwe ideeën en concepten om de prestaties van AlphaGo's spel te  verbeteren

Trainen en Leren

-fijnafstemming en uitbreiding van AlphaGo's neurale netwerk trainings sessies
-uitbreiding van het aantal bestudeerde go-posities (> 60 miljoen) en/of gespeelde partijen van AlphaGo ( tegen zichzelf, ≥ 1.3 miljoen) om de nauwkeurigheid bij het kiezen en spelen van winnende zetten door AlphaGo te verhogen
-verbeteringen in het leren van de waarde van go-zetten, bijvoorbeeld door meer gedetailleerde en nauwkeurigere terugkoppeling van de uiteindelijke partij uitslag tijdens de trainingsessies

Hardware en Rekentijd

-uitbreiding van het aantal conventionele (>1202 CPUs) en grafische processors (> 176 GPUs) waarvan de gedistribueerde versie van AlphaGo tegelijkertijd gebruik kan maken 
-verhoging van de bedenktijd / rekentijd (deze was 1 uur  per persoon tijdens de Fan Hui match, en zal naar nu blijkt 2 uur zijn, hetgeen sterk in het voordeel van AlphaGo zal werken, met name in het eindspel)
Welke van deze verbeteringen door DeepMind zullen worden toegepast en of ze voldoende kunnen compenseren voor de zwakheden in de eerdere versie van AlphaGo?  Het valt moeilijk te zeggen wat vijf maanden 24/7 aanvullende training voor AlphaGo's spel kan betekenen. Volgens William Sanzenin (quora.com): Ik verwacht dat de Maart versie van AlphaGo aanzienlijk sterker zal zijn dan de versie van afgelopen Oktober. Het inschatten en 'lezen' van zetten zal nog beter zijn. Het beoordelen van de globale positie zal zijn verbeterd

Wanneer de door professionals aangegeven zwaktes in het spel van AlphaGo, beperkingen in de systeem structuur en/of ingeslagen weg aan het licht brengen is dat vanzelfsprekend fataal tegen Lee Sedol. Ook is het mogelijk dat het programma gewoonweg onvoldoende top-prof posities heeft bestudeerd. Het algemeen geaccepteerde idee daarbij is dat 'deep learning modellen zo goed zijn als de data die je ze voedt' (zie ook: AlphaGo onder de Loep). Dus partijen van prof spelers als leermateriaal maken AlphaGo zonder twijfel flink sterker. 

Voor wat betreft de belangrijke vraag wat de hardware zal zijn voor de gedistribueerde versie van AlphaGo tijdens de match tegen Lee Sedol, tweette Hassabis: “we zullen ruwweg dezelfde hoeveelheid rekenkracht gebruiken als bij de Fan Hui match: verdeling over nog meer computers vermindert de efficiëntie van de onderverdeelde zoek opdracht naar beste zetten”. Dat betekent dat AlphaGo 1202 CPUs en 176 GPUs zal gebruiken. Verschillende bronnen (waaronder de New Economist) verklaren echter: “de actuele versie van AlphaGo zal 1920 CPUs en 280 GPUs gebruiken welke grofweg gelijk is aan de rekenkracht tijdens de match met Fan Hui”. 

Een ander punt is of AlphaGo zich in real-time kan aanpassen aan Lee Sedol's spel of na afloop van een partij. Hassabis: “Dit gaat over onderwijzen en leren. Voor een programma is één partij is niet voldoende data om van te leren en trainen neemt een vreselijk lange tijd in beslag: het trainen van een nieuwe versie van AlphaGo duurt ongeveer 4 – 6 weken”.  


Op 8 Maart, op de vooravond van de match, gaven vrijwel alle opiniepeilingen wereldwijd hetzelfde beeld: ongeveer 75 - 85 % van alle stemmers is ervan overtuigd dat Lee Sedol de match tegen AlphaGo zal winnen. Dit is ook in lijn met de voorspellingen, voorafgaand aan de match, van een prijsvraag onder Nederlandse go spelers over de verwachte uitkomst (106 deelnemers, waaronder de sterkste amateur spelers in Europa, georganiseerd in samenwerking met schaak en go winkel 'het Paard' en een ICT bedrijf). 

Er zijn veel redenen om aan te nemen dat de huidige versie van AlphaGo op zijn minst een paar dan graden sterker is geklommen: de verwachte actuele speelsterkte van AlphaGo is >8p op basis van verwachte verbeteringen en het feit dat AlphaGo's speelsterkte al ~5p was ten tijde van de Fan Hui match.


Voorafgaand aan de match is Lee Sedol zeer zelfverzekerd over het winnen van de match tegen AlphaGo. Toen hij voor de match werd uitgenodigd reageerde hij: “dit is de eerste keer dat een computer een menselijke go-prof heeft uitgedaagd in een gelijk-op partij en ik voel me bevoorrecht om degene te zijn die tegen AlphaGo mag spelen. Ongeacht de uitkomst zal het een veelbetekenende gebeurtenis in de go-geschiedenis zijn.  Ik heb gehoord dat Google DeepMind's AI programma verbazingwekkend sterk is en sterker wordt maar ik ben er van overtuigd dat ik kan winnen, in ieder geval deze keer”. 

In een interview met Yonhap News vertelde Lee Sedol dat hij er zeker van is om AlphaGo met 5 – 0 te verslaan, of op zijn minst met 4 – 1, en dat hij er maar vijf minuten over hoefde na te denken om de uitdaging te accepteren. Ook verklaarde hij: “Natuurlijk zouden er veel updates van AlphaGo kunnen zijn verschenen in de laatste vier of vijf maanden, maar dat is onvoldoende tijd om het lastig voor mij te maken”. En een paar weken voor de match, in een interview met Sohn Suk-hee, stelde Lee Sedol dat: “zelfs als ik AlphaGo met 4 – 1 versla heeft het Google DeepMind team 't recht om de feitelijke overwinning op te eisen en eveneens om mijn nederlaag te vieren, of zelfs die van de mensheid.

1 comment:

  1. Kunstmatige Intelligentie versus Lee Sedol: Verwachtingen en Voorspellingen van de Match

    Onder de sterkste go spelers ter wereld zijn er maar weinig die echt geloofden dat deep learning AlphaGo Lee Sedol kon verslaan in deze Google DeepMind challenging match. In plaats daarvan wilden velen onder hen zich wel meten met het programma om eens even te laten zien wie er de baas is op het go-bord. De meeste belangstellenden en go-spelers baseerden zich daarbij op de eerdere partijen van AlphaGo tegen Fan Hui, de aanwijsbare fouten die die versie van AlphaGo zo nu en dan maakte, en het feit dat Fan Hui een aantal missers knutselde die sterkere prof spelers waarschijnlijk niet zouden maken.

    ReplyDelete