Spread the love en help Indignatie
ChessBench Een paar dagen geleden heeft een team van Google DeepMind-onderzoekers het artikel met de titel Amortized Planning with Large-Scale Transformers: A Case Study on Chess bijgewerkt , dat relatief onopgemerkt was gebleven. Het presenteert een systeem voor kunstmatige intelligentie (AI), genaamd ChessBench , gebaseerd op grootschalige Transformers (neurale netwerken) , dat schaak speelt.
Geen geheugen
Tot nu toe waren alle schaakprogramma’s gebaseerd op complexe processen van het zoeken naar de beste zet in de boom die volgende zetten en tegenzetten combineert, vaak met zoekdiepten van meer dan 20 toekomstige zetten. Dit, samen met de toepassing van functies waarmee ze het voor- of nadeel van elke mogelijke beslissing konden beoordelen, stelde hen in staat de beste zet te vinden.
Hoewel geheugen het fundamentele ding voor alle AI’s tot nu toe was, markeert ChessBench het begin van een nieuw tijdperk, met machines die zijn getraind in het plannen van taken waarbij geheugen nutteloos is.
Leela Chess Zero en Stockfish zijn tegenwoordig de beste schaakengines, exponenten van uitmuntendheid in het spel die met de eerste benadering worden bereikt.
Beiden maken op verschillende manieren gebruik van neuraal netwerkgebaseerd leren: Leela Chess Zero maakt gebruik van versterkend leren door middel van zelfspel, en Stockfish integreert een neuraal netwerk om positie-evaluatie en besluitvorming te verbeteren.
Maar ChessBench van Google DeepMind is zojuist begonnen met een nieuw model dat alle grenzen kan verleggen. Zoals we hierboven opmerkten, is het een AI-systeem gebaseerd op Transformers (zoals BERT en GPT) waarvan de meest geavanceerde versie tot 270 miljoen parameters heeft.
Opleiding
Voor training en leren zijn 10 miljoen schaakspellen uit Lichess gebruikt , een open source platform voor online schaken waarmee duizenden menselijke gebruikers over de hele wereld dagelijks verbinding maken. Uit deze spellen worden meer dan 15 miljard bankbiljetten gegenereerd, waarbij elke positie en de beste actie (beweging) worden geëvalueerd. Deze evaluatie wordt uitgevoerd door Stockfish 16 , wiens zoekmachine de best mogelijke zet in een specifieke positie bepaalt.
Wat ChessBench bijzonder maakt
Door training heeft het systeem geleerd actiewaarden voor nieuwe posities vrij nauwkeurig te voorspellen. Het gaat uit van een niet-triviale generalisatie: het doet dit zonder expliciet te zoeken naar volgende zetten en tegenzetten.
Wat het resultaat ongelooflijk maakt, is het hebben van een AI-systeem dat in staat is om op dat kwaliteitsniveau te schaken.
ChessBench speelt zonder zoekproces naar de beste zet, alleen door de volgende te voorspellen. Het is de droom van elke schaker: naar een stelling kijken en aan de hand van de opstelling van de stukken de beste volgende zet herkennen.
Dit roept de terugkerende vraag op in het debat over grootschalige Transformers en grote taalmodellen of LLM’s, zoals die achter ChatGPT: zijn ze gewoon geweldige memorizers of kunnen ze redeneren?
Schaken als proeftuin
Schaken vereist een combinatie van strategie, tactiek en vooruitziendheid. Dit zijn sleutelelementen in de plannings-, redeneer- en besluitvormingsprocessen.
Het door ChessBench gebruikte model heeft 270 miljoen parameters (2,7×10¹¹), terwijl het aantal mogelijke schaakzetten enorm groter is, ongeveer 10¹²⁰. In dit spel is onthouden op grote schaal nutteloos. Er is een enorme verscheidenheid aan mogelijke spelvormen, naast de complexiteit van de betrokken strategieën.
Met schaken kunt u nauwkeurig evalueren in hoeverre AI-modellen kunnen generaliseren en zich kunnen aanpassen aan nieuwe situaties.
ChessBench heeft diepe en complexe patronen binnen het schaakspel leren herkennen. Met deze mogelijkheid kunt u uw succes zelfs in onvoorziene situaties tijdens uw training repliceren.
Het feit dat u winnende strategieën kunt identificeren en toepassen op voorheen ongeziene posities, getuigt van een niveau van redeneren. Dit gaat verder dan eenvoudig memoriseren; kan niet eenvoudigweg worden toegeschreven aan de codering van de volgende beste zet in zijn parameterruimte.
ChessBench breekt records
In tegenstelling tot andere disciplines kent schaken een objectieve methode om de kracht van een speler in te schatten: het ELO-scoresysteem. In de Blitz -modus (snel schaken, met partijen die tussen de 3 en 5 minuten per speler duren gedurende het hele spel), overschrijden slechts 15 mensen ter wereld de 2.895 ELO-punten behaald door ChessBench op het Lichess-platform. In de Blitz top 200 -lijst is te zien dat de top 100 de ELO-limiet op 2.784 plaatst.
De ELO behaald door ChessBench vertegenwoordigt het niveau van een Grootmeester. Los uitdagende schaakposities op. Bovendien bereikt hij deze geweldige ELO door tegen mensen in Lichess te spelen.
Overwin Alphazero
ChessBench concurreert nog lang niet met de AI AlphaZero , wiens niveau boven de beste menselijke speler ter wereld ligt. Het voert diepgaande analyses uit in combinatie met versterkend leren, waardoor je kunt leren door tegen jezelf te spelen.
Momenteel is ChessBench een opmerkelijk goede benadering van het op zoekopdrachten gebaseerde algoritme van Stockfish. Perfecte destillatie op basis van alleen positieobservatie ligt nog ver buiten het bereik van een AI-systeem dat gebruik maakt van positieanalyse, zonder zoekprocessen.
Generalisatie in het leren
Dit maakt ChessBench een geschikt startpunt voor toekomstig onderzoek. Het zal bijvoorbeeld interessant zijn om te weten welke prestaties het zou opleveren als je de Fischer-modaliteit speelt, dat wil zeggen met de grootste stukken willekeurig op de eerste rij geplaatst. Het brengt een situatie met zich mee van veranderende posities aan het begin van het spel, wat een groot vermogen tot generalisatie vereist, evenals het leren van de causaliteit van elk stuk en de legale beweging ervan.
Er is onlangs een eerste studie uitgevoerd waarbij ridders werden uitgewisseld voor lopers in de beginpositie met behulp van GPT4 , en dit toont de beperkingen in deze nieuwe situaties voor LLM aan. De studie concludeert dat er nog veel te doen is in deze zogenaamde contrafeitelijke scenario’s .
De processen van verbeelding
Judea Pearl , een Turing Award-winnende AI-onderzoeker, associeert contrafeitelijke scenario’s, situaties die niet hebben plaatsgevonden in het universum die momenteel waarneembaar zijn door menselijk onderzoek, met het menselijke verbeeldingsproces . Het zijn de ingebeelde werelden die er hadden kunnen zijn.
Grootschalige Transformers zijn niet alleen taalgericht: er zijn steeds meer toepassingen op verschillende terreinen. LLM’s worden al geïntegreerd met intelligente robotica en spelen een belangrijke rol.
Hoe dan ook zal de LLM-architectuur onvoldoende zijn om tot algemene AI te komen die het menselijke cognitieve niveau bereikt. Maar het standpunt van degenen die zeggen dat ze alleen maar uit het hoofd leren en hen pejoratief ‘stochastische papegaaien’ noemen, lijkt ook niet waar te zijn. Dit is overdreven kritiek.
Het creatieve proces is niet langer uniek voor de mens . Plannen, continu leren, samen met de sensorische verwerkingsmogelijkheden van robotica, wiskundig redeneren en taalverwerking, naast andere grootschalige Transformers-vaardigheden, zullen van invloed zijn op alles wat bekend is als mens.
Het zal interessant zijn om te weten en te begrijpen in welke mate ChessBench zich kan voorstellen.