Spread the love en help Indignatie
Het Chinese AI-bedrijf DeepSeek heeft de wereld verrast met de open-source release van zijn nieuwste model, DeepSeek-R1. Dit krachtige AI-model is ontworpen voor complexe redeneertaken en heeft prestaties laten zien die vergelijkbaar zijn met het gerenommeerde o1-model van OpenAI. Op benchmarks zoals LiveCodeBench scoort DeepSeek-R1 indrukwekkend, terwijl de kosten voor het uitvoeren van dit model slechts een fractie bedragen van die van zijn concurrenten.
Wat is DeepSeek?
DeepSeek, opgericht in 2023 en gevestigd in Hangzhou, is een dochteronderneming van het Chinese hedgefonds High-Flyer. Het bedrijf heeft zich gespecialiseerd in het ontwikkelen van grote taalmodellen (LLM’s) en heeft in korte tijd aanzienlijke vooruitgang geboekt. Een van hun eerdere modellen, DeepSeek-V3, bewees al concurrerend te zijn met de beste modellen van 2024, waaronder die van Qwen (Alibaba) en OpenAI.
Met DeepSeek-R1 zet het bedrijf een volgende stap door het model onder een MIT-licentie open-source beschikbaar te stellen. Dit betekent dat ontwikkelaars wereldwijd het model gratis kunnen downloaden, aanpassen en inzetten. Hiermee positioneert DeepSeek zich als een voorloper op het gebied van toegankelijkheid en samenwerking binnen de AI-industrie.
Strategische zet in een geopolitieke context
De beslissing om DeepSeek-R1 open-source te maken, is meer dan een technische aankondiging; het is een strategische zet in de wereldwijde AI-wedloop. Terwijl de Verenigde Staten en andere westerse landen beperkingen opleggen aan de export van geavanceerde technologieën, waaronder halfgeleiders, bewijst China dat het ondanks deze beperkingen vooruitgang kan boeken. Chinese bedrijven zoals DeepSeek tonen niet alleen technologische veerkracht, maar positioneren zich ook als transparante en innovatieve spelers.
De keuze om een model van dit kaliber vrij te geven, zet druk op Amerikaanse bedrijven zoals OpenAI, Anthropic en Google DeepMind. Deze bedrijven opereren voornamelijk met gesloten systemen, wat leidt tot toenemende kritiek over een gebrek aan transparantie. DeepSeek’s open-source release dwingt deze spelers mogelijk om hun eigen strategieën te herzien.
Wat maakt DeepSeek-R1 bijzonder?
Een van de grootste voordelen van DeepSeek-R1 is de efficiëntie. Hoewel het model prestaties levert die vergelijkbaar zijn met OpenAI’s o1, zijn de kosten aanzienlijk lager. Volgens rapporten kost het gebruik van DeepSeek-R1 ongeveer 10% van wat het draaien van vergelijkbare modellen vereist. Daarnaast kan het model lokaal worden uitgevoerd op relatief betaalbare hardware, wat een belangrijke stap is in het democratiseren van AI-technologie.
Het model is bovendien flexibel en geschikt voor een breed scala aan toepassingen, waaronder programmeerondersteuning, wiskundige probleemoplossing en geavanceerde natuurlijke taalverwerking. De open-source aard van het model maakt het mogelijk voor ontwikkelaars om nieuwe toepassingen te verkennen en het model verder te optimaliseren.
Geopolitieke implicaties en de toekomst van AI
De vrijgave van DeepSeek-R1 illustreert hoe AI steeds meer verweven raakt met geopolitieke strategieën. Voor China is dit niet alleen een technische triomf, maar ook een politieke boodschap: het land presenteert zichzelf als een leider in AI-transparantie en samenwerking, terwijl het tegelijkertijd westerse beperkingen op technologieoverdracht uitdaagt.
Experts vergelijken de race om AI-innovatie met het Manhattanproject, waarbij de ontwikkeling van kunstmatige algemene intelligentie (AGI) wordt gezien als een strategisch doel dat de machtsbalans in de wereld fundamenteel kan veranderen. Zowel China als de Verenigde Staten zijn vastberaden om de leiding te nemen, met nationale veiligheid en economische groei als belangrijkste drijfveren.
Een nieuwe standaard voor AI-toegankelijkheid
Met DeepSeek-R1 zet China een belangrijke stap in het toegankelijk maken van geavanceerde AI-technologie. Ontwikkelaars wereldwijd worden in staat gesteld om te experimenteren met een krachtig en betaalbaar model, wat innovatie in diverse sectoren kan versnellen. Tegelijkertijd zet deze stap de toon voor toekomstige discussies over de ethiek, transparantie en regulering van AI op mondiaal niveau.
De wereldwijde AI-wedloop is met de lancering van DeepSeek-R1 in een nieuwe fase beland. Wat de langetermijneffecten van deze open-source release zullen zijn, is nog onzeker, maar één ding is duidelijk: de concurrentie om technologische dominantie wordt alleen maar heviger.
China’s goedkope, open AI-model DeepSeek maakt wetenschappers enthousiast
DeepSeek-R1 voert redeneertaken uit op hetzelfde niveau als OpenAI’s o1 en staat open voor onderzoek door onderzoekers.
Wetenschappers zijn enthousiast over een door China ontwikkeld groot taalmodel met de naam DeepSeek-R1. Het is een betaalbare en open concurrent voor ‘redeneermodellen’ zoals OpenAI’s o1.
Deze modellen genereren stapsgewijs reacties, in een proces dat analoog is aan menselijk redeneren. Dit maakt ze bekwamer dan eerdere taalmodellen bij het oplossen van wetenschappelijke problemen en zou ze bruikbaar kunnen maken in onderzoek . Eerste tests van R1, uitgebracht op 20 januari, laten zien dat de prestaties ervan op bepaalde taken in scheikunde, wiskunde en codering vergelijkbaar zijn met die van o1 — dat onderzoekers versteld deed staan toen het in september door OpenAI werd uitgebracht .
Ook wij hebben jou steun nodig in 2025, gun ons een extra bakkie koffie groot of klein.
Dank je en proost?
Wij van Indignatie AI zijn je eeuwig dankbaar
“Dit is wild en totaal onverwacht”, schreef Elvis Saravia, AI-onderzoeker en medeoprichter van het in het Verenigd Koninkrijk gevestigde AI-adviesbureau DAIR.AI, op X.
R1 valt om nog een andere reden op. DeepSeek, de start-up in Hangzhou die het model bouwde, heeft het vrijgegeven als ‘open-weight’, wat betekent dat onderzoekers het algoritme kunnen bestuderen en erop kunnen voortbouwen. Het model is gepubliceerd onder een MIT-licentie en kan vrij worden hergebruikt, maar wordt niet als volledig open source beschouwd, omdat de trainingsgegevens niet beschikbaar zijn gesteld.
“De openheid van DeepSeek is opmerkelijk”, zegt Mario Krenn, leider van het Artificial Scientist Lab bij het Max Planck Institute for the Science of Light in Erlangen, Duitsland. Ter vergelijking: o1 en andere modellen die door OpenAI in San Francisco, Californië, zijn gebouwd, inclusief de nieuwste poging o3 , zijn “in wezen zwarte dozen”, zegt hij.
DeepSeek heeft de volledige kosten van het trainen van R1 niet bekendgemaakt, maar rekent mensen die de interface gebruiken ongeveer een dertigste van wat o1 kost om te draaien. Het bedrijf heeft ook mini ‘gedistilleerde’ versies van R1 gemaakt om onderzoekers met beperkte rekenkracht met het model te laten spelen. Een “experiment dat meer dan £300 kostte met o1, kostte minder dan $10 met R1,” zegt Krenn. “Dit is een dramatisch verschil dat zeker een rol zal spelen bij de toekomstige adoptie ervan.”
Uitdagingsmodellen
R1 is onderdeel van een hausse in Chinese large language models (LLM’s) . DeepSeek, voortgekomen uit een hedgefonds, kwam vorige maand uit de relatieve anonimiteit toen het een chatbot genaamd V3 uitbracht, die het beter deed dan grote rivalen, ondanks dat het gebouwd was met een beperkt budget. Deskundigen schatten dat het ongeveer $ 6 miljoen kostte om de hardware te huren die nodig was om het model te trainen, vergeleken met meer dan $ 60 miljoen voor Meta’s Llama 3.1 405B, die 11 keer zoveel computerbronnen gebruikte.
Een deel van de buzz rond DeepSeek is dat het erin is geslaagd om R1 te maken ondanks Amerikaanse exportcontroles die de toegang van Chinese bedrijven tot de beste computerchips voor AI-verwerking beperken. “Het feit dat het uit China komt, laat zien dat efficiënt omgaan met je middelen belangrijker is dan alleen de schaal van de computer”, zegt François Chollet, een AI-onderzoeker in Seattle, Washington.
De vooruitgang van DeepSeek suggereert dat “de waargenomen voorsprong die de VS ooit had, aanzienlijk is afgenomen”, schreef Alvin Wang Graylin, een technologie-expert in Bellevue, Washington, die werkt bij het in Taiwan gevestigde bedrijf voor immersieve technologie HTC, over X. “De twee landen moeten een gezamenlijke aanpak nastreven om geavanceerde AI te bouwen in plaats van door te gaan met de huidige no-win-wapenwedloop.”
Gedachtenketen
LLM’s trainen op miljarden tekstvoorbeelden, knippen ze in woorddelen die ’tokens’ worden genoemd en leren patronen in de data. Deze associaties stellen het model in staat om volgende tokens in een zin te voorspellen. Maar LLM’s zijn geneigd om feiten te verzinnen, een fenomeen dat ‘hallucinatie’ wordt genoemd , en hebben vaak moeite om problemen te doorgronden.
Net als o1 gebruikt R1 een ‘chain of thought’-methode om het vermogen van een LLM om complexere taken op te lossen te verbeteren, inclusief soms het teruggaan en evalueren van de aanpak. DeepSeek maakte R1 door V3 te ‘finetunen’ met behulp van reinforcement learning, dat het model beloonde voor het bereiken van een correct antwoord en voor het doorwerken van problemen op een manier die zijn ‘denken’ schetste.
De beperkte rekenkracht van het bedrijf dreef het bedrijf ertoe om “algoritmisch te innoveren”, zegt Wenda Li, een AI-onderzoeker aan de Universiteit van Edinburgh, VK. Tijdens reinforcement learning schatte het team de voortgang van het model in elke fase, in plaats van het te evalueren met behulp van een apart netwerk. Dit hielp om de trainings- en bedrijfskosten te verlagen, zegt Mateja Jamnik, een computerwetenschapper aan de Universiteit van Cambridge, VK. De onderzoekers gebruikten ook een ‘mixture-of-experts’-architectuur, waardoor het model alleen de delen van zichzelf kan activeren die relevant zijn voor elke taak.
In benchmarktests, gerapporteerd in een technisch document bij het model, scoorde DeepSeek-R1 97,3% op de MATH-500 set van wiskundige problemen die door onderzoekers van de University of California, Berkeley, zijn gemaakt, en overtrof 96,3% van de menselijke deelnemers in de Codeforces-competitie. Deze zijn vergelijkbaar met de vaardigheden van o1; o3 werd niet opgenomen in de vergelijkingen (zie ‘AI-rivalen’).
Het is moeilijk te zeggen of benchmarks het werkelijke vermogen van een model om te redeneren of generaliseren vastleggen, of alleen om dergelijke tests te doorstaan. Maar omdat R1 open is, is de gedachtegang ervan toegankelijk voor onderzoekers, zegt Marco Dos Santos, computerwetenschapper aan de Universiteit van Cambridge. “Dit zorgt voor een betere interpreteerbaarheid van de redeneerprocessen van het model”, zegt hij.
Wetenschappers testen de mogelijkheden van R1 al. Krenn daagde beide rivaliserende modellen uit om 3000 onderzoeksideeën te sorteren op hoe interessant ze zijn en vergeleek de resultaten met door mensen gemaakte rangschikkingen. Op dit punt presteerde R1 iets slechter dan o1. Maar R1 versloeg o1 op bepaalde berekeningen in kwantumoptica, zegt Krenn. “Dit is behoorlijk indrukwekkend.”