Til BMS, BUS, industri og instrumentkabel.

Elon Musk og xAI-teamet lancerede officielt den seneste version af Grok, Grok3, under en livestream. Før denne begivenhed havde en betydelig mængde relateret information, kombineret med Musks døgnåbne reklamehype, øget de globale forventninger til Grok3 til hidtil usete niveauer. For bare en uge siden udtalte Musk selvsikkert under en livestream, mens han kommenterede på DeepSeek R1: "xAI er ved at lancere en bedre AI-model." Ud fra de data, der blev præsenteret live, har Grok3 angiveligt overgået alle nuværende mainstream-modeller i benchmarks for matematik, videnskab og programmering, hvor Musk endda hævdede, at Grok3 vil blive brugt til beregningsopgaver relateret til SpaceX's Mars-missioner og forudsagde "gennembrud på Nobelprisniveau inden for tre år." Dette er dog i øjeblikket blot Musks påstande. Efter lanceringen testede jeg den seneste betaversion af Grok3 og stillede det klassiske trickspørgsmål til store modeller: "Hvilken er større, 9.11 eller 9.9?" Desværre kunne den såkaldte klogeste Grok3 stadig ikke besvare dette spørgsmål korrekt uden nogen kvalifikationer eller markeringer. Grok3 formåede ikke at identificere spørgsmålets betydning præcist.
Denne test tiltrak hurtigt betydelig opmærksomhed fra mange venner, og tilfældigvis har forskellige lignende tests i udlandet vist, at Grok3 kæmper med grundlæggende fysik/matematik-spørgsmål som "Hvilken kugle falder først fra Det Skæve Tårn i Pisa?". Derfor er den humoristisk blevet stemplet som "et geni, der ikke er villig til at besvare simple spørgsmål".

Grok3 er god, men den er ikke bedre end R1 eller o1-Pro.
Grok3 oplevede "fejl" på mange almindelige videnstests i praksis. Under xAI-lanceringsbegivenheden demonstrerede Musk, hvordan han brugte Grok3 til at analysere karakterklasserne og effekterne fra spillet Path of Exile 2, som han hævdede at spille ofte, men de fleste af svarene fra Grok3 var forkerte. Musk bemærkede ikke dette åbenlyse problem under livestreamen.
Denne fejl gav ikke blot udenlandske netbrugere yderligere beviser for at håne Musk for at "finde en erstatning" inden for spil, men rejste også betydelig bekymring vedrørende Grok3's pålidelighed i praktiske anvendelser. For et sådant "geni" er det, uanset dets faktiske muligheder, fortsat tvivlsomt, om dets pålidelighed i ekstremt komplekse anvendelsesscenarier, såsom Mars-udforskningsopgaver.
I øjeblikket peger mange testere, der fik adgang til Grok3 for uger siden, og dem, der lige testede modellens funktioner i et par timer i går, alle på en fælles konklusion: "Grok3 er god, men den er ikke bedre end R1 eller o1-Pro."

Et kritisk perspektiv på "at forstyrre Nvidia"
I den officielt præsenterede PowerPoint-præsentation under udgivelsen blev Grok3 vist som "langt foran" i Chatbot-arenaen, men denne præsentation brugte smart grafiske teknikker: den lodrette akse på ranglisten viste kun resultater i scoreområdet 1400-1300, hvilket får den oprindelige forskel på 1% i testresultaterne til at fremstå exceptionelt signifikant i denne præsentation.

I faktiske modelbedømmelser er Grok3 kun 1-2% foran DeepSeek R1 og GPT-4.0, hvilket svarer til mange brugeres oplevelser i praktiske tests, der ikke fandt "nogen mærkbar forskel". Grok3 overgår kun sine efterfølgere med 1%-2%.

Selvom Grok3 har scoret højere end alle aktuelt offentligt testede modeller, tager mange ikke dette alvorligt: xAI er trods alt tidligere blevet kritiseret for "scoremanipulation" i Grok2-æraen. Da ranglisten straffede svarlængdestilen, faldt scorerne kraftigt, hvilket fik branchefolk til ofte at kritisere fænomenet "høj score, men lav evne".
Hvad enten det er gennem "manipulation" af ranglister eller designtricks i illustrationer, afslører de xAI og Musks besættelse af forestillingen om at "føre an" inden for modelkapaciteter. Musk betalte en høj pris for disse marginer: Under lanceringen pralede han af at bruge 200.000 H100 GPU'er (og hævdede "over 100.000" under livestreamen) og opnå en samlet træningstid på 200 millioner timer. Dette fik nogle til at mene, at det repræsenterer endnu en betydelig velsignelse for GPU-industrien, og til at betragte DeepSeeks indflydelse på sektoren som "tåbelig". Især mener nogle, at ren computerkraft vil være fremtiden for modeltræning.
Nogle netbrugere sammenlignede dog forbruget af 2000 H800 GPU'er over to måneder for at producere DeepSeek V3 og beregnede, at Grok3's faktiske træningsstrømforbrug er 263 gange højere end V3's. Forskellen mellem DeepSeek V3, der scorede 1402 point, og Grok3 er lige under 100 point. Efter offentliggørelsen af disse data indså mange hurtigt, at der bag Grok3's titel som "verdens stærkeste" ligger en klar marginal nytteeffekt - logikken bag større modeller, der genererer stærkere ydeevne, er begyndt at vise aftagende afkast.

Selv med "høj score, men lav evne", havde Grok2 enorme mængder af førstepartsdata af høj kvalitet fra X (Twitter) platformen til at understøtte brugen. I træningen af Grok3 stødte xAI dog naturligt på det "loft", som OpenAI i øjeblikket står over for - manglen på førsteklasses træningsdata afslører hurtigt den marginale nytteværdi af modellens muligheder.
Udviklerne af Grok3 og Musk er sandsynligvis de første til at forstå og identificere disse fakta dybt, hvilket er grunden til, at Musk gentagne gange har nævnt på sociale medier, at den version, brugerne oplever nu, "stadig kun er betaversionen", og at "den fulde version vil blive udgivet i de kommende måneder." Musk har påtaget sig rollen som Grok3s produktchef og foreslår, at brugerne giver feedback på forskellige problemer, de oplever i kommentarfeltet. Han er muligvis den mest fulgte produktchef på Jorden.
Alligevel vakte Grok3's ydeevne inden for en dag utvivlsomt alarm hos dem, der håbede at kunne stole på "massiv beregningskraft" til at træne stærkere store modeller: baseret på offentligt tilgængelige Microsoft-oplysninger har OpenAI's GPT-4 en parameterstørrelse på 1,8 billioner parametre, over ti gange så stor som GPT-3. Rygter antyder, at parameterstørrelsen på GPT-4.5 kan være endnu større.
I takt med at modelparameterstørrelserne stiger voldsomt, stiger træningsomkostningerne også voldsomt. Med Grok3's tilstedeværelse skal konkurrenter som GPT-4.5 og andre, der ønsker at fortsætte med at "brænde penge af" for at opnå bedre modelydelse gennem parameterstørrelse, overveje det loft, der nu tydeligt er i sigte, og overveje, hvordan man kan overvinde det. I dette øjeblik havde Ilya Sutskever, tidligere chefforsker hos OpenAI, tidligere udtalt i december sidste år: "Den fortræning, vi er bekendt med, vil forsvinde", hvilket er dukket op igen i diskussionerne, hvilket har ført til bestræbelser på at finde den rigtige vej til træning af store modeller.

Ilyas synspunkt har slået alarm i branchen. Han forudså præcist den forestående udtømning af tilgængelige nye data, hvilket ville føre til en situation, hvor ydeevnen ikke længere kan forbedres gennem dataindsamling, og sammenlignede det med udtømningen af fossile brændstoffer. Han angav, at "ligesom olie er menneskeskabt indhold på internettet en begrænset ressource." I Sutskevers forudsigelser vil den næste generation af modeller, efter præ-træning, besidde "ægte autonomi" og ræsonnementsevner "svarende til den menneskelige hjerne."
I modsætning til nutidens prætrænede modeller, der primært er afhængige af indholdsmatchning (baseret på det tidligere lærte modelindhold), vil fremtidige AI-systemer være i stand til at lære og etablere metoder til at løse problemer på en måde, der ligner den menneskelige hjernes "tænkning". Et menneske kan opnå grundlæggende færdigheder i et emne med blot grundlæggende faglitteratur, mens en stor AI-model kræver millioner af datapunkter for at opnå den mest basale effektivitet på begynderniveau. Selv når formuleringen ændres en smule, forstås disse grundlæggende spørgsmål muligvis ikke korrekt, hvilket illustrerer, at modellen ikke reelt er blevet bedre i intelligens: de grundlæggende, men uløselige spørgsmål, der er nævnt i begyndelsen af artiklen, repræsenterer et klart eksempel på dette fænomen.

Konklusion
Men ud over råstyrke, hvis Grok3 rent faktisk lykkes med at afsløre for branchen, at "forudtrænede modeller nærmer sig deres ende", ville det have betydelige konsekvenser for feltet.
Måske efter at vanviddet omkring Grok3 gradvist har lagt sig, vil vi opleve flere tilfælde som Fei-Fei Lis eksempel på "at justere højtydende modeller på et specifikt datasæt for kun $50", og i sidste ende opdage den sande vej til AGI.
Styrekabler
Struktureret kabelsystem
Netværk og data, fiberoptisk kabel, patchkabel, moduler, frontplade
16.-18. april 2024 Mellemøsten-Energi i Dubai
16.-18. april 2024 Securika i Moskva
9. maj 2024 LANCERING AF NYE PRODUKTER OG TEKNOLOGIER i Shanghai
22.-25. oktober 2024 SECURITY CHINA i Beijing
19.-20. november 2024 CONNECTED WORLD KSA
Opslagstidspunkt: 19. feb. 2025