Test af den "smarteste i verden" grok3

AIPU Waton Group (1)

Indledning

Tror du, at Grok3 vil være "slutpunktet" af foruddannede modeller?

Elon Musk og XAI -teamet lancerede officielt den nyeste version af Grok, Grok3, under en livestream. Før denne begivenhed hævede en betydelig mængde relateret information kombineret med Musks 24/7 salgsfremmende hype globale forventninger til GROK3 til hidtil uset niveau. For bare en uge siden sagde Musk med tillid under en livestream, mens han kommenterer Deepseek R1, "Xai er ved at lancere en bedre AI -model." Fra de præsenterede data har Grok3 angiveligt overgået alle aktuelle mainstream -modeller i benchmarks til matematik, videnskab og programmering, med Musk endda hævder, at GROK3 vil blive brugt til beregningsopgaver, der er relateret til SpaceX's Mars -missioner, der forudsiger "gennembrud på NOBEL -prisniveauet inden for tre år." Imidlertid er disse i øjeblikket bare Musks påstande. Efter lanceringen testede jeg den seneste beta -version af GROK3 og stillede det klassiske trick -spørgsmål til store modeller: "Hvilket er større, 9.11 eller 9.9?" Desværre kunne de såkaldte Smartest Grok3 stadig ikke besvare dette spørgsmål uden nogen kvalifikationer eller markeringer. GROK3 kunne ikke identificere betydningen af ​​spørgsmålet nøjagtigt.

 

Denne test trak hurtigt betydelig opmærksomhed fra mange venner, og tilfældigtvis har forskellige lignende test i udlandet vist, at Grok3 kæmper med grundlæggende fysik/matematikspørgsmål som "Hvilken bold falder først fra det skæve tårn i Pisa?" Det er således blevet humoristisk mærket som "et geni, der ikke er villig til at besvare enkle spørgsmål."

640

GROK3 er god, men det er ikke bedre end R1 eller O1-Pro.

GROK3 oplevede "fiaskoer" på mange almindelige videnforsøg i praksis. Under XAI -lanceringsbegivenheden demonstrerede Musk ved hjælp af GROK3 til at analysere karakterklasserne og effekterne fra spillestien i Exile 2, som han hævdede at spille ofte, men de fleste af de svar, der blev leveret af GROK3, var forkerte. Musk under livestream bemærkede ikke dette åbenlyse problem.

 

Denne fejltagelse leverede ikke kun yderligere beviser for, at oversøiske netizens til at håne Musk for at "finde en erstatning" i spil, men rejste også betydelige bekymringer med hensyn til GROK3s pålidelighed i praktiske anvendelser. For et sådant "geni", uanset dens faktiske evner, forbliver dens pålidelighed i ekstremt komplekse applikationsscenarier, såsom Mars efterforskningsopgaver, i tvivl.

 

I øjeblikket peger mange testere, der modtog adgang til GROK3 uger siden, og dem, der netop testede modelfunktionerne i et par timer i går, alle på en fælles konklusion: "GROK3 er god, men det er ikke bedre end R1 eller O1-Pro."

640 (1)

Et kritisk perspektiv på "forstyrrelse af Nvidia"

I den officielt præsenterede PPT under frigivelsen blev GROK3 vist at være "langt foran" i Chatbot Arena, men denne smart anvendte grafiske teknikker: Den lodrette akse på leaderboardet anførte kun resultater i området 1400-1300, hvilket gør den originale forskel på 1% i testresultater synes usædvanligt signifikant i denne præsentation.

640

I faktiske model scoringsresultater er GROK3 kun 1-2% foran Deepseek R1 og GPT-4.0, hvilket svarer til mange brugers oplevelser i praktiske tests, der fandt "ingen mærkbar forskel." GROK3 overstiger kun sine efterfølgere med 1%-2%.

640

Selvom GROK3 har scoret højere end alle i øjeblikket offentligt testede modeller, tager mange ikke dette alvorligt: ​​når alt kommer til alt er XAI tidligere blevet kritiseret for "score manipulation" i GROK2 -æraen. Da leaderboardet straffede svarlængdestil, faldt scoringerne meget, hvilket førte industriens insidere til ofte at kritisere fænomenet "høj scoring, men lav evne."

 

Uanset om det er gennem leaderboard "manipulation" eller designtricks i illustrationer, afslører de Xai og Musks besættelse af forestillingen om "at føre pakken" i modelfunktioner. Musk betalte en stejl pris for disse marginer: Under lanceringen pralede han af at bruge 200.000 H100 GPU'er (hævder "over 100.000" i løbet af livestream) og opnåede en samlet træningstid på 200 millioner timer. Dette fik nogle til at tro, at det repræsenterer en anden betydelig velsignelse for GPU -industrien og at overveje Deepseeks indflydelse på sektoren som "tåbelig." Navnlig mener nogle, at ren computerkraft vil være fremtiden for modeluddannelse.

 

Nogle netizens sammenlignede imidlertid forbruget af 2000 H800 GPU'er over to måneder for at producere Deepseek V3, hvilket beregner, at GROK3s faktiske træningseffektforbrug er 263 gange V3. Kløften mellem Deepseek V3, der scorede 1402 point, og GROK3 er knap 100 point. Efter frigivelsen af ​​disse data indså mange hurtigt, at bag Grok3's titel som den "verdens stærkeste" ligger en klar marginal værktøjseffekt - logikken for større modeller, der genererer stærkere præstation, er begyndt at vise mindskende afkast.

640 (2)

Selv med "høj scoring, men lav evne", havde GROK2 enorme mængder af førstepartsdata af høj kvalitet fra X (Twitter) platformen til at understøtte brugen. I uddannelsen af ​​GROK3 stødte Xai imidlertid naturligt på det "loft", som Openai i øjeblikket står overfor - manglen på premium -træningsdata udsætter hurtigt den marginale nytte af modellens kapaciteter.

 

Udviklerne af GROK3 og Musk er sandsynligvis de første til at forstå og identificere disse kendsgerninger dybt, og det er grunden til, at Musk konstant har nævnt på sociale medier, at de version, som brugerne oplever nu, er "stadig bare beta", og at "den fulde version vil blive frigivet i de kommende måneder." Musk har påtaget sig rollen som Grok3s produktchef, hvilket antyder, at brugerne giver feedback om forskellige spørgsmål, der er stødt på i kommentarfeltet.

 

Inden for en dag hævede GROK3s præstation utvivlsomt alarmerede alarmer for dem, der håber på at stole på "massiv computermuskel" til at træne stærkere store modeller: baseret på offentligt tilgængelige Microsoft-oplysninger har Openai's GPT-4 en parameterstørrelse på 1,8 billioner parametre over ti gange den af ​​GPT-3. Rygter antyder, at parameterstørrelsen på GPT-4.5 kan være endnu større.

 

Når modelparameterstørrelserne stiger, skyder træningsomkostningerne også. Med GROK3s tilstedeværelse skal udfordrere som GPT-4.5 og andre, der ønsker at fortsætte med at "brænde penge" for at opnå bedre modelydelse gennem parameterstørrelse, overveje det loft, der nu er tydeligt i syne og overveje, hvordan man kan overvinde det. I dette øjeblik havde Ilya Sutskever, tidligere chefforsker ved Openai, tidligere udtalt i december sidste år, "den foruddannelse, vi er bekendt med, vil afslutte," som har dukket op i diskussioner, hvilket fik bestræbelserne på at finde den sande vej til at træne store modeller.

640 (3)

Ilyas synspunkt har lydet alarmen i branchen. Han forudså nøjagtigt den forestående udmattelse af tilgængelige nye data, hvilket fører til en situation, hvor ydelsen ikke kan fortsat forbedres gennem dataindsamling, hvilket sammenligner dem med udmattelse af fossile brændstoffer. Han oplyste, at "ligesom olie, menneskeligt genereret indhold på Internettet er en begrænset ressource." I Sutskevers forudsigelser vil den næste generation af modeller, post-pre-training, besidde "ægte autonomi" og ræsonnementsevne "svarende til den menneskelige hjerne."

 

I modsætning til nutidens foruddannede modeller, der primært er afhængige af indholdsmatchning (baseret på det tidligere lærte modelindhold), vil fremtidige AI-systemer være i stand til at lære og etablere metoder til at løse problemer på en måde, der ligner "tænkning" af den menneskelige hjerne. Et menneske kan opnå grundlæggende færdigheder i et emne med bare grundlæggende professionel litteratur, mens en AI-stor model kræver millioner af datapunkter for at opnå kun den mest basale entry-leveleffektivitet. Selv når ordlyden ændres lidt, forstås disse grundlæggende spørgsmål muligvis ikke korrekt, hvilket illustrerer, at modellen ikke virkelig er forbedret i intelligens: de grundlæggende, men alligevel uopløselige spørgsmål, der er nævnt i begyndelsen af ​​artiklen, repræsenterer et klart eksempel på dette fænomen.

微信图片 _20240614024031.jpg1

Konklusion

Men ud over brute force, hvis GROK3 faktisk lykkes med at afsløre for branchen, at "foruddannede modeller nærmer sig deres ende," ville det have betydelige konsekvenser for området.

Måske efter at den vanvid, der omgiver Grok3 gradvist aftager, vil vi være vidne til flere sager som Fei-Fei Li's eksempel på "tuning af højtydende modeller på et specifikt datasæt for kun $ 50," opdager i sidste ende den sande vej til AGI.

Find ELV -kabelløsning

Kontrolkabler

Til BMS, bus, industrielt, instrumenteringskabel.

Struktureret kablingssystem

Netværk og data, fiberoptisk kabel, patch-ledning, moduler, frontplade

2024 Exhibitions & Events Review

16. april.

16. april.-18., 2024 Securika i Moskva

9. maj 2024 Nye produkter og teknologier lanceringsbegivenhed i Shanghai

22. oktober 2024 Sikkerhed Kina i Beijing

Nov.19-20, 2024 Connected World KSA


Posttid: Feb-19-2025