AI బెంచ్మార్క్లపై చర్చలు – మరియు అవి AI ప్రయోగశాలలచే ఎలా నివేదించబడ్డాయి – ప్రజల దృష్టిలో మునిగిపోతున్నాయి.
ఈ వారం, ఓపెనాయ్ ఉద్యోగి నిందితులు ఎలోన్ మస్క్ యొక్క AI కంపెనీ, XAI, దాని తాజా AI మోడల్ గ్రోక్ 3 కోసం తప్పుదోవ పట్టించే బెంచ్ మార్క్ ఫలితాలను ప్రచురించారు. పట్టుబట్టారు సంస్థ కుడి వైపున ఉందని.
నిజం మధ్యలో ఎక్కడో ఉంది.
A XAI యొక్క బ్లాగులో పోస్ట్ చేయండిఇటీవలి ఆహ్వాన గణిత పరీక్ష నుండి సవాలు చేసే గణిత ప్రశ్నల సేకరణ అయిన AIME 2025 లో గ్రోక్ 3 యొక్క పనితీరును చూపించే గ్రాఫ్ను కంపెనీ ప్రచురించింది. కొంతమంది నిపుణులు ఉన్నారు AI బెంచ్మార్క్గా ఐమ్ యొక్క ప్రామాణికతను ప్రశ్నించారు. ఏదేమైనా, AIME 2025 మరియు పరీక్ష యొక్క పాత సంస్కరణలు సాధారణంగా మోడల్ యొక్క గణిత సామర్థ్యాన్ని పరిశీలించడానికి ఉపయోగిస్తారు.
XAI యొక్క గ్రాఫ్ గ్రోక్ 3, గ్రోక్ 3 రీజనింగ్ బీటా మరియు గ్రోక్ 3 మినీ రీజనింగ్ యొక్క రెండు వేరియంట్లను చూపించింది, ఓపెనాయ్ యొక్క ఉత్తమంగా పనిచేసే అందుబాటులో ఉన్న మోడల్ను ఓడించింది, O3-MINI-హై.
కాన్స్@64 అంటే ఏమిటి, మీరు అడగవచ్చు? సరే, ఇది “ఏకాభిప్రాయం@64” కోసం చిన్నది, మరియు ఇది ప్రాథమికంగా 64 మోడల్ను ఇస్తుంది, ప్రతి సమస్యను బెంచ్మార్క్లోని ప్రతి సమస్యకు సమాధానం ఇవ్వడానికి ప్రయత్నిస్తుంది మరియు తుది సమాధానాలు వలె చాలా తరచుగా ఉత్పత్తి చేసే సమాధానాలను తీసుకుంటుంది. మీరు can హించినట్లుగా, కాన్స్@64 మోడళ్ల బెంచ్మార్క్ స్కోర్లను కొంచెం పెంచుతుంది, మరియు దానిని గ్రాఫ్ నుండి వదిలివేయడం వలన ఒక మోడల్ వాస్తవానికి మరొకటి అధిగమించినట్లు కనిపిస్తుంది, వాస్తవానికి, అది అలా కాదు.
గ్రోక్ 3 రీజనింగ్ బీటా మరియు గ్రోక్ 3 మినీ రీజనింగ్ యొక్క స్కోర్లు ఐమ్ 2025 కోసం “@1” వద్ద-అంటే మోడల్స్ బెంచ్మార్క్లో వచ్చిన మొదటి స్కోరు-O3-MINI-HIGH యొక్క స్కోరు కంటే తక్కువ. గ్రోక్ 3 రీజనింగ్ బీటా కూడా ఓపెనై వెనుక ఎప్పటికప్పుడు బాటడు O1 మోడల్ “మీడియం” కంప్యూటింగ్కు సెట్ చేయండి. ఇంకా XAI ఉంది ప్రకటనల గ్రోక్ 3 “ప్రపంచంలోని తెలివైన AI” గా.
బాబుష్కిన్ X పై వాదించారు ఆ ఓపెనాయ్ గతంలో అదేవిధంగా తప్పుదోవ పట్టించే బెంచ్మార్క్ చార్ట్లను ప్రచురించింది – దాని స్వంత మోడళ్ల పనితీరును పోల్చిన చార్టులు అయినప్పటికీ. చర్చలో మరింత తటస్థ పార్టీ కాన్స్@64 వద్ద దాదాపు ప్రతి మోడల్ పనితీరును చూపించే మరింత “ఖచ్చితమైన” గ్రాఫ్ను కలిపింది:
కొంతమంది నా ప్లాట్ను ఓపెనైపై దాడిగా మరియు మరికొందరు గ్రోక్పై దాడిగా ఎలా చూస్తారో ఉల్లాసంగా ఉంది, వాస్తవానికి ఇది డీప్సెక్ ప్రచారం
. https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic
కానీ AI పరిశోధకుడు నాథన్ లాంబెర్ట్గా ఒక పోస్ట్లో ఎత్తి చూపారుబహుశా చాలా ముఖ్యమైన మెట్రిక్ ఒక రహస్యం: ప్రతి మోడల్ దాని ఉత్తమ స్కోర్ను సాధించడానికి గణన (మరియు ద్రవ్య) ఖర్చు. మోడళ్ల పరిమితుల గురించి మరియు వాటి బలాలు గురించి చాలా తక్కువ AI బెంచ్మార్క్లు ఎంత తక్కువ కమ్యూనికేట్ చేస్తాయో చూపించడానికి ఇది వెళుతుంది.