Тэставанне "Smart у свеце" GROK3

Група Aipu Waton (1)

Уводзіны

Як вы лічыце, GROK3 стане "канчатковай кропкай" загадзя падрыхтаваных мадэляў?

Элон Маск і каманда XAI афіцыйна запусцілі апошнюю версію GROK, GROK3, падчас пражывання. Да гэтага мерапрыемства значная колькасць адпаведнай інфармацыі ў спалучэнні з 24/7 маскім Маск выклікаў глабальныя чаканні GROK3 да беспрэцэдэнтнага ўзроўню. Літаральна тыдзень таму Маск упэўнена заявіў падчас жывой прамыкі, каментуючы DeepSeek R1, "XAI вось -вось запусціць лепшую мадэль AI". З дадзеных, прадстаўленых у прамым эфіры, Grok3, як паведамляецца, пераўзышоў усе сучасныя асноўныя мадэлі ў арыенцірах па матэматыцы, навуцы і праграмаванні, пры гэтым Маск нават сцвярджаў, што Grok3 будзе выкарыстоўвацца для вылічальных задач, звязаных з місіямі Марса Spacex, прагназуючы "прарывы ​​на ўзроўні Нобелеўскай прэміі на працягу трох гадоў". Аднак у цяперашні час гэта проста сцвярджэнні Маск. Пасля запуску я пратэставаў апошнюю бэта -версію GROK3 і паставіў класічны фокус для вялікіх мадэляў: "Што большае, 9.11 ці 9.9?" На жаль, без якіх-небудзь кваліфікацый і маркіроўкі так званыя разумныя Grok3 усё яшчэ не маглі правільна адказаць на гэтае пытанне. Grok3 не ўдалося дакладна вызначыць значэнне пытання.

 

Гэты тэст хутка прыцягнуў значную ўвагу з боку многіх сяброў, і, выпадкова, розныя падобныя тэсты за мяжой паказалі, што GROK3 змагаецца з асноўнай фізікай/матэматыкай, напрыклад, "Які мяч падае спачатку з нахіленай вежы Піза?" Такім чынам, ён быў жартаўна пазначаны як "геній, які не жадае адказваць на простыя пытанні".

640

Grok3 добры, але гэта не лепш, чым R1 або O1-Pro.

На шматлікіх тэстах агульнапрынятасці на практыцы Grok3 перажылі "няўдачы". Падчас запуску XAI, Маск прадэманстраваў, выкарыстоўваючы GROK3 для аналізу класаў персанажаў і эфектаў з гульні Game of Exile 2, які, паводле яго слоў, часта гуляе, але большасць адказаў, якія прадстаўляюцца GROK3, былі няправільнымі. Маск падчас жывой травы не заўважыў гэтага відавочнага пытання.

 

Гэтая памылка дала не толькі дадатковыя доказы заморскіх сетак, каб здзекавацца з мускуса за "пошук замены" ў гульнявых гульнях, але і выклікала значную занепакоенасць у дачыненні да надзейнасці GROK3 у практычных дадатках. Для такога "геніяльнага", незалежна ад яго рэальных магчымасцей, яго надзейнасць у надзвычай складаных сцэнарыях прымянення, такіх як задачы па вывучэнні Марса, застаецца сумневай.

 

У цяперашні час многія тэстары, якія атрымлівалі доступ да Grok3 тыдні таму, і тыя, хто толькі што выпрабаваў магчымасці мадэлі на некалькі гадзін учора, усё паказвае на агульную выснову: "Grok3 добры, але гэта не лепш, чым R1 або O1-Pro".

640 (1)

Крытычная перспектыва "парушэння NVIDIA"

У афіцыйна прадстаўленым PPT падчас выпуску было паказана, што GROK3 быў "далёка наперад" на Arena Chatbot, але гэтая спрытна выкарыстоўвала графічныя метады: вертыкальная вось на лідэрах толькі пералічаныя вынікі ў дыяпазоне балаў 1400-1300, што робіць першапачатковую розніцу 1% у выніках тэстаў у гэтай прэзентацыі.

640

У фактычных выніках падліку мадэляў, GROK3 на 1-2% наперадзе DeepSeek R1 і GPT-4.0, што адпавядае вопыту многіх карыстальнікаў у практычных тэстах, якія выявілі "не прыкметную розніцу". GROK3 перавышае толькі сваіх пераемнікаў на 1%-2%.

640

Хоць GROK3 набраў вышэй, чым усе агульнаправераныя мадэлі, многія не ставяцца да гэтага сур'ёзна: у рэшце рэшт, XAI раней падвяргаўся крытыцы за "маніпуляцыю па балах" у эпоху GROK2. Па меры таго, як лідэр пакараў стыль даўжыні адказаў, вынікі значна знізіліся, вядучыя інсайдэры галіны часта крытыкуюць з'яву "высокай ацэнкі, але нізкай здольнасці".

 

Няхай гэта будзе праз "маніпуляцыі" альбо дызайнерскія хітрыкі ў ілюстрацыях, яны выяўляюць апантанасць XAI і Маск з паняццем "вядучага пакета" ў магчымасцях мадэлі. Маск заплаціў крутую цану за гэтыя рэнтабельнасці: падчас запуску ён пахваліўся выкарыстаннем 200 000 графічных працэсараў H100 (заяўляючы, што "больш за 100 000" падчас жыцця) і дасягнуў агульнага часу трэніровак у 200 мільёнаў гадзін. Гэта прымусіла некаторых паверыць, што гэта ўяўляе сабой яшчэ адну значную дабром для галіны графічнага працэсара і разглядаць уплыў DeepSeek на сектар як "дурным". У прыватнасці, некаторыя лічаць, што вялікая вылічальная сіла стане будучыняй мадэльнага навучання.

 

Аднак некаторыя сеткі ў параўнанні з спажываннем 2000 г. Разрыў паміж DeepSeek V3, які набраў 1402 балы, а Grok3 - крыху менш за 100 балаў. Пасля выпуску гэтых дадзеных многія хутка зразумелі, што за назвай Grok3 як "наймацнейшы" у свеце "заключаецца ў відавочным маргінальным эфектам карыгіна - логіка вялікіх мадэляў, якія ствараюць больш высокую прадукцыйнасць, пачала паказаць памяншэнне прыбытковасці.

640 (2)

Нават пры "высокай ацэнцы, але нізкай здольнасці", Grok2 меў велізарную колькасць якасных дадзеных першай асобы з платформы X (Twitter) для падтрымкі выкарыстання. Аднак, у навучанні GROK3, XAI, натуральна, сутыкнуўся з "столі", з якім у цяперашні час сутыкаецца Openai - адсутнасць дадзеных пра прэміум -класную падрыхтоўку хутка выкрывае маргінальную карыснасць магчымасцей мадэлі.

 

Распрацоўшчыкі GROK3 і MUSK, верагодна, першыя зразумелі і вызначылі гэтыя факты глыбока, і таму Маск пастаянна згадваў у сацыяльных медыях, што ў бліжэйшыя месяцы карыстальнікі версіі карыстальнікі "усё яшчэ проста бэта -версія". Маск узяў на сябе ролю кіраўніка прадуктаў GROK3, мяркуючы, што карыстальнікі прадастаўляюць зваротную сувязь па розных пытаннях, якія ўзнікаюць у раздзеле каментарыяў.

 

Тым не менш, на працягу дня прадукцыйнасць GROK3, несумненна, павысіла сігналізацыю для тых, хто спадзяецца спадзявацца на "масіўныя вылічальныя мышцы", каб трэніравацца больш моцныя вялікія мадэлі: на аснове агульнадаступнай інфармацыі Microsoft, GPT-4 мае памер параметраў 1,8 трлн. Параметры, у дзесяць разоў, чым GPT-3. Чуткі дазваляюць выказаць здагадку, што памер параметраў GPT-4.5 можа быць яшчэ большым.

 

Па меры павелічэння памераў параметраў мадэлі, выдаткі на навучанне таксама імкнуцца. Пры прысутнасці GROK3, такія прэтэндэнты, як GPT-4.5, і іншыя, якія жадаюць працягнуць "спальванне грошай", каб дасягнуць лепшай прадукцыйнасці мадэлі праз памер параметраў, павінны ўлічваць столь, які зараз відавочна відаць і задумвацца, як пераадолець яго. У гэты момант Ілья Сатскевер, былы галоўны навуковец у Openai, раней у снежні мінулага года заявіў: "Папярэдняя падрыхтоўка, з якой мы знаёмыя, скончыцца", які ўзнік у дыскусіях, што выклікала намаганні знайсці сапраўдны шлях для навучання буйных мадэляў.

640 (3)

Пункт пункту гледжання Іллі прагучаў трывогу ў галіны. Ён дакладна прадбачыў хуткае знясіленне новых даступных дадзеных, што прывядзе да сітуацыі, калі прадукцыйнасць не можа працягваць павышацца за кошт збору дадзеных, параўноўваючы іх з знясіленнем выкапнёвых відаў паліва. Ён адзначыў, што "як нафта, змест, згенераваны ў Інтэрнэце ў Інтэрнэце, з'яўляецца абмежаваным рэсурсам". У прагнозах Sutskever наступнае пакаленне мадэляў, пасля трэніроўкі, будзе валодаць "сапраўднай аўтаноміяй" і магчымасцямі разваг ", падобных на чалавечы мозг".

 

У адрозненне ад сённяшніх папярэдне падрыхтаваных мадэляў, якія ў першую чаргу абапіраюцца на супастаўленне зместу (на аснове раней вывучанага зместу мадэлі), будучыя сістэмы AI змогуць вывучыць і ўсталёўваць метадалогіі для вырашэння праблем такім чынам, падобным на "мысленне" чалавечага мозгу. Чалавек можа дасягнуць фундаментальнага кваліфікацыі ў тэме з проста асноўнай прафесійнай літаратурай, у той час як вялікая мадэль AI патрабуе мільёнаў кропак дадзеных для дасягнення толькі самай асноўнай эфектыўнасці пачатковага ўзроўню. Нават калі фармулёўка нязначна мяняецца, гэтыя фундаментальныя пытанні могуць быць недастаткова зразумелыя, ілюструючы, што мадэль не палепшылася ў разведцы: асноўныя, але невырашальныя пытанні, згаданыя ў пачатку артыкула, уяўляюць сабой відавочны прыклад гэтай з'явы.

微信图片 _20240614024031.jpg1

Выснова

Аднак, за межамі грубай сілы, калі Grok3 сапраўды ўдаецца раскрыць галіну, што "папярэдне трэніраваныя мадэлі набліжаюцца да іх канца", гэта будзе мець значныя наступствы для гэтай галіны.

Магчыма, пасля таго, як вар'яцтва вакол GROK3 паступова спадае, мы будзем сведкамі больш выпадкаў, такіх як прыклад Фей-Фэй Лі, "наладжванне высокапрадукцыйных мадэляў на пэўным наборы дадзеных усяго за 50 долараў", у канчатковым выніку адкрыўшы сапраўдны шлях да AGI.

Знайдзіце раствор кабеля ELV

Кіраванне кабелямі

Для BMS, аўтобуса, прамысловага, інструментальнага кабеля.

Структураваная сістэма кабеляў

Сетка і дадзеныя, валаконна-аптычны кабель, патч-шнур, модулі, асабовая панэль

2024 Агляд выстаў і мерапрыемстваў

16 красавіка-18-га, 2024 г. сярэдняга ўсходняй энергіі ў Дубаі

16 красавіка-18-га, 2024 г. Секурыка ў Маскве

9 мая, 2024 г. Новыя прадукты і тэхналогіі запусціце мерапрыемства

22 кастрычніка-25, 2024 г. бяспека Кітай у Пекіне

19-20 лістапада, 2024 г. звязаны World KSA


Час паведамлення: люты 19-2025