Тэставанне «самага разумнага ў свеце» Grok3

AIPU WATON GROUP (1)

Уводзіны

Як вы думаеце, ці стане Grok3 "канцавой кропкай" папярэдне навучаных мадэляў?

Ілон Маск і каманда xAI афіцыйна запусцілі апошнюю версію Grok, Grok3, падчас прамой трансляцыі. Перад гэтай падзеяй значная колькасць адпаведнай інфармацыі ў спалучэнні з кругласутачнай рэкламнай шуміхай Маска падняла глабальныя чаканні ад Grok3 да беспрэцэдэнтнага ўзроўню. Усяго тыдзень таму Маск упэўнена заявіў падчас прамой трансляцыі, каментуючы DeepSeek R1: «xAI збіраецца запусціць лепшую мадэль штучнага інтэлекту». З дадзеных, прадстаўленых у прамым эфіры, Grok3, як паведамляецца, пераўзышоў усе сучасныя асноўныя мадэлі ў тэстах для матэматыкі, навукі і праграмавання, прычым Маск нават сцвярджаў, што Grok3 будзе выкарыстоўвацца для вылічальных задач, звязаных з марсіянскімі місіямі SpaceX, прагназуючы «прарывы ​​на ўзроўні Нобелеўскай прэміі на працягу трох гадоў». Аднак пакуль што гэта толькі сцвярджэнні Маска. Пасля запуску я пратэставаў апошнюю бэта-версію Grok3 і задаў класічнае пытанне з падвохам для вялікіх мадэляў: «Што большае, 9,11 ці 9,9?» На жаль, без якіх-небудзь кваліфікатараў або маркіроўкі так званы самы разумны Grok3 усё яшчэ не змог правільна адказаць на гэтае пытанне. Grok3 не змог дакладна вызначыць сэнс пытання.

 

Гэты тэст хутка прыцягнуў значную ўвагу многіх сяброў, і, як ні дзіўна, розныя падобныя тэсты за мяжой паказалі, што Grok3 мае праблемы з элементарнымі пытаннямі па фізіцы/матэматыцы, такімі як «Які шар першым упадзе з Пізанскай вежы?». Таму яго з гумарам назвалі «геніем, які не жадае адказваць на простыя пытанні».

640

Grok3 добры, але не лепшы за R1 ці o1-Pro.

На практыцы Grok3 сутыкнуўся з «праваламі» ў многіх тэстах на агульныя веды. Падчас прэзентацыі xAI Маск прадэманстраваў выкарыстанне Grok3 для аналізу класаў персанажаў і эфектаў з гульні Path of Exile 2, у якую, як ён сцвярджаў, часта гуляе, але большасць адказаў, дадзеных Grok3, былі няправільнымі. Маск падчас прамой трансляцыі не заўважыў гэтай відавочнай праблемы.

 

Гэтая памылка не толькі дала замежным карыстальнікам інтэрнэту дадатковыя падставы для таго, каб высмейваць Маска за тое, што ён «знайшоў замену» ў гульнях, але і выклікала значную заклапочанасць адносна надзейнасці Grok3 у практычным ужыванні. Для такога «генія», незалежна ад яго рэальных магчымасцей, яго надзейнасць у надзвычай складаных сцэнарыях прымянення, такіх як задачы даследавання Марса, застаецца пад сумневам.

 

У цяперашні час многія тэсціроўшчыкі, якія атрымалі доступ да Grok3 тыдні таму, і тыя, хто толькі ўчора некалькі гадзін тэставаў магчымасці мадэлі, прыходзяць да агульнай высновы: «Grok3 добры, але не лепшы за R1 ці o1-Pro».

640 (1)

Крытычны погляд на «знішчэнне Nvidia»

У афіцыйна прадстаўленай прэзентацыі падчас рэлізу было паказана, што Grok3 «значна апярэджвае» на арэне чат-ботаў, але пры гэтым былі выкарыстаны хітрыя графічныя прыёмы: вертыкальная вось у табліцы лідэраў паказвала толькі вынікі ў дыяпазоне 1400-1300 балаў, таму першапачатковая розніца ў выніках тэстаў у 1% выглядае надзвычай значнай у гэтай прэзентацыі.

640

Паводле рэальных вынікаў мадэльнай ацэнкі, Grok3 апярэджвае DeepSeek R1 і GPT-4.0 усяго на 1-2%, што адпавядае досведу многіх карыстальнікаў у практычных тэстах, якія не выявілі «прыкметнай розніцы». Grok3 пераўзыходзіць сваіх пераемнікаў толькі на 1-2%.

640

Нягледзячы на ​​тое, што Grok3 атрымаў вышэйшы бал, чым усе мадэлі, якія зараз праходзяць публічнае тэсціраванне, многія не ўспрымаюць гэта сур'ёзна: бо раней xAI крытыкавалі за «маніпуляцыі з баламі» ў эпоху Grok2. Паколькі ў табліцы лідэраў каралі за даўжыню адказу, балы значна знізіліся, што прывяло да таго, што інсайдэры галіны часта крытыкавалі з'яву «высокі бал, але нізкая здольнасць».

 

Няхай гэта будзе «маніпуляцыя» з табліцай лідэраў ці дызайнерскія хітрыкі ў ілюстрацыях, яны раскрываюць апантанасць xAI і Маска ідэяй «лідарства» ў магчымасцях мадэлявання. Маск заплаціў высокую цану за гэтыя перавагі: падчас запуску ён пахваліўся выкарыстаннем 200 000 графічных працэсараў H100 (заяўляючы «больш за 100 000» падчас прамой трансляцыі) і дасягненнем агульнага часу навучання ў 200 мільёнаў гадзін. Гэта прывяло некаторых да думкі, што гэта яшчэ адзін значны плюс для індустрыі графічных працэсараў, і прымусіла іх лічыць уплыў DeepSeek на гэты сектар «дурным». Прыкметна, што некаторыя лічаць, што будучыня навучання мадэляў будзе за выключным вылічальным патэнцыялам.

 

Аднак некаторыя карыстальнікі сеткі параўналі спажыванне энергіі 2000 відэакарт H800 за два месяцы для стварэння DeepSeek V3 і падлічылі, што фактычнае спажыванне энергіі Grok3 падчас навучання ў 263 разы перавышае спажыванне V3. Розніца паміж DeepSeek V3, які набраў 1402 балы, і Grok3 складае крыху менш за 100 балаў. Пасля публікацыі гэтых дадзеных многія хутка зразумелі, што за тытулам Grok3 як «наймацнейшага ў свеце» хаваецца відавочны эфект маргінальнай карыснасці — логіка таго, што больш буйныя мадэлі, якія генеруюць лепшую прадукцыйнасць, пачала паказваць змяншальную аддачу.

640 (2)

Нават з «высокім балам, але нізкай здольнасцю», Grok2 меў велізарную колькасць высакаякасных дадзеных з платформы X (Twitter) для падтрымкі выкарыстання. Аднак падчас навучання Grok3 xAI натуральным чынам сутыкнуўся з «столяй», з якой зараз сутыкаецца OpenAI — адсутнасць прэміяльных дадзеных для навучання хутка выяўляе маргінальную карыснасць магчымасцей мадэлі.

 

Распрацоўшчыкі Grok3 і Маск, верагодна, першымі зразумелі і глыбока вызначылі гэтыя факты, таму Маск пастаянна згадваў у сацыяльных сетках, што версія, з якой карыстальнікі карыстаюцца зараз, — гэта «ўсё яшчэ толькі бэта-версія», і што «поўная версія будзе выпушчана ў бліжэйшыя месяцы». Маск узяў на сябе ролю мэнэджара па прадуктах Grok3, прапанаваўшы карыстальнікам пакідаць водгукі аб розных праблемах, якія ўзнікаюць, у раздзеле каментарыяў. Ён, магчыма, самы папулярны мэнэджар па прадуктах у свеце.

 

Тым не менш, ужо праз дзень прадукцыйнасць Grok3, несумненна, выклікала трывогу ў тых, хто спадзяецца абаперціся на «масіўную вылічальную магутнасць» для навучання больш моцных вялікіх мадэляў: згодна з агульнадаступнай інфармацыяй Microsoft, памер параметраў GPT-4 ад OpenAI складае 1,8 трыльёна параметраў, што больш чым у дзесяць разоў перавышае памер параметраў GPT-3. Чуткі сведчаць аб тым, што памер параметраў GPT-4.5 можа быць яшчэ большым.

 

Па меры таго, як памеры параметраў мадэлі рэзка ўзрастаюць, выдаткі на навучанне таксама рэзка ўзрастаюць. З прысутнасцю Grok3 такія прэтэндэнты, як GPT-4.5 і іншыя, якія жадаюць працягваць «спальваць грошы» для дасягнення лепшай прадукцыйнасці мадэлі за кошт памеру параметраў, павінны ўлічваць абмежаванні, якія зараз відавочна бачныя, і думаць пра тое, як іх пераадолець. У гэты момант Ілля Суцкевер, былы галоўны навуковы супрацоўнік OpenAI, раней заявіў у снежні мінулага года: «Папярэдняе навучанне, з якім мы знаёмыя, скончыцца», што зноў узнікла ў дыскусіях, што прывяло да намаганняў знайсці сапраўдны шлях для навучання вялікіх мадэляў.

640 (3)

Погляд Іллі выклікаў трывогу ў галіне. Ён дакладна прадбачыў немінучае вычарпанне даступных новых дадзеных, што прывядзе да сітуацыі, калі прадукцыйнасць не зможа працягваць паляпшацца за кошт збору дадзеных, параўнаўшы гэта з вычарпаннем выкапнёвага паліва. Ён адзначыў, што «як і нафта, кантэнт, створаны чалавекам у інтэрнэце, з'яўляецца абмежаваным рэсурсам». Паводле прагнозаў Суцкевера, наступнае пакаленне мадэляў пасля папярэдняга навучання будзе валодаць «сапраўднай аўтаноміяй» і здольнасцямі да разважання, «падобнымі да чалавечага мозгу».

 

У адрозненне ад сённяшніх папярэдне навучаных мадэляў, якія ў асноўным абапіраюцца на супастаўленне зместу (на аснове раней вывучанага зместу мадэлі), будучыя сістэмы штучнага інтэлекту змогуць вучыцца і ўстанаўліваць метадалогіі для вырашэння праблем такім чынам, падобным да «мыслення» чалавечага мозгу. Чалавек можа дасягнуць базавага валодання прадметам, маючы толькі базавую прафесійную літаратуру, у той час як вялікая мадэль штучнага інтэлекту патрабуе мільёнаў кропак дадзеных, каб дасягнуць толькі самай базавай эфектыўнасці пачатковага ўзроўню. Нават калі фармулёўка нязначна зменіцца, гэтыя фундаментальныя пытанні могуць быць зразумелыя няправільна, што сведчыць аб тым, што мадэль сапраўды не палепшыла інтэлект: асноўныя, але невырашальныя пытанні, згаданыя ў пачатку артыкула, уяўляюць сабой яскравы прыклад гэтай з'явы.

微信图片_20240614024031.jpg1

Выснова

Аднак, акрамя грубай сілы, калі Grok3 сапраўды зможа раскрыць галіны, што «папярэдне навучаныя мадэлі набліжаюцца да свайго канца», гэта будзе мець значныя наступствы для гэтай галіны.

Магчыма, пасля таго, як ажыятаж вакол Grok3 паступова сціхне, мы станем сведкамі большай колькасці выпадкаў, падобных да прыкладу Фэй-Фэй Лі пра «наладку высокапрадукцыйных мадэляў на пэўным наборы дадзеных усяго за 50 долараў», што ў рэшце рэшт адкрые сапраўдны шлях да агульнага штучнага інтэлекту (АШІ).

Знайсці рашэнне для кабеляў ELV

Кантрольныя кабелі

Для кабеляў BMS, BUS, прамысловых, прыборных.

Структураваная кабельная сістэма

Сетка і перадача дадзеных, валаконна-аптычны кабель, патч-корд, модулі, пярэдняя панэль

Агляд выстаў і мерапрыемстваў 2024 года

16-18 красавіка 2024 г. Блізкаўсходняя энергетыка ў Дубаі

16-18 красавіка 2024 г., Securika ў Маскве

9 мая 2024 г. ПРЭЗЕНТАЦЫЯ НОВЫХ ПРАДУКТАЎ І ТЭХНАЛОГІЙ у Шанхаі

22–25 кастрычніка 2024 г. SECURITY CHINA ў Пекіне

19-20 лістапада 2024 г. CONNECTED WORLD KSA


Час публікацыі: 19 лютага 2025 г.