Для кабеляў BMS, BUS, прамысловых, прыборных.

Па меры завяршэння Вясновага фестывалю ажыятаж вакол DeepSeek застаецца моцным. Нядаўняе свята падкрэсліла значнае пачуццё канкурэнцыі ў тэхналагічнай індустрыі, і многія абмяркоўваюць і аналізуюць гэтага «сома». Сіліконавая даліна перажывае беспрэцэдэнтнае пачуццё крызісу: прыхільнікі адкрытага зыходнага кода зноў выказваюць сваё меркаванне, і нават OpenAI пераглядае, ці была яго стратэгія закрытага зыходнага кода найлепшым выбарам. Новая парадыгма зніжэння вылічальных выдаткаў выклікала ланцуговую рэакцыю сярод чып-гігантаў, такіх як Nvidia, што прывяло да рэкордных аднадзённых страт рынкавай кошту ў гісторыі фондавага рынку ЗША, у той час як дзяржаўныя ўстановы расследуюць адпаведнасць чыпаў, якія выкарыстоўваюцца DeepSeek, патрабаванням. На фоне неадназначных водгукаў аб DeepSeek за мяжой, унутры краіны назіраецца надзвычайны рост. Пасля запуску мадэлі R1 звязанае з ім прыкладанне адчула рэзкі ўсплёск трафіку, што сведчыць аб тым, што рост у сектарах прыкладанняў будзе стымуляваць развіццё ўсёй экасістэмы штучнага інтэлекту. Станоўчым аспектам з'яўляецца тое, што DeepSeek пашырыць магчымасці прыкладанняў, мяркуючы, што залежнасць ад ChatGPT не будзе такой дарагой у будучыні. Гэты зрух адлюстраваўся ў нядаўняй дзейнасці OpenAI, у тым ліку ў прадастаўленні мадэлі разважанняў пад назвай o3-mini бясплатным карыстальнікам у адказ на DeepSeek R1, а таксама ў наступных абнаўленнях, якія зрабілі ланцужок думак o3-mini публічным. Многія замежныя карыстальнікі выказалі падзяку DeepSeek за гэтыя распрацоўкі, хоць гэты ланцужок думак служыць толькі рэзюмэ.
Аптымістычна, відавочна, што DeepSeek аб'ядноўвае айчынных гульцоў. Засяроджваючыся на зніжэнні выдаткаў на навучанне, розныя вытворцы чыпаў, прамежкавыя пастаўшчыкі хмарных паслуг і шматлікія стартапы актыўна далучаюцца да экасістэмы, павышаючы эфектыўнасць выдаткаў на выкарыстанне мадэлі DeepSeek. Згодна з працамі DeepSeek, для поўнага навучання мадэлі V3 патрабуецца ўсяго 2,788 мільёна гадзін на графічным працэсары H800, а працэс навучання вельмі стабільны. Архітэктура MoE (Mixture of Experts) мае вырашальнае значэнне для зніжэння выдаткаў на папярэдняе навучанне ў дзесяць разоў у параўнанні з Llama 3 з 405 мільярдамі параметраў. У цяперашні час V3 з'яўляецца першай публічна прызнанай мадэллю, якая дэманструе такую высокую разрэджанасць у MoE. Акрамя таго, MLA (Multi Layer Attention) працуе сінергічна, асабліва ў аспектах разважанняў. «Чым разрэджаней MoE, тым большы памер пакета неабходны падчас разважанняў, каб цалкам выкарыстоўваць вылічальную магутнасць, прычым памер KVCache з'яўляецца ключавым абмежавальным фактарам; MLA значна памяншае памер KVCache», — адзначыў даследчык з Chuanjing Technology у аналізе для AI Technology Review. У цэлым, поспех DeepSeek заключаецца ў спалучэнні розных тэхналогій, а не толькі адной. Спецыялісты галіны высока ацэньваюць інжынерныя магчымасці каманды DeepSeek, адзначаючы іх выдатныя дасягненні ў паралельным навучанні і аптымізацыі аператараў, дасягаючы рэвалюцыйных вынікаў шляхам удасканалення кожнай дэталі. Падыход DeepSeek з адкрытым зыходным кодам яшчэ больш стымулюе агульнае развіццё буйных мадэляў, і чакаецца, што калі падобныя мадэлі пашырацца ў выявы, відэа і іншае, гэта значна стымулюе попыт ва ўсёй галіне.
Магчымасці для старонніх паслуг па разважанні
Згодна з дадзенымі, з моманту свайго выпуску DeepSeek набраў 22,15 мільёна штодзённых актыўных карыстальнікаў (DAU) усяго за 21 дзень, дасягнуўшы 41,6% ад базы карыстальнікаў ChatGPT і перавысіўшы 16,95 мільёна штодзённых актыўных карыстальнікаў Doubao, тым самым стаўшы самым хуткарослым дадаткам у свеце, узначальваючы Apple App Store у 157 краінах/рэгіёнах. Аднак, нягледзячы на тое, што карыстальнікі натоўпам накіроўваліся, кіберхакеры нястомна атакавалі дадатак DeepSeek, ствараючы значную нагрузку на яго серверы. Галіновыя аналітыкі лічаць, што гэта часткова звязана з тым, што DeepSeek выкарыстоўвае карты для навучання, не маючы дастатковай вылічальнай магутнасці для разважанняў. Інсайдэр галіны паведаміў AI Technology Review: «Частыя праблемы з серверамі можна лёгка вырашыць, спаганяючы плату або фінансуючы набыццё большай колькасці машын; у рэшце рэшт, гэта залежыць ад рашэнняў DeepSeek». Гэта ўяўляе сабой кампраміс паміж засяроджанасцю на тэхналогіях і прадуктызацыяй. DeepSeek у значнай ступені абапіраўся на квантавае квантаванне для самазабеспячэння, атрымліваючы мала знешняга фінансавання, што прывяло да адносна нізкага ціску на грашовыя патокі і больш чыстага тэхналагічнага асяроддзя. У сувязі з вышэйзгаданымі праблемамі некаторыя карыстальнікі заклікаюць DeepSeek у сацыяльных сетках павысіць парогі выкарыстання або ўвесці платныя функцыі для павышэння камфорту карыстальнікаў. Акрамя таго, распрацоўшчыкі пачалі выкарыстоўваць афіцыйны API або староннія API для аптымізацыі. Аднак нядаўна адкрытая платформа DeepSeek абвясціла: «Бягучыя рэсурсы сервера абмежаваныя, і папаўненне паслуг API прыпынена».
Гэта, несумненна, адкрывае больш магчымасцей для старонніх пастаўшчыкоў у сектары інфраструктуры штучнага інтэлекту. Нядаўна шматлікія айчынныя і міжнародныя хмарныя гіганты запусцілі мадэлявальныя API DeepSeek — замежныя гіганты Microsoft і Amazon былі сярод першых, хто далучыўся да іх у канцы студзеня. Айчынны лідэр, Huawei Cloud, зрабіў першы крок, выпусціўшы сэрвісы разважанняў DeepSeek R1 і V3 у супрацоўніцтве з Flow, якая базуецца на Silicon, 1 лютага. Паведамленні AI Technology Review паказваюць, што сэрвісы Flow, якая базуецца на Silicon, адчулі наплыў карыстальнікаў, што фактычна «абваліла» платформу. Тры буйныя тэхналагічныя кампаніі — BAT (Baidu, Alibaba, Tencent) і ByteDance — таксама выпусцілі танныя, абмежаваныя па часе прапановы, пачынаючы з 3 лютага, што нагадвае мінулагоднія цэнавыя войны пастаўшчыкоў хмарных паслуг, выкліканыя запускам мадэлі V2 ад DeepSeek, дзе DeepSeek пачалі называць «цэнавым мяснікам». Шалёныя дзеянні пастаўшчыкоў воблачных паслуг адлюстроўваюць ранейшыя моцныя сувязі паміж Microsoft Azure і OpenAI, дзе ў 2019 годзе Microsoft зрабіла значныя інвестыцыі ў памеры 1 мільярда долараў у OpenAI і атрымала выгаду пасля запуску ChatGPT у 2023 годзе. Аднак гэтыя цесныя адносіны пачалі пагаршацца пасля таго, як Meta адкрыла Llama, што дазволіла іншым пастаўшчыкам па-за экасістэмай Microsoft Azure канкураваць з іх буйнымі мадэлямі. У гэтым выпадку DeepSeek не толькі пераўзышоў ChatGPT па папулярнасці прадукту, але і прадставіў мадэлі з адкрытым зыходным кодам пасля выпуску o1, падобна ажыятажу вакол адраджэння Llama GPT-3.
Насамрэч, пастаўшчыкі хмарных паслуг таксама пазіцыянуюць сябе як шлюзы для трафіку прыкладанняў штучнага інтэлекту, што азначае, што паглыбленне сувязяў з распрацоўшчыкамі прыводзіць да прэвентыўных пераваг. Паводле паведамленняў, у дзень запуску мадэлі Baidu Smart Cloud больш за 15 000 кліентаў выкарыстоўвалі мадэль DeepSeek праз платформу Qianfan. Акрамя таго, некалькі невялікіх фірмаў прапануюць рашэнні, у тым ліку Silicon-based Flow, Luchen Technology, Chuanjing Technology і розныя пастаўшчыкі інфраструктуры штучнага інтэлекту, якія запусцілі падтрымку мадэляў DeepSeek. AI Technology Review даведаўся, што бягучыя магчымасці аптымізацыі для лакалізаванага разгортвання DeepSeek існуюць у асноўным у двух галінах: адна з іх - аптымізацыя характарыстык разрэджанасці мадэлі MoE з выкарыстаннем змешанага падыходу да разгортвання мадэлі MoE з 671 мільярдам параметраў лакальна, выкарыстоўваючы гібрыдны вывад GPU/CPU. Акрамя таго, аптымізацыя MLA мае жыццёва важнае значэнне. Аднак дзве мадэлі DeepSeek усё яшчэ сутыкаюцца з некаторымі праблемамі ў аптымізацыі разгортвання. «З-за памеру мадэлі і шматлікіх параметраў аптымізацыя сапраўды складаная, асабліва для лакальных разгортванняў, дзе дасягненне аптымальнага балансу паміж прадукцыйнасцю і коштам будзе складанай задачай», - заявіў даследчык з Chuanjing Technology. Найбольш значная перашкода заключаецца ў пераадоленні абмежаванняў ёмістасці памяці. «Мы выкарыстоўваем гетэрагенны падыход да супрацоўніцтва, каб цалкам выкарыстоўваць працэсары і іншыя вылічальныя рэсурсы, размяшчаючы толькі неагульныя часткі разрэджанай матрыцы MoE на працэсары/DRAM для апрацоўкі з выкарыстаннем высокапрадукцыйных аператараў працэсара, у той час як шчыльныя часткі застаюцца на графічным працэсары», — далей растлумачыў ён. Паведамленні паказваюць, што фрэймворк з адкрытым зыходным кодам Chuanjing KTransformers у асноўным уводзіць розныя стратэгіі і аператары ў арыгінальную рэалізацыю Transformers праз шаблон, значна павялічваючы хуткасць вываду з выкарыстаннем такіх метадаў, як CUDAGraph. DeepSeek стварыў магчымасці для гэтых стартапаў, паколькі перавагі росту становяцца відавочнымі; многія фірмы паведамляюць аб прыкметным росце кліентаў пасля запуску DeepSeek API, атрымліваючы запыты ад папярэдніх кліентаў, якія шукалі аптымізацыі. Інсайдэры галіны адзначылі: «У мінулым некалькі ўстояныя групы кліентаў часта былі прывязаныя да стандартызаваных паслуг буйных кампаній, цесна звязаных сваімі перавагамі ў кошце з-за маштабу. Аднак пасля завяршэння разгортвання DeepSeek-R1/V3 перад Вясеннім святам мы нечакана атрымалі запыты на супрацоўніцтва ад некалькіх вядомых кліентаў, і нават раней неактыўныя кліенты ініцыявалі кантакт, каб прадставіць нашы паслугі DeepSeek». У цяперашні час выглядае так, што DeepSeek робіць прадукцыйнасць вываду мадэляў усё больш важнай, і з больш шырокім укараненнем вялікіх мадэляў гэта будзе працягваць істотна ўплываць на развіццё індустрыі штучнага інтэлекту інфраструктуры. Калі б мадэль узроўню DeepSeek магла быць разгорнута лакальна з нізкай коштам, гэта значна дапамагло б намаганням урада і прадпрыемстваў у галіне лічбавай трансфармацыі. Аднак праблемы захоўваюцца, бо некаторыя кліенты могуць мець высокія чаканні адносна магчымасцей вялікіх мадэляў, што робіць больш відавочным, што балансаванне прадукцыйнасці і кошту становіцца жыццёва важным пры практычным разгортванні.
Каб ацаніць, ці лепшы DeepSeek за ChatGPT, важна зразумець іх ключавыя адрозненні, моцныя бакі і варыянты выкарыстання. Вось поўнае параўнанне:
Асаблівасць/аспект | Глыбокі пошук | ChatGPT |
---|---|---|
Уласнасць | Распрацавана кітайскай кампаніяй | Распрацавана OpenAI |
Зыходная мадэль | Адкрыты зыходны код | Уласная |
Кошт | Бясплатнае выкарыстанне; больш танныя варыянты доступу да API | Падпіска або аплата за выкарыстанне |
Налада | Высокая наладжвальнасць, што дазваляе карыстальнікам змяняць і дапрацоўваць | Даступныя абмежаваныя магчымасці налады |
Вынікі выканання канкрэтных задач | Выдатна спраўляецца з пэўнымі задачамі, такімі як аналіз дадзеных і пошук інфармацыі | Універсальны, з высокімі паказчыкамі ў творчым пісьме і размоўных задачах |
Падтрымка моў | Моцная ўвага надаецца кітайскай мове і культуры | Шырокая падтрымка моў, але арыентаваная на ЗША |
Кошт навучання | Больш нізкія выдаткі на навучанне, аптымізацыя для эфектыўнасці | Больш высокія выдаткі на навучанне, якія патрабуюць значных вылічальных рэсурсаў |
Варыяцыя адказу | Можа прапанаваць розныя адказы, магчыма, пад уплывам геапалітычнага кантэксту | Паслядоўныя адказы, заснаваныя на дадзеных навучання |
Мэтавая аўдыторыя | Прызначана для распрацоўшчыкаў і даследчыкаў, якія жадаюць гнуткасці | Прызначана для звычайных карыстальнікаў, якія жадаюць мець зносіны |
Выпадкі выкарыстання | Больш эфектыўна для генерацыі кода і хуткіх задач | Ідэальна падыходзіць для стварэння тэксту, адказаў на запыты і ўдзелу ў дыялогу |
Крытычны погляд на «знішчэнне Nvidia»
У цяперашні час, акрамя Huawei, некалькі айчынных вытворцаў чыпаў, такія як Moore Threads, Muxi, Biran Technology і Tianxu Zhixin, таксама адаптуюцца да дзвюх мадэляў DeepSeek. Адзін з вытворцаў чыпаў паведаміў AI Technology Review: «Структура DeepSeek дэманструе інавацыі, але яна застаецца LLM. Наша адаптацыя да DeepSeek у першую чаргу сканцэнтравана на прыкладанні для разважанняў, што робіць тэхнічную рэалізацыю даволі простай і хуткай». Аднак падыход MoE патрабуе больш высокіх патрабаванняў да захоўвання і размеркавання, а таксама забеспячэння сумяшчальнасці пры разгортванні з айчыннымі чыпамі, што стварае шматлікія інжынерныя праблемы, якія патрабуюць вырашэння падчас адаптацыі. «У цяперашні час айчынная вылічальная магутнасць не адпавядае Nvidia па зручнасці выкарыстання і стабільнасці, што патрабуе першапачатковага ўдзелу завода ў наладзе праграмнага асяроддзя, ліквідацыі непаладак і аптымізацыі базавай прадукцыйнасці», — сказаў спецыяліст галіны, грунтуючыся на практычным вопыце. Адначасова: «З-за вялікага маштабу параметраў DeepSeek R1 айчынная вылічальная магутнасць патрабуе большай колькасці вузлоў для паралелізацыі. Акрамя таго, айчынныя апаратныя характарыстыкі ўсё яшчэ некалькі адстаюць; напрыклад, Huawei 910B у цяперашні час не можа падтрымліваць вывад FP8, прадстаўлены DeepSeek». Адной з галоўных асаблівасцей мадэлі DeepSeek V3 з'яўляецца ўвядзенне змешанай сістэмы дакладнага навучання FP8, якая была эфектыўна праверана на надзвычай вялікай мадэлі, што з'яўляецца значным дасягненнем. Раней буйныя гульцы, такія як Microsoft і Nvidia, прапаноўвалі падобную працу, але ў галіны застаюцца сумневы адносна яе мэтазгоднасці. Зразумела, што ў параўнанні з INT8, асноўная перавага FP8 заключаецца ў тым, што квантаванне пасля навучання можа дасягнуць амаль безстратнай дакладнасці, пры гэтым значна павялічваючы хуткасць вываду. У параўнанні з FP16, FP8 можа рэалізаваць паскарэнне да двух разоў на Nvidia H20 і больш чым у паўтара раза на H100. Прыкметна, што па меры таго, як дыскусіі вакол тэндэнцыі айчыннай вылічальнай магутнасці плюс айчынныя мадэлі набіраюць абароты, усё больш распаўсюджанымі становяцца здагадкі аб тым, ці можа быць парушана Nvidia і ці можна абыйсці бар'ер CUDA. Адзін бясспрэчны факт заключаецца ў тым, што DeepSeek сапраўды выклікаў істотнае падзенне рынкавай кошту Nvidia, але гэты зрух выклікае пытанні адносна цэласнасці высокакласнай вылічальнай магутнасці Nvidia. Раней прынятыя наратывы адносна назапашвання вылічальных рэсурсаў за кошт капіталу аспрэчваюцца, аднак Nvidia па-ранейшаму цяжка цалкам замяніць у сцэнарах навучання. Аналіз глыбокага выкарыстання CUDA ў DeepSeek паказвае, што гнуткасць, такая як выкарыстанне SM для сувязі або непасрэднае маніпуляванне сеткавымі картамі, не з'яўляецца магчымай для звычайных графічных працэсараў. Меркаванні галіны падкрэсліваюць, што роў Nvidia ахоплівае ўсю экасістэму CUDA, а не толькі саму CUDA, і інструкцыі PTX (Parallel Thread Execution), якія выкарыстоўвае DeepSeek, усё яшчэ з'яўляюцца часткай экасістэмы CUDA. «У кароткатэрміновай перспектыве вылічальную магутнасць Nvidia нельга абыйсці — гэта асабліва відавочна ў навучанні; аднак разгортванне айчынных карт для разважанняў будзе адносна прасцейшым, таму прагрэс, верагодна, будзе хутчэйшым. Адаптацыя айчынных карт у першую чаргу сканцэнтравана на вывадзе; нікому пакуль не ўдалося навучыць мадэль прадукцыйнасці DeepSeek на айчынных картах у вялікіх маштабах», — адзначыў галіновы аналітык AI Technology Review. У цэлым, з пункту гледжання вываду, абставіны абнадзейваюць для буйных мадэляў айчынных чыпаў. Магчымасці для айчынных вытворцаў чыпаў у сферы вываду больш відавочныя з-за празмерна высокіх патрабаванняў да навучання, якія перашкаджаюць уваходу на рынак. Аналітыкі сцвярджаюць, што дастаткова проста выкарыстоўваць айчынныя карты вываду; пры неабходнасці набыццё дадатковай машыны магчыма, у той час як мадэлі навучання ствараюць унікальныя праблемы — кіраванне павялічанай колькасцю машын можа стаць цяжкім, а больш высокі ўзровень памылак можа негатыўна паўплываць на вынікі навучання. Навучанне таксама мае пэўныя патрабаванні да маштабу кластараў, у той час як патрабаванні да кластараў для вываду не такія строгія, што палягчае патрабаванні да графічнага працэсара. У цяперашні час прадукцыйнасць адной карты Nvidia H20 не пераўзыходзіць прадукцыйнасць Huawei або Cambrian; яе моцны бок заключаецца ў кластарызацыі. Зыходзячы з агульнага ўплыву на рынак вылічальнай магутнасці, заснавальнік Luchen Technology Ю Ян адзначыў у інтэрв'ю AI Technology Review: «DeepSeek можа часова падарваць стварэнне і арэнду звышвялікіх навучальных вылічальных кластараў. У доўгатэрміновай перспектыве, значна зніжаючы выдаткі, звязаныя з навучаннем вялікіх мадэляў, разважаннямі і прыкладаннямі, попыт на рынку, верагодна, рэзка ўзрасце. Такім чынам, наступныя ітэрацыі штучнага інтэлекту, заснаваныя на гэтым, будуць пастаянна стымуляваць устойлівы попыт на рынку вылічальнай магутнасці». Акрамя таго, «павышаны попыт DeepSeek на паслугі па разважанні і тонкай наладцы больш сумяшчальны з айчынным вылічальным ландшафтам, дзе мясцовыя магутнасці адносна слабыя, што дапамагае паменшыць страты з-за бяздзейнасці рэсурсаў пасля стварэння кластара; гэта стварае жыццяздольныя магчымасці для вытворцаў на розных узроўнях айчыннай вылічальнай экасістэмы». Luchen Technology супрацоўнічала з Huawei Cloud для запуску API разважанняў серыі DeepSeek R1 і хмарных сэрвісаў візуалізацыі на аснове айчыннай вылічальнай магутнасці. Ю Ян выказаў аптымізм адносна будучыні: «DeepSeek усяляе давер да рашэнняў айчыннай вытворчасці, заахвочваючы большы энтузіязм і інвестыцыі ў айчынныя вылічальныя магчымасці ў будучыні».

Выснова
Ці з'яўляецца DeepSeek "лепшым" за ChatGPT, залежыць ад канкрэтных патрэб і мэтаў карыстальніка. Для задач, якія патрабуюць гнуткасці, нізкай кошту і налады, DeepSeek можа быць лепшым. Для творчага пісьма, агульных даследаванняў і зручных размоўных інтэрфейсаў ChatGPT можа ўзяць на сябе лідэрства. Кожны інструмент служыць розным мэтам, таму выбар будзе ў значнай ступені залежаць ад кантэксту, у якім яны выкарыстоўваюцца.
Кантрольныя кабелі
Структураваная кабельная сістэма
Сетка і перадача дадзеных, валаконна-аптычны кабель, патч-корд, модулі, пярэдняя панэль
16-18 красавіка 2024 г. Блізкаўсходняя энергетыка ў Дубаі
16-18 красавіка 2024 г., Securika ў Маскве
9 мая 2024 г. ПРЭЗЕНТАЦЫЯ НОВЫХ ПРАДУКТАЎ І ТЭХНАЛОГІЙ у Шанхаі
22–25 кастрычніка 2024 г. SECURITY CHINA ў Пекіне
19-20 лістапада 2024 г. CONNECTED WORLD KSA
Час публікацыі: 10 лютага 2025 г.