日本va中文字幕亚洲久_亚洲国产中文丝袜精品一区_国产免费三级a淫色_午夜福利在线观看麻豆_丰满少妇一级毛片全部视频_中文字幕51日韩视频_风韵犹存岳厨房激情_亚洲一区二区精品免费_免费+无码+国产_欧美午夜不卡影院

中文

中文

華為羅軍:破局智算集群互聯(lián)瓶頸 詳解光產(chǎn)業(yè)三要素機會與方向

2025.09.21

C114訊 9月18日專稿(蔣均牧)生成式AI蓬勃發(fā)展,大模型訓(xùn)練對算力的需求呈指數(shù)級增長,超萬卡智算集群已成為支撐大模型訓(xùn)練與推理的核心基礎(chǔ)設(shè)施。在這一背景下,高效互聯(lián)成為制約智算集群性能的關(guān)鍵瓶頸,傳統(tǒng)網(wǎng)絡(luò)技術(shù)難以滿足高帶寬、低時延、高可靠性的傳輸需求,新型光技術(shù)的創(chuàng)新與應(yīng)用迫在眉睫。

就在第26屆中國國際光電博覽會期間召開的“超萬卡智算集群新型光技術(shù)發(fā)展論壇”上,華為Fellow & 光傳送首席架構(gòu)師羅軍以 “光技術(shù)在智算中心新場景的挑戰(zhàn)和機會”為題,對此展開了探討——他不僅剖析了智算中心的業(yè)務(wù)趨勢,還提出了集群光互聯(lián)的針對性解決方案,更展望了未來技術(shù)演進方向,為光產(chǎn)業(yè)在智算領(lǐng)域的發(fā)展提供了清晰的指引。

大模型迭代倒逼算力升級,網(wǎng)絡(luò)成關(guān)鍵

當(dāng)前,大模型技術(shù)正處于快速迭代演進階段,主流模型參數(shù)規(guī)模從千億向萬億跨越,且多模態(tài)發(fā)展趨勢明顯,大規(guī)模算力供給、尤其是智算算力的供給成為行業(yè)最迫切需求。國家數(shù)據(jù)局統(tǒng)計,截至2025年6月,我國日均Token消耗量已突破30萬億,一年半間激增300倍;綜合第三方預(yù)測,到2030年,全球通用算力將增長十倍,智算算力將增長千倍。

羅軍指出,集群是解決大規(guī)模算力需求的重要方案,但無論是參數(shù)面Scale Out還是超節(jié)點Scale Up,都需依托網(wǎng)絡(luò)實現(xiàn)從單卡到多卡、框內(nèi)到框間、單Pod到多Pod的連接,進而完成規(guī)模突破。在這一過程中,光技術(shù)的三大核心要素——光模塊、光傳輸介質(zhì)、光交換,將成為支撐大規(guī)模集群的關(guān)鍵力量。

他以光交換為例指出,谷歌從V4到V7三代產(chǎn)品中,始終保持3D Torus架構(gòu),且相關(guān)產(chǎn)品發(fā)貨量可觀;英偉達面向超萬卡集群,也明確提出光交叉、光模塊和光纖三要素的重要性。這些行業(yè)動態(tài)充分表明,光技術(shù)在智算集群中的應(yīng)用已從概念走向?qū)嵺`,成為解決算力互聯(lián)瓶頸的重要方向。

從超節(jié)點與參數(shù)面,看新技術(shù)、新方案優(yōu)勢

面對智算集群的復(fù)雜需求,新型光技術(shù)究竟有何優(yōu)勢,又如何與場景融合以形成針對性的解決方案?羅軍在分享中,圍繞超節(jié)點和參數(shù)面兩大場景作出深入分析。

超節(jié)點作為智算集群的重要組成部分,其連接正從直連拓?fù)湎騍witch拓?fù)溲葸M,從框內(nèi)互聯(lián)向框間互聯(lián)拓展。這一演進過程中,規(guī)模擴展、低時延、性能匹配不同模型需求成為三大核心訴求。從規(guī)模來看,超節(jié)點規(guī)模已從128卡向512卡持續(xù)演進,這就要求光交叉端口數(shù)量隨之從百卡級向千卡級提升。而光技術(shù)天然具備的透明性,使其能夠兼容不同協(xié)議,為規(guī)模擴展提供了靈活支撐。

時延方面,超節(jié)點對時延的要求極為苛刻,端到端時延的降低成為提升集群性能的關(guān)鍵。羅軍介紹,端到端時延由交換時延、傳輸介質(zhì)時延和光模塊時延三部分構(gòu)成。引入光交叉后,相比電交叉,不僅能將跳數(shù)從6跳減少到4跳,時延還能降低30%,接近零時延;若進一步引入空芯光纖,時延可再降30%;而光模塊從DPO到xPO的演進,省去DSP后,時延更是能實現(xiàn)10倍下降。這一系列技術(shù)組合,為超節(jié)點打造了極致的低時延網(wǎng)絡(luò)環(huán)境。

在性能匹配上,光交叉可根據(jù)不同模型需求,通過算法與模型的聯(lián)動,實現(xiàn) RING、FullMech、M2N 等拓?fù)涞耐昝榔ヅ?,確保網(wǎng)絡(luò)性能能夠充分適配各類大模型的運算需求。

參數(shù)面場景下,隨著集群從千卡向超萬卡乃至十萬卡規(guī)模發(fā)展,大規(guī)模擴展、高可用性、高效率轉(zhuǎn)發(fā)成為核心需求。羅軍就超萬卡集群介紹了兩大解決方案:其一是在數(shù)據(jù)中心內(nèi)部,依托OCS構(gòu)建光底座,滿足不同Pod的靈活擴展需求。OCS天然對速率不敏感,不同Pod可運行不同速率;同時,省去光模塊不僅降低了成本,還大幅提升了可靠性,減少轉(zhuǎn)發(fā)層也有效提升了參數(shù)面性能。

其二是跨數(shù)據(jù)中心場景,受功耗、能源供應(yīng)、散熱等因素限制,單數(shù)據(jù)中心規(guī)模擴展面臨瓶頸,通過OTN超寬無損網(wǎng)絡(luò)可將多個數(shù)據(jù)中心連接起來,實現(xiàn)跨數(shù)據(jù)中心集群訓(xùn)練。當(dāng)前400G場景下,OTN單波帶寬已達1.2T~1.6T,800G場景下帶寬還將進一步提升,且能實現(xiàn)百公里甚至千公里無損傳輸,保障參數(shù)面穩(wěn)定運行。

展望未來,三大核心領(lǐng)域技術(shù)演進方向

在明確解決方案的基礎(chǔ)上,羅軍展望了智算集群光互聯(lián)領(lǐng)域的技術(shù)演進方向,為光產(chǎn)業(yè)未來發(fā)展提供了戰(zhàn)略參考。

OCS光交叉技術(shù)方面,目前基于MEMS微鏡、LC液晶、硅光的三條技術(shù)路線各有特點。MEMS微鏡技術(shù)可實現(xiàn)上千個端口,且插損無明顯劣化;LC液晶技術(shù)端口規(guī)模居中,適合100個端口以內(nèi)場景;硅光技術(shù)切換速度快,但插損較大。未來OCS將沿著“百端口-千端口-更高性能”的路線演進,不僅端口規(guī)模持續(xù)擴大,切換速度也將從百毫秒級向十毫秒級、納秒級跨越,同時通過外部OA等技術(shù)降低插損,進一步提升性能。

光模塊領(lǐng)域呈現(xiàn)分場景演進態(tài)勢。超節(jié)點短距離光模塊從DPO到LPO,時延從100納秒降至10納秒,功耗大幅下降;從LPO到xPO,通過“光多跑、電少跑”的方式,解決電傳輸性能問題,同時大幅提升密度;未來OIO技術(shù)將進一步提升密度,滿足超節(jié)點多方向、高密出口需求。參數(shù)面FR 2公里模塊從112G向224G、400G、448G演進,400G場景下直調(diào)直檢與相干技術(shù)將共存,448G場景下直調(diào)直檢技術(shù)持續(xù)突破,相干技術(shù)下沉,以滿足不同傳輸距離需求。

空芯光纖作為一種優(yōu)勢顯著的光傳輸介質(zhì),在時延降低方面效果突出,但目前面臨成本、性能與兼容性三大挑戰(zhàn)。今年國內(nèi)運營商OTT的采購中,空芯光纖價格昂貴,而降低成本需提升拉絲長度;性能上,空芯與空芯光纖的高性能耦合、抗彎設(shè)計等問題尚待解決;兼容性方面也需進一步優(yōu)化。羅軍認(rèn)為,一旦這些問題得到解決,空芯光纖將在數(shù)據(jù)中心內(nèi)乃至數(shù)據(jù)中心間實現(xiàn)大規(guī)模應(yīng)用,為光傳輸介質(zhì)升級提供新的可能。

寫在最后

從行業(yè)發(fā)展規(guī)律來看,任何一項新技術(shù)從實驗室走向大規(guī)模商用,都需經(jīng)歷技術(shù)完善、成本下降、生態(tài)適配的過程。光技術(shù)在智算集群領(lǐng)域的應(yīng)用也不例外,隨著OCS、光模塊、空芯光纖等技術(shù)的持續(xù)突破,以及成本與兼容性問題的逐步解決,光產(chǎn)業(yè)有望在智算領(lǐng)域迎來更大的發(fā)展空間。對廣大行業(yè)內(nèi)廠商而言,亦需緊跟智算中心業(yè)務(wù)需求,加快技術(shù)創(chuàng)新與產(chǎn)品迭代,如此方能在這場算力革命中搶占先機,為我國智算產(chǎn)業(yè)的高質(zhì)量發(fā)展夯實光互聯(lián)基礎(chǔ)。


相關(guān)新聞