導(dǎo)讀:商湯科技發(fā)布并開源了與南洋理工大學(xué) S-Lab 合作研發(fā)的全新多模態(tài)模型架構(gòu) ——NEO,為日日新 SenseNova 多模態(tài)模型奠定了新一代架構(gòu)的基石。
12 月 2 日消息,商湯科技發(fā)布并開源了與南洋理工大學(xué) S-Lab 合作研發(fā)的全新多模態(tài)模型架構(gòu) ——NEO,為日日新 SenseNova 多模態(tài)模型奠定了新一代架構(gòu)的基石。
NEO 宣稱是“行業(yè)首個可用的、實(shí)現(xiàn)深層次融合的原生多模態(tài)架構(gòu)(Native VLM)”,從底層原理出發(fā),打破了傳統(tǒng)“模塊化”范式的桎梏,以“專為多模態(tài)而生”的設(shè)計(jì),通過核心架構(gòu)層面的多模態(tài)深層融合,實(shí)現(xiàn)了性能、效率和通用性的整體突破。
商湯科技介紹稱,當(dāng)前業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器 + 投影器 + 語言模型”的模塊化范式。這種基于大語言模型(LLM)的擴(kuò)展方式,雖然實(shí)現(xiàn)了圖像輸入的兼容,但本質(zhì)上仍以語言為中心,圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設(shè)計(jì)不僅學(xué)習(xí)效率低下,更限制了模型在復(fù)雜多模態(tài)場景下(比如涉及圖像細(xì)節(jié)捕捉或復(fù)雜空間結(jié)構(gòu)理解)的處理能力。
商湯推出了從零設(shè)計(jì)的 NEO 原生架構(gòu),通過在注意力機(jī)制、位置編碼和語義映射三個維度的底層創(chuàng)新,讓模型天生具備了統(tǒng)一處理視覺與語言的能力:
原生圖塊嵌入(Native Patch Embedding):摒棄了離散的圖像 tokenizer,通過獨(dú)創(chuàng)的 Patch Embedding Layer (PEL) 自底向上構(gòu)建從像素到詞元的連續(xù)映射。這種設(shè)計(jì)能更精細(xì)地捕捉圖像細(xì)節(jié),突破了主流模型的圖像建模瓶頸。
原生三維旋轉(zhuǎn)位置編碼(Native-RoPE):解耦了三維時(shí)空頻率分配,視覺維度采用高頻、文本維度采用低頻,適配兩種模態(tài)的自然結(jié)構(gòu)。這使得 NEO 不僅能捕獲圖像的空間結(jié)構(gòu),更具備向視頻處理、跨幀建模等復(fù)雜場景無縫擴(kuò)展的潛力。
原生多頭注意力(Native Multi-Head Attention):針對不同模態(tài)特點(diǎn),NEO 在統(tǒng)一框架下實(shí)現(xiàn)了文本 token 的自回歸注意力和視覺 token 的雙向注意力并存。這種設(shè)計(jì)提升了模型對空間結(jié)構(gòu)關(guān)聯(lián)的利用率,從而更好地支撐復(fù)雜的圖文混合理解與推理。
此外,配合 Pre-Buffer & Post-LLM 雙階段融合訓(xùn)練策略,NEO 能夠在吸收原始 LLM 完整語言推理能力的同時(shí),從零構(gòu)建視覺感知能力,解決了傳統(tǒng)跨模態(tài)訓(xùn)練中語言能力受損的難題。
測試顯示,NEO 實(shí)現(xiàn)了多方面的突破:
數(shù)據(jù)效率:僅需業(yè)界同等性能模型 1/10 的數(shù)據(jù)量(3.9 億圖像文本示例),NEO 便能開發(fā)出“頂尖的視覺感知能力”。無需依賴海量數(shù)據(jù)及額外視覺編碼器,其架構(gòu)便能在多項(xiàng)視覺理解任務(wù)中追平 Qwen2-VL、InternVL3 等頂級模塊化旗艦?zāi)P汀?/p>
性能:在 MMMU、MMB、MMStar、SEED-I、POPE 等多項(xiàng)公開評測中,NEO 架構(gòu)均斬獲高分。
推理性價(jià)比:特別是在 0.6B-8B 的參數(shù)區(qū)間內(nèi),NEO 在邊緣部署方面優(yōu)勢顯著。
商湯已正式開源基于 NEO 架構(gòu)的2B 與 9B 兩種規(guī)格模型。