騰訊混元最新發布并開源原生多模態生圖模型——混元圖像3.0(HunyuanImage 3.0)!目前
模型參數規模高達80B,效果型混是最好17c一起草官網入口目前參數量最大的開源生圖模型。
同時,源生元生HunyuanImage 3.0將理解與生成一體化融合,圖模圖也是目前首個開源工業級原生多模態生圖模型,效果對標業界頭部閉源模型,效果型混堪稱目前開源領域最強圖像生成模型。最好
效果上,源生元生HunyuanImage 3.0支持多分辨率圖像生成,圖模圖具有強大的目前指令遵從、世界知識推理、效果型混文字渲染能力,最好出圖具有極致的源生元生美學與藝術感。
話不多說,圖模圖具體來體驗一下HunyuanImage 3.0的生成效果。
得益于原生多模態架構的架構優勢,HunyuanImage 3.0繼承了Hunyuan-A13B的17c一起草官網入口世界知識,具有原生世界知識推理能力。
因此,讓它生成一張解方程的步驟圖,prompt“解方程組5x+2y=26,2x-y=5,給出詳細過程”,它也能把題目解出來并完成生成:
“用一幅圖介紹堆排序算法流程,用小黃臉的表情包,來可視化,表情越開心,代表數值越大,并提供偽代碼,手帳風格,小紅書圖片樣式”,就連這種特別復雜的prompt它都能駕馭:
它還具有強大的文字渲染能力,通過對文字渲染數據的定向補充和借助HunyuanOCR進行文字識別的能力提升,3.0版本實現了接近頭部模型的文字渲染能力,讓海報、表情包制作、更多創意玩法變得更加簡單。
同時,HunyuanImage 3.0進行了充分的后訓練打磨,在和設計師的配合下逐漸形成HunyuanImage自己的美學風格,打造極致的美學和藝術風格。
四宮格圖生成也可以,創作漫畫,設計不同材質的兔子模型,亦或是制作素描畫漩渦鳴人的教程,通通不在話下。
技術方面,騰訊混元也公開了。
核心技術方案
新一代模型基于Hunyuan-A13B(總參數量80B,激活參數量13B),原生多模態、統一自回歸框架,將文本理解、視覺理解與高保真圖像生成深度融合于同一大腦,帶來前所未有的端到端圖像生成一致性、可控性與推理能力。
不同于將LLM僅作編碼器的傳統DiT路線,混元3.0的原生多模態設計以LLM為核心底座,天然繼承強大的語言與推理能力,并在預訓練階段即深度混合LLM數據、多模態理解與多模態生成數據,形成“理解反哺生成、語言驅動視覺”的正反饋閉環,顯著提升語義對齊、細節控制與復雜場景的創作穩定性。
HunyuanImage 3.0面向社區完全開源,代碼與權重同步釋出。
雙編碼器結構
混元3.0采用VAE+ViT的聯合特征作為圖像理解輸入,模型在統一序列中對圖像內容進行精準解析與應答;在圖像生成側,沿襲Transfusion思路將Diffusion建模無縫嵌入LLM架構,實現文本和圖像的靈活交互,覆蓋從創作到編輯的完整鏈路。
廣義因果注意力
廣義因果注意力,讓“一體化理解與生成”真正落地:
為適配原生多模態的多任務需求,HunyuanImage 3.0引入Generalized Causal Attention(廣義因果注意力)。其核心思路是在保持文本token依舊遵循LLM的因果型(下三角)注意力的同時,對圖像token賦予全局注意力能力,形成兼顧“語言因果推理”與“圖像全局建模”的注意力矩陣。
由此,文生圖場景對應綠色框(圖a)關注形式,圖文理解場景對應藍色框(圖a)關注形式,統一于同一架構內,既不削弱語言鏈式推理,又充分釋放擴散生成對全局依賴的需求。
圖文交織訓練,長上下文對齊訓練—推理閉環:
為提升長上下文理解與生成能力,模型采用“圖文交織”的訓練范式。訓練序列中可包含多個用于擴散建模的加噪圖像;而在推理階段,一旦某張圖像完成去噪即轉化為“干凈的條件圖”,因此推理過程中最多僅存在一個加噪圖。
為保證訓練與推理的一致性,模型在交織數據上使用圖b所示的專用attention mask:它禁止序列中部的加噪圖被其后的token訪問,同時為每個加噪圖緊隨配置一個干凈條件圖。該機制確保了多圖訓練的有效性與單圖推理的穩定性,顯著增強了跨段落、跨回合的上下文保持與生成連貫性。
二維位置編碼
HunyuanImage 3.0是基于一個Hunyuan-A13B的LLM引入圖像模態訓練而來;因此LLM中的一維位置編碼(1D RoPE)擴展為二維位置編碼(2D RoPE)。
同時,為了保證擴展時完全兼容原來文本token的一維編碼,文本的位置坐標從1,2,3,…擴展為(1,1),(2,2),(3,3),…,記不同維度上的頻率為θ0,θ1,θ2,…,那么位置n的文本token的位置編碼可以表示為[cos(nθ0),cos(nθ1),cos(nθ2),…,[sin(nθ0),sin(nθ1),sin(nθ2),…]。
在此基礎上,二維坐標(x,y)的位置編碼為[cos(xθ0),cos(yθ1),…,sin(xθ0),sin(yθ1),…],注意這樣的位置編碼對于坐標的x維度和y維度是不對稱的,不過由于圖片數據本身在兩個維度上也是不對稱的,因此這不會帶來負面影響;而這樣的不對稱性允許二維位置編碼可以完全兼容一維位置編碼,這可以最大程度地保持原始LLM的語言能力。
數據處理流程
數據處理方面,采用了一個全面的三階段過濾流程,從超過100億張原始圖像中篩選出近50億張高質量、多樣化的圖像,移除了包括低分辨率、水印、AI生成內容在內的低質量數據,并補充了知識增強、文本相關等專業數據集。
在圖像描述上,構建了一套新穎的中英雙語、分層級的描述體系,將圖像內容分解為從簡到詳的描述、風格屬性和事實實體等多個維度,并利用組合式合成策略來動態生成長度和模式各異的標題,以增強數據多樣性。
為保證描述的真實性,該系統集成了專門的OCR(文字識別)和命名實體識別代理來提供事實依據,并通過雙向驗證循環進行核對,此外還針對成對的圖像數據開發了差異描述功能,用以生成描述變化的文本。
推理數據構建方面,為了激活模型的“思維鏈”(Chain-of-Thought)能力,團隊還專門構建了推理數據集,包括用于增強邏輯推理的“文本到文本”(T2T)數據,以及將圖像與推理過程和詳細描述配對的“文本到文本到圖像”(T2TI)數據,旨在訓練模型自主地完成從理解用戶意圖、進行概念優化到最終生成圖像的全過程。
多階段訓練策略
訓練始于一個漸進式的四階段預訓練,該過程從較低的256像素圖像分辨率和基礎的圖文對與純文本數據開始,逐步將VAE處理的分辨率提升至512像素乃至1024像素,并在高分辨率階段引入了如圖像編輯、多圖融合等更復雜的交錯圖文數據(INTL)以及用于激發推理能力的思維鏈數據(CoT)。
預訓練之后,模型進入指令微調階段,此時訓練數據的類型從海量的多任務數據轉變為使用特定模板格式化的、更聚焦于文本到圖像生成任務的指令數據,旨在專門強化模型遵循用戶具體創作意圖的能力。
最后,在多階段的后訓練中,數據類型進一步演變為人類偏好數據,包括用于監督微調(SFT)的精選高質量樣本、用于直接偏好優化(DPO)的優劣圖像對,以及為多種強化學習算法(MixGRPO,SRPO,ReDA)提供指導的獎勵模型信號,從而實現對生成結果的精細打磨。
模型測評效果
HunyuanImage 3.0采用了機器指標(SSAE)和人工評測(GSB)兩種方式評估模型效果。
SSAE(Structured Semantic Alignment Evaluation)是一項基于多模態大語言模型(MLLM)的自動化評測指標,用于評估文生圖模型的語義一致性。該指標精心構建了500道評測題目,并將每道題目按12個細分要點進行拆解,最后借助MLLM自動比對生成的圖像內容與是否與拆解的要點匹配。
最終輸出兩個結果:平均圖像準確率(圖像層級的平均分數 MeanAcc)和全局準確率(所有要點的平均得分 GlobalAcc)。可以看到,HunyuanImage 3.0在最終結果和各細分要點上都媲美甚至超越業界領先的模型。
在人工評測GSB(Good/Same/Bad)中,HunyuanImag 3.0相較于Seedream 4.0勝率為1.17%,相較于Nano Banana勝率為2.64%,相較于GPT-Image勝率為5.00%,相較于目前最好的上一版本模型HunyuanImage 2.1勝率為14.10%,這表明HunyuanImage 3.0是足以媲美業界領先閉源模型的開源模型。