阿里開(kāi)源通義DeepResearch:登頂開(kāi)源Agent模型榜首 性能超OpenAI、DeepSeek旗艦
作者:娛樂(lè) 來(lái)源:探索 瀏覽: 【大 中 小】 發(fā)布時(shí)間:2025-09-23 14:26:29 評(píng)論數(shù):
9月17日消息,阿里今日凌晨,開(kāi)源開(kāi)源阿里開(kāi)源旗下首個(gè)深度研究Agent模型——通義DeepResearch,通義并登頂開(kāi)源第一。登頂
該模型在HLE、型榜BrowseComp-zh、首性GAIA等多個(gè)權(quán)威評(píng)測(cè)集上取得SOTA成績(jī)(State-of-the-art),旗艦超越OpenAI Deep Research、阿里DeepSeek-V3.1等Agent模型。開(kāi)源開(kāi)源
目前,通義通義DeepResearch的登頂模型、框架和方案均已全面開(kāi)源,型榜用戶可在Github、首性Hugging Face和魔搭社區(qū)社區(qū)下載模型和代碼。旗艦
作為當(dāng)前研究熱點(diǎn),阿里“深度研究”的現(xiàn)有方法通常是“單窗口、線性累加”的信息處理模式,所有中間思路和檢索到的信息堆積在單一上下文中。
當(dāng)處理長(zhǎng)周期任務(wù)時(shí),Agent會(huì)面臨“認(rèn)知空間窒息”和“不可逆的噪聲污染”的挑戰(zhàn),導(dǎo)致推理能力下降,最終難以完成真正長(zhǎng)程、復(fù)雜的研究任務(wù)。
為此,通義團(tuán)隊(duì)構(gòu)建了一套以合成數(shù)據(jù)驅(qū)動(dòng)、貫穿預(yù)訓(xùn)練與后訓(xùn)練的完整訓(xùn)練鏈路。
該鏈路以Qwen3-30B-A3B模型為基座進(jìn)行優(yōu)化,團(tuán)隊(duì)創(chuàng)新性地設(shè)計(jì)了覆蓋真實(shí)環(huán)境與虛擬環(huán)境的RL算法驗(yàn)證與真實(shí)訓(xùn)練模塊,并結(jié)合高效異步強(qiáng)化學(xué)習(xí)算法及自動(dòng)化數(shù)據(jù)策展(Data Curation)流程,顯著提升了模型的迭代速度和泛化能力。
在推理階段,團(tuán)隊(duì)設(shè)計(jì)了ReAct和基于自研的IterResearch的Heavy兩種模式。
前者用于精準(zhǔn)考察模型的基礎(chǔ)內(nèi)在能力,后者則通過(guò)test-time scaling策略,充分挖掘并展現(xiàn)了模型所能達(dá)到的性能上限。
即使在長(zhǎng)任務(wù)中,也能實(shí)現(xiàn)高質(zhì)量的推理。
目前,在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權(quán)威Agent評(píng)測(cè)集上,通義DeepResearch模型以3B激活參數(shù),性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗艦?zāi)P偷腞eAct Agent。
今年以來(lái),阿里已連續(xù)開(kāi)源WebWalker、WebDancer和WebSailor等多款檢索和推理智能體,并全部斬獲開(kāi)源SOTA成績(jī)。