阿里開源通義DeepResearch:登頂開源Agent模型榜首 性能超OpenAI、DeepSeek旗艦

9月17日消息,阿里今日凌晨,開源開源阿里開源旗下首個深度研究Agent模型——通義DeepResearch,通義并登頂開源第一。登頂
該模型在HLE、型榜BrowseComp-zh、首性GAIA等多個權威評測集上取得SOTA成績(State-of-the-art),旗艦超越OpenAI Deep Research、阿里DeepSeek-V3.1等Agent模型。開源開源
目前,通義通義DeepResearch的登頂模型、框架和方案均已全面開源,型榜用戶可在Github、首性Hugging Face和魔搭社區社區下載模型和代碼。旗艦
作為當前研究熱點,阿里“深度研究”的現有方法通常是“單窗口、線性累加”的信息處理模式,所有中間思路和檢索到的信息堆積在單一上下文中。
當處理長周期任務時,Agent會面臨“認知空間窒息”和“不可逆的噪聲污染”的挑戰,導致推理能力下降,最終難以完成真正長程、復雜的研究任務。
為此,通義團隊構建了一套以合成數據驅動、貫穿預訓練與后訓練的完整訓練鏈路。
該鏈路以Qwen3-30B-A3B模型為基座進行優化,團隊創新性地設計了覆蓋真實環境與虛擬環境的RL算法驗證與真實訓練模塊,并結合高效異步強化學習算法及自動化數據策展(Data Curation)流程,顯著提升了模型的迭代速度和泛化能力。
在推理階段,團隊設計了ReAct和基于自研的IterResearch的Heavy兩種模式。
前者用于精準考察模型的基礎內在能力,后者則通過test-time scaling策略,充分挖掘并展現了模型所能達到的性能上限。
即使在長任務中,也能實現高質量的推理。
目前,在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集上,通義DeepResearch模型以3B激活參數,性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗艦模型的ReAct Agent。
今年以來,阿里已連續開源WebWalker、WebDancer和WebSailor等多款檢索和推理智能體,并全部斬獲開源SOTA成績。
相關文章
2025英雄聯盟職業聯賽總決賽BLG捧杯 Knight實現個人五連冠
中新網北京9月22日電(記者 王昊)21日,英雄聯盟職業聯賽2025賽季總決賽在深圳大運中心體育館落下帷幕,以不敗戰績一路挺進決賽的BLG戰隊,再戰從敗者組歸來的TES戰隊。最終,BLG以3:2擊敗T2025-09-23提速!京東快遞陽澄湖投用無人車 大閘蟹物流首次實現全程無人化接駁
秋風起,蟹腳癢。隨著陽澄湖開湖開始倒計時,大閘蟹保障也進入到沖刺期。近期,在陽澄湖大閘蟹產地,一輛輛在穿梭于街道的無人車成為當地一道獨特的新風景。這是京東快遞為保障陽澄湖大閘蟹物流專門投用的無人車。據2025-09-23約74款可選:361° 休閑鞋/運動鞋/板鞋等65元官方清倉
天貓361度官方旗艦店,361° 休閑鞋 / 運動鞋 / 板鞋等標價為200元,下單領取131元優惠券,點擊詳情頁【淘金幣補貼】卡片,淘金幣可抵4元,活動價為65元:手機淘寶App掃碼,領淘金2025-09-23芒米AIR X掌機評測:配置豪華做工精致 入門掌機市場要洗牌了
一、前言:入門安卓掌機新選擇近些年開源掌機越來越火了,但很多開源掌機都是從玩家自制發展而來的,一直被玩家戲稱為“寨機”,種類繁多性價比很高,但產品做工質量和系統優化水平參差不齊2025-09-23GB / T 19266:五稻田五常大米 10 斤 26 元神價秒殺
阿里自營【官方國貨甄選】五稻田東北五常大米 5kg 日常售價 69.9 元,限時直降 32 元 + 官方補貼 3.79 元 + 可領 3.41 元淘禮金紅包,實付 30.7 元包郵。購買鏈接:天貓(32025-09-23小米汽車OTA秋季大版本開始推送:超級小愛升級、小米超級任務上車
9月19日消息,小米汽車宣布,小米汽車OTA秋季大版本升級已開始在小米SU7車上推送。此次OTA對高速領航輔助功能進行升級優化,同時新增泊車偏移輔助功能、小愛同學免喚醒、小米超級任務、露營模式,寵物模2025-09-23