阿里開源通義DeepResearch：登頂開源Agent模型榜首性能超OpenAI、DeepSeek旗艦

發布時間：2025-09-23 16:54:45 作者：玩站小弟

9月17日消息，今日凌晨，阿里開源旗下首個深度研究Agent模型——通義DeepResearch，并登頂開源第一。該模型在HLE、BrowseComp-zh、GAIA等多個權威。

9月17日消息，阿里今日凌晨，開源開源阿里開源旗下首個深度研究Agent模型——通義DeepResearch，通義并登頂開源第一。登頂

該模型在HLE、型榜BrowseComp-zh、首性GAIA等多個權威評測集上取得SOTA成績(State-of-the-art)，旗艦超越OpenAI Deep Research、阿里DeepSeek-V3.1等Agent模型。開源開源

目前，通義通義DeepResearch的登頂模型、框架和方案均已全面開源，型榜用戶可在Github、首性Hugging Face和魔搭社區社區下載模型和代碼。旗艦

作為當前研究熱點，阿里“深度研究”的現有方法通常是“單窗口、線性累加”的信息處理模式，所有中間思路和檢索到的信息堆積在單一上下文中。

當處理長周期任務時，Agent會面臨“認知空間窒息”和“不可逆的噪聲污染”的挑戰，導致推理能力下降，最終難以完成真正長程、復雜的研究任務。

為此，通義團隊構建了一套以合成數據驅動、貫穿預訓練與后訓練的完整訓練鏈路。

該鏈路以Qwen3-30B-A3B模型為基座進行優化，團隊創新性地設計了覆蓋真實環境與虛擬環境的RL算法驗證與真實訓練模塊，并結合高效異步強化學習算法及自動化數據策展（Data Curation）流程，顯著提升了模型的迭代速度和泛化能力。

在推理階段，團隊設計了ReAct和基于自研的IterResearch的Heavy兩種模式。

前者用于精準考察模型的基礎內在能力，后者則通過test-time scaling策略，充分挖掘并展現了模型所能達到的性能上限。

即使在長任務中，也能實現高質量的推理。

目前，在Humanity's Last Exam（HLE）、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集上，通義DeepResearch模型以3B激活參數，性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗艦模型的ReAct Agent。

今年以來，阿里已連續開源WebWalker、WebDancer和WebSailor等多款檢索和推理智能體，并全部斬獲開源SOTA成績。

Tag：

2025英雄聯盟職業聯賽總決賽BLG捧杯 Knight實現個人五連冠
中新網北京9月22日電(記者王昊)21日，英雄聯盟職業聯賽2025賽季總決賽在深圳大運中心體育館落下帷幕，以不敗戰績一路挺進決賽的BLG戰隊，再戰從敗者組歸來的TES戰隊。最終，BLG以3:2擊敗T
2025-09-23
提速！京東快遞陽澄湖投用無人車大閘蟹物流首次實現全程無人化接駁
秋風起，蟹腳癢。隨著陽澄湖開湖開始倒計時，大閘蟹保障也進入到沖刺期。近期，在陽澄湖大閘蟹產地，一輛輛在穿梭于街道的無人車成為當地一道獨特的新風景。這是京東快遞為保障陽澄湖大閘蟹物流專門投用的無人車。據
2025-09-23
約74款可選：361° 休閑鞋/運動鞋/板鞋等65元官方清倉
天貓361度官方旗艦店，361° 休閑鞋 / 運動鞋 / 板鞋等標價為200元，下單領取131元優惠券，點擊詳情頁【淘金幣補貼】卡片，淘金幣可抵4元，活動價為65元：手機淘寶App掃碼，領淘金
2025-09-23
芒米AIR X掌機評測：配置豪華做工精致入門掌機市場要洗牌了
一、前言：入門安卓掌機新選擇近些年開源掌機越來越火了，但很多開源掌機都是從玩家自制發展而來的，一直被玩家戲稱為“寨機”，種類繁多性價比很高，但產品做工質量和系統優化水平參差不齊
2025-09-23
GB / T 19266：五稻田五常大米 10 斤 26 元神價秒殺
阿里自營【官方國貨甄選】五稻田東北五常大米 5kg 日常售價 69.9 元，限時直降 32 元 + 官方補貼 3.79 元 + 可領 3.41 元淘禮金紅包，實付 30.7 元包郵。購買鏈接：天貓(3
2025-09-23
小米汽車OTA秋季大版本開始推送：超級小愛升級、小米超級任務上車
9月19日消息，小米汽車宣布，小米汽車OTA秋季大版本升級已開始在小米SU7車上推送。此次OTA對高速領航輔助功能進行升級優化，同時新增泊車偏移輔助功能、小愛同學免喚醒、小米超級任務、露營模式，寵物模
2025-09-23