美團發布高效推理模型LongCat
作者:百科 來源:綜合 瀏覽: 【大 中 小】 發布時間:2025-09-23 14:34:10 評論數:
9月23日消息,美團模型美團LongCat團隊正式發布全新高效推理模型——LongCat-Flash-Thinking。發布
在保持了LongCat-Flash-Chat極致速度的高效同時,全新發布的推理LongCat-Flash-Thinking更強大、更專業。美團模型
綜合評估顯示,發布LongCat-Flash-Thinking在邏輯、高效數學、推理代碼、美團模型智能體等多個領域的發布推理任務中,達到了全球開源模型的高效最先進水平(SOTA),部分任務性能接近閉源模型GPT5-Thinking。推理
同時,美團模型LongCat-Flash-Thinking不僅增強了智能體自主調用工具的發布能力,還擴展了形式化定理證明能力,高效成為國內首個同時具備“深度思考+工具調用”與“非形式化+形式化”推理能力相結合的大語言模型。
該團隊還表示,尤其在高復雜度的任務(如數學、代碼、智能體任務)處理上,新模型具備顯著優勢。
具體表現如下:
通用推理能力:LongCat-Flash-Thinking具備卓越的通用推理能力,尤其在需要結構化邏輯的任務中表現突出。其在ARC-AGI基準測試中以50.3分超越OpenAI o3、Gemini2.5 Pro等頂尖閉源模型。
數學能力:LongCat-Flash-Thinking在數學推理方面展現出強大實力,躋身當前頂尖模型行列。在更具挑戰性的基準測試中優勢更加明顯——在HMMT和AIME相關基準上取得突破性成績,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等領先模型水平相當。這些結果印證了其解決復雜、多步驟問題的領先能力。
代碼能力:在編程領域,LongCat-Flash-Thinking展現出開源模型最先進的性能(SOTA)與綜合實力。在LiveCodeBench上以79.4分顯著超越參與評估的開源模型,并與頂級閉源模型GPT-5表現相當,證明其解決高難度編程競賽問題的卓越能力。在OJBench基準測試中也以40.7的得分保持極強競爭力,并接近領先模型Gemini2.5-Pro的水平。
智能體能力:LongCat-Flash-Thinking在復雜的、工具增強型推理(Tool-augmented Reasoning)方面表現突出,在智能體工具調用(Agentic Tool Use)上展現出強勁能力。其在τ2-Bench上以74.0分刷新開源SOTA成績,并在包括SWE-Bench、BFCL V3和VitaBench等基準測試中展現出超強競爭力。
ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基準中的pass@1獲得67.6的分數,大幅領先所有其他參與評估的模型,在pass@8和pass@32中同樣保持了領先優勢,凸顯其在生成結構化證明和形式化數學推理方面的絕對優勢。
目前,LongCat-Flash-Thinking已在HuggingFace、Github全面開源,并在官網可體驗。