您現在的位置是:娛樂 >>正文
美團發布高效推理模型LongCat
娛樂4人已圍觀
簡介9月23日消息,美團LongCat團隊正式發布全新高效推理模型——LongCat-Flash-Thinking。在保持了LongCat-Flash-Chat極致速度的同時,全新 ...
9月23日消息,美團模型美團LongCat團隊正式發布全新高效推理模型——LongCat-Flash-Thinking。發布
在保持了LongCat-Flash-Chat極致速度的高效同時,全新發布的推理LongCat-Flash-Thinking更強大、更專業。美團模型
綜合評估顯示,發布LongCat-Flash-Thinking在邏輯、高效數學、推理代碼、美團模型智能體等多個領域的發布推理任務中,達到了全球開源模型的高效最先進水平(SOTA),部分任務性能接近閉源模型GPT5-Thinking。推理
同時,美團模型LongCat-Flash-Thinking不僅增強了智能體自主調用工具的發布能力,還擴展了形式化定理證明能力,高效成為國內首個同時具備“深度思考+工具調用”與“非形式化+形式化”推理能力相結合的大語言模型。
該團隊還表示,尤其在高復雜度的任務(如數學、代碼、智能體任務)處理上,新模型具備顯著優勢。
具體表現如下:
通用推理能力:LongCat-Flash-Thinking具備卓越的通用推理能力,尤其在需要結構化邏輯的任務中表現突出。其在ARC-AGI基準測試中以50.3分超越OpenAI o3、Gemini2.5 Pro等頂尖閉源模型。
數學能力:LongCat-Flash-Thinking在數學推理方面展現出強大實力,躋身當前頂尖模型行列。在更具挑戰性的基準測試中優勢更加明顯——在HMMT和AIME相關基準上取得突破性成績,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等領先模型水平相當。這些結果印證了其解決復雜、多步驟問題的領先能力。
代碼能力:在編程領域,LongCat-Flash-Thinking展現出開源模型最先進的性能(SOTA)與綜合實力。在LiveCodeBench上以79.4分顯著超越參與評估的開源模型,并與頂級閉源模型GPT-5表現相當,證明其解決高難度編程競賽問題的卓越能力。在OJBench基準測試中也以40.7的得分保持極強競爭力,并接近領先模型Gemini2.5-Pro的水平。
智能體能力:LongCat-Flash-Thinking在復雜的、工具增強型推理(Tool-augmented Reasoning)方面表現突出,在智能體工具調用(Agentic Tool Use)上展現出強勁能力。其在τ2-Bench上以74.0分刷新開源SOTA成績,并在包括SWE-Bench、BFCL V3和VitaBench等基準測試中展現出超強競爭力。
ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基準中的pass@1獲得67.6的分數,大幅領先所有其他參與評估的模型,在pass@8和pass@32中同樣保持了領先優勢,凸顯其在生成結構化證明和形式化數學推理方面的絕對優勢。
目前,LongCat-Flash-Thinking已在HuggingFace、Github全面開源,并在官網可體驗。
Tags:
相關文章
OPPO Find X9系列外觀公布:極窄四等邊設計 共有4款配色
娛樂9月23日消息,今天上午,OPPO官微公布了OPPO Find X9系列的外觀。該機采用小矩陣相機DECO,共有4款配色,分別是絨砂鈦、絨光鈦、霜白、霧黑。其中絨砂鈦采用全新絨砂工藝,鏡組渾然天成,正 ...
【娛樂】
閱讀更多田徑世錦賽:石雨豪斬獲男子跳遠銅牌
娛樂中新社北京9月17日電 當地時間17日進行的2025年東京田徑世錦賽傳來佳音,石雨豪在男子跳遠決賽中收獲一枚銅牌,為中國隊奪得本屆賽事的第三枚獎牌。男子跳遠是中國隊的優勢項目。當天,石雨豪和張溟鯤兩位 ...
【娛樂】
閱讀更多中國隊獎牌+1 田徑世錦賽男子20公里競走王朝朝摘銀
娛樂北京時間9月20日,東京田徑世錦賽男子20公里競走決賽,中國隊王朝朝、李陳杰、錢海峰三人參賽。最終,中國選手王朝朝以1小時18分43秒的成績摘銀,錢海峰1小時19分38秒排名第六,李陳杰位列第24名。 ...
【娛樂】
閱讀更多