国产午夜福利精品久久,成人午夜sm精品久久久久久久,51视频精品全部免费

OpenAI驚人自曝：GPT

[探索] 時間：2025-09-23 16:47:17 來源：十大品牌網(wǎng)-熱門品牌大全-挑選好牌子就在十大品牌排行榜作者：綜合點擊：127次

　　新智元報道

　　【新智元導讀】GPT-5智商測試，驚人僅拿下了70分？自曝全網(wǎng)狂吐槽「降智」背后的真相，竟是驚人「路由」決定了模型的智能。想要解鎖神級GPT-5，自曝秘訣在于prompt。驚人這不，自曝醫(yī)學家借助GPT-5重現(xiàn)了「神之一手」時刻。驚人

　　GPT-5發(fā)布72小時后，自曝一張IQ測試結(jié)果震驚了全網(wǎng)。驚人

　　在門薩IQ測試中，自曝GPT-5拿下了118分，驚人離線測試70分；GPT-5 Thinking則分別獲得了85分和57分。自曝

　　這一結(jié)果，驚人創(chuàng)OpenAI模型家族IQ測試有史以來的自曝最低紀錄。

　　實際上，驚人這背后的實際原因，歸咎于「路由」問題。

　　并非是GPT-5太笨了，而是作為一個「單體模型」，其中一個組件決定了它的智能。

　　類似的問題，奧特曼也曾在Reddit AMA問答中做出了回應。

　　他表示，內(nèi)部出現(xiàn)了嚴重故障（Sev級），自動切換系統(tǒng)無法工作，導致GPT-5表現(xiàn)得像降智一樣。

　　METR的最新報告中，可以看出GPT-5依舊處于帕累托前沿，智能呈指數(shù)級增長并未放緩。

　　也就是說，GPT-5還在延續(xù)Scaling Law的神話。

　　GPT-5很強，關(guān)鍵在于prompt

　　那些一味地吐槽GPT-5的網(wǎng)友們，實際上并未發(fā)掘出最新模型的潛力。

　　Cline人工智能主管表示，核心在于一個人的想法、品味，以及溝通方式。

　　對于那些具備系統(tǒng)思維的用戶而言，GPT-5堪稱革命性工具。只要肯花時間：構(gòu)建完整思維框架，制定明確需求規(guī)格向模型清晰闡述。

　　由此，它就能自主精準執(zhí)行，全程無需人工糾偏。

　　無獨有偶，NYT暢銷書作者Mark Manson也表示，所有人都在用錯誤的方式與GPT-5對話，關(guān)鍵在于掌握主動權(quán)。

　　這樣，讓它知道你可不是好糊弄的，才會給出完美答案。

　　舉個栗子，你想要問「blueberry」有幾個b，并恐嚇它「答不對小心Bambi媽媽找你算賬」。

　　此時，GPT-5根本不會犯錯。

　　再比如，網(wǎng)友們吵翻的GPT-5連一個簡單方程式都不會解，實際訣竅也在提示上。

　　當提示變成「think harder and solve」時，就可以得出正確的解。

　　怎樣提示才算有效？有網(wǎng)友曝出了GPT-5系統(tǒng)提示，堪稱一座金礦。

　　「神之一手」時刻

　　在醫(yī)學領(lǐng)域，GPT-5已經(jīng)可以媲美人類專家了。

　　生物醫(yī)學家Derya Unutmaz在體驗GPT-5之后，深刻感受到了AlphaGo的「第37步」時刻。

　　事情是這樣的，兩年前，Derya的實驗室開展了一系列前沿免疫學實驗，旨在調(diào)控T細胞的能量代謝。

　　這種免疫細胞對癌癥免疫治療、慢性病和自身免疫疾病都有重大影響。

　　當時，他們獲得了一個令人驚艷的結(jié)果，但有個發(fā)現(xiàn)始終無法解釋。

　　團隊為此折騰了好幾周，也只得到部分答案。

　　基于這些實驗，Derya將未發(fā)表的數(shù)據(jù)圖上傳給GPT-5 Pro去分析，結(jié)果令人大吃一驚。

　　GPT-5僅憑如上一張圖表，就準確識別出關(guān)鍵發(fā)現(xiàn)，并提供了實驗方案的建議。

　　最不可思議的是，它提出的機制最終解釋了全部結(jié)果。

　　Derya Unutmaz表示，這簡直就是AI領(lǐng)域的「神之一手」的時刻。這一過程證明了，GPT-5已成為頂尖專家和真正的科研伙伴，能提供深刻洞見。

　　OpenAI攜GPT-5劍指Anthropic王座

　　GPT-5雖還不是AGI，但其強大的編程能力，已經(jīng)吸引了更多開發(fā)者。

　　另外，其全新的個性化選項和減少的「幻覺」現(xiàn)象，則可能為免費版ChatGPT吸引更多日常用戶。

　　這無疑是向Anthropic發(fā)出的挑戰(zhàn)書。

　　之所以這樣說，原因在于：編寫代碼的最強AI模型，一般公認為Anthropic的Claude模型。

　　因此，OpenAI發(fā)布新模型時，極力強調(diào)GPT-5在編程方面的強大能力

　　GPT-5是我們迄今為止最強大的編程模型。在復雜前端生成和調(diào)試大型代碼庫方面，GPT-5表現(xiàn)尤為突出。

　　只需一個提示，它就能直觀且優(yōu)雅地創(chuàng)造出美觀、響應式的網(wǎng)站、應用程序和游戲，將想法轉(zhuǎn)化為現(xiàn)實。

　　意圖非常明顯。

　　在新聞發(fā)布會上，奧特曼表示，新模型不僅擅長編碼，還能將軟件項目從想法一步轉(zhuǎn)化為可用代碼。

　　AI初創(chuàng)公司MagicPath的首席執(zhí)行官Pietro Schirano稱GPT-5是目前最出色的編程模型，是一個「絕佳的合作者」。他表示：

　　這就像電力進入千家萬戶，是一個「前所未有」的變革時刻，它將徹底改變我們的開發(fā)方式。

　　在長達一小時的直播中，OpenAI大部分時間都在展示GPT-5的編程能力，包括演示一系列基準測試結(jié)果.

　　Cursor、Vercel和JetBrains等還分享了GPT-5的早期測試的評價。

　　「AI編程」神器Cursor的首席執(zhí)行官Michael Truell夸其為「使用過的最智能的編碼模型」：

　　團隊發(fā)現(xiàn)，GPT-5不僅表現(xiàn)出色、易于引導，還展現(xiàn)出其他模型未曾有過的獨特個性。

　　它不僅能捕捉到難以察覺的深層錯誤，還能運行長時間、多輪次的后臺AI智能體，完成復雜任務——這些任務往往讓其他模型無從下手。

　　Vercel的創(chuàng)始人、首席執(zhí)行官Guillermo Rauch，認為「GPT-5是最好的前端AI模型」：

　　我們在v0.dev上使用時的初步印象是，它是最好的前端AI模型，在美學感和代碼質(zhì)量上均達到頂尖表現(xiàn)，堪稱獨一無二。

　　它在復雜計算機科學與藝術(shù)感的交匯處表現(xiàn)出色，標志著從過去簡單的代碼補全到如今跨設備、跨屏幕的全棧應用的飛躍時刻。

　　IDE傳統(tǒng)巨頭JetBrains的首席執(zhí)行官Kirill Skrygan，表示「GPT-5顛覆了編程」:

　　GPT-5對編碼領(lǐng)域來說是一個革命性的突破。作為默認模型，它使JetBrains AI Assistant和編碼智能體Junie的性能和質(zhì)量提升了超過1.5倍。

　　在我們的新無代碼平臺Kineto上，GPT-5將設計、前端以及應用整體體驗的端到端質(zhì)量提升了一倍。

　　從數(shù)據(jù)上看，Anthropic的營收增長主要得益于其強大的編程能力。

　　據(jù)The Information報道，Anthropic的年營收已接近50億美元，高于本月初的40億美元，這反映出它作為程序員和編程應用首選的地位。

　　與此同時，OpenAI的年營收目前為120億美元，這個數(shù)字則反映了其更廣泛的業(yè)務和更大的規(guī)模。

　　未來，是智能體式推理

　　GPT-5發(fā)布之后，OpenAI首席研究官Mark Chen和總裁Greg Brockman一同在TBPN最新采訪中，談論了最新模型一些研發(fā)爆點。

　　Mark Chen最先提到了，GPT-5的訓練關(guān)鍵在于合成數(shù)據(jù)。

　　它的成功意味著，完全突破了互聯(lián)網(wǎng)數(shù)據(jù)枯竭的限制，并且在核心領(lǐng)域?qū)崿F(xiàn)更全面的知識覆蓋。

　　OpenAI當前在做的，是將世界引向「智能體式推理」的時代，GPT-5是這一轉(zhuǎn)變的關(guān)鍵。

　　通過更快、更智能的模型減少用戶干預，讓AI無縫地融入日常和專業(yè)使用中。

　　Mark強調(diào)，OpenAI多年來致力于推理模型，但以往接口笨拙，如在GPT-4和o1之間切換。

　　如今，GPT-5通過速度優(yōu)化，實現(xiàn)了無縫整合，讓用戶無需等待長推理過程。

　　他詳細舉例說道，以往模型如o1在所有任務上提供更好答案，但太慢。GPT-5結(jié)合了推理和非推理能力，成為「一站式商店」（one-stop shop）。

　　尤其是，后訓練團隊的貢獻，讓模型在編碼等領(lǐng)域成為「怪物」。

　　當被問及模型命名時，Mark笑稱數(shù)字命名「瘋狂」，但確實奏效了。

　　他表示，GPT-5在創(chuàng)意協(xié)作、軟件工程方面的能力，確實超越了GPT-4.5，而且更快、更便宜。

　　GPT-5像給ChatGPT「一臺電腦」，包括Python REPL、瀏覽器。模型能零樣本學習新工具，這一過程就像人類體驗新工具一樣。

　　在部分需要創(chuàng)造性的任務中，GPT-5能夠給出驚喜的解法。下一步的目標是，將LLM能力提升到「理論框架」層面，提出新假設、輔助科研創(chuàng)新。

　　多線并行，隨時發(fā)貨

　　在OpenAI內(nèi)部，團隊會在不同時間尺度上運作：從探索想法到轉(zhuǎn)化，再到旗艦模型發(fā)布。

　　不僅是單一技術(shù)的突破，而是多軸進步。

　　Mark將其描述成「探索與執(zhí)行」的pipeline，強調(diào)了公司模型快速迭代的能力。

　　我們給它空間去成長，一旦準備好，就直接發(fā)貨。

　　目前，OpenAI模型以算法優(yōu)化為主，同時吸收了硬件和推理架構(gòu)改進的成果，并借鑒開源社區(qū)在推理加速上的經(jīng)驗。

　　最后，他還提到了ChatGPT處理了全球約71%的大模型查詢，并提供了獨特的使用數(shù)據(jù)洞察。

　　Mark表示，不只依賴DUA或點贊數(shù)據(jù)，就是為了避免「迎合性」偏差，而要挖掘隱性行為信號，指導模型去改進。

　　GPT-5已是AI「自我迭代」

　　Greg Brockman經(jīng)歷了 GPT-1 到 GPT-5 的每一次發(fā)布，總結(jié)了每個版本給他的感受：

GPT-1：用公開數(shù)據(jù)訓練Transformer，證明「預訓練有用」。
GPT-2：第一次覺得「生成的東西挺酷」，有獨角獸故事。
GPT-3：剛好跨過「有人愿意用」的門檻，但可靠性差。
GPT-4：真正具備現(xiàn)實可用性，開始能寫代碼、做健康問答。
GPT-5：在可靠性、實用性、代碼能力上設定了全新標準，軟件工程將被徹底變革。

　　2019年底，GPT-3出來了。OpenAI意識到必須打造一個產(chǎn)品，才能繼續(xù)推進使命，籌集資金。

　　他們決定打造API，讓別人自己去探索用途。

　　2020年年初，Greg Brockman的團隊四處奔波，試圖找到愿意嘗試API的客戶。

　　到2020年中，OpenAI才把API推向市場，而ChatGPT是2022年11月才發(fā)布。

　　當時，OpenAI考慮把ChatGPT叫「Chat with GPT-3.5」。ChatGPT還有個前身產(chǎn)品叫WebGPT，也是基于GPT-3.5。整個2022年，OpenAI基本上是在付錢讓人用ChatGPT的前身：用戶不會付錢給OpenAI，OpenAI得付錢給他們用。

　　什么時候意識到ChatGPT會爆？

　　對Greg Brockman來說，真正觸動他的時刻是完成GPT-4訓練的時候。

　　那是2022年8月8日，OpenAI完成了GPT-4的初步后訓練。雖然有一堆bug，但創(chuàng)造力特別驚人，真的非常有趣。

　　OpenAI花了大約一年半的時間，才讓模型的創(chuàng)意寫作能力達到當初那個有bug的版本的水平。

　　那一刻OpenAI意識到，這個模型不僅能完成特定任務的后訓練，還能泛化，表現(xiàn)出智能行為，即使沒有直接針對這點訓練。這顯然是個殺手級應用。

　　于是把原計劃的GPT-4 API發(fā)布推遲，先把ChatGPT做出來，2022年11月上線。

　　回頭看，GPT-3.5其實已經(jīng)是當時社會沒見過的「可用模型」，只是在OpenAI眼里全是缺點。

　　而GPT-3.5引發(fā)了OpenAI的商業(yè)范式革命：從「付費請人測試」到「用戶主動訂閱」的根本性轉(zhuǎn)變。

　　Ben Thompson稱OpenAI為「意外誕生的消費級公司」：ChatGPT發(fā)布后72小時內(nèi)突破百萬用戶，形成現(xiàn)象級需求。

　　很多人在事后說，OpenAI一開始就旨在證明「Scaling」是AI進步的關(guān)鍵，但其實幾乎是反過來的：Scaling是他們嘗試了很多無效方法后，唯一奏效的東西。

　　而現(xiàn)在OpenAI已經(jīng)看到AI模型正在協(xié)助創(chuàng)造下一代模型，并能監(jiān)督那些對人類來說過于復雜的工作。

　　Greg Brockman表示：我們不應該為了美觀而刻意優(yōu)化 CoT（思考鏈），也不用強迫模型隱藏其推理過程，應該讓它們自由地展示自己的「想法」。

　　Greg Brockman曾提到，隨著模型能力的提升，它們不僅能完成簡單的任務，還能勝任一些復雜的、人類難以把控的工作。

　　這種「可擴展的監(jiān)督」概念，正是為了解決這一挑戰(zhàn)而提出的：利用強大的 AI 模型來為復雜任務提供可靠的反饋和監(jiān)督，或者通過「批評模型」協(xié)助人類專家，從而更輕松地進行監(jiān)督。這確保了即使 AI 系統(tǒng)變得更加智能、更復雜，它們也能與人類價值觀保持一致，并得到安全的管理。

　　參考資料：

　　https://www.axios.com/2025/08/08/openai-aims-gpt-5-at-anthropics-coding-crown

　　https://x.com/thealexbanks/status/1953867094648385990

　　https://x.com/slow_developer/status/1954097563981812149

　　https://x.com/tbpn/status/1954249389796651184

　　https://www.youtube.com/watch?v=gaImbWPGgtU

海量資訊、精準解讀，盡在新浪財經(jīng)APP

責任編輯：韋子蓉

(責任編輯：焦點)

iPhone 17遭首批用戶吐槽客服回應：擔心刮花可以戴手機殼真大佬座駕！曝劉強東成比亞迪仰望U8L全球首位車主

相關(guān)內(nèi)容

MOVA×宜賓：從頂峰再登峰高階生活極致大秀即將啟幕
男子被毒蛇咬傷女友教科書級應對：第一時間拿起手機拍照
董軍會見出席北京香山論壇客人
能當PC用的平板電腦！小米平板8 Pro測評：驍龍8至尊打造的安卓平板生產(chǎn)力天花板
雷軍稱自己是社恐型e人：提前兩個月開始準備年度演講稿
失去雙腳的鳥兒用嘴牢牢咬住枝頭在空中吊著身體休息網(wǎng)友：飛起來的一瞬間更讓人敬畏
博主在蘋果店用iPhone 17 Pro演示機制造劃痕：視頻引發(fā)爭議
續(xù)航長達21天！華為WATCH GT 6系列在巴黎發(fā)布：情緒檢測功能深受追捧
深圳：建議準備至少3天的應急物資
武大通報圖書館事件調(diào)查復核情況：撤銷肖某瑫記過處分維持楊某媛碩士學位授予的決議
安卓拍照手機新標桿：vivo X300 Pro帶來2億人像超清晰體驗
殘?zhí)貖W會旱地冰壺項目在廣州開賽
深圳：建議準備至少3天的應急物資
始祖鳥在喜馬拉雅山脈放煙花引爭議蔡國強工作室：用的環(huán)保材料

精彩推薦

熱門點擊