9月18日消息,首次數(shù)據(jù)近日,回應合成由DeepSeek團隊共同完成、蒸餾質(zhì)疑梁文鋒擔任通訊作者的故意DeepSeek-R1研究論文登上國際權威期刊《Nature》封面,DeepSeek在論文中正面回應了有關模型蒸餾的加入質(zhì)疑。
DeepSeek表示,首次數(shù)據(jù)DeepSeek-V3-Base的回應合成訓練數(shù)據(jù)僅來自普通網(wǎng)頁和電子書,不包含任何合成數(shù)據(jù),蒸餾質(zhì)疑在預訓練冷卻階段,故意也沒有故意加入OpenAI生成的加入合成數(shù)據(jù),此階段使用的首次數(shù)據(jù)數(shù)據(jù)都是通過網(wǎng)頁抓取的。
不過,回應合成DeepSeek也承認已觀察到一些網(wǎng)頁包含大量OpenAI模型生成的蒸餾質(zhì)疑答案,這可能導致基礎模型間接受益于其他強大模型的故意知識。
此外,加入DeepSeek-V3-Base的數(shù)據(jù)截止時間為2024年7月,當時尚未發(fā)布任何公開的先進推理模型,這進一步降低了從現(xiàn)有推理模型中無意蒸餾的可能性。
DeepSeek還強調(diào),R1并非通過復制OpenAI模型生成的推理示例來學習,只是和大多數(shù)其他大語言模型一樣,R1的基礎模型是在網(wǎng)絡上訓練的,因此它會吸收互聯(lián)網(wǎng)上已有的AI生成的內(nèi)容。
研究團隊采用了純強化學習框架,并引入組相對策略優(yōu)化算法,僅依據(jù)最終答案的正確與否給予獎勵,而非讓模型模仿人類推理路徑,讓模型在實踐中自然涌現(xiàn)出自我反思、自我驗證等高級行為。
Hugging Face的機器學習工程師Lewis Tunstall也表示,現(xiàn)有證據(jù)已相當明確地表明,僅使用純強化學習即可獲得極高性能,DeepSeek的推理方案可能足夠優(yōu)秀而無須使用OpenAI模型進行蒸餾。