DeepSeek首次回應蒸餾OpenAI質疑 :沒有故意加入合成數據
9月18日消息,首次數據近日,回應合成由DeepSeek團隊共同完成、蒸餾質疑梁文鋒擔任通訊作者的故意DeepSeek-R1研究論文登上國際權威期刊《Nature》封面,DeepSeek在論文中正面回應了有關模型蒸餾的加入質疑。
DeepSeek表示,首次數據DeepSeek-V3-Base的回應合成訓練數據僅來自普通網頁和電子書,不包含任何合成數據,蒸餾質疑在預訓練冷卻階段,故意也沒有故意加入OpenAI生成的加入合成數據,此階段使用的首次數據數據都是通過網頁抓取的。
不過,回應合成DeepSeek也承認已觀察到一些網頁包含大量OpenAI模型生成的蒸餾質疑答案,這可能導致基礎模型間接受益于其他強大模型的故意知識。
此外,加入DeepSeek-V3-Base的數據截止時間為2024年7月,當時尚未發布任何公開的先進推理模型,這進一步降低了從現有推理模型中無意蒸餾的可能性。
DeepSeek還強調,R1并非通過復制OpenAI模型生成的推理示例來學習,只是和大多數其他大語言模型一樣,R1的基礎模型是在網絡上訓練的,因此它會吸收互聯網上已有的AI生成的內容。
研究團隊采用了純強化學習框架,并引入組相對策略優化算法,僅依據最終答案的正確與否給予獎勵,而非讓模型模仿人類推理路徑,讓模型在實踐中自然涌現出自我反思、自我驗證等高級行為。
Hugging Face的機器學習工程師Lewis Tunstall也表示,現有證據已相當明確地表明,僅使用純強化學習即可獲得極高性能,DeepSeek的推理方案可能足夠優秀而無須使用OpenAI模型進行蒸餾。