月之暗面,一家頗具潛力的 AI 初創公司,近日在其官方微信公眾號發布了一篇技術分享文章,講述了其新推出的 Kimi k1.5 多模態思考模型的誕生過程。在同日發布的還有 DeepSeek-R1,由于后者過于火爆,使得 k1.5 的消息被無情淹沒。
k1.5 在多模態推理和通用推理能力上達到了 SOTA(state-of-the-art,指最佳技術或最高水平模型)級別。在長思維鏈模式下,其在數學、代碼、多模態推理能力上與 OpenAI o1 正式版水平相當。
月之暗面研究員 Flood Sung 在分享中透露,早在一年多前,他們就已經意識到長思維鏈的有效性。只是囿于成本考慮,他們優先選擇攻關長文本而不是長思維鏈,即 Long-CoT(Long Chain of Thought)。
直到去年 9 月 OpenAI o1 推出后,月之暗面才決定出手長思維鏈。
據悉,長思維鏈技術是一種基于思維鏈(Chain-of-Thought, CoT)的推理增強技術,旨在通過生成更長的推理鏈來提升 LLM 在復雜推理任務中的性能。與傳統的短推理鏈(Short CoT)相比,長思維鏈能夠處理更復雜的任務,因為它允許模型在生成最終答案之前進行更深入的思考。
o1 模型驗證了長思維鏈在數學和編碼等推理任務中的有效性。在長思考(long thought)的幫助下,LLM 傾向于探索、反思和自我改進推理過程,以獲得更準確的答案。
Flood Sung 在文中稱,o1 的發布讓他陷入反思。他認為,成本和速度有摩爾定律加持,可以不斷下降,只要把性能搞上去,剩下的都不是主要問題?!八?,我們得搞長思維鏈,搞 o1?!?/p>
他還提到在實際訓練的過程中有了重要的發現:模型會隨著訓練提升性能而不???增加 token 數,也就是這是 RL(強化學習)訓練過程中模型可以自己涌現的,“這個和友商 Deepseek 的發現幾乎是一樣的?!?/p>
在文章的結尾,Flood Sung 表示,AGI(Artificial General Intelligence,通用人工智能)確實就是近在眼前的事情,如今他重新開始思考 ASL(Artificial Super Intelligence,超級人工智能)。對于做 RL 的人來說,從來都不會把實現 AGI 作為目標,現在給 AI 一個可衡量的目標,然后讓 AI 自己去探索,通過 RL 來提升模型,未來不過是把這一過程不斷地復制到更復雜的場景中去。
然而,這篇技術分享文章同時也揭示了一個鮮為人知的事實:預算掣肘,導致“長思維鏈”的驟然隕落。
根據 Flood Sung 的說法,他們優先考慮把文本搞長,對長思維鏈這件事情不夠重視,主要還是考慮了成本問題。因為長思維鏈是長文本輸出,成本高很多,速度也要慢很多。在這種情況下,把輸出搞長就沒有成為一個高優選項。
這不禁令人扼腕嘆息。如果月之暗面能夠在資金方面得到更好的支持,或許“長思維鏈”就不會隕落得如此迅速,而 k1.5 模型也會在更早的時間里展示出它的強大之處。
值得慶幸的是,月之暗面最終還是在成本和性能之間找到了一個平衡點,推出了 k1.5 模型。雖然其發布之路略顯坎坷,但它的出現仍然為 AI 領域的發展注入了新的活力。
相信在不久的將來,隨著 AI 技術的不斷進步,成本和速度問題終將得到解決。而彼時,“長思維鏈”也必將重現輝煌,在 AGI 的道路上大放異彩。