硅谷巨頭meta組建四小組研究幻方量化大模型DeepSeek
硅谷科技巨頭meta已成立四個專門研究小組,以深入探究中國人工智能公司深度求索開發的大模型DeepSeek的工作原理。DeepSeek一經推出,便憑借其性能與成本優勢引發行業震動,令meta等硅谷巨頭頓感壓力。
這四個研究小組將重點研究以下方面:
* 降低訓練和運行成本:研究DeepSeek如何使用更低成本的硬件和算法來實現高效訓練和運行。
* 訓練數據分析:探索幻方量化可能使用的訓練數據,以了解其模型的性能和局限性。
* 模型屬性重構:考慮基于DeepSeek模型的屬性,重構meta自己的模型,提升其性能和效率。
DeepSeek是由中國量化巨頭幻方量化開發的大模型,其推理大模型DeepSeek-R1于1月20日正式發布。這款開源模型在數學、代碼和自然語言推理等任務上表現出色,其訓練成本僅為557.6萬美元,使用2048塊英偉達H800 GPU集群運行55天完成,遠低于OpenAI GPT-4o模型的訓練成本。
DeepSeek-R1的低成本高效性震撼了硅谷。meta首席執行官馬克·扎克伯格隨即宣布,meta計劃在2025年投入超過600億美元用于人工智能研究。
OpenAI、meta和其他領先的人工智能團隊已開始仔細研究DeepSeek模型,試圖了解其成本效益優勢的根源。OpenAI科學家Noam Brown表示,DeepSeek表明可以使用相對較少的計算獲得強大的AI模型。
meta工程師也在匿名社交平臺TeamBlind上表達了DeepSeek帶來的壓力。meta首席AI科學家Yann LeCun認為,DeepSeek-R1更重要的意義在于證明了開源模型的優勢,而非中國AI的超越。
LeCun指出,DeepSeek受益于開源研究和項目,例如PyTorch和meta的Llama模型。他強調,這是開源的力量,而非中國AI的超越。這表明,開源模型正在挑戰專有模型的統治地位。
meta研究小組的成立表明,硅谷巨頭正在認真對待DeepSeek的挑戰,并尋求提升其模型的競爭力。隨著人工智能領域的持續發展,開源模型和專有模型之間的競爭將愈發激烈。