MiniMax發布新一代開源模型,首次大規模實現線性注意力機制
2023年1月15日,上海稀宇科技有限公司(以下簡稱“MiniMax”)發布并開源新一代01全新系列模型,該系列包含基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。
MiniMax-01系列模型首次大規模實現線性注意力機制,突破了傳統Transformer架構的限制,在處理海量文本數據時具有更高的效率和精度。該系列模型的核心性能遠超現有的大語言模型,能夠高效處理全球最長400萬token的超長文本輸入,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
MiniMax認為,2025年將是Agent高速發展的關鍵年份,無論是單Agent系統還是多Agent系統,都需要更長的上下文來支持持續記憶和大量通信。MiniMax-01系列模型的推出,正是為了滿足這一需求,邁出建立復雜Agent基礎能力的第一步。
線性注意力的突破
傳統Transformer架構采用自注意力機制,計算復雜度為二次復雜度。為了優化計算效率,MiniMax研究社區提出了線性注意力等多種技術。通過使用線性注意力,原生Transformer的計算復雜度可從二次復雜度大幅下降到線性復雜度,在處理長輸入的時候具有非常高的效率。
在MiniMax-01系列模型中,線性注意力機制被廣泛應用。這使得該系列模型能夠高效處理超長文本輸入,而無需進行復雜的截斷或分段處理。此外,線性注意力機制還可以減少模型的參數量和訓練時間,進一步提升模型的性價比和易用性。
領先的綜合性能
MiniMax-01系列模型在多項任務評測中表現出領先的綜合性能。在單模態語言理解任務上,MiniMax-Text-01在GLUE、SuperGLUE和RACE等基準測試中均取得了最優成績。在多模態理解任務上,MiniMax-VL-01在VQA、NLVR2和VQAv2等基準測試中同樣位居前列。
MiniMax-01系列模型的參數量高達4560億,其中單次激活459億。這一規模使其成為目前全球最大的開源模型之一。憑借其強大的性能和高效的架構,MiniMax-01系列模型有望在自然語言處理、計算機視覺、多模態理解等領域取得廣泛的應用。
API服務和開源平臺
MiniMax提供基于MiniMax-01系列模型的文本和多模態理解API服務。受益于架構的創新、效率的優化、集群訓推一體的設計以及內部大量并發算力復用,MiniMax能夠以業內最低的價格區間提供高質量的API服務。標準定價為輸入token1元/百萬token,輸出token8元/百萬token。
此外,MiniMax-01系列開源模型已應用于MiniMax旗下產品海螺AI,并在全球范圍內上線。企業與個人開發者可前往MiniMax開放平臺使用API,并獲得技術支持和產品文檔。通過開源和API服務,MiniMax希望將新一代人工智能技術惠及更廣泛的開發者和用戶,共同推動人工智能的創新和發展。