MiniMax 开源了最新的基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01。 新模型的最大亮点是,在业内首次大规模实现了新的线性注意力机制,这使得输入的上下文窗口大大变长:一次可处理 400 万 token,是其他模型的 20-32 倍。 他们相信,这些模型能够给接下来一年潜在 Agent 相关应用的爆发做出贡献。 为什么这项工作对于 Agent 如此重要? 随着 Agent 进入应用场景,无论是单个 Agent 工作时产生的记忆,还是多个 Agent 协作所产生的 context,都会对模型的长上下文窗口提出更多需求。

我们推出了MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01,它们与顶级模型相媲美,同时在处理更长上下文方面具有更强的能力。其核心在于闪电注意力机制及其高效的扩展性。为了最大化计算能力,我们将其与专家混合(Mixture of Experts, MoE)相结合,创建了一个拥有32个专家、总参数量达到4560亿的模型,其中每个token激活的参数为45.9亿。我们为MoE和闪电注意力开发了优化的并行策略以及高效的计算-通信重叠技术。这一方法使我们能够在具有数百亿参数的模型上进行高效训练和推理,同时处理跨越数百万token的上下文。MiniMax-Text-01的上下文窗口在训练时可达到100万个token,在推理时能够扩展到400万个token,且成本可控。我们的视觉-语言模型MiniMax-VL-01是通过继续使用5120亿个视觉-语言token进行训练构建的。在标准和自定义基准测试中的实验结果表明,我们的模型在性能上与最先进的模型如GPT-4o和Claude-3.5-Sonnet相匹敌,同时提供了20到32倍更长的上下文窗口。我们将MiniMax-01公开发布,网址为:https://github.com/MiniMax-AI。

MiniMax-Text-01 究竟是如何炼成的?事实上,他们为此进行了一系列创新。从新型线性注意力到改进版混合专家架构,再到并行策略和通信技术的优化,MiniMax 解决了大模型在面对超长上下文时的多项效果与效率痛点。 全新模型架构、性能比肩GPT-4o

在 MiniMax-01系列模型中,我们做了大胆创新:首次大规模实现线性注意力机制**,传统Transformer架构是唯一的选择**。这个模型的参数量高达4560亿,其中单次激活459亿。模型综合性能比肩海外顶尖模型,同时能够高效处理**全球最长400万token**的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。超长上下文、开启Agent时代

我们相信2025年会是Agent高速发展的一年,不管是单Agent的系统需要持续的记忆,还是多Agent的系统中Agent之间大量的相互通信,都需要越来越长的上下文。在这个模型中,我们走出了第一步,并希望使用这个架构持续建立复杂Agent所需的基础能力。 极致性价比、不断创新

****受益于架构的创新、效率的优化、集群训推一体的设计以及我们内部大量并发算力复用,我们得以用业内最低的价格区间提供文本和多模态理解的API,标准定价是输入token 1元/百万token,输出token 8元/百万token。欢迎大家在MiniMax开放平台体验、使用。MiniMax开放平台:https://www.minimaxi.com/platformMiniMax开放平台海外版:

https://www.minimaxi.com/en/platformMiniMax-01系列模型在https://github.com/MiniMax-AI开源,后续也会持续更新。

成为VIP会员查看完整内容
3

相关内容

【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
61+阅读 · 2024年5月14日
大模型专题报告:百模渐欲迷人眼,AI应用繁花开,42页pdf
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
重磅!商汤开源目标跟踪最强算法SiamRPN系列
AI前线
13+阅读 · 2019年5月24日
TF Boys必看!一文搞懂TensorFlow 2.0新架构!
引力空间站
18+阅读 · 2019年1月16日
收藏!CNN与RNN对中文文本进行分类--基于TENSORFLOW实现
全球人工智能
12+阅读 · 2018年5月26日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
16+阅读 · 2017年6月13日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
VIP会员
相关VIP内容
相关资讯
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
重磅!商汤开源目标跟踪最强算法SiamRPN系列
AI前线
13+阅读 · 2019年5月24日
TF Boys必看!一文搞懂TensorFlow 2.0新架构!
引力空间站
18+阅读 · 2019年1月16日
收藏!CNN与RNN对中文文本进行分类--基于TENSORFLOW实现
全球人工智能
12+阅读 · 2018年5月26日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
16+阅读 · 2017年6月13日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员