Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

这次的发布非常突然，并且距离1.0的正式发布，甚至不到3个月！整体模型性能大幅增强，并且支持100万token上下文窗口，为目前所有大模型中最长的存在！感兴趣的话下载原版或翻译版查看哦！这则技术报告比起Sora也是很惊艳的一次发布！

Gemini 1.5 Pro报告总结：**介绍：**Gemini 1.5 Pro是Google团队开发的多模态混合专家模型，能够处理包含数百万标记的长文本、视频和音频内容。该模型在长文本问答（QA）、长视频QA和长文本自动语音识别（ASR）任务上取得了近乎完美的召回率，并在多项基准测试中达到或超过了Gemini 1.0 Ultra的性能。**模型架构：**Gemini 1.5 Pro基于稀疏混合专家（MoE）Transformer架构，继承了Gemini 1.0的研究进展和多模态能力。模型在训练和推理基础设施方面进行了重大改进，使其在效率、推理和长文本性能方面取得了突破。**训练基础设施和数据集：**使用Google的TPUv4加速器进行训练，数据集包括多模态和多语言数据。在指令调整阶段，模型在多模态数据集上进行微调，并基于人类偏好数据进一步调整。**长文本评估：**模型在合成和真实世界任务中展示了其长文本能力，包括在长文本中检索信息和执行复杂推理。在长文本多模态任务中，Gemini 1.5 Pro在文本、视觉和音频模态上均表现出色。**核心能力评估：**Gemini 1.5 Pro在数学、科学、推理、多语言性、编码和指令遵循等核心能力上均有所提升。与Gemini 1.0 Pro相比，1.5 Pro在大多数基准测试中表现更好，尤其是在数学、科学和推理任务上。**负责任的部署：**Gemini 1.5 Pro遵循结构化的方法进行负责任的部署，包括影响评估、模型政策制定、评估和缓解措施。**附录：**提供了模型卡、进一步的长文本评估结果、自动问题生成流程、多语言性能分析、长视频评估示例、提示和答案提取策略等详细信息。

成为VIP会员查看完整内容

相关内容

Gemini

关注 10

2023年12 月 6 日，谷歌 CEO 桑达尔・皮查伊官宣 Gemini 1.0 版正式上线。这次发布的 Gemini 大模型是原生多模态大模型，是谷歌大模型新时代的第一步，它包括三种量级：能力最强的 Gemini Ultra，适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的 Gemini Nano。

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？附中英文报告

专知会员服务

53+阅读 · 2024年3月7日

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

72+阅读 · 2024年3月5日

最好的大模型讲解课！OpenAI技术大牛Andrej Karpathy发布《大型语言模型》概述，附视频与Slides

专知会员服务

103+阅读 · 2023年11月25日

PaLM 2 大模型发布！谷歌反击ChatGPT， 92页《Google PaLM 2 技术报告》论文详细阐述！附中文版下载

专知会员服务

172+阅读 · 2023年5月11日