海外大语言模型进入新一轮大模型技术突破期,国内也纷纷突破GPT3.5水平 国内外大语言模型进入新一轮突破期。在海外,OpenAI推出GPT-4V,多模态能力加强,Google推出新一轮大语言模型Gemini,其中Ultra模型在文本处理的基准测试优于GPT4,在2月15日,Google新发布了1.5版本相较于1.0的性能继续提升;Meta近期公布正在架构算力研发LLaMA3并坚持开源;Anthropic旗下的Claude模型也进化到3版本,整体性能略超GPT-4,继续保持长文本性能和安全性特点突出,大模型Mixtral通过MOE结构较好的提质增效。同期在国内包括智谱、文心一言、科大讯飞和通义千问等的新版本都达到了赶超GPT3.5甚至部分能力接近GPT4的水平。 多模态生成大模型层出不穷,SORA引领新一轮大模型创新浪潮 多模态生成大模型进入技术突破期,OpenAI发布视频生成模型SORA,采用Diffusion Transformer结构,使用时空Latent patch表示视频和图像,或成为模拟现实的基础;近期Stability.ai开源Stable Video Diffusion模型,Google发布VideoPoet,视频生成新技术不断涌现;文生图模型也逐步迭代,Midjourney推出V6版本,图片生成能力更加优异;此外在数字人领域,微软推出GAIA大模型,阿里巴巴推出Animate Anyone,我们认为这为垂类商业场景奠定了技术基础。 应用与算力齐头并进,海外安迪比尔定律持续演绎 除去大模型侧的创新,海外应用端在GPTs的带领下诞生了大量应用,2个月内就有超过300万应用创建,OpenAI还为此引入生态体系;在算力端,海外大厂的硬件投资依然持续,Meta在2024年有望继续扩大GPU投资,微软、google和Amazon都预计资本性支出在有望在新的一年继续扩大以支撑AI的投入。