谷歌Imagen首次开放测试，安卓苹果都能玩，还有AI写作助手、超长连贯性视频生成模型

会员服务 ·

谷歌Imagen首次开放测试，安卓苹果都能玩，还有AI写作助手、超长连贯性视频生成模型

2022 年 11 月 3 日 量子位

羿阁发自凹非寺
量子位 | 公众号 QbitAI

临近年底，谷歌终于放大招了！

刚刚结束的AI@年度活动上，谷歌一口气发布了四项最新的AIGC技术成果。

其中最引人注意的要数文本图像模型Imagen首次开放测试，敲黑板，这次安卓、苹果都能玩。

其他有趣的产品，还有AI写作协助工具LaMDA Wordcraft、结合Imagen Video和Phenaki优势的超长连贯性视频生成模型等等。

而且，除了官方的总结，几位来自谷歌的科学家也在推特分享了自己心中谷歌AI研究的新进展。

具体有哪些？一起往下看。

Imagen首次开放测试

自推出以来，Imagen一直被与OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比较，但不同的是，谷歌一直没有将该系统向公众开放。

现在，谷歌终于松口，宣布将把Imagen添加到其AI Test Kitchen应用中。

AI Test Kitchen，是今年I/O大会上，谷歌推出的一款用于对各种AI系统进行测试的应用程序，目前苹果、安卓用户都能下载。

最初的时候，用户仅可以在上面与AI聊天机器人LaMDA 2进行交流，此次更新将添加两种与Imagen互动的新方式：城市梦想家和Wobble。

在“城市梦想家”中，你可以用文字命令建造不同主题的城市，其中，Imagen模型承担了创建样本建筑和地块（城市广场、公寓楼、机场等）的作用。

在Wobble中，你可以创造一个小怪物，DIY它的材质（粘土、毛毡、橡胶等），然后给它穿上你选择的衣服，还可以戳戳它，让它“跳舞”。

尽管与其他文本到图像的模式相比，这些互动方式看上去还比较受限制，但谷歌产品管理高级总监乔希·伍德沃德（Josh Woodward）解释称，这一步的意义在于获得公众对这些AI系统的反馈，以及测试哪些行为会使得系统崩溃。

其他AIGC产品

除了最受关注的Imagen模型，谷歌还宣布了在其他内容格式上的AI内容生成技术。

比如LaMDA Wordcraft，一个在大语言模型LaMDA基础上开发的、能辅助专业作家写作的AI写文工具。

它的作用，是在创作者写作的过程当中，根据现有的文本产生新的想法，或者帮助重写已有文句，从而帮助创作者突破“创作瓶颈”。

值得一提的是，下图中的“Evaluative Soliloquies”就是作家刘宇昆（《三体》英文版译者）在Wordcraft帮助下撰写的短篇小说。

除此之外，谷歌还结合了Imagen Video和Phenaki两大模型的优势，推出了一个能生成超长连贯性视频的新模型。

还有AudioLM，一个无需文字和音乐符号训练，仅通过聆听音频样本，就可以继续生成填补乐曲的音频模型。

说完这些谷歌官方公布的新技术，让我们再来看看谷歌的科学家们自己是怎么说的。

谷歌科学家眼里的新进展

除了产品层面，今年谷歌AI研究的新进展还有哪些？

谷歌大脑的工程师周登勇在推特上分享了自己的看法：大模型学会了如何解释答案，检查答案，并将复杂问题分解成子问题解决。

而这一切还要从谷歌今年1月发布的一篇论文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”开始说起。

就是在这篇论文中，谷歌首次提出了思维链提示（chain of thought prompting）的概念。

简单来说，思维链提示就是一种特殊的上下文学习，不同于标准提示只是给出输入-输出对的示例（如下图左），思维链提示还会额外增加一段推理的过程（如下图右）。

这一步的目的是让模型模仿并为当前问题生成自己的思维过程，最终提高生成结果的准确性。

该方法在LaMDA-137B、GPT-3 175B、PaLM-540B三个大型语言模型上都得到了验证：对比标准提示，新方法在算术、常识和符号推理任务的准确率上都有了明显的提高。

并且，随着模型参数量级的提升，思维链提示的效果也呈指数级上升。

尤其是配合上谷歌的超级语言模型PaLM-540B，在包括数学问题在内的多个推理基准测试中达到了SOTA水平，甚至超过了使用验证器进行微调的GPT-3。

很快，两个月后该团队又对该研究进行了跟进。

这篇文章几乎使用了和初代文章完全一样的数据集和设置，主要改进是提出了一种称为自洽性（self-consistency）的简单策略。

简单来说，就像人在思考时会想出几种不同的解决方案再作出判断一样，自洽方法会通过思维提示链从语言模型中采样一组不同的推理路径，再对答案进行多数投票（majority vote），最后返回其中最自洽的答案。

这一步优化不仅意味着离模仿人类思维模式更近一步，还做到了显著地提高思维链方法的性能。

最新的进展是，为了解决从易到难的泛化问题，该团队又提出了一种新颖的提示策略。

它将复杂问题简化为一系列子问题，然后依次解决这些子问题，从而通过对先前解决的子问题的答案来促进解决给定的子问题。

就这样，谷歌正在训练AI一步步朝着人类的思维模式靠近。

最后，说了这么多，这一年，你印象最深的谷歌AI研究是什么？

参考链接：
[1]https://twitter.com/dmvaldman/status/1587525225209425921
[2]https://arxiv.org/abs/2201.11903
[3]https://arxiv.org/abs/2203.11171
[4]https://arxiv.org/abs/2205.10625

— 完 —

「AIGC系列直播 - 应用落地与商业化」直播报名

技术热潮之外，AIGC如何实际落地？又如何长期商业变现？

11月3-4日晚7点到8点，量子位智库联手国内头部AIGC企业及投资机构，为你解答，扫码预约～

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

连贯性

关注 0

【2022新书】数字孪生技术:基础与应用,273页pdf

专知会员服务

186+阅读 · 2022年12月2日

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

谷歌教你学 AI -机器学习的7步骤

专知会员服务

28+阅读 · 2022年3月13日

神经文本生成可用么？斯坦福Abigail博士论文《开放式文本和对话的神经生成》，192页pdf

专知会员服务

26+阅读 · 2021年9月1日

【DeepMind】多模态预训练模型概述，37页ppt

专知会员服务

95+阅读 · 2021年7月2日

最新《可解释人工智能XAI：机会与挑战》25页pdf，Opportunities and Challenges in Explainable Artificial Intelligence (XAI): A Survey

专知会员服务

181+阅读 · 2020年6月23日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【大佬约架】Yoshua Bengio与Gary Marcus之圣诞AI论战「 AI 之道」，附视频地址与slides下载

专知会员服务

24+阅读 · 2019年12月25日

两千人用AI共创一幅画，Stable Diffusion多人在线游戏火了

量子位

0+阅读 · 2022年11月21日

不用关键词也能精准搜索，新AI搜索引擎火了，网友：刚用5分钟就设为默认

量子位

0+阅读 · 2022年11月15日

把Stable Diffusion模型塞进iPhone里，做成APP一分钟出图

机器之心

1+阅读 · 2022年11月10日

谷歌又炫技：派个AI，帮科幻大师刘宇昆把小说写了

新智元

0+阅读 · 2022年11月3日

1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

新智元

2+阅读 · 2022年9月30日

这个模型，竟成为网友的AI果照生成器

新智元

3+阅读 · 2022年9月1日

谷歌亮出 AI“王牌”，生成超逼真图片，网友：OpenAI DALL-E 要被碾压了？

AI前线

0+阅读 · 2022年6月9日

多模态新王登基！OpenAI发布DALL·E 2，生成图像「指哪打哪」

新智元

0+阅读 · 2022年4月10日

扎克伯格凌晨放大招！LeCun称世界模型将带来像人一样的AI

THU数据派

0+阅读 · 2022年2月24日

苹果开年第一购！买下仅24名员工的AI音乐公司，可根据环境动态生成音乐

量子位

0+阅读 · 2022年2月8日

近海环境斜拉索风致疲劳损伤的磁流变阻尼器控制

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

金属上外延大面积高质量硅插层石墨烯的纳电子器件研究

国家自然科学基金

0+阅读 · 2014年12月31日

光引发藻类降解有机污染物的作用机制

国家自然科学基金

0+阅读 · 2013年12月31日

水辅混炼挤出聚合物/石墨烯纳米复合材料的结构与性能

国家自然科学基金

0+阅读 · 2012年12月31日

网上社交网络用户生命活力预测模型及实证研究

国家自然科学基金

0+阅读 · 2012年12月31日

催化功能导向的金属有机框架材料设计与修饰

国家自然科学基金

0+阅读 · 2011年12月31日

面向室内复杂环境的RFID定位方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

普适环境下发布/订阅中间件的模型和关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

无线传感/反应器网络容错拓扑控制机制的研究

国家自然科学基金

0+阅读 · 2008年12月31日

Generalizable Natural Language Processing Framework for Migraine Reporting from Social Media

Arxiv

0+阅读 · 2022年12月23日

Copula Graphical Models for Heterogeneous Mixed Data

Arxiv

0+阅读 · 2022年12月23日

Jamdani Motif Generation using Conditional GAN

Arxiv

0+阅读 · 2022年12月22日

GENIE: Large Scale Pre-training for Text Generation with Diffusion Model

Arxiv

0+阅读 · 2022年12月22日

Towards Reasoning in Large Language Models: A Survey

Arxiv

34+阅读 · 2022年12月20日

Towards Robustness of Text-to-SQL Models Against Natural and Realistic Adversarial Table Perturbation

Arxiv

0+阅读 · 2022年12月20日

Point-E: A System for Generating 3D Point Clouds from Complex Prompts

Arxiv

0+阅读 · 2022年12月16日

AI Governance and Ethics Framework for Sustainable AI and Sustainability

Arxiv

1+阅读 · 2022年9月28日

A Survey of the State of Explainable AI for Natural Language Processing

Arxiv

26+阅读 · 2020年10月1日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

VIP会员