微信版大语言模型来了：跨时空对话李白、教你高情商说话，API在线试玩全都有

会员服务 ·

微信版大语言模型来了：跨时空对话李白、教你高情商说话，API在线试玩全都有

2022 年 10 月 15 日 PaperWeekly

大规模语言模型，微信版，来了！

并且甫一登场，就没藏着掖着：

论文、API接口、在线试玩网站……一条龙全都齐备。

续写文本、阅读理解等常规任务就不说了，这个名叫WeLM的AI，竟然直接让我和李白跨时空聊起了杜甫：

我：现在有一首关于你的歌，其中一句歌词是「要是能重来，我要选李白」，请问你自己有什么看法？

李白：我要选杜甫。

这还不算完，WeLM甚至还治好了我不会聊天的毛病，分分钟教会我如何高情商说话。

这么一个AI，参数量不算大，目前处于百亿水平。

但值得关注的是，实验结果显示，它在18个中文语言任务里，效果堪比参数量是其25倍的模型。

是不是有点手痒想上手一试了？先奉上链接，咱们再仔细说说，这波微信是怎么做到的。

体验链接：https://welm.weixin.qq.com/docs/playground/
API接口：https://welm.weixin.qq.com/docs/api/
论文地址：https://arxiv.org/abs/2209.10372

「学富五车」的大模型

微信语言大模型WeLM，全名Well-Read Language Model，也就是「学富五车的语言模型」。

在翻译任务上，WeLM不光可以做到基本的，甚至三语夹杂也难不倒它。

在文本续写任务上，只需给出开头就能生成适应不同风格的文本。

这种多语言、多任务能力是怎么做到的？

其实WeLM与著名的GPT-3是同类，都是自回归解码器结构，微信团队选择这种结构就是看中其在海量数据中掌握无穷范式的能力。

在具体实现方法上，WeLM还有两项特色。

一是采用RoPE相对位置编码，与传统的固定位置编码相比能更好处理长文本，比如理解整篇文章甚至整本书。

二是使用62k个token的SentencePiece并保留其中的空格和Tab，这样更有利于下游任务。

使用这些方法，WeLM总共设计了从13亿到100亿参数的三个版本，可按需调用。

其中100亿参数的满血版WeLM在14项中文任务中整体表现超过同大小的模型，甚至在零样本任务上超过比它大25倍的模型。

这其中最大的秘诀就是精心准备的高质量训练数据上充分训练，也就是「学富五车」的含义所在。

高质量训练数据包括从Common Crawl下载的近两年中文网页、大量书籍、新闻、论坛数据和学术论文。

收集到的数据总量超过10TB，其中包含750G英文数据，中文中夹杂的英日韩语为了语义连贯也全部保留。

不过这还不算完，需要经过清洗、去重等一系列步骤才能算得上是高质量数据。

首先是去除噪声和脏数据，结合使用规则和模型检测后，超过87%的数据被过滤。

再利用SimHash算法去重，进一步过滤掉40%的数据。

接下来要去除一切和测评相关的数据，保证公平性，以 17-gram 为检测重复粒度再次过滤了0.15%的数据。

一系列处理后留下的数据量为262B tokens，最后再对这些数据进行不同比重的采样，使数据平滑分布在各个话题上。

对于预训练，团队认为当今多数大模型的训练都不够充分，WeLM 100亿参数版的训练量基本与1750亿的GPT-3相当（300B tokens），在128张A100上训练用了大概24天时间。

为了保证训练效率，WeLM在训练过程中还使用了完全可原地复现的形式，不管发生任何问题都能从最近的checkpoint恢复。

自1750亿参数的GPT-3之后，语言模型规模越来越大，到今年谷歌的PaLM已经达到5400亿，中文大模型同样有这个趋势。

可以看出微信团队选择了另一条路线，以高质量训练数据和高效训练做到「四两拨千斤」的效果。

到这一步WeLM已经有了不错的表现，不过接下来这个步骤再次将其零样本泛化能力提到新的高度。

研究团队针对76个数据集各人工撰写10-20个Prompt，将原任务中的文本关系的标签和输入信息转化成流畅通顺的自然语言形式，更符合自回归语言模型的训练形式。

使用这些Prompt对模型微调后，相当于让模型学会了面对多样的Prompt该做什么。如果遇到相似Prompt形式的全新任务，也可以有更稳定的表现。

实验证明，在全量数据上微调后的模型在新的NLP任务上具备更优秀的零样本迁移能力，同时也使得微调变为一项一劳永逸的工作。

最后，研究团队还测试了WeLM的三个额外能力。

通过提供示例，WeLM可以对自己的决策作出解释，不过这种能力不太稳定，还需要进一步探索。

通过简单提问，WeLM可以对结果进行自我纠正和检查能力，为后续提高性能提供了可能方向。

WeLM还表现出一定的记忆能力，如果输入内容完美匹配前文，即使内容很长、出现频次很低，模型依然可以准确的生成剩下的部分。

最后再来总结一下，WeLM精通中文的同时掌握英日韩等多种外语、可以通过少样本或零样本学习执行全新任务，同时以合理尺寸做到与25倍参数量的模型相媲美使用成本较低，总之就是奔着实用性和大规模落地去的。

同步开放在线体验与API，也是希望有想法的开发者能方便的用起来，让WeLM大模型真正实用的工具。

WeLM怎么用

具体来说，WeLM线上Demo目前释出的功能包括：对话-采访、阅读理解、翻译、改写、续写以及自由任务。

在正式开始跟WeLM玩耍之前，记得要先给模型扔一段简单的「范文」，也就是「prompt」。

在线网站会给出一些默认的prompt，你也可以自行修改设计。需要遵循的设计原则是：

第一，描述清楚；第二，例子具备代表性（多个例子更好）。

以文本分类任务为例，prompt应该长这样：

其中的技巧包括，首先，把分类任务用自然语言清晰地表达出来，在上面这个示例中，「微博」即为输入，「类别」即为输出。

其次，在第一句的指令型描述中，需要把可能的分类结果都列出来。

最后，如果效果不佳，可以尝试加入更多例子，让WeLM更清楚你到底想要做怎样的任务。

另外，正如前文所说，WeLM拥有零样本学习能力。

所以直接把它当作问答搜索引擎来用，也不是不行（手动狗头）。

如果你还想得到更多样化的生成结果，token数量、temperature等参数均可调整。

更重要的一点是，WeLM已开放API接口 。也就是说，如果身为开发者的你想在自己的App里用上这个大模型，填写调查问卷注册即可。

One More Thing

说起来，这样的大模型要是真的落地应用了，妈妈岂不是再也不用担心我因为不会聊天而母胎solo ？

比如说……

你还有什么有趣的脑洞？大胆招呼起来~

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

微信

关注 43

微信是腾讯公司（Tencent Inc.,）旗下的一款移动端为主的即时通讯（IM）应用。

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【上海交通大学陈露博士论文】认知型口语交互系统中的对话管理技术

专知会员服务

39+阅读 · 2021年11月23日

港中文等最新《多模态元学习》综述论文

专知会员服务

124+阅读 · 2021年10月8日

【KDD2021】用NAS实现任务无关且可动态调整尺寸的BERT压缩

专知会员服务

17+阅读 · 2021年9月2日

【SIGIR2021】基于知识图谱的增强连贯性文本规划的评论生成

专知会员服务

31+阅读 · 2021年5月14日

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【EMNLP 2019 最佳论文】信息瓶颈专门化单词嵌入（用于解析）（Specializing Word Embeddings（for Parsing）by Information Bottleneck）

专知会员服务

24+阅读 · 2019年11月20日

能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类

量子位

2+阅读 · 2022年9月24日

200+语言任意互译，新开源的大模型让粤语靓仔直接喜大普奔

量子位

0+阅读 · 2022年7月8日

AI说话也有小情绪！Meta AI连发三篇Textless NLP论文：语音生成的终极答案？

新智元

0+阅读 · 2022年4月7日

赛尔原创@EMNLP 2021 | 多语言和跨语言对话推荐

哈工大SCIR

0+阅读 · 2022年3月11日

不拆分单词也可以做NLP，哈工大最新模型在多项任务中打败BERT，还能直接训练中文

量子位

0+阅读 · 2022年2月28日

1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3

机器之心

0+阅读 · 2021年12月10日

元宇宙中可跨语种交流！Meta 发布新语音模型，支持128种语言无障碍对话

THU数据派

2+阅读 · 2021年11月26日

谷歌发布最新看图说话模型，可实现零样本学习，多类型任务也能直接上手

量子位

1+阅读 · 2021年10月24日

复旦大学张奇组：对话摘要数据不足？对话数据、文档摘要数据，我全都要！

PaperWeekly

0+阅读 · 2021年10月11日

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

哈工大SCIR

10+阅读 · 2019年11月18日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于海量语料自然标注信息的汉语自然语块分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于hLDA层次主题模型的中文多文档摘要研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于复杂网络的中文文本语义相似度研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于数据驱动的中文自然语言生成关键技术研究

国家自然科学基金

7+阅读 · 2012年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于实例动态泛化的共指消解

国家自然科学基金

0+阅读 · 2009年12月31日

汉语文语转换中语义与表现力联合建模

国家自然科学基金

0+阅读 · 2008年12月31日

面向开放领域的自动关系抽取技术研究

国家自然科学基金

5+阅读 · 2008年12月31日

Look, Read and Ask: Learning to Ask Questions by Reading Text in Images

Arxiv

0+阅读 · 2022年11月23日

LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception

Arxiv

0+阅读 · 2022年11月23日

VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval

Arxiv

0+阅读 · 2022年11月23日

A Bioinspired Bidirectional Stiffening Soft Actuator for Multimodal, Compliant, and Robust Grasping

Arxiv

0+阅读 · 2022年11月22日

HopRetriever: Retrieve Hops over Wikipedia to Answer Complex Questions

Arxiv

10+阅读 · 2020年12月31日

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

A Deep Reinforcement Learning Chatbot (Short Version)

Arxiv

13+阅读 · 2018年1月20日

VIP会员