直播预告 | 大模型技术论坛上线，SMP十周年系列论坛 & Big Model Meetup

2021 年 11 月 27 日 PaperWeekly

全国社会媒体处理大会创办于2012年，每年举办一次，现已成为社会媒体处理的重要学术活动。第十届全国社会媒体处理大会（SMP 2021）由中国中文信息学会社会媒体处理专委会主办，北京邮电大学和北京大学联合承办。
SMP 2021因疫情延期至2022年上半年举办，虽然暂时无法线下相聚，为纪念社会媒体处理大会十周年，组委会决定于 2021年11月开始举办 SMP十周年系列纪念活动 ，形式包括并不限于前沿论坛、讲习班、特邀报告等，并将根据疫情发展情况选择线上或线下形式，欢迎各位对社会媒体处理感兴趣的国内外同行关注和参与。
SMP 2021大会官网：
https://conference.cipsc.org.cn/smp2021/

欢迎扫码参与

2018年以来预训练模型技术成功将深度学习框架应用于海量无标注数据，在大数据和大算力的支持下，「大模型」一定程度上具备了通用的语言能力，可以非常方便地通过微调技术适配到广泛下游任务，任务性能得到普遍显著提升，成为自然语言处理等领域的最新学习范式，前沿动态日新月异。

「全国社会媒体处理大会（SMP）」创立于2012年，是中国中文信息学会社会媒体处理专委会的旗舰会议，本次论坛为SMP十周年系列纪念活动的第3场。「Big Model Meetup」系列活动则是由智源研究院悟道团队、青源会、清华大学计算机科学与技术系博硕论坛、中国中文信息学会青年工作委员会共同组织的大模型技术社区。本次论坛由智源社区提供社区支持，PaperWeekly、MLNLP（机器学习算法与自然语言处理）社区提供媒体支持。

本次论坛以 大模型加速计算技术 为主题，于 2021年11月28日 在线上召开，邀请了 周明、车万翔、邱锡鹏 等著名学者担任特邀讲者，并邀请多位优秀青年学者做前沿技术报告。

论坛直播

论坛主题：大模型技术
直播时间：2021年11月28日09:00-17:00
观看方式：

B站直播：https://live.bilibili.com/21484823
智源社区：https://event.baai.ac.cn/activities/190

论坛安排

欢迎感兴趣朋友扫码报名参会，共同研讨！

论坛讲者

报告题目：孟子轻量化预训练模型
报告摘要： 为了让模型更高效地学习知识并实现轻量化的现实落地，我们开发了“孟子”中文预训练模型，包括语言理解模型、文本生成模型、金融分析模型和多模态模型。本报告将介绍“孟子”中文预训练模型的技术框架并探讨轻量化预训练的关键技术，涵盖预训练任务构造、知识增强、训练策略和轻量化部署等多个方面。

周明

创新工场首席科学家，澜舟科技创始人

讲者简介：周明，创新工场首席科学家、澜舟科技创始人。曾任微软亚洲研究院副院长、国际计算语言学协会（ACL）主席。现任中国计算机学会副理事长、中国中文信息学会常务理事。他还担任哈尔滨工业大学、天津大学、南开大学、北京航天航空大学、中国科技大学等高校的博士导师。周明博士于2021年6月创立了北京澜舟科技有限公司，带领团队推出了孟子轻量化中文预训练模型并获中文预训练评测（CLUE）第一名。孟子新一代认知服务引擎项目获 HICOOL 2021 国际创业大赛最高奖暨人工智能和金融赛道冠军。

张倬胜

上海交通大学博士生

讲者简介：张倬胜，上海交通大学计算机科学与工程系博士研究生，导师为赵海教授。研究领域为自然语言处理，具体方向包括预训练语言模型、阅读理解和对话系统。以第一作者（含共同一作）在ACL, ICLR, AAAI, EMNLP, COLING, TPAMI, TASLP, TKDE等国际权威会议和期刊上发表长文16篇，引用量1000余次。承担IJCAI 2021机器阅读理解方向的Tutorial，曾在CCL 2020学生研讨会作专题报告。在SQuAD2.0, SNLI, RACE, MuTual, ShARC, CCL-CMRC 2017, CLUE等多个榜单和评测中获得第一名。入选“2021全球AI华人新星百强”榜单。

报告题目：自然语言处理中的数据增广
报告摘要：数据增广（Data Augmentation，DA）方法通过产生用于模型训练的新数据，提高训练数据的多样性，从而帮助模型更好地泛化到未见的测试数据，缓解深度学习任务中可能存在的数据稀缺问题。DA方法较早被应用于CV领域，近年来，其在自然语言处理任务中也得到了越来越多的关注，涌现出大量相关工作。当下，DA方法种类繁多，而自然语言处理的任务又多种多样、各具特点和挑战，这导致研究者常常难以选择合适的DA方法。同时，繁多的DA研究工作也让跟进相关进展阻力重重。为了解决上述问题，帮助研究者更好地理解和使用DA方法，本报告系统总结并分析了自然语言处理领域中现有的DA方法，并根据增广数据的多样性将DA方法分为复述（Paraphrasing）、噪声（Noising）和采样（Noising）三类。此外，还总结了超参数、训练策略等需要考虑的问题和常见技巧，并从文本分类、文本生成和结构化预测三类NLP任务的角度，对各DA方法的进展和发展趋势进行分析。最后，对DA领域面临的挑战和未来发展趋势加以展望。

车万翔

哈尔滨工业大学教授

讲者简介：车万翔，哈尔滨工业大学计算学部长聘教授、博士生导师，人工智能研究院副院长，社会计算与信息检索研究中心副主任。教育部青年长江学者，黑龙江省“龙江学者”青年学者，斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长；国际计算语言学学会亚太分会（AACL）执委兼秘书长。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文100余篇，其中AAAI 2013年的文章获得了最佳论文提名奖。出版教材 3 部，译著 2 部。目前承担2030“新一代人工智能”重大项目课题、国家自然科学基金等多项科研项目。负责研发的语言技术平台（LTP）已被600余家单位共享，并授权给百度、腾讯、华为等公司使用。2018、2019连续两年获CoNLL国际评测第1名。2020年获黑龙江省青年科技奖；2015、2016连续两年获Google Focused Research Award（谷歌专注研究奖）；2016年获黑龙江省科技进步一等奖（第2完成人）；2012年获黑龙江省技术发明奖二等奖（第2完成人）；2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖（第2完成人）、首届汉王青年创新奖（个人）等多项奖励。2017年，所主讲的MOOC课程《高级语言程序设计（Python）》获国家精品在线开放课程。

报告题目：百度文心ERNIE系列预训练模型及应用实践
报告摘要：2019年，百度提出了基于知识增强的预训练语言模型文心(ERNIE)，将知识与多源数据预训练相结合，在NLP领域取得世界级突破，ERNIE在国际权威的通用语言理解评估基准GLUE上，以超越人类水平3个百分点的成绩获得全球第一。2020年，基于知识增强和持续学习算法，百度又在语言生成、跨模态、多语言预训练等方向取得突破，先后提出了ERNIE-GEN、ERNIE-VIL、ERNIE-M等模型。2021年，百度发布知识增强大模型ERNIE 3.0，刷新50余个中文NLP基准，登顶权威语言理解SuperGLUE榜首。目前，文心ERNIE已全面应用于搜索引擎、推荐、智能音箱、智能客服等百度百余个产品，显著改善亿万网民的用户体验。文心ERNIE也面向开发者和企业进行开放，累积支持5万余名开发者，包含金融、保险、医疗、工业等行业，助力产业智能化升级。本次报告主要包含百度ERNIE技术介绍、应用实践以及产品化探索。

孙宇

百度杰出架构师

讲者简介：孙宇，百度杰出架构师、百度文心(ERNIE)负责人。主要研究领域包括预训练模型、对话理解、信息检索、深度学习等。领导研发了知识增强语义理解技术ERNIE、百度搜索引擎核心语义技术等世界领先技术，相关技术广泛应用于搜索引擎、推荐、智能音响等产品。发表国内外专利七十余项、论文数十篇，相关论文被Paper Digest评为AAAI 2020最具影响力的学术论文之一，取得全球最大语义评测SemEval等世界冠军十余个。曾获国家技术发明奖二等奖、世界人工智能大会最高奖SAIL奖、中国人工智能学会优秀科技成果奖、中国电子学会科技进步一等奖、百度最高奖等奖项。

报告题目：语义驱动可视化内容创造
报告摘要：本报告将介绍基于多模态预训练技术的语义驱动可视化内容创造最新进展。首先，简要回顾针对文本或视觉内容的单模态预训练方法。然后，重点介绍针对语言和视觉内容的多模态预训练方法，及其在可视化内容检索（基于文本的图片或视频检索）和可视化内容创造（基于文本的图片或视频生成和编辑）上的典型工作。最后，总结该前沿领域所面临的主要挑战，并对未来研究方向进行讨论。

段楠

微软亚洲研究院高级研究员/研究经理

天津大学兼职教授

讲者简介：段楠博士，微软亚洲研究院高级研究员/研究经理，天津大学兼职教授，主要从事自然语言处理、大规模预训练模型、代码智能和机器推理等相关研究，多次担任ACL、EMNLP、NAACL等国际会议高级领域主席和领域主席，CCF杰出会员和杰出讲演者，CCF-NLPCC青年科学家，发表学术论文100余篇，持有专利10余项，多项研究成果用于微软各类人工智能产品。

报告题目：悟道文汇文图生成模型——CogView
报告摘要：非限定领域文本到图像的生成一直是一个开放的问题，这需要一个强大的生成模型和跨模态的理解的能力。我们提出了CogView，一个带有VQ-VAE标记器的40亿参数Transformer来解决这个问题。由于生成高分辨率图像的序列长度远长于文本数据，CogView提出了新的稀疏注意力机制。我们还演示了各种下游任务的微调策略，例如风格学习、超分辨率、文本图像相关性排序等，以及稳定预训练的方法，例如消除NaN损失。CogView在MS COCO数据集上实现了最先进的FID，优于以前基于GAN的模型和最近的类似工作DALL-E。

丁铭

清华大学博士生

讲者简介：清华大学计算机系博士生，师从唐杰教授。曾在KDD、NeurIPS、ACL、CIKM等会议发表多篇一作论文。

报告题目：如何训练一个全能的预训练模型？——兼顾理解和生成的中文预训练模型CPT
报告摘要：中文预训练模型现如今正在蓬勃发展，新的模型层出不穷。这些模型一般可分为两类：一类采用BERT相似的架构，重点提升自然语言理解任务的性能；另一类致力于更好的文本生成，使用生成式架构和训练任务。致力于同时兼顾理解和生成任务，我们提出了一种非对称的单输入多输出模型——CPT。通过简单的参数共享和多任务预训练，使得模型能学到自然语言理解和文本生成的共性知识和特性知识。同时，模型采用深层编码器和浅层解码器的非对称结构，保证了下游任务微调时的灵活性和易用性。实验结果表明，CPT在下游的自然语言理解任务和文本生成任务中都有明显效果，并且特有的浅层解码器结构能大大加速模型的训练和预测。本报告将介绍兼顾理解和生成的中文预训练模型，训练和微调方法。

邱锡鹏

复旦大学教授

讲者简介：邱锡鹏，复旦大学计算机学院教授，国家优青获得者，于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究，发表CCF A/B类论文70余篇，获得ACL 2017杰出论文奖（CCF A类）、CCL 2019最佳论文奖，有4篇论文入选PaperDigest发布的IJCAI/ACL/EMNLP的最有影响力论文（各会议每年10篇）。出版开源专著《神经网络与深度学习》，Github关注数1.4万，豆瓣评分9.4分。主持开发了开源框架FudanNLP和FastNLP，已被国内外数百家单位使用。2015年入选首届中国科协青年人才托举工程项目，2018年获钱伟长中文信息处理科学技术奖青年创新奖一等奖，2020-2021年连续两年入选由清华-中国工程院知识智能联合研究中心发布的"AI 2000人工智能全球最具影响力提名学者"等。培养学生曾获中国中文信息学会优博、中国人工智能学会优博、上海市优博、微软学者、百度奖学金等。

报告题目：超大语言模型与语言理解
报告摘要：今天以GPT-3为代表的超大模型几乎统治了自然语言处理每个任务和分支。这些超大模型在各种自然语言理解和生成任务上取得了令人惊叹的效果，但他们是否真的理解语言还是只是简单地建模统计共现？又或者，什么是理解？大模型+大数据的道路是否是通向理想的人工智能的正确路径？讲者将分享他在这些问题上的思考。

黄民烈

清华大学副教授

讲者简介：黄民烈博士，清华大学长聘副教授，国家杰青，中文信息学会自然语言生成与智能写作专委会副主任、CCF学术工作委员会主任助理，获国家自然科学基金重点项目资助。他的研究领域为自然语言处理，特别是自然语言生成、对话系统、阅读理解等。曾获得中国人工智能学会吴文俊人工智能科技进步奖一等奖（第一完成人），中文信息学会汉王青年创新奖，阿里巴巴创新合作研究奖。著有《现代自然语言生成》一书，在国际会议期刊发表论文超过100篇，多次获得国际主流会议的最佳论文或提名（IJCAI、ACL、SIGDIAL等）。研发对话系统平台ConvLab和ConvLab2，中文开放域对话预训练模型EVA、CDial-GPT等。担任顶级期刊TNNLS、TACL、CL编委，ACL 2021资深领域主席（SAC），EMNLP 2021研讨会联合主席，10余次担任ACL/EMNLP的领域主席。

报告题目：如何更好利用大模型——预训练模型的提示学习方法
报告摘要：近年来深度学习成为自然语言处理关键技术，特别是2018年以来的预训练语言模型，显著提升了自然语言处理整体性能。如何更好地激发大规模预训练模型在下游任务上的效果，是广泛关注的研究课题。最近，提示学习（Prompt Learning）通过设计与预训练任务相似的提示模板的方式，有效降低了预训练任务与下游任务的差异，从而显著提升了预训练模型在下游任务的效果，取得了很多突破性进展。本报告将介绍面向预训练模型的提示学习方法、前沿动态以及仍然面临的挑战问题。

刘知远

清华大学副教授

智源青年科学家

讲者简介：刘知远，清华大学计算机系副教授。主要研究方向为自然语言处理。2011年获得清华大学博士学位，已在人工智能著名国际期刊和会议发表论文100余篇，Google Scholar统计引用超过17,000次。曾获教育部自然科学一等奖（第2完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖（第2完成人）、中国中文信息学会汉王青年创新奖，入选国家万人计划青年拔尖人才、北京智源研究院青年科学家、2020年Elsevier中国高被引学者、中国科学青年人才托举工程。担任中文信息学会青年工作委员会主任，中文信息学会社会媒体处理专委会秘书长，ACL、EMNLP、WWW、CIKM、COLING领域主席。

报告题目：从训练到推理：预训练模型的加速算法
报告摘要：近年来，预训练语言模型成为自然语言处理领域广受关注的研究课题。从ELMO、GPT、BERT等模型发布以来，预训练语言模型在文本分类、自动问答、对话系统等多项下游任务上都取得了不错的效果。最新发布的T5、GPT3等超大规模预训练模型进一步地展示了其令人瞩目的小样本（few-shot）、推理（reasoning）等能力，为自然语言处理研究提供了一种全新的范式。然而，超大预训练模型的资源占用严重阻碍了其落地到实际场景。本报告将从训练和推理两个方面，介绍最新的对预训练模型进行加速的前沿动态。

林衍凯

腾讯微信高级研究员

讲者简介：林衍凯，毕业于清华大学计算机系自然语言处理与社会人文计算实验室，现为腾讯微信模式识别中心高级研究员。研究方向包括信息抽取、知识图谱、预训练模型等。目前已在人工智能、自然语言处理等领域的著名国际会议IJCAI，AAAI，EMNLP，ACL发表相关论文30余篇，Google Scholar统计引用数超过4000。曾获2017年百度奖学金、2018年清华大学学术新秀、2020年教育部自然科学一等奖（第3完成人）。

报告题目：悟道文澜图文多模态大模型
报告摘要：近年来，基于多模态数据的语义理解与认知探索成为了人工智能领域的一个重要研究热点，旨在使计算机拥有针对多种模态数据的表示、计算与推理能力。已经发布的文澜模型是首个中英文多模态双塔模型。文澜2.0在1.0的基础上进行了多方面改进：采用了更大的参数量和更多的数据；选择使用Multi-Grid Split池化方法来替换检测器，从而显著减少计算代价，并保持模型的细节捕捉能力；采用了高效的分布式多模态预训练框架，提出基于DeepSpeed的多模态预训练算法，最大化利用GPU和CPU，并最优地支持跨模态对比学习。本报告将从模型训练、评测结果、可解释性和可拓展性角度介绍文澜模型。

高一钊

中国人民大学博士生

讲者简介：中国人民大学高瓴人工智能学院博士生，师从卢志武教授；以核心成员身份参与了悟道·文澜1.0和2.0的图文预训练工作。

费楠益

中国人民大学博士生

讲者简介：中国人民大学高瓴人工智能学院博士生，师从卢志武教授；以第一作者身份在ICCV、ICLR等会议发表多篇论文。

报告题目：EVA-悟道文滔对话大模型
报告摘要：虽然近年来预训练语言模型的发展极大提升了对话生成模型的能力，但是在中文自然语言处理领域，受限于公开数据的数据量以及模型训练的开销，对于资源有限的研究组来说，完整地训练一个具有良好中文对话能力的模型仍然是一件十分困难的事情。因此，本报告将以 EVA 模型为例，介绍利用公开数据构建中文对话系统的过程以及可能遇到的诸多困难，包括数据的爬取、清洗和模型的训练、微调。EVA 具有28亿参数，是现在最大的开源中文开放域对话模型，和其他开源中文对话模型相比有着更强的对话相关性和多样性，可以被作为基座模型用于闲聊、情绪安抚等多个下游场景。

顾煜贤

清华大学博士生

讲者简介：顾煜贤：清华大学计算机系2021级博士生，导师为黄民烈副教授，研究方向为预训练语言模型、开放域对话系统，相关工作发表在 EMNLP, AIOpen 等会议或期刊上，悟道 2.0 文韬、文源团队主要成员之一。

报告题目：CPM-悟道文源中文大模型
报告摘要：构建大规模预训练语言模型需要收集大量的预训练数据以及花费相应的计算开销，然而除此之外，它还需要研究者对于预训练模型有一个系统性的了解，以便解决构建过程中遇到的各种问题。本报告将基于CPM-1、CPM-2两个中文超大规模预训练模型的构建过程，介绍预训练模型构建过程中的关键细节。具体而言，预训练模型构建过程可以分为模型结构选型、模型预训练、模型微调、以及模型推理，不同环节需要相应的针对性处理，进而提高模型的训练、推断效率，以及增强模型的稳定性。