CLUE社区最新神器！PromptCLUE：大规模多任务Prompt预训练中文开源模型

会员服务 ·

CLUE社区最新神器！PromptCLUE：大规模多任务Prompt预训练中文开源模型

2022 年 10 月 30 日 新智元

新智元报道

编辑：LRS 好困

【新智元导读】CLUE社区又发布了一个新神器PromptCLUE，中文NLP也实现了Train Once，Run Everywhere！

PromptCLUE支持几十个不同中文类型的任务，具有较好的零样本学习能力和少样本学习能力。

针对理解类任务，如分类、情感分析、抽取等，可以自定义标签体系；针对生成任务，可以进行采样自由生成。

千亿中文token上大规模预训练，亿级中文任务数据上完成训练，训练任务超过150+。

比base版平均任务提升7个点+；具有更好的理解、生成和抽取能力，并且支持文本改写、纠错、知识图谱问答。

promptCLUE实现了中文上的三大统一：统一模型框架，统一任务形式，统一应用方式。

统一模型框架：采用Text-to-Text的生成式预训练模型进行统一建模。

统一任务形式： Prompt统一不同的NLP任务间的差异，转化为统一的text-to-text数据形式。

统一应用方式：对目标任务形成拿来即用的模型，下游应用时都可转化为统一的prompt自适应方式，进行zero-shot/few-shot测试。

项目地址: https://github.com/clue-ai/PromptCLUE

DEMO地址: www.CLUEbenchmarks.com/clueai.html

在线DEMO

效果对比：16类中文任务

任务类型	Base版	Large版
分数	63.47	70.5 5(+7.08)
参数	220M	770M
理解任务（acc / 10类）
分类 classify	89.56	92.89
情感分析	80.55	85.64
相似度计算	70.94	78.47
自然语言推理	78.00	86.67
指代消解	30.00	64.00
阅读理解 mrc	71.69	84.78
关键词提取	41.44	47.78
信息抽取 ner	63.02	70.09
知识图谱问答	-	53.11
中心词提取	66.50	71.50
生成任务（rouge/ 6类）
翻译-英中/中英	55.92	59.67
摘要	31.71	34.48
问答 qa	21.18	27.05
文章/问题生成	35.86	39.87
改写	-	57.68
纠错	-	93.35

License（许可证）

1）PromptCLUE-base可直接下载和使用；

2）PromptCLUE-large版的非商用License

使用方法

安装需要的项目和包

    
    
      
     
     
       
      
      
        
      
      
        
      
      
        
     
     
       
     
     
       git clone https://github.com/huggingface/transformers.gitpip install ./transformerspip install sentencepiece

加载模型

    
    
      
     
     
       
      
      
        
      
      
        
      
      
        
     
     
       
     
     
       from transformers import AutoTokenizer, AutoModelForSeq2SeqLMtokenizer = AutoTokenizer.from_pretrained("ClueAI/PromptCLUE-base")model = AutoModelForSeq2SeqLM.from_pretrained("ClueAI/PromptCLUE-base")

使用模型进行预测

    
    
      
     
     
       
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
      
      
        
     
     
       
     
     
       import torchfrom transformers import AutoTokenizer# 修改colab笔记本设置为gpu，推理更快device = torch.device('cuda')model.to(device)def preprocess(text):return text.replace("\n", "_")def postprocess(text):return text.replace("_", "\n")def answer(text, sample=False, top_p=0.6):'''sample：是否抽样。生成任务，可以设置为True;top_p：0-1之间，生成的内容越多样、'''text = preprocess(text)encoding = tokenizer(text=[text], truncation=True, padding=True, max_length=768, return_tensors="pt").to(device)if not sample: # 不进行采样out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_length=128, num_beams=4, length_penalty=0.6)else: # 采样（生成）out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_length=128, do_sample=True, top_p=top_p)out_text = tokenizer.batch_decode(out["sequences"], skip_special_tokens=True)return postprocess(out_text[0])

支持的任务（部分）

意图分类, 新闻分类, 情感分析, 自然语言推理, 阅读理解, 阅读理解-自由式, 摘要, 翻译-中英, 翻译-英中, 通用信息抽取, 简历信息抽取, 医疗信息抽取电商客户需求分析, 医疗语义相似度, 问题生成, 指代消解, 关键词抽取, 情感倾向, 根据标题文章生成, 知识图谱问答, 相似句子生成/改写, 纠错, 中心词提取.....

使用自定义数据集进行训练-PyTorch实现

使用pCLUE数据集进行训练、预测和效果验证。

pCLUE基准上的效果

示例输入

新闻分类(classify)

Input:分类任务：折价率过低遭抛售基金泰和跌7.15%，证券时报记者 朱景锋本报讯 由于折价率在大盘封基中处于最低水平，基金泰和昨日遭到投资者大举抛售，跌幅达到7.15%，远超大盘。盘面显示，基金泰和随大盘高开，之后开始震荡走低，午后开始加速下行，几乎没有像样反弹。截至收盘时，在沪深300指数仅下跌2.56%的情况下，基金泰和收盘跌幅高达7.15%，在所有封基中跌幅最大，而昨日多数封基跌幅在2%左右。选项：财经，娱乐，时政，股票答案：
Model output:财经

意图分类(classify)

Input:意图分类：帮我定一个周日上海浦东的房间选项：闹钟，文学，酒店，艺术，体育，健康，天气，其他答案：

Model output:酒店

情感分析(classify)

Input:情感分析：这个看上去还可以，但其实我不喜欢选项：积极，消极答案：

Model output:消极

推理(generate)

Input:请推理出上下文的关系：前提：对不起事情就是这样。假设：事情就是这样，不需要道歉。选项：中立，蕴涵，矛盾答案：

Model output:矛盾

阅读理解(generate)

Input:阅读文章，给出答案：段落：港汇指数，全称港元实际汇兑指数（Effective Exchange Rate Index for the Hong Kong Dollar）是由香港政府统计处编制的一项指数，以反映港元与香港主要贸易伙伴之货币的名义有效汇率加权平均数的变动情况。加权比重是按1999年至2000年平均贸易模式所制定，但政府并未有公布详细的计算公式。旧港汇指数基准日为2000年1月1日，基数为100点。由2012年1月3日起，新系列港汇指数 (包括15种货币及以2010年1月 = 100) 已取代旧港汇指数系列。港汇指数的作用，主要是用于反映香港的货品及服务的价格相对于其主要贸易伙伴的变动，并通常被视作反映香港价格竞争力的指标。问题：港汇指数的加权比重如何制定？答案：

Model output:按1999年至2000年平均贸易模式所制定

阅读理解-自由式(generate)

Input:阅读以下对话并回答问题。男：今天怎么这么晚才来上班啊？女：昨天工作到很晚，而且我还感冒了。男：那你回去休息吧，我帮你请假。女：谢谢你。问题：女的怎么样？选项：正在工作，感冒了，在打电话，要出差。答案：

Model output:感冒了

摘要(generate)

Input:为下面的文章生成摘要：北京时间9月5日12时52分，四川甘孜藏族自治州泸定县发生6.8级地震。地震发生后，领导高度重视并作出重要指示，要求把抢救生命作为首要任务，全力救援受灾群众，最大限度减少人员伤亡答案：

Model output:四川甘孜发生6.8级地震

翻译-中英(generate)

Input:翻译成英文：议长去了台湾，中国人民很愤怒。答案：

Model output:The secretary went to Taiwan and the Chinese people were angry.

翻译-英中(generate)

Input:翻译成中文：This is a dialogue robot that can talk to people.答案：

Model output:这是一台可以与人交谈的对话机器人。

通用信息抽取(generate)

Input:信息抽取：据新华社电广东省清远市清城区政府昨日对外发布信息称,日前被实名举报涉嫌勒索企业、说“分分钟可以搞垮一间厂”的清城区环保局局长陈柏,已被免去清城区区委委员问题：机构名，人名，职位答案：

Model output:机构名：新华社，清城区政府，清城区环保局，清城区区委人名：陈柏职位：局长，区委委员

简历信息抽取(generate)

Input:阅读文本抽取关键信息：张玄武2000年出生中国国籍无境外居留权博士学历现任杭州线锁科技技术总监。问题：机构，人名，职位，籍贯，专业，国籍，学历，种族答案：

Model output:人名：张玄武职位：杭州线锁科技技术总监国籍：中国国籍学历：博士学历

医疗信息抽取(generate)

Input:从文本中抽取信息：我胃部不舒服，前几天去医院做B超，医生说我有胃炎问题：症状，检查，身体，疾病答案：

Model output:检查：B超身体：胃部

电商客户需求分析(classify)

Input:电商客户诉求分类：收到但不太合身，可以退换吗选项：买家咨询商品是否支持花呗付款，买家表示收藏关注店铺，买家咨询退换货规则，买家需要商品推荐答案：

Model output:买家咨询退换货规则

医疗语义相似度(classify)

Input:下面句子是否表示了相同的语义：文本1：糖尿病腿麻木怎么办？文本2：糖尿病怎样控制生活方式选项：相似，不相似答案：

Model output:不相似

问题生成(generate)

Input:问题生成：中新网2022年9月22日电 22日，商务部召开例行新闻发布会，商务部新闻发言人束珏婷表示，今年1-8月，中国实际使用外资1384亿美元，增长20.2%；其中，欧盟对华投资增长123.7%(含通过自由港投资数据)。这充分表明，包括欧盟在内的外国投资者持续看好中国市场，希望继续深化对华投资合作。答案：

Model output:1、商务部发言人束珏婷表示，中国去年1-8月实际使用外资1384亿美元,增长20.2%，其中欧盟对华投资增长多少？2、欧盟对华投资的增长是否达到预期？3、欧盟在对华投资合作方面取得什么样的成果？

指代消解(generate)

Input:指代消解：段落：少平跟润叶进了她二爸家的院子，润生走过来对他（代词）说：“我到宿舍找了你两回，你到哪里去了？”问题：代词“他”指代的是？答案：

Model output:少平

关键词抽取(generate)

Input:抽取关键词：当地时间21日，美国联邦储备委员会宣布加息75个基点，将联邦基金利率目标区间上调到3.00%至3.25%之间，符合市场预期。这是美联储今年以来第五次加息，也是连续第三次加息，创自1981年以来的最大密集加息幅度。关键词：

Model output:美联储，利率目标区间，加息，基点

情感倾向(classify)

文字中包含了怎样的情感：超可爱的帅哥，爱了。。。选项：厌恶，喜欢，开心，悲伤，惊讶，生气，害怕答案：

Model output:喜欢

技术交流和问题反馈

参考资料：

https://mp.weixin.qq.com/s/Ms8LzcvVhz4GasbVC3mvXA

点击阅读原文，进入在线DEMO！

登录查看更多

相关内容

CLUE

关注 0

中文预训练模型研究进展

专知会员服务

79+阅读 · 2022年7月21日

基于预训练语言模型的文本生成

专知会员服务

29+阅读 · 2022年1月28日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

Knowledge In PLM: 语言模型可以作为一种知识库吗？

专知会员服务

30+阅读 · 2021年6月15日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

30+阅读 · 2020年9月29日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

ACL‘22杰出论文：Prompt范式有bug！

夕小瑶的卖萌屋

2+阅读 · 2022年7月10日

EasyNLP开源｜中文NLP+大模型落地，EasyNLP is all you need

阿里技术

2+阅读 · 2022年4月27日

基于自回归填空的通用语言模型预训练 | 论文荐读

学术头条

5+阅读 · 2022年3月14日

新突破！华为诺亚开源首个亿级中文多模态数据集-悟空！

CVer

1+阅读 · 2022年3月8日

华为诺亚开源首个亿级中文多模态数据集-悟空，填补中文NLP社区一大空白

机器之心

1+阅读 · 2022年2月25日

超越快手腾讯！度小满NLP模型登顶CLUE榜首

新智元

0+阅读 · 2021年12月17日

达摩院开源中文社区首个表格预训练模型，取得多个基准SOTA

机器之心

1+阅读 · 2021年12月3日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

机器之心

40+阅读 · 2019年9月5日

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

14+阅读 · 2019年6月25日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于组合范畴语法的汉语深层句法分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于内容分析和行为分析的社区问答关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于hLDA层次主题模型的中文多文档摘要研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于复杂网络的中文文本语义相似度研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于数据驱动的中文自然语言生成关键技术研究

国家自然科学基金

7+阅读 · 2012年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

面向网络知识服务的中文动态语义分析关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

问答式信息检索中信息抽取技术研究

国家自然科学基金

3+阅读 · 2008年12月31日

ADEPT: A DEbiasing PrompT Framework

Arxiv

0+阅读 · 2022年12月23日

Finetuning for Sarcasm Detection with a Pruned Dataset

Arxiv

0+阅读 · 2022年12月23日

Perching on Moving Inclined Surfaces using Uncertainty Tolerant Planner and Thrust Regulation

Arxiv

0+阅读 · 2022年12月21日

Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing

Arxiv

0+阅读 · 2022年12月21日

MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning

Arxiv

0+阅读 · 2022年12月21日

Conditional Prompt Learning for Vision-Language Models

Arxiv

13+阅读 · 2022年3月10日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员