百万量级的多模态对话数据集来了，153万张图片4000多主题，已对学术圈开源｜北大&微软新研究

会员服务 ·

百万量级的多模态对话数据集来了，153万张图片4000多主题，已对学术圈开源｜北大&微软新研究

2022 年 11 月 19 日 量子位

羿阁发自凹非寺
量子位 | 公众号 QbitAI

百万量级的多模态对话数据集来了！

MMDialog，这个由北大&微软最新发布的英文数据集，包含了108万个来源于真实世界的高质量对话。

其中包括非重复图片153万张，涉及4184个主题，还支持多种表情符号。

就像人在网上聊天时除了文字，还会发表情包、图片一样，多模态数据集正是旨在促进AI像人类一样交谈。

举个例子，下图是MMDialog收录的一段人类对话，可以看到，双方正在用文字、图片和表情符号谈论风景和野生动物。

目前，该数据集已对学术研究领域开源，可访问文末链接获取使用权限～

MMDialog优势在哪？

虽然目前开源的英文大规模图文数据集较为丰富，如Visual Dialog、Image-Chat、OpenViDial、PhotoChat等，但它们或多或少都存在一定的局限性。

比如Visual Dialog仅为针对特定图片内容的提问与解答，场景与任务的定义比较单一；

Image-Chat是从给定图像的对话中派生出来的，这种会话中讨论的主题通常只由给定图像触发和支撑，回复的内容也只有文本信息，这与人类日常对话的发散性并不完全一致；

PhotoChat则是由众包标注，尽管已比较接近于现实生活中的多模态对话，但仍然受到数据规模较小的限制。

以下图为例，与PhotoChat相比，MMDialog拥有88倍的对话数量，47倍的主题丰富度，以及140倍的图片数量。

而且，每段对话平均包含2.59张图像，且可以位于对话过程的任何位置，更符合人类的交流习惯。

其次，MMDialog的另一大优势在于其包含了大量的话题，以推广开放域。

为了保证数据质量，研究人员选择在某英文在线社交平台提取带有某种标签的对话（例如“#travel”、“#friends”、“#golf”），因为标签往往概括了文本话语和视觉媒体的主要主题。

具体来说，他们人工筛选出4184个流行的标签，且保证每个标签至少收集1000个对话，这样MMDialog数据集不仅满足开放域属性，还可以确保较大的规模。

两种基线模型

为了用MMDialog数据集建立更真实的对话系统，本文还提出并规范了两个基于检索和生成场景的响应式生成任务。

此外，研究人员还为上述任务建立了两个基线：生成式基线模型、检索式基线模型，并报告了其实验性能。

生成式基线模型

如下图所示，研究人员复现并改进了多模态回复生成的SOTA模型-Divter ，它包括两个主要部分：一个纯文本对话回复生成器G，以及一个文本描述-图像翻译器F。

具体来说，在输入端，G将对话历史U做为输入，然后生成一个文本序列，该序列可能包括：文本回复、图片的文本描述，或同时包括两者。

然后，图片翻译器F会将图片的文本描述翻译为图片回复，并将所有的文本回复与图片回复依次组合起来做为最后的多模态回复。

值得注意的是，在G的输入端，我们还需要一个图像-文本描述翻译模型，来将所有对话历史中的图像转化为对应的文本描述。

检索式基线模型

下图展示的是多模态检索模型DE++，研究人员复现并改进了PhotoChat的图片分享算法，并将其扩展为同时具备判断模态意图与检索文本/图像的能力。

简单来说，该模型包括一个回复模态意图预测模块和一个回复排序模块，它们具有相似的模型结构，并利用CLIP分别编码对话历史U以及回复候选集C中的文本和图像。

在模态意图预测模块做出下一个元素的模态预测后，排序模块会从C中选择与其相关性最高的作为多模态回复的组成部分，直到模态意图预测模块判定已被完整检索回为止。

研究团队

本篇论文的研究团队来自北大和微软。

其中一作冯家展，是北京大学智能学院的博士生，在MSRA实习期间完成本次研究。

论文和GitHub链接附在文末，如果你是硕士生/博士生/博士后/教职员工/研究型员工等，可以点击申请访问权限～

GitHub链接：
https://github.com/victorsungo/MMDialog

论文链接：
https://arxiv.org/abs/2211.05719

参考链接：
https://mp.weixin.qq.com/s/SArX84T1CDW6p2jWGxPc8A

— 完 —

MEET 2023 大会定档！

首批嘉宾阵容公布

量子位「MEET2023智能未来大会」正式定档12月14日！

首批嘉宾包括郑纬民院士、MSRA刘铁岩、阿里贾扬清、百度段润尧、高通Ziad Asghar、小冰李笛、浪潮刘军以及中关村科金张杰等来自产学研界大咖嘉宾，更多重磅嘉宾陆续确认中。

点击“预约”按钮，一键直达大会直播现场！

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

多模态对话

关注 7

200页pdf100+位作者19家单位！北京智源清华唐杰等发布《大模型路线图》

专知会员服务

92+阅读 · 2022年3月30日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

知识增强的文本生成研究进展

专知会员服务

100+阅读 · 2021年3月6日

【EMNLP2020-京东】电子商务产品的多模态联合属性预测与属性值提取

专知会员服务

21+阅读 · 2020年9月17日

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

专知会员服务

97+阅读 · 2020年4月10日

自然语言处理顶会ACL2020放榜了，你的论文中了吗？因新冠将在线举办

专知会员服务

36+阅读 · 2020年4月5日

【WWW2020-北京大学】多模态多轮对话系统，Multi-Modality in Multi-Turn Dialog

专知会员服务

58+阅读 · 2020年3月13日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

MMDialog: 微软&北大发布首个百万量级多模态开放域多轮对话数据集

PaperWeekly

1+阅读 · 2022年11月13日

大规模、高性能，清华、聆心智能推出中文开放域对话预训练开源模型OPD

机器之心

0+阅读 · 2022年11月12日

CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集

机器之心

2+阅读 · 2022年11月7日

挡不住了！扩散模型只用文字就能PS照片了

极市平台

0+阅读 · 2022年10月19日

论文浅尝 | C3KG：中文常识对话知识图谱

开放知识图谱

2+阅读 · 2022年8月18日

APE：基于多文本的论辩对挖掘 — 任务、数据及模型

PaperWeekly

0+阅读 · 2022年4月15日

1亿组图文对，填补中文开源多模态数据集空白！还附带基础模型，来自华为诺亚方舟实验室

量子位

0+阅读 · 2022年2月16日

赛尔原创@ACL 2021 | BERT也能做生成？利用多个BERT模型分离对话生成和对话理解

哈工大SCIR

1+阅读 · 2021年8月20日

新一代多模态文档理解预训练模型LayoutLM 2.0，多项任务取得新突破！

哈工大SCIR

0+阅读 · 2021年7月23日

一文看懂虚假新闻检测（附数据集 & 论文推荐）

PaperWeekly

36+阅读 · 2019年2月19日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

海量众包数据管理的关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于篇章语义的文档级统计机器翻译研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于用户标签软约束话题模型的微博资源建模研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于查询日志的数据库自动模式匹配技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于网上弱标注数据的个性化图像标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于hLDA层次主题模型的中文多文档摘要研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向视力残疾人网页内容无障访问的自动图片描述技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

语义检索和自动识别的唐卡图像知识库系统关键技术研究

国家自然科学基金

0+阅读 · 2008年12月31日

AnisoTag: 3D Printed Tag on 2D Surface via Reflection Anisotropy

Arxiv

0+阅读 · 2023年1月25日

Multi-Tenant Optimization For Few-Shot Task-Oriented FAQ Retrieval

Arxiv

0+阅读 · 2023年1月25日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Fine-grained Entity Typing via Label Reasoning

Arxiv

12+阅读 · 2021年9月13日

Pay Attention to MLPs

Arxiv

28+阅读 · 2021年5月17日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Arxiv

10+阅读 · 2020年3月13日

Extreme Language Model Compression with Optimal Subwords and Shared Projections

Arxiv

18+阅读 · 2019年9月25日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员