会员服务 ·

哈佛用NBA比赛数据生成报道，评测各模型效果 | 数据集+论文+代码

2017 年 7 月 28 日 量子位 专注报道AI

安妮编译整理
量子位出品 | 公众号 QbitAI

近日，哈佛大学的三名研究人员公开发表论文《Challenges of Data-to-Document Generation》，利用NBA的比赛结果数据尝试生成描述性文本，并测试了现有的神经网络模型生成文本效果如何。

这篇论文由Sam Wiseman、Stuart M. Shieber和Alexander M. Rush三人共同完成。Wiseman是工程和应用科学学院的博士生，Shieber和Rush同是是哈佛大学的NLP专家。

△ 从左到右依次为Wiseman、Shieber和Rush

论文摘要

神经模型已经在小型数据库生成短描述文本问题上取得了重大进展。在这篇文章中，我们用稍微复杂的数据库测试神经模型数据转文本的能力，探究现有方法在这个任务中的有效性。

首先，我们引入了一个记载了大量数据的语料库，里面也包含与数据匹配的描述性文档。随后，我们创建了一套用来分析表现结果的评估方法，并用当前的神经模型生成方法获取基线观测数据。

结果表明，这些模型可以生成流畅的文本，但看起来不像人类写的。此外，模板化的基线在某些指标上的表现会超过神经模型。

测试数据集

研究人员用两个数据集测试模型性能。

第一个数据集是来自体育网站ROTOWIRE的4853篇NBA比赛报道，包含NBA在2014年初到2017年3月之间的比赛。这个数据集被随机分为训练、验证和测试集，分别包含3398、727和728条报道。

第二个数据集来自体育网站SBNation,涵盖了10903篇从2006年底到2017年3月之间的报道。其中训练、验证和测试集中分别有7633、1635和1635条报道。

下面这张表格展示了数据集中可能被记录的信息——

△ 可能被记录的信息

测试结果

研究人员从ROTOWIRE数据库中抽取了以下数据，里面同时包含了比分数据和球员信息，让模型转化成文本。

根据上面的数据，神经模型生成了以下文字内容。虽然不如新闻报道有文采，但看起来还算流利。

扩展资料

最后，附送研究详细信息——

Paper地址：

https://arxiv.org/pdf/1707.08052.pdf

Dataset地址：

https://github.com/harvardnlp/boxscore-data

Code地址：

https://github.com/harvardnlp/data2text

【完】

活动报名

8月9日(周三)晚，量子位邀请三角兽首席科学家王宝勋，分享基于对抗学习的生成式对话模型，欢迎点击这里报名~

交流沟通

量子位还有自动驾驶、NLP、CV、机器学习等专业讨论群，仅接纳相应领域的一线工程师、研究人员等。

请添加小助手qbitbot2为微信好友，提交相应说明，符合条件将被邀请入群。（审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者等岗位，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

△ 扫码强行关注『量子位』

追踪人工智能领域最劲内容

登录查看更多

相关内容

神经模型

关注 1

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

专知会员服务

17+阅读 · 2020年7月6日

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

专知会员服务

20+阅读 · 2020年7月1日

【ACL2020-Google】BLEURT:一种基于迁移学习的自然语言生成度量

专知会员服务

20+阅读 · 2020年5月12日

【IJCAI2020-CMU】结构注意力的神经抽象摘要

专知会员服务

22+阅读 · 2020年4月23日

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

专知会员服务

84+阅读 · 2020年4月9日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

专知会员服务

15+阅读 · 2020年2月1日

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

专知会员服务

22+阅读 · 2020年1月28日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

65+阅读 · 2019年10月27日

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

机器之心

5+阅读 · 2019年5月4日

带你读论文 | 数据到文本生成的近期优质论文，我们为你挑选了这六篇

微软研究院AI头条

4+阅读 · 2019年2月21日

AI所有领域最优论文+代码查找神器：966个ML任务、8500+论文任你选

机器之心

4+阅读 · 2019年2月2日

必备收藏！8500+公开代码论文，950多项机器学习任务最优结果汇总

新智元

5+阅读 · 2019年2月2日

800万中文词，腾讯AI Lab开源大规模NLP数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年10月26日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

命名实体识别从数据集到算法实现

专知

55+阅读 · 2018年6月28日

用机器学习预测谁将夺得世界杯冠军？附完整代码！

CSDN

4+阅读 · 2018年6月14日

揭秘|AI在斯坦福阅读测试中胜过人类，但TA真的看懂了吗

机器人大讲堂

3+阅读 · 2018年1月25日

Hierarchical Human Parsing with Typed Part-Relation Reasoning

Arxiv

6+阅读 · 2020年3月10日

A Sketch-Based System for Semantic Parsing

Arxiv

4+阅读 · 2019年9月12日

ShelfNet for Real-time Semantic Segmentation

Arxiv

7+阅读 · 2018年12月10日

Bidirectional Attention for SQL Generation

Arxiv

4+阅读 · 2018年6月21日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

GraphRNN: A Deep Generative Model for Graphs

Arxiv

6+阅读 · 2018年2月24日

Large-Scale Image Retrieval with Attentive Deep Local Features

Arxiv

3+阅读 · 2018年2月3日

Mix-and-Match Tuning for Self-Supervised Semantic Segmentation

Arxiv

8+阅读 · 2018年1月30日

Deep Semantic Role Labeling with Self-Attention

Arxiv

13+阅读 · 2017年12月5日

VIP会员

哈佛用NBA比赛数据生成报道，评测各模型效果 | 数据集+论文+代码

安妮 编译整理量子位出品 | 公众号 QbitAI

论文摘要

测试数据集

测试结果

扩展资料

活动报名

交流沟通

诚挚招聘

相关内容

安妮编译整理
量子位出品 | 公众号 QbitAI