We describe Mega-COV, a billion-scale dataset from Twitter for studying COVID-19. The dataset is diverse (covers 268 countries), longitudinal (goes as back as 2007), multilingual (comes in 100+ languages), and has a significant number of location-tagged tweets (~169M tweets). We release tweet IDs from the dataset. We also develop and release two powerful models, one for identifying whether or not a tweet is related to the pandemic (best F1=97%) and another for detecting misinformation about COVID-19 (best F1=92%). A human annotation study reveals the utility of our models on a subset of Mega-COV. Our data and models can be useful for studying a wide host of phenomena related to the pandemic. Mega-COV and our models are publicly available.


翻译:我们描述Mega-COV,这是用于研究COVID-19的来自Twitter的10亿尺度数据集。数据集多种多样(覆盖268个国家)、纵向(与2007年相同)、多语种(以100+种语言出现)和大量贴有位置标签的推文(~169M 推文),我们从数据集中发布推文ID。我们还开发并发布两种强大的模型,一种用于确定推文是否与该流行病相关(最佳F1=97%),另一种用于发现关于COVID-19的错误信息(最佳F1=92% ) 。一项人类注解研究揭示了我们模型在Mega-COV子子子子集中的实用性。我们的数据和模型可用于研究与该流行病有关的广泛现象。Mega-COV和我们的模型可以公开获取。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
Arxiv
4+阅读 · 2018年9月6日
VIP会员
相关资讯
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
Top
微信扫码咨询专知VIP会员