Github 项目推荐 | 在线新闻评论分析数据集——SOCC

2018 年 2 月 11 日 AI研习社 孔令双

SOCC 是一个用于分析在线新闻评论的语料库,该语料库里包含了大量的新闻及相关的新闻评论。库中搜集的文章都是评论文章,不是纯的新闻资讯,它比当前任何可用的新闻评论语料库都大,并且保留了评论回答的结构和其他的元数据。除了原始的预料库,SOCC 还提供了四种标注形式:有建设性的、恶意的、否定的和评估的语料。

  原始数据

该库包含 10339 条评论文章,加拿大日报英文版 303665 条评论主题的 663173 条评论,时间跨度从 2012 年的 1 月到 2016 年的 12 月。我们将语料库分成三个子语料库:文章语料库,评论语料库和评论线索语料库,分为三个 CSV 文件:gnm_articles.csv,gnm_comments.csv和gnm_comment_threads.csv。

  注释语料库

注释语料库储存的是建设性的和恶意的语料,该库为一个 CSV 文件,其中包含 1,043 条注释评论,涉及科技、移民、恐怖主义、社会问题、宗教等多个领域的 10 篇文章。我们用 CrowdFlower 作为众包注释平台注释了建设性的评论,我们要求标注者先阅读文章,然后告诉我们显示的评论是否有建设性。

  SFU 否定语料库

否定注释用 WebAnno 来执行,您可以在的 GitHub 页面(https://github.com/sfu-discourse-lab/WebAnno)上看到 WebAnno 服务器安装说明。指南目录包含注释指南的完整描述,注释可以从 WebAnno 的 .tsv 文件中作为项目使用。 这些文件是使用 WebAnno v.3 格式导出的。

  SFU评估语料库

评估注释同样使用 WebAnno 来执行,结构与否定语料库的结构相同,但 .tsv文件略有不同。 指南目录中提供了评估注释指南。

  论文:

  • The SFU Opinion and Comments Corpus: A corpus for the analysis of online news comments

    http://www.sfu.ca/~mtaboada/docs/publications/Kolhatkar_etal_SOCC.pdf

  • Using New York Times Picks to identify constructive comments.

    https://aclanthology.info/pdf/W/W17/W17-4218.pdf

  • Proceedings of the Workshop Natural Language Processing Meets Journalism

    http://nlpj2017.fbk.eu/

  •  Constructive language in news comments.

    http://aclweb.org/anthology/W17-3002

  • Proceedings of the 1st Abusive Language Online Workshop

    https://sites.google.com/site/abusivelanguageworkshop2017

  项目链接:

https://github.com/sfu-discourse-lab/SOCC

春节 AI 学习狂欢,精品课程 豪华特辑

优惠折上折,福利抢不停!


进入阅读原文获取更多福利

▼▼▼   

登录查看更多
2

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
【MIT】Yufei Zhao《图论与加法组合学》,177页pdf
专知会员服务
51+阅读 · 2020年4月27日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
27+阅读 · 2020年3月18日
缺失数据统计分析,第三版,462页pdf
专知会员服务
109+阅读 · 2020年2月28日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
216+阅读 · 2020年2月21日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
34+阅读 · 2019年12月8日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
最新!今日头条新闻文本分类数据集(github)
全球人工智能
14+阅读 · 2018年5月18日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
Arxiv
10+阅读 · 2019年2月19日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
5+阅读 · 2018年1月23日
VIP会员
相关VIP内容
【MIT】Yufei Zhao《图论与加法组合学》,177页pdf
专知会员服务
51+阅读 · 2020年4月27日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
27+阅读 · 2020年3月18日
缺失数据统计分析,第三版,462页pdf
专知会员服务
109+阅读 · 2020年2月28日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
216+阅读 · 2020年2月21日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
34+阅读 · 2019年12月8日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
最新!今日头条新闻文本分类数据集(github)
全球人工智能
14+阅读 · 2018年5月18日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
Top
微信扫码咨询专知VIP会员