最新!今日头条新闻文本分类数据集(github)

2018 年 5 月 18 日 全球人工智能 fateleak

高薪招聘兼职AI讲师和AI助教!

加入高端数字货币投资者群!

数据来源:今日头条客户端

数据格式:

6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,

之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

分类code与名称:

100 民生 故事 news_story 101 文化 文化 news_culture 102 娱乐 娱乐 news_entertainment 103 体育 体育 news_sports 104 财经 财经 news_finance 106 房产 房产 news_house 107 汽车 汽车 news_car 108 教育 教育 news_edu 109 科技 科技 news_tech 110 军事 军事 news_military 112 旅游 旅游 news_travel 113 国际 国际 news_world 114 证券 股票 stock 115 农业 三农 news_agriculture 116 电竞 游戏 news_game

数据规模:

共382688条,分布于15个分类中。

采集时间:

2018年05月

实验结果:

以0.7 0.15 0.15做分割。欢迎提交你使用本数据集的实验结果~

以上Acc较低的原因:

1,数据不均衡,部分类目数据太少

2,部分分类之间本身模棱两可,例如故事、文化、旅行

详见text-class xxxx内代码

后续可以优化的地方:

1,更多的数据

2,更全的分类

因为分类不全,例如缺少美食等,导致实际使用时,分哪里都不对的情况出现。

3,更均衡的分类数据

4,引入正文

原文链接:https://github.com/fateleak/toutiao-text-classfication-dataset

- 加入AI学院学习 -

点击“ 阅读原文 ”进入学习

登录查看更多
14

相关内容

基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
80+阅读 · 2020年3月4日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
57+阅读 · 2020年1月3日
斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
文本分类实战: 机器学习vs深度学习算法对比(附代码)
数据挖掘入门与实战
5+阅读 · 2017年10月25日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
26+阅读 · 2018年9月21日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
6+阅读 · 2018年4月21日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关资讯
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
文本分类实战: 机器学习vs深度学习算法对比(附代码)
数据挖掘入门与实战
5+阅读 · 2017年10月25日
Top
微信扫码咨询专知VIP会员