最新！今日头条新闻文本分类数据集（github） - 专知

会员服务 ·

0

最新！今日头条新闻文本分类数据集（github）

2018 年 5 月 18 日 全球人工智能 fateleak

高薪招聘兼职AI讲师和AI助教！

加入高端数字货币投资者群！

数据来源：今日头条客户端

数据格式：

6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言，

之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据，以_!_分割的个字段，从前往后分别是新闻ID，分类code（见下文），分类名称（见下文），新闻字符串（仅含标题），新闻关键词

分类code与名称：

100 民生 故事 news_story 101 文化 文化 news_culture 102 娱乐 娱乐 news_entertainment 103 体育 体育 news_sports 104 财经 财经 news_finance 106 房产 房产 news_house 107 汽车 汽车 news_car 108 教育 教育 news_edu 109 科技 科技 news_tech 110 军事 军事 news_military 112 旅游 旅游 news_travel 113 国际 国际 news_world 114 证券 股票 stock 115 农业 三农 news_agriculture 116 电竞 游戏 news_game

数据规模：

共382688条，分布于15个分类中。

采集时间：

2018年05月

实验结果：

以0.7 0.15 0.15做分割。欢迎提交你使用本数据集的实验结果~

以上Acc较低的原因：

1，数据不均衡，部分类目数据太少

2，部分分类之间本身模棱两可，例如故事、文化、旅行

详见text-class xxxx内代码

后续可以优化的地方：

1，更多的数据

2，更全的分类

因为分类不全，例如缺少美食等，导致实际使用时，分哪里都不对的情况出现。

3，更均衡的分类数据

4，引入正文

原文链接：https://github.com/fateleak/toutiao-text-classfication-dataset

- 加入AI学院学习 -

点击“ 阅读原文 ”进入学习

登录查看更多

14

相关内容

分类数据

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

59+阅读 · 2020年6月29日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

专知会员服务

84+阅读 · 2020年4月9日

【教程推荐】中科大刘淇教授-数据挖掘基础，刘淇

【教程推荐】中科大刘淇教授-数据挖掘基础，刘淇

专知会员服务

82+阅读 · 2020年3月4日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

专知会员服务

59+阅读 · 2019年12月14日

【课程推荐】斯坦福课程：图机器学习《CS224W: Machine Learning with Graphs(Stanford / Fall 2019)》by Jurij Leskovec

【课程推荐】斯坦福课程：图机器学习《CS224W: Machine Learning with Graphs(Stanford / Fall 2019)》by Jurij Leskovec

专知会员服务

146+阅读 · 2019年12月10日

《全球人工智能发展白皮书》（2019版）发布，94页PDF，德勤科技编

《全球人工智能发展白皮书》（2019版）发布，94页PDF，德勤科技编

专知会员服务

230+阅读 · 2019年11月8日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

专知会员服务

58+阅读 · 2019年10月20日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

33+阅读 · 2019年6月21日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

68+阅读 · 2019年5月17日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

干货下载 | 中文自然语言处理语料/数据集

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

37+阅读 · 2018年12月27日

800万中文词，腾讯AI Lab开源大规模NLP数据集

800万中文词，腾讯AI Lab开源大规模NLP数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年10月26日

资源 | 25个深度学习开源数据集

资源 | 25个深度学习开源数据集

人工智能头条

4+阅读 · 2018年4月22日

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

AI研习社

12+阅读 · 2018年4月10日

资源 | 各领域公开数据集下载

资源 | 各领域公开数据集下载

黑龙江大学自然语言处理实验室

5+阅读 · 2017年12月31日

文本分类实战: 机器学习vs深度学习算法对比（附代码）

文本分类实战: 机器学习vs深度学习算法对比（附代码）

数据挖掘入门与实战

5+阅读 · 2017年10月25日

GREASE: A Generative Model for Relevance Search over Knowledge Graphs

Arxiv

4+阅读 · 2019年10月11日

Inverse Visual Question Answering with Multi-Level Attentions

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

4+阅读 · 2019年9月17日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Robustness Analysis of Visual QA Models by Basic Questions

Arxiv

4+阅读 · 2018年5月26日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Beyond Part Models: Person Retrieval with Refined Part Pooling (and a Strong Convolutional Baseline)

Arxiv

7+阅读 · 2018年1月9日

A Hierarchical Contextual Attention-based GRU Network for Sequential Recommendation

Arxiv

5+阅读 · 2017年12月7日

Natural Language Guided Visual Relationship Detection

Arxiv

3+阅读 · 2017年11月21日

VIP会员

相关主题

相关VIP内容

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

59+阅读 · 2020年6月29日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

专知会员服务

84+阅读 · 2020年4月9日

【教程推荐】中科大刘淇教授-数据挖掘基础，刘淇

【教程推荐】中科大刘淇教授-数据挖掘基础，刘淇

专知会员服务

82+阅读 · 2020年3月4日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

专知会员服务

59+阅读 · 2019年12月14日

【课程推荐】斯坦福课程：图机器学习《CS224W: Machine Learning with Graphs(Stanford / Fall 2019)》by Jurij Leskovec

【课程推荐】斯坦福课程：图机器学习《CS224W: Machine Learning with Graphs(Stanford / Fall 2019)》by Jurij Leskovec

专知会员服务

146+阅读 · 2019年12月10日

《全球人工智能发展白皮书》（2019版）发布，94页PDF，德勤科技编

《全球人工智能发展白皮书》（2019版）发布，94页PDF，德勤科技编

专知会员服务

230+阅读 · 2019年11月8日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

专知会员服务

58+阅读 · 2019年10月20日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体化人工智能：架构、应用及未来发展方向的综合综述

《自主武器》365页书籍

联邦学习综述：多层次聚合技术的系统分类、实验洞察与未来前沿

人工智能在空战中的局限及其真正适用领域

相关资讯

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

33+阅读 · 2019年6月21日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

68+阅读 · 2019年5月17日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

干货下载 | 中文自然语言处理语料/数据集

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

37+阅读 · 2018年12月27日

800万中文词，腾讯AI Lab开源大规模NLP数据集

800万中文词，腾讯AI Lab开源大规模NLP数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年10月26日

资源 | 25个深度学习开源数据集

资源 | 25个深度学习开源数据集

人工智能头条

4+阅读 · 2018年4月22日

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

AI研习社

12+阅读 · 2018年4月10日

资源 | 各领域公开数据集下载

资源 | 各领域公开数据集下载

黑龙江大学自然语言处理实验室

5+阅读 · 2017年12月31日

文本分类实战: 机器学习vs深度学习算法对比（附代码）

文本分类实战: 机器学习vs深度学习算法对比（附代码）

数据挖掘入门与实战

5+阅读 · 2017年10月25日

相关论文

GREASE: A Generative Model for Relevance Search over Knowledge Graphs

Arxiv

4+阅读 · 2019年10月11日

Inverse Visual Question Answering with Multi-Level Attentions

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

4+阅读 · 2019年9月17日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Robustness Analysis of Visual QA Models by Basic Questions

Arxiv

4+阅读 · 2018年5月26日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Beyond Part Models: Person Retrieval with Refined Part Pooling (and a Strong Convolutional Baseline)

Arxiv

7+阅读 · 2018年1月9日

A Hierarchical Contextual Attention-based GRU Network for Sequential Recommendation

Arxiv

5+阅读 · 2017年12月7日

Natural Language Guided Visual Relationship Detection

Arxiv

3+阅读 · 2017年11月21日

大家都在搜

大型语言模型

生成式人工智能

无人机系统

蓝牙安全攻防

朱克爱德华兹家族

再见，TD-SCDMA！

微信扫码咨询专知VIP会员