会员服务 ·

你说“神马”？非正式汉语数据集资源上线，帮你训练网络语言处理

2018 年 12 月 1 日 量子位

晓查发自凹非寺
量子位出品 | 公众号 QbitAI

NLP是个好东西，但是汉语文化实在是博大精深，连长辈都看不懂网络词语，想让机器理解它们就更难了。

如果我们还用“正经”训练数据集，那就明显不够用了。

为了解决这个问题，有人从有人收集了3700万条图书评论和5万条bbs回帖，作为大型非正式汉语数据集（LSICC）。

内容来源分别是“豆瓣读书”和Chiphell论坛。

下面请从数据集中感受一下网络论坛文化的洗礼：

作者从Chiphell中选取了几个主题的回帖，其中有大量的网络用语，甚至还有中英文混用。

“辣鸡”当然不是辣味的鸡，“木有”也不是说木头。如果用正经训练集得到的模型去识别它们，结果恐怕会惨不忍睹。

据统计，这个数据集中非正式用语的比例远远高于一般其他数据集，在7.5亿词语中，非正式用语出现了62万次。比例远高于人民日报这样的官方媒体。

结果表明，现实世界自然语言模型处理和现有语料库的语言之间差距明显。

如果使用从正式汉语语料库中提取的向量表示作为单词嵌入，可能导致不良的表现。

所以，如果你需要训练模型去识别网络语言，那一定要尝试一下这个数据集。

这些抓取内容也并非直接可用，好在作者进行了一些预处理，删除了其中较短的句子，另外也对文中的英文单词做了识别。

资源地址：

豆瓣读书评论：
https://github.com/JaniceZhao/Douban-Dushu-Dataset.git

Chiphell回帖：
https://github.com/JaniceZhao/Chinese-Forum-Corpus.git

作者将豆瓣读书评论的内容整理成csv表格，Chiphell回帖则整理成json文件格式。

登录查看更多

相关内容

网络语言

关注 2

网络语言是由网民创造、最先于网络交流中使用的语言。

最新《多任务学习》综述，39页pdf

专知会员服务

266+阅读 · 2020年7月10日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【干货书】流畅Python，766页pdf，中英文版

专知会员服务

226+阅读 · 2020年3月22日

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

专知会员服务

28+阅读 · 2020年3月18日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

如何用AI技术治理假新闻泛滥？看ASU大学舒凯等学者这篇《挖掘虚假信息和假新闻:概念、方法和最新进展》研究综述

专知会员服务

54+阅读 · 2020年1月11日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【干货】用BRET进行多标签文本分类（附代码）

专知会员服务

85+阅读 · 2019年12月27日

TensorFlow 2.0 学习资源汇总

专知会员服务

67+阅读 · 2019年10月9日

别找了，送你 20 个文本数据集

机器学习算法与Python学习

68+阅读 · 2019年5月17日

NLP Chinese Corpus：大规模中文自然语言处理语料

PaperWeekly

14+阅读 · 2019年2月18日

想要训练中文NLP模型却苦于没数据？是时候支持开源中文了

机器之心

7+阅读 · 2019年2月15日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

30+阅读 · 2018年12月27日

资源 | 中文NLP资源库

机器学习算法与Python学习

20+阅读 · 2018年11月22日

资源 | 开源数据集

AI研习社

8+阅读 · 2018年9月25日

资源 | 100+个自然语言处理数据集大放送，再不愁找不到数据！

大数据文摘

6+阅读 · 2018年4月30日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

A Comparative Study on Transformer vs RNN in Speech Applications

Arxiv

4+阅读 · 2019年9月13日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

A Probe into Understanding GAN and VAE models

Arxiv

9+阅读 · 2018年12月13日

Dynamic Self-Attention : Computing Attention over Words Dynamically for Sentence Embedding

Arxiv

8+阅读 · 2018年8月22日

Learning Multilingual Topics from Incomparable Corpus

Arxiv

3+阅读 · 2018年6月11日

A Benchmark Study on Sentiment Analysis for Software Engineering Research

Arxiv

3+阅读 · 2018年3月17日

Single-Perspective Warps in Natural Image Stitching

Arxiv

4+阅读 · 2018年2月13日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

Analysis of Wikipedia-based Corpora for Question Answering

Arxiv

7+阅读 · 2018年1月6日

VIP会员

你说“神马”？非正式汉语数据集资源上线，帮你训练网络语言处理

晓查 发自 凹非寺量子位 出品 | 公众号 QbitAI

资源地址：

相关内容

晓查发自凹非寺
量子位出品 | 公众号 QbitAI