Text mining is becoming vital as Web 2.0 offers collaborative content creation and sharing. Now Researchers have growing interest in text mining methods for discovering knowledge. Text mining researchers come from variety of areas like: Natural Language Processing, Computational Linguistic, Machine Learning, and Statistics. A typical text mining application involves preprocessing of text, stemming and lemmatization, tagging and annotation, deriving knowledge patterns, evaluating and interpreting the results. There are numerous approaches for performing text mining tasks, like: clustering, categorization, sentimental analysis, and summarization. There is a growing need to standardize the evaluation of these tasks. One major component of establishing standardization is to provide standard datasets for these tasks. Although there are various standard datasets available for traditional text mining tasks, but there are very few and expensive datasets for blog-mining task. Blogs, a new genre in web 2.0 is a digital diary of web user, which has chronological entries and contains a lot of useful knowledge, thus offers a lot of challenges and opportunities for text mining. In this paper, we report a new indigenous dataset for Pakistani Political Blogosphere. The paper describes the process of data collection, organization, and standardization. We have used this dataset for carrying out various text mining tasks for blogosphere, like: blog-search, political sentiments analysis and tracking, identification of influential blogger, and clustering of the blog-posts. We wish to offer this dataset free for others who aspire to pursue further in this domain.


翻译:由于Web 2.0提供合作内容创建和共享, 文本采矿变得至关重要。 现在, 研究人员对文本采矿方法的发现知识的兴趣越来越大。 文本采矿研究人员来自各个领域, 例如: 自然语言处理、 计算语言、 机器学习和统计。 典型的文本采矿应用涉及文本预处理、 制成和脱色、 标记和批注、 产生知识模式、 评估和解释结果。 执行文本采矿任务有许多方法, 例如: 集群、 分类、 情感分析 和 总结。 越来越需要将这些任务的评估标准化。 建立标准化的主要组成部分之一是为这些任务提供标准数据集。 虽然有各种标准数据集可供传统文本采矿任务使用, 但用于博客采矿任务的数据集非常少,而且费用也非常昂贵。 博客、 网络2.0 的新版本是网络用户的数字日记, 包含大量有用的知识, 从而为文本采矿提供了许多挑战和机遇。 在本文中, 我们为巴基斯坦政治博客圈报告一个新的本地数据集。 本文中, 正在对数据库进行 进行 进行 数据库 进行 进行 进行 的 数据库 的 标准化, 进行 进行 进行 进行 的 数据 的 组织 组织, 进行 进行 进行 组织 进行 进行 进行 组织 进行 进行 进行 组织 进行 进行 进行 进行 进行 进行 进行 进行 的 进行 进行 进行 的 进行 进行 的 的 的 的 政治 组织 组织 组织 组织 组织 组织 组织 组织 组织 进行 进行 进行 组织 组织 组织, 进行 进行 组织 组织 组织 进行 进行 进行 进行 组织 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 组织 进行 进行 进行 进行 进行 进行 组织 组织 进行 组织 组织 组织 组织 组织, 组织 进行 进行 组织 组织 组织 进行 进行 进行 进行 进行 组织 组织 组织 进行 进行 进行 进行 进行 组织 组织 进行 进行 进行 进行 进行 组织 进行 进行 进行 组织 组织 组织 组织 组织 组织 组织 进行 进行 进行

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2018年1月23日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】Kaggle机器学习数据集推荐
机器学习研究会
8+阅读 · 2017年11月19日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员