Text mining is becoming vital as Web 2.0 offers collaborative content creation and sharing. Now Researchers have growing interest in text mining methods for discovering knowledge. Text mining researchers come from variety of areas like: Natural Language Processing, Computational Linguistic, Machine Learning, and Statistics. A typical text mining application involves preprocessing of text, stemming and lemmatization, tagging and annotation, deriving knowledge patterns, evaluating and interpreting the results. There are numerous approaches for performing text mining tasks, like: clustering, categorization, sentimental analysis, and summarization. There is a growing need to standardize the evaluation of these tasks. One major component of establishing standardization is to provide standard datasets for these tasks. Although there are various standard datasets available for traditional text mining tasks, but there are very few and expensive datasets for blog-mining task. Blogs, a new genre in web 2.0 is a digital diary of web user, which has chronological entries and contains a lot of useful knowledge, thus offers a lot of challenges and opportunities for text mining. In this paper, we report a new indigenous dataset for Pakistani Political Blogosphere. The paper describes the process of data collection, organization, and standardization. We have used this dataset for carrying out various text mining tasks for blogosphere, like: blog-search, political sentiments analysis and tracking, identification of influential blogger, and clustering of the blog-posts. We wish to offer this dataset free for others who aspire to pursue further in this domain.
翻译:由于Web 2.0提供合作内容创建和共享, 文本采矿变得至关重要。 现在, 研究人员对文本采矿方法的发现知识的兴趣越来越大。 文本采矿研究人员来自各个领域, 例如: 自然语言处理、 计算语言、 机器学习和统计。 典型的文本采矿应用涉及文本预处理、 制成和脱色、 标记和批注、 产生知识模式、 评估和解释结果。 执行文本采矿任务有许多方法, 例如: 集群、 分类、 情感分析 和 总结。 越来越需要将这些任务的评估标准化。 建立标准化的主要组成部分之一是为这些任务提供标准数据集。 虽然有各种标准数据集可供传统文本采矿任务使用, 但用于博客采矿任务的数据集非常少,而且费用也非常昂贵。 博客、 网络2.0 的新版本是网络用户的数字日记, 包含大量有用的知识, 从而为文本采矿提供了许多挑战和机遇。 在本文中, 我们为巴基斯坦政治博客圈报告一个新的本地数据集。 本文中, 正在对数据库进行 进行 进行 数据库 进行 进行 进行 的 数据库 的 标准化, 进行 进行 进行 进行 的 数据 的 组织 组织, 进行 进行 进行 组织 进行 进行 进行 组织 进行 进行 进行 组织 进行 进行 进行 进行 进行 进行 进行 进行 的 进行 进行 进行 的 进行 进行 的 的 的 的 政治 组织 组织 组织 组织 组织 组织 组织 组织 组织 进行 进行 进行 组织 组织 组织, 进行 进行 组织 组织 组织 进行 进行 进行 进行 组织 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 进行 组织 进行 进行 进行 进行 进行 进行 组织 组织 进行 组织 组织 组织 组织 组织, 组织 进行 进行 组织 组织 组织 进行 进行 进行 进行 进行 组织 组织 组织 进行 进行 进行 进行 进行 组织 组织 进行 进行 进行 进行 进行 组织 进行 进行 进行 组织 组织 组织 组织 组织 组织 组织 进行 进行 进行