谈谈大数据的那点事(1) ——《网络舆情分析的统计思维》

2018 年 5 月 30 日 数萃大数据

   谈谈大数据的那点事(1)

       ------《网络舆情分析的统计思维》

《统计与信息论坛》创刊30周年之际,编辑部电话约稿,让谈一谈与《统计与信息论坛》的情缘。

最近几年,我们关于大数据的研究主要领域之一是网络舆情分析,因此在这里就谈一谈《网络舆情分析中的统计思维》。

《统计与信息论坛》伴随着我的教学科研共同成长,30年的历程,同样验证着我国统计学科的变革与发展。“互联网+”行动的实施,驱动着时代前行,给统计学科建设提出了严峻的挑战。时值《统计与信息论坛》创办30周年之际,就近年来在网络舆情分析应用和研究中遇到问题,谈谈自己的一点思考。 近年来,随着社会复杂程度的日益提高,网络舆情信息安全受到广泛重视,网络舆情监控及信息分析技术的研究不断深入,适宜网络舆情分析的方法不断涌现。在应用中,针对网络舆情分析的总体思路,某些步骤流程的具体实施处处体现着统计的思维和方法。

1、网络舆情信息采集中的统计思维 传统的舆情信息汇集方法和渠道主要有文献研究、社会调查、计算机辅助电话访问调查、网络调查、舆情直报点、内参、信访工作、网络论坛等。而针对网络舆情,文本数据主要建立在互联网上的Web页面和一小部分互联网应用软件系统中。此时搜集信息主要是网络定性资料收集技术,例如现有的网络爬虫或对其进行改良的网络爬虫完成信息的高效采集。这一思维将会进一步开拓或提升统计调查技术的理论与方法。

2、网络舆情信息过滤中的统计思维 一般釆用基于内容的过滤、基于网址的过滤和混合过滤等多种形式完成舆情信息预处理。在具体实施中,舆情过滤主要利用判断页面内容与主题的相关性,这是一种基于关键词的模糊匹配方法。在舆情分词方面,主要借助现有成熟的分词系统完成分词,并利用语义分析法和人工智能分词法完成分词。在此基础上提出的网络舆情热点发现分词法有效提高了网络舆情分词的精度。这一思维将进一步加深定性资料聚类分析和判别分析的研究。

3、网络舆情信息挖掘中的统计思维 基于Web挖掘的方法是数据挖掘在网络信息分析中的新应用,它能自动、智能地获取并发现相关舆情信息内涵和舆情热点,提高舆情处理和分析的效率和质量,实现网络舆情的智能分析和动态预警。这一思维将智能分析和统计模拟相结合,会开辟出新统计模拟的研究领域。

4、网络舆情信息量化中的统计思维 基于语义的数据挖掘方法则主要通过分析Web文本中潜在的语义结构或借助本体、语义词典等外部语义知识从舆情文本语义层面发现舆情规律,主要包括潜在语义分析法和基于外部语义知识的语义分析方法等。该方法能够将传统的文本分析深入到上下文的语义层面,通过量化加强对文本的语义特征提取和语义相似度计算来提高信息分析的精度。这一思维将会在完善文本数据分析技术的基础上,进一步产生新的文本数据研究的理论和方法。

网络舆情分析是一个充满机遇与挑战的研究领域,涉及多个学科领域。我们还应该注意到,如何评判舆情分析的正确性和科学性是一个值得研究的问题。另外,民众的情感隐藏在文本语义中,现有方法大多围绕语法展开,语义层面的舆情分析技术还有待提高。



长按下方二维码关注我们


数萃大数据



登录查看更多
2

相关内容

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。
异质信息网络分析与应用综述,软件学报-北京邮电大学
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
WSDM 2020教程《深度贝叶斯数据挖掘》,附257页PPT下载
专知会员服务
156+阅读 · 2020年2月7日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
今日头条技术架构分析
互联网架构师
11+阅读 · 2019年8月19日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
Python数据分析案例实战
炼数成金订阅号
5+阅读 · 2019年5月9日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
20+阅读 · 2019年11月23日
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
Arxiv
6+阅读 · 2018年8月27日
Arxiv
6+阅读 · 2018年2月24日
VIP会员
相关VIP内容
异质信息网络分析与应用综述,软件学报-北京邮电大学
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
WSDM 2020教程《深度贝叶斯数据挖掘》,附257页PPT下载
专知会员服务
156+阅读 · 2020年2月7日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
相关资讯
今日头条技术架构分析
互联网架构师
11+阅读 · 2019年8月19日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
Python数据分析案例实战
炼数成金订阅号
5+阅读 · 2019年5月9日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
相关论文
Top
微信扫码咨询专知VIP会员