数据采集:人工智能的基础服务 | 创业方向的研究与思考

2017 年 6 月 11 日 智投云VCSmart 束欢

这是一个数据驱动商业发展的时代。


数据的挖掘和分析不再只是BAT大公司的专属,其正逐步成为广大中小企业的基础需求,而且日趋迫切。并且数据挖掘的技能也随着网络爬虫的普及,云计算的计算能力的提高,机器学习算法的发展,逐渐变得平民化。广大的中小企业也可以基于数据驱动,提供更好的服务与产品,从而取得更大的发展。


数据挖掘其实是一个很大的概念,本文主要探讨其中的“挖”,或者叫做“网络爬虫”、“网页抓取”更容易理解。因为除了少数产品具备获取海量数据之前,绝大多数企业需要从公开数据,主要是互联网,获取外部数据,以便进行市场分析、舆情监控和竞品分析等活动。



在笔者看来,更倾向称之为“数据采集”。分为两步“采”和“集”。


对应的“采”,主要是数据的获取,可以有多种方式,网络抓取是其中主要的一种,也有数据合作,购买。


对应的“集”,则是数据的清洗,连接,整合,将价值密度低的数据转化为价值密度高的数据。

1


.「数据采集的发展阶段」.


根据笔者的分析,数据采集自上世纪90年代兴趣之后,相当长的时间是属于技术开发者的专项技能。但随着云计算,大数据,甚至人工智能的发展,这项技能犹如“旧时王谢堂前燕,飞入寻常百姓家”,变得简单,易用。其主要经历四个阶段。


  • 数据采集1.0 — 基于编程语言的爬取框架


熟悉爬虫的攻城狮都会想如数家珍一样说出一串:Scrapy,WebMagic,Nutch,Heritrix等等,相信在Github上大大小小也不下30个爬虫框架。他们共同的特点是:门槛较高,仅面向开发者,学习成本和维护成本较大,一个企业搭建一个成型的爬虫团队往往成本较大。



  • 数据采集2.0— 基于软件客户端的爬取工具


用户需要下载客户端,同时需要有一定的HTML、正则表达式和CSS能力。国内出现最早的客户端叫火车头采集器,属于一代的爬取工具,对HTML、正则表达式的要求还比较高(笔者亲测)。


二代的产品如八爪鱼集搜客GooSeeker则提供可视化的爬取服务,通过点选爬取需要的数据。其特点是:门槛进一步降低,对于非专业开发者,通过一定的学习即可自行爬取需要的公开数据。但主要还是面向个人用户为主,由于用户客户端的限制,难以大规模持续爬取,数据的存储和分析难以兼顾。


  • 数据采集3.0—云爬虫服务


首先,用户体验大大提升,大多采用点选(point-and-click)方式,用户所见即所得,无需编写代码,也无需了解HTML,正则表达式以及CSS样式就可以定制想要的爬虫。其次,无需担心自己的电脑的限制,爬虫运行的云端,可以定时定点,也可以爬取大量的数据,甚至可以在云端做一定程度的数据清洗和整合的工作。


目前国外的数据采集项目大多采用前端点选(point-and-click)方式,后端云服务模式。如下是国外的项目列表:


目前国内的数据采集项目分为三种:


1,基于客户端或者插件的云采集服务。


客户端方式代表项目有八爪鱼集搜客GooSeeker,其不在仅仅完全依靠客户端的计算资源,而是采用客户端方式可视化点选的用户体验更好,速度更快。同时将爬取的服务转移到云端,提供较大的数据爬取能力和数据整合能力。


浏览器插件方式如爬一爬,通过安装浏览器插件,实现前端点选(point-and-click)方式,后端云服务模式。


2,基于Web的云采集服务


用户无需安装直接在网友上进行点选(point-and-click)操作,云端进行爬取服务。这种方式优点是用户随时随地使用,简单方便。国外的许多项目采用此类模式,如import.io,国内采用这种模式的项目为造数科技。但是缺点是需要首先在云端将网页加载渲染好,再呈现给用户,这就需要耗费提供商的大量计算资源,而且速度往往较慢。


3,面向开发者的云采集开发云服务


目前国内一家叫神箭手的公司在提供此类服务。神箭手是一站式通用爬虫开发平台。具备JavaScript能力的开发者可以在平台上开发爬虫;不具备开发能力的用户可以在爬虫市场上购买或者定制开发需要的爬虫。


其主要的客户是中小企业的开发者,基于神箭手这个平台,开发者只需掌握一定的JavaScript开发能力即可开发。同时提供爬取能力弹性计算服务,动态IP代理,文件云托管,验证码识别等服务,帮助开发者快速高效的采集网络数据。目前市场上,基本上是80%的人在采集20%的网络数据,比如企业信息,电商,O2O等,而这项网络数据往往具有较强的反爬能力


  • 数据采集4.0—Extract-Enrich-Connect数据服务


笔者认为目前数据采集尚处于3.0阶段,4.0阶段尚没有形成,即提供数据采集,清洗,连接,分析等一体的数据服务能力


从3.0跃升至4.0阶段,在笔者看来,不单单是技术的升级。不同行业,不同场景所需要的数据是不同的,往往是难以标准化的,这样就会走向定制化,从而导致难以形成标准产品,规模化扩展。场景变化带来的技术挑战才会凸显出来,因为真是场景所需要的技术并非简单升级而是颠覆式创新


至于未来是否会完成跳跃,之后又会是怎样的方式服务大家,现在还很难说。目前国外的import.io,dexi.io,Connotate,国内的八爪鱼,神箭手,造数都在进行自己的探索。


2


.「合法性的探讨」.


在互联网领域关于数据爬取合法性的问题一直存在争议,也确实有不法分子利用数据爬取工具进行黑产交易。数据爬取就像是一个锋利的双刃剑,主要来看使用者是否将其应用在有益的方面。


其实在互联网数据爬取方面主要的准则,就是Robots协议,也称为爬虫协议,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。这原先主要针对搜索引擎公司,大家自觉遵守的公约。


随着数据采集范围的扩大,逐步突破了这条协议,但也有约定俗成的规则,广大的数据采集公司都应该遵守。


1,采集的应该是网络公开数据,并且数据的用途不能用于复制该网站信息,或者简单的将数据贩卖。更多允许的情况是将多方采集的公开数据进行整合,分析,形成数据分析服务


2,采集的强度不宜损害目前网站的性能,无形增加目标网站的维护成本,甚至造成损失。


此外,我国6月1日刚刚实施了《中华人民共和国网络安全法》,这是我国网络领域的基础性法律,明确加强了对个人信息的保护,打击网络诈骗。


网络安全法共有7章79条,其中针对个人信息泄露问题规定:网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意;网络运营者不得泄露、篡改、毁损其收集的个人信息;任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。这恐怕对数据采集公司更有方向的指导性。


3


.「数据采集发展至今,为什么现在会爆发?」.


随着云计算,大数据,人工智能的发展,数据采集作为数据的重要手段,成为广大企业的迫切需求。首当其冲的是中小企业的数据采集团队,不再需要维护完备的团队,大大降低了公司的成本,可以这些节省的费用用户数据产品的发展,提升产品的价值。而对于普通的个人,不再需要较高的门槛,就可以定制自己的数据采集方案,更多的行业,更多的场景会广泛使用。


人工智能的服务形态告诉我们,对于那些信息完备(Information-Complete)的领域,机器终将会超过并取代人类;


对于那些信息不完备(Information-Incomplete)的领域,通过人类和机器的协同,也会促进新的发展;


对于那些抽象思维(Information-Free)的领域,依旧是人类主导,机器提供一定辅助。


数据采集即是属于信息完备(Information-Complete)的领域,机器在数据采集,清洗,整合完全可以取代人类,再通过与人类的协同,进行数据分析和预测。这将是即将发生在眼前的事情。




更多行业研究请关注智投云公众号

登录查看更多
1

相关内容

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径。
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
118+阅读 · 2020年5月10日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
87+阅读 · 2020年5月2日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
240+阅读 · 2020年4月18日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
电力人工智能发展报告,33页ppt
专知会员服务
129+阅读 · 2019年12月25日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
304+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
前端微服务在字节跳动的落地之路
前端之巅
41+阅读 · 2019年9月19日
2019年中国人工智能基础数据服务行业白皮书
艾瑞咨询
27+阅读 · 2019年9月16日
2019社交行业研究报告
行业研究报告
5+阅读 · 2019年5月30日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
【人工智能】人工智能5大商业模式
产业智能官
16+阅读 · 2017年10月16日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
2017中国多媒体大会-智能媒体 创新未来
中国计算机学会
3+阅读 · 2017年8月21日
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
11+阅读 · 2018年10月17日
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
Arxiv
11+阅读 · 2018年7月8日
VIP会员
相关VIP内容
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
118+阅读 · 2020年5月10日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
87+阅读 · 2020年5月2日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
240+阅读 · 2020年4月18日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
电力人工智能发展报告,33页ppt
专知会员服务
129+阅读 · 2019年12月25日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
304+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
相关资讯
前端微服务在字节跳动的落地之路
前端之巅
41+阅读 · 2019年9月19日
2019年中国人工智能基础数据服务行业白皮书
艾瑞咨询
27+阅读 · 2019年9月16日
2019社交行业研究报告
行业研究报告
5+阅读 · 2019年5月30日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
【人工智能】人工智能5大商业模式
产业智能官
16+阅读 · 2017年10月16日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
2017中国多媒体大会-智能媒体 创新未来
中国计算机学会
3+阅读 · 2017年8月21日
相关论文
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
11+阅读 · 2018年10月17日
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
Arxiv
11+阅读 · 2018年7月8日
Top
微信扫码咨询专知VIP会员