数据领域的十大产业机会,做强做优做大数字经济务必关注

2022 年 1 月 19 日 THU数据派


  
  
    
来源:全释AI

  本文约3165字,建议阅读6分钟

本文介绍了做强做优做大数字经济需要重点关注和发展的数据领域十大产业机会。


周末习近平总书记在《求是》杂志上发表《不断做强做优做大我国数字经济》的文章,数据是数字经济的核心要素之一。继上一篇《 从AI应用的五大要素看,AI产业存在哪些机会?(算力&算法) 》介绍了算力与算法领域的产业机会,本文将继续介绍数据领域的十大产业机会,这些产业机会是做强做优做大数字经济需要重点关注和发展的产业领域。

数据是人工智能的基础要素之一,人工智能应用的开发过程离不开大量数据的运用,数字经济和人工智能的发展又能产生更大量的数据,为人工智能应用朝着更准确和更适用的方向发展创造有利条件。为满足人工智能应用的需求,以及满足相关法律法规的要求等,从数据的产生、存储,到加工、处理等,形成了一套体系,正好存在十大产业机会。

(建有全释AI交流群,欢迎关注AI技术和应用的创业、投资、应用落地等领域朋友扫描入群)

1、数据采集

高质量的数据是训练稳健的人工智能模型必不可少的要素,而针对许多细分领域,可能并没有现成可用于建模的数据,或者可用数据量特别少,因此,针对特定场景的数据采集成为某种程度的刚需。人工智能早期发展过程中,数据采集显得尤为重要,现在很多领域积累了大量的数据,但新引入人工智能技术的领域,特别许多细分领域,仍然需要先完成数据采集工作。数据采集的需求,带动了许多传感器的应用和发展,特别在工业制造等领域。

2、数据清洗和标注

人工智能模型的训练中,监督学习和半监督学习的模型和算法更为普遍,模型训练过程中需要使用高质量的标注数据,因此,数据的清洗与标注也是很多领域人工智能应用发展的刚需。数据清洗和标注主要靠人工完成,以及加上几次的质量管控,在一些人力成本比较低廉的地方,形成了数据清洗和标注的产业。现在也逐渐开始有些初创企业把AI技术引入到数据清洗与标注领域,实现数据的自动标注,再结合人工质检,提高数据清洗与标注的效率。像医疗影像等特定领域,数据标注还需要专业人士来完成。

3、数据合成

人工智能模型的训练对数据集质量提出了要求,而在许多场景下数据的采集非常有限,或者无法采集到更多的数据,采用生成对抗网络(GAN)技术进行数据合成,为获取得多的数据提供了可能。基于GAN合成的数据,与原始数据在高维统计特征上是相关的,用于人工智能模型的训练可以进一步改善模型的效果。基于GAN合成的图像数据相对应用场景较多,如自动驾驶等,而基于GAN合成时序数据的价值可能现阶段被忽视了,针对金融资产和风险的量化等领域,基于GAN合成数据将可能有效弥补历史数据的单一性。

4、标准数据集

随着越来越多的企业和科研团队等开展人工智能领域的技术研发和创业等,标准数据集是测试和评价结果的重要基础。科研项目上为了测试新研究的算法训练的模型的效果,往往需要使用相同的数据集上进行结果的比对。针对某些人工智能应用领域,政府可能将会逐渐纳入监管,在特定产品上市前,可能需要通过第三方标准数据集进行评测,达到一定技术指标的产品才能获得上市许可等,有可能医疗AI场景会最先试行,然后可能自动驾驶等场景也会需要。在学术领域有一些开放的标准数据集,也一些专门从事数据生产的企业提供语音、图像等方面的商用数据集。

5、数据治理

高质量的数据是人工智能应用发展的重要基础,也是挖掘和发挥数据价值的前提,而数据治理提供了一整套的工具、流程、标准和制度等,保障数据的一致性、完整性和可用性等。各种规模和各个领域的组织都需要数据治理,当然企业或组织的规模越大,数据量越大,越需要建立完善的数据治理体系,中小规模企业或组织甚至新成立的企业或组织,同样也需要建立数据治理体系,越早重视数据治理问题,数据治理方面需要投入的成本和代价就越低。

6、数据中台

随着企业或组织内的数据量越来越大,数据分析和建模所用的数据源日趋丰富,从单一的结构化数据逐渐向多样化的结构化与非结构化数据共用转变,数据的抽取、加工、处理等灵活性和及时性的要求等越来越高,数据中台正好可以解决了多类数据并存以及数据灵活使用的需求,为业务发展和应用提供必要的数据支撑。数据中台加速了数据的价值变现,为快速响应业务需求创造了有利条件。企业或组织内的部门越多,数据的类型和管理越分散,越有建立数据中台的需要,基于数据中台实现数据抽取和使用的流程化和自动化等。

7、数据安全

数据成为基础的生产要素,直接关系到企业或组织的业务生产等关键环节,数据安全应是企业或组织不可忽视的重要内容。数据安全与传统信息安全的区别,在于数据安全既要考虑静态安全又要考虑动态安全。数据安全既分层次,又分等级,也分类别,企业或组织在考虑数据安全问题的时候,既要考虑外部风险,也要考虑内部风险,需要结合自身业务及数据的特点,采用合适的数据安全解决方案。2021年国家颁布了《数据安全法》,更是将数据安全推向了的关注度推向新的高度,数据安全领域的创新企业也受到热捧,即使前期融资不是很顺畅,又获得了新一轮更大规模的融资。

8、新型数据库

数据库是数据存储和处理的管理系统,过去几十年关系型数据库占主导地位,随着大数据的发展,近年来非关系型数据库迅速发展。不同业务场景的数据类型和数据处理的要求和特点各不相同,单一类型的数据库不能满足所有场景的需求,因此,针对具有广泛应用场景和需求的新型数据库会有巨大的市场空间和商业价值。目前图数据库、时序数据库、文档数据库、列存数据等几类非关系型数据库在许多相应场景得到验证,有些已经进入快速规模化发展的阶段。这些新型数据库甚至也是数据中台建设中的关键技术部件。

9、数据存储与管理

大数据和人工智能的发展,产生和积累了大量的数据,数据最终需要存到磁盘、光盘或磁带等介质中。随着时间的积累,数据也产生了热数据、温数据和冷数据的层次, 不同层次的数据往往也会采用不同的存储介质,并且逐渐形成一套数据沉降的机制。数据量少的时候靠人工还能进行管理,但当存储磁盘成百上千块或光盘超过上千张时,人工管理不论是效率还是效果都受严重制约,磁盘库和光盘库等数据存储与管理系统的需求就诞生了。磁光电一体化的数据存储和管理产品,在接下来的若干年内可能成为各类企业或组织的标配,可以根据企业或组织的实际需求灵活定制或配置磁盘和光盘等数量。

10、数据流通与交易

数据作为生产要素,需要流通和交易,才能将价值发挥出来,转化成生产力。但数据又有别于土地、资本等传统生产要素,数据可以很容易的复制,也不具备使用的排他性,但有些数据还涉及敏感和隐私等问题,数据的流通与交易也将有别于传统要素的流通和交易。关于数据流通和交易的模式,目前仍然处于探索阶段,2015年贵阳大数据交易所成立,运营6年多以来并未形成真正可推广的模式,2021年北京和上海等也相继成立数据交易所,加入新一波探索数据交易的浪潮。《数据安全法》和《个人隐私保护法》等颁布和实施,构建了规范数据流通和交易的基本法律环境。目前许多创新企业基于区块链、隐私计算等技术,积极探索数据流通与交易的模式。另外关于数据交易的定价问题也需要更深入的研究和探索。

本文先把数据领域的产业机会整理发出来,后续模型和应用领域的机会整理好之后也将陆续发布,敬请期待(未完待续)


最后给大家提供一份公有云资源折扣和报价,如有需要欢迎扫码提交需求信息,或者后台留言,需要采购GPU卡的亦可后台留言。


作者简介

刘道全,暂时自主赋闲,兼任清华校友总会AI大数据专委会副秘书长,作为AI大数据领域的观察者和参与者超过7年,持续跟踪和服务过许多成功和失败的创业项目。计划创业中,期待志同道合的靠谱AI技术大拿合作,感兴趣的朋友可加微信(573400626)一起交流探讨。另外暂时可以提供市场及融资等方面服务,有意可私信交流。

—— END ——

登录查看更多
0

相关内容

数字经济 作为经济学概念的数字经济是人类通过大数据(数字化的知识与信息)的识别—选择—过滤—存储—使用,引导、实现资源的快速优化配置与再生、实现经济高质量发展的经济形态。数字经济通过不断升级的网络基础设施与智能机等信息工具,互联网—云计算—区块链—物联网等信息技术,人类处理大数据的数量、质量和速度的能力不断增强,推动人类经济形态由工业经济向信息经济—知识经济—智慧经济形态转化,极大地降低社会交易成本,提高资源优化配置效率,提高产品、企业、产业附加值,推动社会生产力快速发展,同时为落后国家后来居上实现超越性发展提供了技术基础。数字经济也称智能经济,是工业4.0或后工业经济的本质特征,是信息经济—知识经济—智慧经济的核心要素。
中国面向人工智能的数据治理行业研究报告,76页ppt
专知会员服务
85+阅读 · 2022年3月29日
《2021—2022中国大数据产业发展报告》发布
专知会员服务
110+阅读 · 2022年1月23日
【重磅】大数据白皮书(2021年),59页pdf
专知会员服务
122+阅读 · 2021年12月28日
2021年中国机器人行业研究报告,41页pdf
专知会员服务
70+阅读 · 2021年12月23日
36氪研究院 | 2021年中国医疗AI行业研究报告,40页pdf
专知会员服务
79+阅读 · 2021年12月22日
2021年中国人工智能市场发展现状
专知会员服务
122+阅读 · 2021年10月29日
《隐私计算白皮书(2021年)》正式发布(附下载链接)
专知会员服务
91+阅读 · 2021年7月22日
《2021年中国AIoT产业全景图谱》白皮书,244页pdf
专知会员服务
125+阅读 · 2021年1月16日
中国工业机器视觉产业发展白皮书,31页pdf
专知会员服务
100+阅读 · 2020年11月14日
AI模型领域,未来产业趋势见解
THU数据派
1+阅读 · 2022年2月9日
《2021—2022中国大数据产业发展报告》
专知
12+阅读 · 2022年1月23日
2021年中国机器人行业研究报告,41页pdf
专知
1+阅读 · 2021年12月23日
2021年中国云原生AI开发平台白皮书
专知
0+阅读 · 2021年12月4日
2021年中国人工智能市场发展现状
专知
1+阅读 · 2021年10月29日
2019年中国人工智能基础数据服务行业白皮书
艾瑞咨询
26+阅读 · 2019年9月16日
【领域报告】小样本学习年度进展|VALSE2018
深度学习大讲堂
26+阅读 · 2018年6月14日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月18日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关VIP内容
中国面向人工智能的数据治理行业研究报告,76页ppt
专知会员服务
85+阅读 · 2022年3月29日
《2021—2022中国大数据产业发展报告》发布
专知会员服务
110+阅读 · 2022年1月23日
【重磅】大数据白皮书(2021年),59页pdf
专知会员服务
122+阅读 · 2021年12月28日
2021年中国机器人行业研究报告,41页pdf
专知会员服务
70+阅读 · 2021年12月23日
36氪研究院 | 2021年中国医疗AI行业研究报告,40页pdf
专知会员服务
79+阅读 · 2021年12月22日
2021年中国人工智能市场发展现状
专知会员服务
122+阅读 · 2021年10月29日
《隐私计算白皮书(2021年)》正式发布(附下载链接)
专知会员服务
91+阅读 · 2021年7月22日
《2021年中国AIoT产业全景图谱》白皮书,244页pdf
专知会员服务
125+阅读 · 2021年1月16日
中国工业机器视觉产业发展白皮书,31页pdf
专知会员服务
100+阅读 · 2020年11月14日
相关资讯
AI模型领域,未来产业趋势见解
THU数据派
1+阅读 · 2022年2月9日
《2021—2022中国大数据产业发展报告》
专知
12+阅读 · 2022年1月23日
2021年中国机器人行业研究报告,41页pdf
专知
1+阅读 · 2021年12月23日
2021年中国云原生AI开发平台白皮书
专知
0+阅读 · 2021年12月4日
2021年中国人工智能市场发展现状
专知
1+阅读 · 2021年10月29日
2019年中国人工智能基础数据服务行业白皮书
艾瑞咨询
26+阅读 · 2019年9月16日
【领域报告】小样本学习年度进展|VALSE2018
深度学习大讲堂
26+阅读 · 2018年6月14日
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员