以2015年以来的«Gartner数据科学平台魔力象限系列年度报告»为线索,分析调研35种数据科学平台产品,提出数 据科学平台的定义和类型.数据科学平台相关学术研究中的主要科学问题涉及数据科学平台的设计、数据科学平台的可扩展 性、基于数据湖的数据科学平台研发、数据科学平台的支持团队协作能力、数据科学平台的开放策略以及数据科学平台工程方 法论.数据科学平台的主要特征包括模块化开发及集成能力、开发运维一体化、重视可扩展性、强调用户体验、重视非专业级数 据科学家以及重视人机协同场景;数据科学平台的实现需要的关键技术为机器学习、流处理技术、数据规整化、容器化技术和数 据可视化;数据科学平台的未来发展趋势主要体现在与人工智能的融合、对开源技术的支持、对非专业级数据科学家的重视、数据治理的集成、数据湖的引入、高级分析及应用的探索、向数据科学全流水线的转型和应用领域的多样化等;数据科学平台的研 发活动应遵循以激活数据价值为中心、人在环路(humanGinGtheloop)的设计模式、开发运维一体化、可用性和可解释性的平衡、 数据科学产品生态系统的培育、强调用户体验以及与其他业务系统的集成等设计原则.现阶段的数据科学平台研发亟待在数 据偏见与公平性、鲁棒性及稳定性、隐私保护、因果分析、可信任/负责任数据科学平台等方面进行理论突破.
https://www.jsjkx.com/CN/article/openArticlePDF.jsp?id=20118
数据平台的研发是目前数据科学领域的热点问题之一. 但是,相对于工程化开发实践来说,对数据科学平台的理论研 究仍未深入进行,数据科学平台的特征、技术与系统等核心问 题有待进一步系统研究.数据科学平台理论研究的缺失不仅严重限制了数据科学产品的工程化开发及升级优化,而且还 将成为数据科学平台产业化发展的主要瓶颈.因此,对数据 科学平台研究现状的调研对于数据科学理论的研究具有重要 推动作用. 本文以2015年至今连续6年的7份«Gartner数据科学 与机器学 习 平 台 魔 力 象 限 系 列 报 告»为 线 索,分 析 调 研 了 35个数据科学平台产品,给出了数据科学平台的定义和类型; 在此基础上,提出了数据科学平台中的基本科学问题、主要特 征、关键技术以及发展趋势;最后,提炼出了现阶段数据科学 平台研发的指导原则、所面临的理论瓶颈及几点研究建议.