机器之心原创
作者:思
数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。 那么数据怎么治理才好,怎样与模型、算力结合才算妙? 在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底是如何规范处理的。
「HAO 治理」模型是什么样的
数据存储:基于分布式的大数据存储平台;
数据计算:这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等;
数据管理:对集成后的数据统一维护与管理;
数据应用:这是数据价值最直接的体现,我们可以通过自然语言处理等技术,对数据进行深度分析。