ML Data Curation process typically consist of heterogeneous & federated source systems with varied schema structures; requiring curation process to standardize metadata from different schemas to an inter-operable schema. This manual process of Metadata Harmonization & cataloging slows efficiency of ML-Ops lifecycle. We demonstrate automation of this step with the help of entity resolution methods & also by using Cogntive Database's Db2Vec embedding approach to capture hidden inter-column & intra-column relationships which detect similarity of metadata and then predict metadata columns from source schemas to any standardized schemas. Apart from matching schemas, we demonstrate that it can also infer the correct ontological structure of the target data model.
翻译:ML 数据归结过程通常由多种和联结源系统组成,有多种模式结构; 需要整理过程,将不同体系的元数据标准化到一个互操作的体系。 这个元数据统一和编目手动过程减缓了 ML-Ops 生命周期的效率。 我们在实体解析方法的帮助下展示了这一步骤的自动化, 并且还使用了代码数据库的 Db2Vec 嵌入方法, 以捕捉隐藏的校内和校内关系, 发现元数据的相似性, 然后将元数据从源体系的元数据列预测到任何标准化的体系。 除了匹配 schemas 外, 我们证明它还可以推断目标数据模型的正确本体结构 。