In order to properly train a machine learning model, data must be properly collected. To guarantee a proper data collection, verifying that the collected data set holds certain properties is a possible solution. For example, guaranteeing that the data set contains samples across the whole input space, or that the data set is balanced w.r.t. different classes. We present a formal approach for verifying a set of arbitrarily stated properties over a data set. The proposed approach relies on the transformation of the data set into a first order logic formula, which can be later verified w.r.t. the different properties also stated in the same logic. A prototype tool, which uses the z3 solver, has been developed; the prototype can take as an input a set of properties stated in a formal language and formally verify a given data set w.r.t. to the given set of properties. Preliminary experimental results show the feasibility and performance of the proposed approach, and furthermore the flexibility for expressing properties of interest.


翻译:为了正确培训机器学习模型,必须适当收集数据。为了保证适当的数据收集,核实所收集的数据集具有某些属性,这是一个可能的解决方案。例如,保证数据集包含整个输入空间的样本,或数据集是平衡的。我们提出了一个正式的方法,用以核查一组数据集上一套任意标明的属性。拟议方法依赖于将数据集转换成一个一阶逻辑公式,该逻辑公式可以稍后核实,不同属性也可以在同一逻辑中说明。已经开发了一个原型工具,该原型工具使用z3求解器;原型可以将一组以正式语言表示的属性作为输入,并正式核实给定的数据集 w.r.t。初步实验结果显示拟议方法的可行性和性能,以及表达感兴趣属性的灵活性。

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年9月7日
专知会员服务
115+阅读 · 2019年12月24日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
已删除
将门创投
5+阅读 · 2019年8月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
0+阅读 · 2021年10月13日
Arxiv
1+阅读 · 2021年10月6日
Arxiv
35+阅读 · 2021年8月2日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
18+阅读 · 2019年1月16日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年8月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员