论文工作复现性是业界关注的问题,如何确保可复现?这篇报告系统性讲述一种理论到实践
https://www.cs.mcgill.ca/~ksinha4/practices_for_reproducibility/
机器学习中的复现性:从理论到实践
摘要: 机器学习研究中经常遇到的一个挑战是确保所提出和发表的结果是可靠的、鲁棒的和可复现的。复现性是验证研究结果的可靠性的必要步骤,即使用相同的代码和数据(如果可用的话),获得与论文或演讲中提出的相似的结果。可复现性也是促进开放和可获取研究的一个重要步骤,从而允许科学界迅速整合新发现并将想法转化为实践。复现性还促进了健壮的实验工作流的使用,这可能减少无意的错误。在这次演讲中,我将首先展示一些关于机器学习研究中复现性需求的统计数据,然后介绍最近社区为促进可复现性科学所采取的方法。最后,我将深入讨论实验工作流程,你可以整合到你的研究,以确保和促进可复现的科学。
我们将分享常用的工具,并解释12种基本做法,你可以在你的研究中使用,以确保科学的可重复性。
Practice | Tools | |
---|---|---|
1 | Config Management | Hydra, OmegaConf, Pytorch Lightning |
2 | Checkpoint Management | Pytorch Lightning, TestTube |
3 | Logging | Tensorboard, Comet.ML, Weights & Biases, MLFlow, Visdom, Neptune |
4 | Seed | Check best practices below |
- | Experiment Management | Pytorch Lightning, MLFlow |
5 | Versioning | Github, Gitlab |
6 | Data Management | DVC, CML |
7 | Data analysis | Jupyter Notebook, papermill, JupyterLab, Google Colab |
8 | Reporting | Matplotlib, Seaborn , Pandas, Overleaf |
9 | Dependency Management | pip, conda, Poetry, Docker, Singularity, repo2docker |
10 | Open Source Release | Squash Commits, Binder |
11 | Effective Communication | ML Code Completeness Checklist, ML Reproducibility Checklist |
12 | Test and Validate | AWS, GCP, CodeOcean |
如何做可复现的研究?
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“ML84” 可以获取《《机器学习中的复现性:从理论到实践》84页ppt》专知下载链接索引