文 / Serge Belongie, 访问学者和 Hartwig Adam, 工程总监,Google Research
机器学习 (ML) 用于物种识别的前景即将成为现实,并在生物多样性研究领域显露出变革潜力。国际研讨会如 FGVC、LifeCLEF 等举办挑战赛,旨在推动开发性能最为出色的分类算法,分类对象涵盖野生动物摄像头捕捉到的图像,植物标本台纸上的压花标本等。这些竞赛取得的可喜成果激励我们将生物多样性数据集和 ML 模型的可用性从研讨会规模扩展到通用规模。
为需求群体提供的强大 ML 算法,不仅仅是传统的 “大数据 + 大计算” 模式。无论是自然历史博物馆还是民间的科学团体,都耗费了大量精力在建立与维护巨大的植物信息库上。他们精心收集、标注数据并分享数据集,这也成就了众多科学研究著作。但传统学术研究的核心是引用和归因惯例,随着 ML 扩展到生命科学领域,这些惯例的对应内容也应该随之有所延伸。
从更广泛的意义上来说,人们愈发意识到道德、公平和透明在 ML 社区中的重要性。随着各家机构大规模开发和部署 ML 应用,在设计阶段考虑到这些因素就显得尤为重要。
近日的 Biodiversity Next 上,我们携手全球生物多样性信息基金 (Global Biodiversity Information Facility, GBIF)、iNaturalist,以及 Visipedia,为希望利用 ML 的生物多样性研究机构发布了全新工作流。
凭借全球数千家研究机构贡献的十亿级的物种数据,无论是在数据聚合、跨团队协作,还是引用行为标准化方面,GBIF 都在实现该工作流中发挥着关键作用。短期内,其发挥的最重要作用是在使用中间数据 (mediated data) 训练 ML 模型时,让人们接受与习惯实践中流程的转换。在数据中介 (Data Mediation) 过程中,GBIF 帮助确保 ML 训练数据集遵守标准化许可条款,使用兼容的分类标准和数据格式,并通过潜在地从多个源数据集中采样,为正在进行的 ML 任务提供公平、充足的数据覆盖。
为了帮助应用开发者,Google 和 Visipedia 将在 TensorFlow Hub (https://tfhub.dev/) 上训练和发布可公开访问的模型及文档。公众可将这些模型用于生物多样性研究和公民科学 (Citizen Science) 工作中。
案例研究:使用交互式蘑菇识别器辨认照片中的真菌品种
蘑菇识别器实时交互示意图,识别器使用公开模型,训练所用数据集由丹麦真菌学会提供。
参与邀请
如需了解有关该计划的更多信息,请访问 GBIF 的项目页面。我们期待与世界各地的机构合作,推动 ML 在生物多样性领域的新型创新应用。
致谢
我们要感谢 GBIF、iNaturalist、Visipedia 的协作者,感谢他们携手开发此工作流。我们还要感谢 Google 的 Christine Kaeser-Chen、Chenyang Zhang、Yulong Liu、Kiat Chuan Tan、Christy Cui、Arvi Gjoka、Denis Brulé、Cédric Deltheil、Clément Beauseigneur、Grace Chu、Andrew Howard、Sara Beery 和 Katherine Chou。
如果您想详细了解 本文提及 的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题:
物种识别
https://merlin.allaboutbirds.org/photo-id/
FGVC
https://ai.googleblog.com/2019/04/announcing-6th-fine-grained-visual.html
LifeCLEF
https://www.imageclef.org/lifeclef2019
野生动物摄像头捕捉到的图像
https://github.com/visipedia/iwildcam_comp
植物标本
https://www.kaggle.com/c/herbarium-2019-fgvc6
科学研究著作
https://www.inaturalist.org/blog/20396-year-in-review-2018
设计阶段考虑因素
https://vision.cornell.edu/se3/wp-content/uploads/2019/07/dmaic.pdf
Biodiversity Next
https://biodiversitynext.org/main-conference/
全球生物多样性信息基金
https://www.gbif.org/
iNaturalist
https://ai.googleblog.com/2018/03/introducing-inaturalist-2018-challenge.html
Visipedia
http://visipedia.org/
发布工作流
https://biss.pensoft.net/article/37230/
十亿级的物种信息
https://www.gbif.org/news/5BesWzmwqQ4U84suqWyOQy/big-data-for-biodiversity-gbiforg-surpasses-1-billion-species-occurrences
数字对象标识符
http://www.doi.org/
TensorFlow Hub
https://tfhub.dev/
TF Hub demo
https://tfhub.dev/svampeatlas/vision/embedder/fungi_V2/1
GBIF 项目页面
https://www.gbif.org/tools/machine-vision
更多 AI 相关阅读: