让机器学习助力生物多样性研究

2019 年 12 月 11 日 谷歌开发者

文 / Serge Belongie, 访问学者和 Hartwig Adam, 工程总监,Google Research

机器学习 (ML) 用于物种识别的前景即将成为现实,并在生物多样性研究领域显露出变革潜力。国际研讨会如 FGVCLifeCLEF 等举办挑战赛,旨在推动开发性能最为出色的分类算法,分类对象涵盖野生动物摄像头捕捉到的图像植物标本台纸上的压花标本等。这些竞赛取得的可喜成果激励我们将生物多样性数据集和 ML 模型的可用性从研讨会规模扩展到通用规模。


为需求群体提供的强大 ML 算法,不仅仅是传统的 “大数据 + 大计算” 模式。无论是自然历史博物馆还是民间的科学团体,都耗费了大量精力在建立与维护巨大的植物信息库上。他们精心收集、标注数据并分享数据集,这也成就了众多科学研究著作。但传统学术研究的核心是引用和归因惯例,随着 ML 扩展到生命科学领域,这些惯例的对应内容也应该随之有所延伸。


从更广泛的意义上来说,人们愈发意识到道德、公平和透明在 ML 社区中的重要性。随着各家机构大规模开发和部署 ML 应用,在设计阶段考虑到这些因素就显得尤为重要。


近日的 Biodiversity Next 上,我们携手全球生物多样性信息基金 (Global Biodiversity Information Facility, GBIF)、iNaturalist,以及 Visipedia,为希望利用 ML 的生物多样性研究机构发布了全新工作流。


凭借全球数千家研究机构贡献的十亿级的物种数据,无论是在数据聚合、跨团队协作,还是引用行为标准化方面,GBIF 都在实现该工作流中发挥着关键作用。短期内,其发挥的最重要作用是在使用中间数据 (mediated data) 训练 ML 模型时,让人们接受与习惯实践中流程的转换。在数据中介 (Data Mediation) 过程中,GBIF 帮助确保 ML 训练数据集遵守标准化许可条款,使用兼容的分类标准和数据格式,并通过潜在地从多个源数据集中采样,为正在进行的 ML 任务提供公平、充足的数据覆盖。


该全新工作流包括以下两个部分:
  • 为了帮助开发和完善机器视觉模型,GBIF 将打包数据集,确保遵守许可和引用惯例。训练数据集将被发布一个 数字对象标识符 (DOI),并通过 DOI 引用图表实现关联。
  • 为了帮助应用开发者,Google 和 Visipedia 将在 TensorFlow Hub (https://tfhub.dev/) 上训练和发布可公开访问的模型及文档。公众可将这些模型用于生物多样性研究和公民科学 (Citizen Science) 工作中。



案例研究:使用交互式蘑菇识别器辨认照片中的真菌品种

为演示上述工作流程,我们展示了一个真菌识别示例。此案例中使用的数据 集由丹麦真菌学会选送,并由 GBIF 统一格式、打包和分享。数据集出处、模型架构、许可信息等内容在 TF Hub 模型页面均有 记录。此外,该页面还展示了一个模型的实时交互 demo,用户可以上传图像了解蘑菇品种。

蘑菇识别器实时交互示意图,识别器使用公开模型,训练所用数据集由丹麦真菌学会提供。



参与邀请

如需了解有关该计划的更多信息,请访问 GBIF 的项目页面。我们期待与世界各地的机构合作,推动 ML 在生物多样性领域的新型创新应用。



致谢

我们要感谢 GBIF、iNaturalist、Visipedia 的协作者,感谢他们携手开发此工作流。我们还要感谢 Google 的 Christine Kaeser-Chen、Chenyang Zhang、Yulong Liu、Kiat Chuan Tan、Christy Cui、Arvi Gjoka、Denis Brulé、Cédric Deltheil、Clément Beauseigneur、Grace Chu、Andrew Howard、Sara Beery 和 Katherine Chou。



如果您想详细了解 本文提及 的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题:

  • 物种识别
    https://merlin.allaboutbirds.org/photo-id/

  • FGVC
    https://ai.googleblog.com/2019/04/announcing-6th-fine-grained-visual.html

  • LifeCLEF
    https://www.imageclef.org/lifeclef2019

  • 野生动物摄像头捕捉到的图像
    https://github.com/visipedia/iwildcam_comp

  • 植物标本
    https://www.kaggle.com/c/herbarium-2019-fgvc6

  • 科学研究著作
    https://www.inaturalist.org/blog/20396-year-in-review-2018

  • 设计阶段考虑因素
    https://vision.cornell.edu/se3/wp-content/uploads/2019/07/dmaic.pdf

  • Biodiversity Next
    https://biodiversitynext.org/main-conference/

  • 全球生物多样性信息基金
    https://www.gbif.org/

  • iNaturalist
    https://ai.googleblog.com/2018/03/introducing-inaturalist-2018-challenge.html

  • Visipedia
    http://visipedia.org/

  • 发布工作流
    https://biss.pensoft.net/article/37230/

  • 十亿级的物种信息
    https://www.gbif.org/news/5BesWzmwqQ4U84suqWyOQy/big-data-for-biodiversity-gbiforg-surpasses-1-billion-species-occurrences

  • 数字对象标识符
    http://www.doi.org/

  • TensorFlow Hub
    https://tfhub.dev/

  • TF Hub demo
    https://tfhub.dev/svampeatlas/vision/embedder/fungi_V2/1

  • GBIF 项目页面
    https://www.gbif.org/tools/machine-vision



更多 AI 相关阅读:



登录查看更多
0

相关内容

【干货书】高级应用深度学习,294页pdf
专知会员服务
151+阅读 · 2020年6月20日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
【课程】概率图模型,卡内基梅隆大学邢波
专知会员服务
69+阅读 · 2019年11月4日
联邦学习最新研究趋势!
AI科技评论
52+阅读 · 2020年3月12日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
【机器视觉】计算机视觉前沿技术探索
产业智能官
11+阅读 · 2018年12月25日
全景分割这一年,端到端之路
机器之心
14+阅读 · 2018年12月24日
【学科发展报告】生物信息学
中国自动化学会
11+阅读 · 2018年10月22日
机器学习者必知的 5 种深度学习框架
深度学习世界
7+阅读 · 2018年5月3日
已删除
将门创投
3+阅读 · 2018年4月10日
《人工智能标准化白皮书(2018版)》发布|附下载
人工智能学家
17+阅读 · 2018年1月21日
Arxiv
110+阅读 · 2020年2月5日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
14+阅读 · 2018年4月18日
VIP会员
相关VIP内容
【干货书】高级应用深度学习,294页pdf
专知会员服务
151+阅读 · 2020年6月20日
大数据安全技术研究进展
专知会员服务
92+阅读 · 2020年5月2日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
【课程】概率图模型,卡内基梅隆大学邢波
专知会员服务
69+阅读 · 2019年11月4日
相关资讯
联邦学习最新研究趋势!
AI科技评论
52+阅读 · 2020年3月12日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
【机器视觉】计算机视觉前沿技术探索
产业智能官
11+阅读 · 2018年12月25日
全景分割这一年,端到端之路
机器之心
14+阅读 · 2018年12月24日
【学科发展报告】生物信息学
中国自动化学会
11+阅读 · 2018年10月22日
机器学习者必知的 5 种深度学习框架
深度学习世界
7+阅读 · 2018年5月3日
已删除
将门创投
3+阅读 · 2018年4月10日
《人工智能标准化白皮书(2018版)》发布|附下载
人工智能学家
17+阅读 · 2018年1月21日
Top
微信扫码咨询专知VIP会员