Due to recent improvements in image resolution and acquisition speed, materials microscopy is experiencing an explosion of published imaging data. The standard publication format, while sufficient for traditional data ingestion scenarios where a select number of images can be critically examined and curated manually, is not conducive to large-scale data aggregation or analysis, hindering data sharing and reuse. Most images in publications are presented as components of a larger figure with their explicit context buried in the main body or caption text, so even if aggregated, collections of images with weak or no digitized contextual labels have limited value. To solve the problem of curating labeled microscopy data from literature, this work introduces the EXSCLAIM! Python toolkit for the automatic EXtraction, Separation, and Caption-based natural Language Annotation of IMages from scientific literature. We highlight the methodology behind the construction of EXSCLAIM! and demonstrate its ability to extract and label open-source scientific images at high volume.


翻译:由于最近图像分辨率和获取速度的改善,材料显微镜正在经历已出版成像数据的爆炸性。标准出版格式虽然足以应对传统数据摄取情况,即某些图像可以人工进行严格检查和整理,但不利于大规模数据汇总或分析,妨碍数据共享和再利用。出版物中的大多数图像都是大图的组成部分,其明确背景被埋在主体或说明文本中,因此,即使综合起来,以薄弱或没有数字化背景标签收集图像的价值也有限。为解决文献中贴有标签的显微镜数据的问题,这项工作引入了EXSCLAIM!基于自然语言的自动提取、分离和说明科学文献中的IMages自然语言工具包。我们强调构建EXSCLAIM背后的方法。我们强调其高容量提取和标注公开源科学图像的能力。

0
下载
关闭预览

相关内容

Automator是苹果公司为他们的Mac OS X系统开发的一款软件。 只要通过点击拖拽鼠标等操作就可以将一系列动作组合成一个工作流,从而帮助你自动的(可重复的)完成一些复杂的工作。Automator还能横跨很多不同种类的程序,包括:查找器、Safari网络浏览器、iCal、地址簿或者其他的一些程序。它还能和一些第三方的程序一起工作,如微软的Office、Adobe公司的Photoshop或者Pixelmator等。
专知会员服务
230+阅读 · 2020年12月15日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
48+阅读 · 2019年9月24日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2017年11月1日
SwapText: Image Based Texts Transfer in Scenes
Arxiv
4+阅读 · 2020年3月18日
VIP会员
相关VIP内容
专知会员服务
230+阅读 · 2020年12月15日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
48+阅读 · 2019年9月24日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2017年11月1日
Top
微信扫码咨询专知VIP会员