在 D3M 计划下,本研究以在 DARPA Memex 计划下开发的技术为基础,开发了一系列领域发现 (DD)、数据收集和提取工具。

在 D3M 计划启动之初,最先进的领域发现系统仍然面临着许多挑战,其中许多挑战是在 Memex 计划工作期间遇到的。例如,在 Memex 项目下开发的系统中,没有一个能在项目评估中针对地面实况数据集持续达到可接受的召回率。虽然精确度得分略有提高,但仍有很大的改进空间,这就需要解决从底层网络爬行技术中继承下来的一系列难题,如动态内容的可靠处理、验证码谜题等反僵尸机制,以及软 404 错误、停放域名和页面加载延迟等其他令人烦恼的问题。

我们在 D3M 项目下提出的工作目标是结合并扩展一系列现有功能,以提供一个易于重新训练、与模型无关的数据发现、收集和提取系统,该系统可以集中提供并在多个项目中使用。

我们的计划是将我们的技术集成到由 D3M 计划中至少另外两个团队正在开发的 DataMart 系统中。DataMart 为特定领域的数据集编制索引,这些数据集由领域发现爬网程序整理,并通过复杂的 ETL 管道摄取到索引中,这些管道可提取元数据,并识别领域内和跨领域的不同数据集之间的潜在连接和联合。根据我们在 Memex 计划中积累的经验和现有的工具套件,我们提议建立后台发现爬虫,DataMart 系统可利用这些爬虫填充其索引。然而,由于长达一年的合同延迟,我们在项目启动一年后才加入,因此 DataMart 团队早已进入研究阶段,而我们却在努力寻找整合与合作的机会。整合需要 DataMart 团队进行额外的、有时是追溯性的工作,虽然每个人都有最好的合作意愿,但最终证明这在技术上是不可行的。我们确实完成了数据集发现系统与纽约大学和 ISI Datamart 系统的概念验证集成,但我们没有继续进行端到端测试。

尽管如此,仍继续专注于构建离散领域发现工具和实用程序,供 DataMart 系统、其他执行者或潜在的过渡合作伙伴使用。我们继续与 DARPA 合作,以确定我们可以帮助解决的计划能力组合中的差距,并继续寻找机会,以应对领域发现和数据集 ETL 领域中的新用例和挑战问题。

成为VIP会员查看完整内容
27

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《基于专家衍生决策策略的增强自主智能体》
专知会员服务
25+阅读 · 6月5日
大型语言模型自动程序修复的系统文献综述
专知会员服务
37+阅读 · 5月5日
《大型语言模型持续学习》综述
专知会员服务
57+阅读 · 4月26日
大型语言模型图表示学习:技术的全面综述
专知会员服务
40+阅读 · 2月14日
《量子机器学习》最新综述
专知会员服务
36+阅读 · 2023年8月24日
【CVPR2021】深度学习细粒度视觉分析
专知会员服务
35+阅读 · 2021年6月23日
时空数据挖掘:综述
专知
22+阅读 · 2022年6月30日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
14+阅读 · 2017年6月13日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2009年12月31日
Arxiv
141+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
344+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员