在 D3M 计划下,本研究以在 DARPA Memex 计划下开发的技术为基础,开发了一系列领域发现 (DD)、数据收集和提取工具。
在 D3M 计划启动之初,最先进的领域发现系统仍然面临着许多挑战,其中许多挑战是在 Memex 计划工作期间遇到的。例如,在 Memex 项目下开发的系统中,没有一个能在项目评估中针对地面实况数据集持续达到可接受的召回率。虽然精确度得分略有提高,但仍有很大的改进空间,这就需要解决从底层网络爬行技术中继承下来的一系列难题,如动态内容的可靠处理、验证码谜题等反僵尸机制,以及软 404 错误、停放域名和页面加载延迟等其他令人烦恼的问题。
我们在 D3M 项目下提出的工作目标是结合并扩展一系列现有功能,以提供一个易于重新训练、与模型无关的数据发现、收集和提取系统,该系统可以集中提供并在多个项目中使用。
我们的计划是将我们的技术集成到由 D3M 计划中至少另外两个团队正在开发的 DataMart 系统中。DataMart 为特定领域的数据集编制索引,这些数据集由领域发现爬网程序整理,并通过复杂的 ETL 管道摄取到索引中,这些管道可提取元数据,并识别领域内和跨领域的不同数据集之间的潜在连接和联合。根据我们在 Memex 计划中积累的经验和现有的工具套件,我们提议建立后台发现爬虫,DataMart 系统可利用这些爬虫填充其索引。然而,由于长达一年的合同延迟,我们在项目启动一年后才加入,因此 DataMart 团队早已进入研究阶段,而我们却在努力寻找整合与合作的机会。整合需要 DataMart 团队进行额外的、有时是追溯性的工作,虽然每个人都有最好的合作意愿,但最终证明这在技术上是不可行的。我们确实完成了数据集发现系统与纽约大学和 ISI Datamart 系统的概念验证集成,但我们没有继续进行端到端测试。
尽管如此,仍继续专注于构建离散领域发现工具和实用程序,供 DataMart 系统、其他执行者或潜在的过渡合作伙伴使用。我们继续与 DARPA 合作,以确定我们可以帮助解决的计划能力组合中的差距,并继续寻找机会,以应对领域发现和数据集 ETL 领域中的新用例和挑战问题。