美国网络安全人员严重短缺[1]。虽然有一些工作试图培训和招聘更多的人才,但与此同时,一项重要的工作是开发工具,以提高现有从业人员的效率。人工智能 (AI) 已被用于构建许多工具,以增强其他领域的员工队伍 [2] [3] [4] [5] [6] [7] [8]。此外,已有多篇关于使用人工智能协助逆向工程(一项重要的网络安全任务)的学术论文发表 [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21]。本研究探讨了训练人工智能完成程序理解任务的可能性。具体来说,人工智能将把机械提取的程序特征作为输入,并输出有关功能的英文单词和句子描述。这一输出将有助于逆向工程师调查软件的功能和漏洞。输入的特征可能是静态的,即仅通过检查软件获得;也可能是动态的,即从程序执行中提取。在这项新苗研究中,我们调查了一些最新出版物、现有数据集、数据源以及二进制文件和英文文章的嵌入。作为研究的一部分,我们构建了一个新的数据集,该数据集将提供给研究社区供普遍使用。简而言之,这项研究有两方面的成果。首先,我们从 100 多万个堆栈溢出页面中构建的数据集质量不够高,无法用于训练程序理解的人工智能。此外,有证据表明,用于英语文章的嵌入对于我们的目的来说过于粗糙,混淆了我们希望它能区分的概念。本报告最后提出了未来研究的一些想法,包括使用我们的数据集质量度量来识别或加权更高质量的示例,以及使用从源搜索和自动生成的网络搜索中提取文章的一些想法。