依据敏感度(例如“非密”“秘密”“绝密”)对政府文件进行准确分类对国家安全至关重要,然而传统上该过程依赖密集型人工审核。当前的人工分类流程每年在美国政府内部消耗数百万工时,使大量专业人才无法专注于关键分析任务。本研究探索利用DISC数据集[1]最新解密的材料实现安全分类任务的自动化,旨在解决实际挑战,如光学字符识别(OCR)输出的噪声干扰、数据分布不平衡以及文档文本中可能存在的显性分类标记泄露风险。该数据集包含来自数字国家安全档案馆的解密政府文件,提供了代表实际分类场景的真实文本样本。评估了传统机器学习方法与基于Transformer的先进语言模型在多个敏感度级别上准确分类文档的能力。研究结果表明,基于Transformer的模型(特别是DeBERTa)能有效提升对少数但关键的“绝密”类别的识别能力,其召回率超过70%且整体平衡性能表现优异(宏观F1分数达0.75);而传统方法虽整体准确率相近,但对少数类别的召回表现不佳。尽管成果显著,仍需谨慎指出:本研究结论受限于训练数据规模不足以及人工标注文件固有的不确定性。强调需要更大规模、经过严格预处理的数据集,并建议未来研究通过检索增强等方法将权威分类指南直接整合到模型训练中。因此,本工作构建了一个可复现的基础性框架,证明了机器辅助安全分类的巨大潜力,为信息安全领域的未来研究与实践应用提供指引。

成为VIP会员查看完整内容
1

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
微信扫码咨询专知VIP会员