最近在代码弱点识别方面的努力,除了抽象语法树等更多的结构性特征外,还注重在源代码文本上训练统计机器学习(ML)模型,作为特征空间。LLVM中间表示法(IR)可以通过标准化代码、减少词汇量以及消除关于语法和内存的一些上下文敏感性来帮助ML模型。我们研究了LLVM IR对训练统计和机器学习模型的好处,包括词包模型、BiLSTM和一些品种的转换模型。我们将这些基于LLVM IR的模型与基于源代码C的模型在两组不同的数据上进行了比较:合成数据和更自然的数据。我们发现,虽然使用LLVM IR特征并不能产生比基于C语言的模型更准确的模型,但我们能够识别出上下文特定的LLVM IR和C语言标记,这些标记有助于表明存在的弱点。此外,对于一个给定的数据集,我们发现在使用更复杂、更耗时的模型之前,任何统计或ML模型是否有利于代码弱点的识别,词包模型可以成为强有力的指标。

成为VIP会员查看完整内容
13

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
【CMU博士论文】无人工监督的视觉表示与识别,126页pdf
专知会员服务
34+阅读 · 2022年12月14日
【牛津大学博士论文】鲁棒神经网络:评估与构建
专知会员服务
34+阅读 · 2022年10月23日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
【Hinton新论文】语言建模目标检测Pix2seq
专知会员服务
25+阅读 · 2021年9月23日
【哥伦比亚大学博士论文】深度概率图建模147页pdf
专知会员服务
88+阅读 · 2021年4月27日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
216+阅读 · 2020年10月8日
利用 OpenCV+ConvNets 检测几何图形
极市平台
0+阅读 · 2022年1月26日
开发人员如何正确地在产品中使用 GPT-3?
开发人员如何正确地在产品中使用GPT-3?
AI前线
0+阅读 · 2022年1月12日
用于研究翻译中性别偏见的数据集
TensorFlow
0+阅读 · 2021年8月19日
教程帖:用TensorFlow自制Taylor Swift识别器
论智
13+阅读 · 2018年1月17日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年2月8日
Arxiv
0+阅读 · 2023年2月8日
CSKG: The CommonSense Knowledge Graph
Arxiv
18+阅读 · 2020年12月21日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员