最近在代码弱点识别方面的努力,除了抽象语法树等更多的结构性特征外,还注重在源代码文本上训练统计机器学习(ML)模型,作为特征空间。LLVM中间表示法(IR)可以通过标准化代码、减少词汇量以及消除关于语法和内存的一些上下文敏感性来帮助ML模型。我们研究了LLVM IR对训练统计和机器学习模型的好处,包括词包模型、BiLSTM和一些品种的转换模型。我们将这些基于LLVM IR的模型与基于源代码C的模型在两组不同的数据上进行了比较:合成数据和更自然的数据。我们发现,虽然使用LLVM IR特征并不能产生比基于C语言的模型更准确的模型,但我们能够识别出上下文特定的LLVM IR和C语言标记,这些标记有助于表明存在的弱点。此外,对于一个给定的数据集,我们发现在使用更复杂、更耗时的模型之前,任何统计或ML模型是否有利于代码弱点的识别,词包模型可以成为强有力的指标。