导读
垃圾短信识别问题涉及到自然语言处理的许多方面,解决这一问题不仅可以提高用户体验移动生活的质量,还能有助于当前移动应用中出现的短文本(例如微信、微博)的分析研究工作。
针对垃圾短信具有稀疏性、变换性和实时性的特点,本文提出了三种在不同层次的垃圾短信识别方法:基于符号特征的识别、基于文本相似度的识别和基于模式匹配的识别。结合这些方法,文章得到了一种多层次的垃圾短信识别方法。为了丰富模式库,减少人力和时间消耗,文章提出了一种准模式学习方法,在模式匹配过程中利用准模式匹配结果。该方法可以从短信语料库中学习到许多有趣的新模式。文章最后进行了综合分析,表明本文提出的垃圾短信识别方法的准确率达到95.18%,召回率达95.51%。
文章精要
如需阅读本期推荐文章的全文,请点左下角的「阅读原文」链接。
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社出版、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。
长按二维码关注Frontiers of Computer Science公众号