In recent years, spammers are now trying to obfuscate their intents by introducing hybrid spam e-mail combining both image and text parts, which is more challenging to detect in comparison to e-mails containing text or image only. The motivation behind this research is to design an effective approach filtering out hybrid spam e-mails to avoid situations where traditional text-based or image-baesd only filters fail to detect hybrid spam e-mails. To the best of our knowledge, a few studies have been conducted with the goal of detecting hybrid spam e-mails. Ordinarily, Optical Character Recognition (OCR) technology is used to eliminate the image parts of spam by transforming images into text. However, the research questions are that although OCR scanning is a very successful technique in processing text-and-image hybrid spam, it is not an effective solution for dealing with huge quantities due to the CPU power required and the execution time it takes to scan e-mail files. And the OCR techniques are not always reliable in the transformation processes. To address such problems, we propose new late multi-modal fusion training frameworks for a text-and-image hybrid spam e-mail filtering system compared to the classical early fusion detection frameworks based on the OCR method. Convolutional Neural Network (CNN) and Continuous Bag of Words were implemented to extract features from image and text parts of hybrid spam respectively, whereas generated features were fed to sigmoid layer and Machine Learning based classifiers including Random Forest (RF), Decision Tree (DT), Naive Bayes (NB) and Support Vector Machine (SVM) to determine the e-mail ham or spam.


翻译:近些年来,垃圾邮件现在试图通过引入混合垃圾邮件,将图像和文本部分混合在一起,来掩盖其意图。 与只包含文本或图像的电子邮件相比,通过引入混合垃圾邮件,发现与图像或文本部分相结合的混合垃圾邮件更具挑战性。本研究的动机是设计一种有效的过滤方法,过滤混合垃圾邮件的混合垃圾邮件,以避免传统基于文本的垃圾邮件或图像粒子的过滤器无法检测到混合垃圾邮件。根据我们的知识,已经开展了一些研究,目的是检测混合垃圾邮件的电子邮件。通常,光学字符识别技术(OCR)被用来通过将图像转换成文本来消除垃圾邮件的图像部分。然而,研究的动机是设计一种有效的方法,过滤混合垃圾电子邮件电子邮件电子邮件电子邮件邮件,避免传统文本或图像垃圾邮件过滤器无法检测到混合邮件文件的超大数量。在转型过程中,OCRCR技术并不总是可靠。 为解决此类问题,我们提议在內部、內部、內部、內地、內、內地、內、內、內、內、內、內、內、內、內、內、內、內、內、後根根、後、後、後、後、內、內、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、後、</s>

0
下载
关闭预览

相关内容

不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
75+阅读 · 2022年6月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
20+阅读 · 2020年6月8日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员