We present MH-1M, one of the most comprehensive and up-to-date datasets for advanced Android malware research. The dataset comprises 1,340,515 applications, encompassing a wide range of features and extensive metadata. To ensure accurate malware classification, we employ the VirusTotal API, integrating multiple detection engines for comprehensive and reliable assessment. Our GitHub, Figshare, and Harvard Dataverse repositories provide open access to the processed dataset and its extensive supplementary metadata, totaling more than 400 GB of data and including the outputs of the feature extraction pipeline as well as the corresponding VirusTotal reports. Our findings underscore the MH-1M dataset's invaluable role in understanding the evolving landscape of malware.


翻译:我们提出了MH-1M,这是用于高级安卓恶意软件研究的最全面且最新的数据集之一。该数据集包含1,340,515个应用程序,涵盖广泛的特征和丰富的元数据。为确保准确的恶意软件分类,我们采用VirusTotal API,整合多个检测引擎以实现全面可靠的评估。我们在GitHub、Figshare和哈佛Dataverse上的存储库提供了对处理后的数据集及其大量补充元数据的开放访问,数据总量超过400 GB,包括特征提取流程的输出以及相应的VirusTotal报告。我们的研究结果强调了MH-1M数据集在理解恶意软件不断演变的格局中的宝贵作用。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
OpenAI GPT 4.5 报告 (中英文版)
专知会员服务
40+阅读 · 3月1日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员