这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

2017 年 7 月 27 日 宅客频道 李勤

本文作者:李勤,雷锋网宅客频道。

你听过黑话吗?

有!

天龙盖地虎

宝塔镇河妖

不不不,这句黑话已经OUT很久了。网传,以下是一组知乎经典黑话(这是知乎用户“张新也”说的,冤有头债有主,要是错了你们找他,宅宅并没有黑知乎):

男:你介意我和你一同探究孟德尔定律吗?
(你介意我和你啪啪啪吗?)
女:平面几何与立体几何性质是有差异的。
(看片和实战是不一样的,你有经验嘛?)
男:我倾向于轴心一方的意大利。
(黑意呆利。经验不多,但我有一颗想参战的心)
女:滑铁卢一战拿破仑为什么不动用空军?
(咋不去打飞机)
男:你知道列克星敦对于美国独立的意义吗?
(有了第一枪,后面才能星火燎原策马崩腾)
女:经济学中对消费的分类,除了自给性消费还有什么?
(商品性消费,你给钱吗?)
男:我崇拜提出“农村包围城市”的那个伟人。
(论持久战,可以长期包养)
女:你熟悉安培定则吗?

(我只帮你lu可以吗?)
男:乙醇制乙烯时温度计的位置不能大意。
(不行,一定要插入)

女:我听说秘鲁西海岸厄尔尼诺已经持续了三个月。
(插入很危险,不要出事了。厄尔尼诺字面意思是指小孩子。)
男:熄灭酒精灯的方法
(我带套了......)

啊呀呀,真是太污了,反正宅宅是看不懂的。

不过,今天(7月26日),蓝莲花(Blue-Lotus)战队组建人之一的清华教授段海新介绍了一些网络黑产的黑话更让人大开眼界(蓝莲花有多牛,你可以搜索一下)。

下面进入自我测试时间,如果这些黑话你都能看懂,也许你是黑产研究学八级,要么就是经历很丰富:

菠菜

平马二中一

丁香五月天

咕噜咕噜出肉

段海新腼腆地介绍了一下第一个词,“菠菜”就是“博彩”的意思,后面三个他居然没解释。

好奇的宅宅随便搜索了其中一个关键词,显示出如下的搜索结果,吓得我赶紧捂上了眼睛:

装作看不懂的样子,继续听段教授讲故事


疯狂SEO的黑产网站

网络黑产,无奇不有,黄赌毒尤甚。

这些黄赌毒网站为了在搜索界面抢占更有利的位置,往往会对一些权重较高的网站进行劫持,比如以edu.cn或gov.cn结尾的网站。

你只是想打开一个高校的官网或一个政府网站,一不小心就进入了不可言说的世界。

你只能感叹一句:黑产推广真是丧心病狂。

然而,这并不算什么。黄赌毒和诈骗类网站为了推广自己,还会借助一种技术:蜘蛛池。

蜘蛛池就是一堆由垃圾域名组成的站群,在每个站点下都生成海量页面(抓一堆文本内容相互组合),页面模板与正常网页没多大区别。给那些未收录的页面,在短时间内提供大量的真实的外链,入口曝光多了,被抓取几率就大,收录率自然也就上去了,又因为是外链,所以在排名上也有一定的正向加分。

如果你再稍微了解一点搜索技术,说白了,就是人为制造了一张不断变大的网,把蜘蛛困在里面,让它不断的爬行网内的页面。

总而言之,就是网络黑产不断地用各种手段推广自己,争夺注意力。


噢!黑产有行业术语

为了打掉黑产网站,就要研究黑产网站的 SEO!也因此,段海新发现了伴随黑产网站出现的是“黑产词”:这些网站总有一些关键词像“标签”一样地贴在自己身上。

正经的说法是:

“黑产词”是伴随黑产出现的产品同义词及违法产品本身的关键词的统称。非法商贩和买家通过协定新的词汇表示一种产品,以此躲避监管。

这些隐蔽的“黑产词”通常会扭曲常用词含义,导致“外行人”无法理解其背后的含义,上面举例的一些即是“黑产词”。

这里有个小插曲值得一提。

清华大学有一个优雅的小院名为“怡春院”,曾作为校机关的办公场所,但是,扭曲的黑产居然把这个词变成了……额……通过搜索引擎查询“怡春院”这歌关键词,国内外主流搜索引擎搜出来的都是成人社区(Google除外)。

 他推测,也许这些搜索引擎比较真实地反映了用户搜索的需求。


好消息:这里有本“黑话大全”

宅宅了解到,被推广的“黑产词“可以通过自动化方式检测出来。人们在查询某个商品时,可能会反复触及到多个类似“黑产词”的网站页面,这些页面有可能包含恶意或欺诈内容。

好消息是,利用搜索引擎查询相关页面,并结合相关搜索扩展查询结果,最后采用算法可将结果融合判定是否为黑产词,段海新和他的研究团队做的就是这件事情(也许并不是为了报“怡春院”之仇)。

如何通过自动化手段检测一些新的黑产黑话?

先来了解一下黑产网站是怎么推广的。段海新介绍,比如,毒品商家找到做非法 SEO 引擎优化的推广商,根据产品和关键词进行优化,搜索引擎的爬虫自动到网站上抓取内容,用户搜索时,就有可能被指向这个毒品网站。

因此,段海新的研究团队想出的对抗办法是:

1.输入两部分数据,一部分是搜索引擎厂商提供的恶意URL列表,另一部分是从蜘蛛池推广网站中抓取的200多万页面,在这些页面中提取的关键词。

2.过滤掉这些词中的合法词汇(白词),然后再到搜索引擎中验证一次,是否触发了搜索引擎的报警。

3.利用搜索引擎厂商的相关搜索进行扩展。

最终,就能找到“正确的黑话”。

看上去,三个步骤很简单,但是隐藏了三个复杂的问题——

1.如何提取关键词?

黑产关键词可能会出现在黑产网站的任何一个页面,在尝试很多区域后,段海新发现,明文可点击区域的效果最明显。

你要问了,如果黑产把黑词放在别的地方是否可以逃避检测?

并没有那么容易,如果黑产想逃避检测,带来的副作用是, 搜索引擎的爬虫也无法搜索到这些关键词。

2.如何过滤白词?

用自然语言理解的方法非常困难,但段海新的团队发现了一个简单的方法:很多词都是从新闻热点中抓取过来,而这些新闻标题比较长,所以我们就把超过一定长度的新闻标题过滤掉。

3.如何判断是白词还是黑词?

比如,“清华”是一个白词,所以搜索结果比较干净,而且搜索引擎已经把清华的页面标注,但是搜索“菠菜”,三条以上的搜索结果标注为报警,那么,这个词就可能有问题。

因为“相关搜索”关联了用户的搜索行为,用户输入了一个词汇,但没有点击任何一个链接,又搜索了下一个词汇,那么证明第一个词汇和第二个词汇是相关的;用户搜索了一个关键词,点击了一个链接,那么证明这歌链接里的关键词与这个搜索词相关。

于是,段海新和研究团队得到了 40 万个推广的黑产词汇,确定其中 94%为黑词,去掉地名等"长尾"修饰词最终得到了 1500 个左右的核心词,手工分成了六类,并提取了相关的域名和URL 还有 100万-200万个。

为了验证这些“黑词”是真的黑词,他们在2个不同的搜索引擎中再次搜索新黑词,比如,搜索“***商人”,某歌前10页全是与赌博相关的结果,则可以证明 SEO 的效果“非常好”,这些词是有效的新黑词。

拿到了黑词之后,有什么用?

(当然是为了打掉黑产,报“怡春院”之仇咯)

开个玩笑。

宅宅了解到,段海新和他的同事们做了一个厚厚的研究报告,来讨论黑词的“用处”,他也简单介绍了几个用途:

1.基于黑产推广页面留下的电话号码,他们进行了统计,发现黑产电话号码归属地最多的是山东,徐玉玉案件发生在山东,也许不是偶然事件。

2.他们依据这些黑词对贴吧、论坛进行了统计,发现这些黑词在贴吧和论坛普遍存在,如果将这些黑词反馈给搜索引擎厂商,再次搜索,可以净化搜索结果,还可以净化论坛、网上商店。

3.利用现在扩展的黑词,在教育类和政府类网站进行搜索,发现大量被攻破的网站。

目前,段海新的研究团队正在与百度合作,应用其研究成果。

注:该文引用了段海新在2017网络安全生态峰会上的部分发言,该论坛由阿里巴巴和蚂蚁金服共同主办,干货十足。

--写在最后的话--

阿里巴巴的小伙伴告诉宅宅,阿里也在淘宝上应用了相关对抗“黑话”的技术,在实际应用过程中,还要面对更多变得连亲妈都不认识的“黑词”,对抗升级更可怕。

于是,宅宅决定,在接下来的某一期中,探讨阿里到底应用了哪些“黑词”检测与对抗技术,敬请期待。

蓝字查看更多精彩内容


探索篇

  暗网【上】|  暗网【下

草榴社区 女鉴黄师 | 以图搜图

心脏滴血 撞库攻击 | 潜行追踪

刷票 | 人肉 | 勒索 | 内鬼

超级欺骗系统


真相篇

战斗民族野生聊天 App

草榴社区这类色情网站为什么封不掉

什么样的漏洞买得起北京二环一套房?

上了个“假”黄网,误入了7亿黑产的大门

13岁小黑客自学一年挖到了微软、谷歌的漏洞

中学教材现黄色网站 人教社回应遭网友质疑

干货!top白帽子 Gr36_ 手把手教你挖漏洞

我们可以用“免疫系统”对抗黑客入侵吗?

这位叔叔要教勒索软件一些做人的道理

有个网站叫“我知道你下载了什么”

无线电攻击居然还能用来打飞机

“道哥”透露从业初心


人物篇


道哥:重回阿里的29个月

黑客老王:一个人的黑客史

吴石:站在0和1之间的男人

黑客衰大:45天攻入姑娘的心

黑客段子手“呆子不开口”

“特斯拉破解第一人”刘健皓

唐青昊:虚拟世界的越狱者

MOSEC:盘古团队的野心优雅

让周鸿祎“三顾茅庐” 的 黑客 MJ

美女黑客张婉桥的“爱丽丝奇遇记”

TK教主和玄武实验室的几个小故事

把老婆训练成女黑客的漏洞大神黄正

“真爱”黑客 Fooying 手把手教你追妹子


更多精彩正在整理中……

---

“喜欢就赶紧关注我们”

宅客『Letshome』

雷锋网旗下业界报道公众号。

专注先锋科技领域,讲述黑客背后的故事。

长按下图二维码并识别关注


登录查看更多
0

相关内容

互联网
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
336+阅读 · 2020年6月24日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
66+阅读 · 2020年4月7日
 第八届中国科技大学《计算机图形学》暑期课程课件
专知会员服务
54+阅读 · 2020年3月4日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
116+阅读 · 2019年9月24日
听完了1000+首古风歌曲,我发现自己也能火
PingWest品玩
4+阅读 · 2019年6月2日
说说我的老同事,前端大神程劭非
余晟以为
17+阅读 · 2019年1月14日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
一个统计方向毕业生的2017年数据科学从业之路总结
数萃大数据
5+阅读 · 2018年2月21日
关于孩子的未来,汪涵和李锐想告诉你这些......
三联生活周刊
6+阅读 · 2017年10月28日
你以为自己真的了解用户画像?其实猫腻可多了
THU数据派
8+阅读 · 2017年7月12日
谈谈王者荣耀
小道消息
4+阅读 · 2017年7月6日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
5+阅读 · 2018年12月18日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
相关资讯
听完了1000+首古风歌曲,我发现自己也能火
PingWest品玩
4+阅读 · 2019年6月2日
说说我的老同事,前端大神程劭非
余晟以为
17+阅读 · 2019年1月14日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
一个统计方向毕业生的2017年数据科学从业之路总结
数萃大数据
5+阅读 · 2018年2月21日
关于孩子的未来,汪涵和李锐想告诉你这些......
三联生活周刊
6+阅读 · 2017年10月28日
你以为自己真的了解用户画像?其实猫腻可多了
THU数据派
8+阅读 · 2017年7月12日
谈谈王者荣耀
小道消息
4+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员