爬虫(spider),本来是个起源于搜索引擎的概念,百度、搜狗等搜索引擎,依靠巨大的爬虫集群每天抓取互联网上数百亿网页。
随着技术的发展,现在的爬虫已经与以往大不相同。它被广泛用于互联网金融、电商、社交等领域。在机票领域,爬虫可以抓取机票价格,发现超值机票后,爬虫还可以仿冒真人用户将其抢先预订。
机票爬虫们威力之大,让人叹为观止:多数订票网站,真实用户产生的不到 10%,其浏览量的 90%由爬虫产生。
航空公司放出的低价机票,很少被普通用户买到。据业内人士估计,80%以上低价机票被票务公司的爬虫抢走。
其他行业的互联网公司,大家吹嘘自己价值的时候通常说,我的 PV是多少、UV是多少。
在机票行业,谁也不敢这么说。因为都知道,真实流量只有百分之几。
携程的反爬虫专家在技术分享中举例:某网站的一个页面,每分钟的浏览量是 1.2万,真实用户只有 500个,爬虫流量比例是 95.8%。
据我们的采访,多个内部人士表示,即使在爬虫的淡季,虚假流量也占据订票网站的 50%,高峰期更是在 90%以上。
这些爬虫流量只访问,消耗大量机器资源,却不产生任何消费,是每个公司最痛恨的东西。但是,因为怕误伤真实用户,各家公司的反爬虫策略做的非常谨慎。
某旅游网站的反欺诈工程师阿城(化名)向我们表示,行业内的价格战在很大程度上促使爬虫程序的肆虐。
他举例说:假使行内有三个网站 A、B、C,他们都在宣传的时候主打:上某某网,订票最便宜。事实上,航空公司给他们的价格基本是相同的,即使有的网站出票量大,挣得也是年底的返点,很难有太大的价格差别。
于是,网站 A在某个月补贴 300万,每张票平均补贴 100元,使得自己网站上的机票价格看起来便宜好多。
但是在制定价格补贴的时候,为了预防黄牛党,大家都不敢每张票直接减 100,而是热门航线减 50,不热门的减 150,市场上重点宣传那些不热门的线路。
而且在不同时间、不同航线,执行不同的价格补贴策略,同一张票,可能早上和中午的价格都不同。大家一看真便宜,于是蜂拥而至。
网站 B的 CEO一看,这不行啊,我们也补贴。他们补 300万,我们补 500万。技术部的某某,你去监测下他们的价格,我要知道他们的补贴策略。
网站上每天至少有几十万张票的价格出来,这肯定需要爬虫去爬,于是网站 B的爬虫就出动了。
网站 C同样也这么搞。
直到有一天,因为各家爬虫过于勤奋,导致服务器压力报警。
网站 A的 CEO一看,我们的出票份额是市场第一,技术部的人员配备是他们两倍,爬虫谁怕谁?用更强大的机器集群武装起来的爬虫们蜂拥爬向对手的网站。
事实上,国内的旅游网站有点名气的至少有七八家,都有各自的订票业务。这些家的爬虫爬来爬去,就有了爬虫流量占据所有流量 95%的奇观。
爬虫和反爬虫之战硝烟四起。
2015年上半年,国资委要求几家国有航空公司未来三年内直销比例要提升至 50%,同时代理费要在 2014年的基础上下降 50%,这就是民航业影响深远的“提直降代”。
所谓“提直降代”,就是要求航空公司要直营飞机票,尽力削减票务代理、旅游网站的出票量。据业内人士介绍,直销比例每提高 10%,航空公司就可以从代理人手中节约近 10亿元的分销费用。
坐飞机的朋友可能会注意到,各个航空公司在不遗余力的宣传自己网站:你刚上飞机,就有空姐给你一张小卡片,“上某航官网,票价最便宜,贵了双倍返现金”。
自 2016年开始,航空公司确实加强了官方网站、官方 APP建设的力度,一方面以补贴低价票来吸引用户,另一个方面给票务代理和旅游网站的票价坚挺,两相夹击之下,票务代理和旅游网站的处境日益艰难。
旅游网站依靠巨大的出票量(携程 +去哪儿占到所有机票份额的 65%),雄厚的资金实力可以暂时维持,但票务公司开始动起了歪脑筋。
新的发财之路被票务公司发掘出来:用爬虫监测价格,用爬虫抢低价机票。简而言之,票务公司要转型成机票黄牛。而航空公司,则成了这场爬虫战争的受害者。
提直降代以来,航空公司在官方渠道放出了不少低价票,以此来吸引客户。但客户并没有感觉到便宜,这是为什么?
我们采访了知名白帽子黑客罗启武,他创立的岂安科技专注业务风险控制,为民航系统提供反爬虫解决方案。罗启武表示:民航公司的高价票源,尤其是热门线路航位、黄金周飞机航位、民航公司补贴的特价票等,大多数一放出来就被爬虫程序抢光。
匿名票代人士也向我们表示:机票爬虫会利用虚假客户信息,或者买来的真实身份信息订票,抢来的票加价 200-500元卖出去,黄金周、过年长假这样的时间一张票甚至会加价 1000元。因为票务黄牛本身拥有客户资源,比较容易出手。即使卖不掉也不怕,因为很多订票的信息是虚假信息,航空公司只能吃哑巴亏。
为了应对这种虚假抢票、虚假占座的情况,有些航空公司不得不采取潜规则:每架飞机要多卖 5%-10%的票,这被称之为“超售”,这给真实用户带来了巨大的问题,有的用户会因为超售严重无法登机。
在旅游网站的时代,爬虫和反爬虫的战争通常在网站之间展开。据我们了解,头部旅游网站有着业界一流的反爬团队,随着两家巨头的合并,旅游网站的战争烈度有所降低,与此对应的是,航空公司成了新的被爬对象。
截至 2016年底,我国共有运输航空公司 59家,其中客运航空公司 51家。与互联网公司的巨头垄断情况不同,航空公司相对分散,也就无法形成相对强大的反爬虫、反欺诈力量,只能寻求第三方业务安全公司的支持。
岂安科技创始人罗启武表示,针对航空公司所产生的安全威胁有很多,比如用爬虫爬取机票票价,检测到低价票后迅速抢票占座,再加价卖出;航空公司做市场活动时,也经常被羊毛党,甚至是专业羊毛党组团把低价票薅走,现在的爬虫基本可以替代 95%的人工操作,普通用户买票想要赢过爬虫?几乎不可能。
更为严重的是,爬虫爬取、虚占座位、羊毛党等每一个看似独立的隐患,犹如地球另一端几只蝴蝶扇了下翅膀,最终汇聚成了影响庞大的蝴蝶效应——多种原因所带来的用户信息泄露、机票诈骗已经成为各个航空公司头疼的毒瘤。
根据公安部发布的通告,海南儋州甚至成为专业的“机票退票”电信诈骗重点整治地区。
近日,浙江省温州市公安局网安支队、苍南县公安局网警大队破获一起特大黑客攻击窃取国内航空公司网站信息案件。黑客非法入侵 50多家民用航空类公司网站,窃取乘客票务信息,再利用这些信息实施网络诈骗,骗取金额 1000多万元。警方共抓获黑客林某等犯罪嫌疑人 20名,缴获航空票务类公民信息 30多万条和大量账号、密码信息。
我们综合专家意见,向航空公司、旅游网站、普通用户等提出四大举措:
订票用户的行为识别是反爬虫的重要因素:普通用户在打开网页时会有比较丰富的地址访问,比如从首页到频道页,再到加个页面,每个页面浏览几分钟;爬虫则访问固定的几个页面,与真实用户差别较大。
对于各航空公司而言,除了爬虫与羊毛党,航司还存在着信息泄露导致的机票诈骗、市场活动被羊毛党盯上等诸多风险问题,需要综合性、立体化的解决方案。
对于各大航空公司而言,做好内部信息系统的权限管理和分级别控制非常重要。比如,有些航空公司的低级账号可以查看所有用户信息,这样就会带来巨大安全风险。
对于普通用户,一定要认准航空公司官网。无论是朋友圈的“低价机票骗局”,还是通过短信进行的“机票退款诈骗短信”,只要拨打机票上的客服电话、访问官网都能获得权威信息,不会轻易上当。
责任编辑:赵新龙