导语:根据 Aberdeen Group 在近期发布的以北美几百家公司数据为样本的爬虫调查报告显示,2015 年网站流量中的真人访问仅为总流量的 54.4% ,剩余的流量由 27% 的好爬虫和 18.6% 的恶意爬虫构成。

整个互联网的流量中,真人占比有多少?

80% ? 60% ? 50% ?

999.png

根据 Aberdeen Group 在近期发布的以北美几百家公司数据为样本的爬虫调查报告显示,2015 年网站流量中的真人访问仅为总流量的 54.4% ,剩余的流量由 27% 的好爬虫和 18.6% 的恶意爬虫构成。

爬与反爬的斗争从未间断

恶意爬虫占比数据与 2013 年和 2014 年相比有所下降,同时真人访问的占比也有所提升,但这并不意味着恶意爬虫日渐式微。一个原因是印度、印度尼西亚等高人口总数国家的互联网新增人口有大幅提升,另一方面,恶意爬虫制造者更专注于爬虫的质量而不是数量,如今的恶意爬虫具有高持续性和可变性。

爬与反爬的斗争从未间断。过去的初级爬虫能很明显从异常的 Headers 信息甄别,但爬虫制造者从一次次爬与反爬中总结出可能被封的原因,通过不断的测试和改善爬虫程序,更新换代后的高持续性恶意爬虫通常具有以下特点中的某几个:         

模仿真人行为
加载 Javascript 和外部资源
模拟 cookie 和 useragent
浏览器自动化操作
变化的 IP 地址池

可能很多人认为,恶意爬虫只会威胁到少数以文本为核心价值的网站,其实这些能改变自己请求路径和请求方式的伪装者可能潜伏在任何一个网站的每一个角落,文本、图片、价格、评论、接口、架构等方方面面均有可能成为爬虫的囊中物。

纵容爬虫的危害你必须知道

从网站业务安全的角度,纵容这些伪装者的危害有以下几点:

一、 核心文本被爬

网站的核心文本可能在几小时甚至几分钟内就被恶意爬虫抓取并悄无声息的复制到别的网站。核心内容被复制会极大影响网站和网页本身在搜索引擎上的排名,低排名会导致访问量降低和销量、广告收益降低的恶性循环。

在内容为王、用户粘性不高的今天,核心内容很大程度上会影响网站在用户心目中的价值。若网站以文本为商品作为盈利点,那恶意爬虫更是影响 KPI 的罪魁祸首。

二、商品价格被爬

1. 价格爬虫的成因有两种,一是网站竞争对手刻意爬取商品详情和价格后进行同类产品线和价格的研究。

比如某 APP 上线新的租车服务前,会爬取所有竞品 APP 中的车型详情及定价策略,为新服务上线打下价格优势。

另一个案例来自某酒店网站,我们在数据分析平台 Warden 实践中发现,网站的客房详情被爬虫攻击,机器访问的特点非常明显:

页面被某几个 IP 超高频访问,单个 IP每小时访问量达 5000 以上
部分 IP 的访问路径极为单一,仅请求房价详情页面,无真人访问的“首页→搜索→详情页→搜索”轨迹
访问间隔极短,且每次均请求不同时间段不同地域不同编号的酒店客房信息

以上特点能完全排除真人访问的可能,在 数据分析平台中也触发多个实时策略,让我们可以协助用户及时处理。

9999.jpg

* IP 点击详情

8.jpg

**某一条点击详情的 request 和 response 信息

1483515102207899.jpg

**点击数及报警数统计,红点部分为触发报警

这类爬虫就是典型的价格爬虫,如不进行实时判断和拦截,网站的定价信息可能在几小时内就被竞争对手完全掌握。

2. 第二个成因是羊毛党们试图搜寻低价商品信息或在营销大促前提前获取情报寻找套利的可能。

比如某 P2P 行业客户发现近几个月理财转让专区的产品几乎在放出 2 秒内就被转让成功,而网站的活跃用户并没有大幅的增长,转让专区疑似被爬。

通过数据分析平台能在流量中能看到该转让页面正在遭受爬虫的攻击,攻击者能在极短时间内获取转让产品的收益率并自动筛选高收益率的产品,甚至能实现脚本自动下单购买。

3. 另一个案例来自某电商平台,某次声势浩大的营销活动规定新注册用户绑卡后能获得一次抽奖机会,由于抽奖接口遗漏了其他渠道分享入口,给羊毛党有了不绑卡也能抽奖的可趁之机,造成活动几乎全部的奖品被羊毛党薅去。

1483515154876040.png

**网站营销页面点击量突增

1483515196559819.jpg

**风险情报系统提示该 IP 具有高风险分值

在事后复盘时,我们在数据分析平台中发现羊毛党活动前疑似派出爬虫探路,活动汇总页面被超高频访问,虽然访问量并不集中于某几个 IP ,但有访问地域集中于某两个城市、访问路径单一且访问间隔有规律等特点。另外,通过风险情报系统 Red.Q 的数据,同样提示这些访问 IP 的高风险分值,活动开始后羊毛党的访问也有类似的访问规律。

羊毛党的活动特性是个大话题,在此先不展开,但从案例中能看到,价格爬虫是羊毛党们的先锋探路工具,攻击者们可以通过爬虫获得营销活动的具体信息,同时能测试网站对高频访问或最大访问量的限制,为之后的薅羊毛做铺垫。

三 注册用户被扫描

如果在网站的注册页面输入一个已注册过的号码,通常会看到“该用户已注册”的提示,这一信息也会在请求的 response 中显示,一些网站的短信接口也有类似逻辑,注册用户和非注册用户返回的字段和枚举值会有不同。利用这一业务逻辑,恶意爬虫通过各类社工库拿到一批手机号后可以在短时内验证这批号码是否为某一网站的注册用户。

这个数据有什么利用价值?除了很明显的违法欺诈外,攻击者可以将数据打包出售给竞争对手或感兴趣的数据营销公司,完善他们的精准营销数据。

四 其他危害

点击欺诈:点击欺诈会给网站造成实实在在的利益损失。投放广告通常是为了触达符合网站定位的潜在消费者,爬虫造成的点击欺诈使得广告的点击率虚高,使得网站承担了本不应承担的点击费用。从运营角度出发,访问量无原因的忽高忽高也不利于分析广告投放效果。

网站带宽负担:对于带宽有限的中小型网站,爬虫可能会降低网页加载速度,影响真实用户的访问体验。

事前的甄别预防才是关键

恶意爬虫在给网站带来可观访问量的同时,也带来了难以估量的威胁和损失。

从实际案例中我们可以看到,恶意爬虫已经承担了整个攻击环节先锋者的重任,所以在分析网站的业务安全风险时,我们可以更多的关注流量和用户行为的异常点,尽可能的在恶意行为刚发生时就及时甄别并做出合理的判断和拦截,必要时,宜采用专业的风险情报系统和数据分析平台进行系统的部署。对于企业来说,事前预防远比事后补救重要。

源链接

Hacking more

...