IP地址的所有研究,其实可以归到三个问题上:
1、这个IP在哪儿?
2、这个IP是什么?
3、这个IP干了什么?
本篇是关于IP地址研究的最后一篇文章,我们来聊一聊:如何分析一个IP地址做了什么?
上一篇中,我们提到了通过每个IP下的用户行为,判断用户群体的类型,进而给出IP地址的分类结果。那些,其实都只是最简单,最基础的一些分类方法。通过特定的指标计算、聚类算法,就可以得出结果。
然而,同盾的IP画像,是围绕反欺诈展开的,我们希望能够准确的评估一个IP地址的风险性,进而在风控策略中进行调控。
在IP画像设计初期,我们设计了一个风险评分,用于总体评价这个IP地址风险。风险分数中,IP是否有代理行为、是否命中已知的威胁情报、是否发生过风险行为,都作为评估的依据。但是这样的一个笼统的评分,在实际使用中却有诸多不便。
比如,我们曾经发现过一个IP地址,由于频繁的发生盗卡行为,最终我们给出的风险评分达到了94分(0~100,分数越高风险越高),然而这个IP下其他行为都是正常的,大量的正常用户通过这个IP进行登录、交易、支付等活动。
于是,我们萌生了一个想法,能否准确地定性一个IP到底做过什么样的坏事儿?
反欺诈中,涉及到的业务风险其实非常非常多。不同的行业、不同的平台都会有各自独有的一些风险。
就拿“黄牛”来说,随着互联网的发展,黄牛也从最早的票贩子,演变出了很多很多的花样。
案例1:在各大航空公司的网上订票渠道中,存在很多“占座黄牛”,他们通过特定的渠道,订购了一定数量的廉价机票,然后加价转售,甚至会高出这张机票原有的价格。如果不能及时出手,黄牛就会选择退票,导致飞机上出现很多空座位,各大航空公司对此也很头疼。转手的过程很简单,只需要修改乘机人即可,这个行为可以通过线上的数据分析发现出来。
案例2:一些票务网站(专指演唱会、赛事门票),黄牛会注册大量账号,抢购演唱会门票,拿到门票后,加价出手。由于黄牛拿到了实体票,转手过程是在线下进行的,通过线上行为就无法进行监控。但是,在抢票过程中,黄牛为了增加自己抢到票的几率,会使用很多个账号重复下单,大量订单中的收获地址都是同一个或者具有极高的相似度。
案例3:美团、猫眼、格瓦拉等购买电影票的平台中,也存在很大数量的黄牛。尤其是一些热门大片儿的首映票,价格可以炒到很高。电影票的黄牛,往往以代购的形式操作,他们拥有很高折扣的会员卡,可以低价购买到电影票,然后适当加价转手。黄牛完成支付后,拿到取票二维码,然后把二维码发送给买家。这个过程,也是很难通过线上的行为来进行检测的。
如果我们需要分析一个IP到底做了什么坏事,就必须要先给出明确的定义,到底什么样的行为算是坏事。然后把这些行为分解为非常详细的特征指标,进行建模。
这个过程是漫长的,就像上面举的例子,同样是“黄牛”,由于不同的平台,不通过的行业类型,中间存在着非常巨大的差异。每一种行为都要做这样的深入分析和研究,其实我们一开始是拒绝的......
在后来的一段时间里,我们团队接到了越来越多的提问,客户希望知道,这个IP到底干了什么?到底有没有风险?我们只能硬着头皮,去提取这个IP在过去半年里的行为数据,然后逐一分析。说到底,单凭一个IP地址的类型和地理位置,远远无法满足风控的需求。最终,我们决定要做这么件事儿。于是好几个月就这么过去了。
首先,我们梳理了一份反欺诈的词表,用来给出各种欺诈行为的明确定义。
特征提取
篇幅有限,这里就简单介绍一下我们对黄牛(票务行业)做行为分析和建模的过程。
上图中,是我们抽取到的一份较为典型的黄牛抢票记录。
从这些记录里,能获取到怎样的信息呢?
1、这批账号都在同一天注册,并且注册时间较为集中,注册时间间隔大约为30秒;
2、每个账户只下一个订单,但是多个订单产生的时间非常接近,时间间隔仅为毫秒级;
3、多个订单中的收货人姓名很相似,直观判断,不太可能是真实的姓名;
4、多个订单中的收货地址有明显的异常,在末尾添加了无用的字符串;
5、收获地址末尾的字符串为11位的数字,比较像手机号,多个订单中的这个字符串相同;
6、账号注册和风险发生,中间存在较长的时间,可以定义为休眠账号或养号行为。
如果对这个地址做检查,我们会发现:广东省佛山市均安镇均榄路天连大道是真实存在的。
但是这附近并没有什么小区,反而更像是一个村子。也就是说,收货地址中,“天连大道”之后的部分都是随机添加的,可能并没有任何意义。
这样的做法,是为了避免平台对收获地址做校验,如果大量订单都寄送到同一个收获地址,那么这些订单都存在刷单的嫌疑。
上面的地图中,你可能也注意到了,其实并没有“天连大道”和“天连路”,其实是同一条街。但是由于名称不同,在地址核验过程中,就有可能被认为是两个不同的地址。类似的,比如“南京市白下区李府街”和“南京市秦淮区李府街”,也是同一条街道,2014年白下区被撤销,整体并入秦淮区。从行政区划上看,白下区已经不存在了,但是物流和快递大哥都知道,整个南京市就那么一条李府街,货物也可以成功地递交到收货人手中。
为此,我们也建立了一套用于对收货地址做真实性核验的系统,用于判断多个地址,是否指向了同一个地点。
除了前面列举的三个特征之外,还有一个比较隐蔽的特征,就是注册这些账号的手机号,其实都是”虚假号码“(参见:互联网黑产剖析——虚假号码)。换句话说,提交这些订单的用户,其实都是通过垃圾注册产生的垃圾账户(虚假账户)。除此之外,通过设备指纹技术,我们也识别出,这些订单其实都来自于同一台PC。从IP维度上,虽然每个订单的来源IP都不相同,但是每个IP都最终被确认为代理或者机房。
以上种种,就成为我们判断黄牛行为的特征,归纳如下:
1、黄牛会事先通过垃圾注册准备一批可用的账号,注册过程中往往会使用虚假号码;
2、账号注册过程中会出时间、IP、设备上的集中性,即同一个设备,同一个IP上注册了大量账号;3、多个订单中的收货人、收货地址不真实或相似度极高;
4、多个订单可能从同一个设备上产生;
5、提交订单的IP地址,大部分是机房IP或者代理IP;
6、垃圾账号注册完成之后可能不会立即进行抢票,而是经过了较长的沉睡期或进行特定的养号活动......
进一步细化之后,得到具体的指标参数,就可以进入训练模型的阶段了。
攻击链路
攻击链路(aka Kill-Chain),是安全领域中一个讨论比较多的话题。任何一次风险,都不会平白无故地发生,而是会有一个过程。对一次风险的定义,可以从最终的结果进行定义,但是更多的往往是对这个风险过程的定义。
以偷窃为例,一定会有这么几个步骤:
寻找目标 -- 蹲点 -- 标记 -- 作案准备 -- 撬门/扒窗 -- 进入房间 -- 寻找保险箱 -- 撬开保险箱 -- 拿走钱/珠宝 -- 清理现场 -- 离开现场 -- 销赃 -- 寻找下一个目标
上面的这些,就是Kill-Chain中的节点(Node),也可以叫做风险过程(Process)。在整个攻击链路中,只有起点和终点是确定的,剩下的部分,可能会没有,也可能因为各种突发情况而产生分支链路忽然中断,或者重复某些环节。多个攻击链路,会在特定的一个节点上汇聚,这个节点,就成为了风险防控的关键节点。在这个节点上进行防护,效果就会比较好。
欺诈风险,也是一样的。前面分析黄牛的特征中,我们提到了黄牛会使用一批垃圾账号进行下单。分析一个账号的欺诈行为,需要纵观这个账号的整个生命周期,或者在既定的时间片内,关联上下文,看用户的行为在每一个环节中是否符合特定风险的特征。
那么,针对黄牛风险,攻击链路就可以表示如下:
在攻击链路中,越是靠前的节点,发现和识别越为困难,因为各种特征其实并不明显,只能判断本次事件有嫌疑,而不能确定具体的风险。但是在这些环节上进行防护,起到的效果是最为显著的,成本也相对要低很多。
越是靠后的节点,发现和识别变得简单,很多特征都比较明显,但是防护就变得困难。并且,由于攻击链路本身会产生很多分支,可能在其他环节上已经产生了,即便是同一批次注册的垃圾账号,可能会在不同的场景中被使用。
此外,某些节点上会产生大量的分支链路,比如垃圾注册。通过注册工具/脚本,批量产生的垃圾账号,可能在后续的多种业务场景中出现,不同的业务场景中,又有着不同的风险。
平台的业务越丰富,这个分支就会变得越发明显。如果一个平台同时提供了电商、电影票、团购、点评等多种线上业务,那么这个攻击链路就会变得非常复杂。
这也是为什么我们要建立IP地址画像、手机号画像和设备画像的原因。通过已知的各种风险行为,建立模型,通过跨平台、跨行业来进行联防联控,只要这个手机号、IP或者设备在历史上发生过一次风险行为,就会被识别出来,并且打上标记。
在整个攻击链路最开始的地方进行防护,并且在账号的整个生命周期中,进行持续监控,使得最终能够造成风险的账户数量降至最低。
在对抗中进步
这场欺诈和反欺诈的对抗,已经持续了多年,并且还将继续下去。
我们在不断提升检测能力、改进检测方式的同时,欺诈分子也在不断地产生新的作弊手段。并且,互联网在不断地寻求创新,同样是促销活动,在不同的平台上,会有截然不同的呈现方式,业务流程也不尽相同。这对我们分析风险行为,提取特征带来了极大的困难。
一旦新的业务模式产生,欺诈分子也会相应地寻找可供利用的业务逻辑缺陷,甚至产生一些新的风险类型。这需要我们不断地观察、学习和改进。为此,我们引入了无监督模型来辅助完成大量的指标提取工作。即使欺诈分子使用了新的技术、新的手段,特定风险的攻击链路是不会改变的,无监督模型可以从中提取出新的异常指标,再对模型进行优化和迭代。
结语
我们识别出的每一次风险行为,都会作为标签,标记在手机号、IP和设备上。即使欺诈分子不断地更换这些信息,也总会被发现出来。这是同盾跨行业、跨平台联防联控的巨大优势,也是我们对抗欺诈行为的有力武器。
这些标签,目前在IP画像中已经可以使用,随着我们研究的进一步深入,越来越多的模型被开发出来,可以准确识别的风险行为也越来越多,力求让欺诈分子无所遁形。