互联网金融面对着很多风险,比如:薅羊毛,恶意注册,常规的攻击。针对常规的攻击手段我们或许可以使用WAF,IDS,IPS这些硬件来防护。但是针对薅羊毛这些,我们无从下手,打击力度太大的话又可能影响到正常用户,这种问题怎么破?
这时候我们就可以用大数据来做这些事,我们姑且可以叫做大数据风控。既能够防御攻击,又可以对高危借贷用户进行区分,好处不言而喻。
我们可以从客户端(Broswer、APP)采集大量我们需要入库的信息,当然不包括用户的隐私和敏感信息。核心的价值就是以设备为唯一标识(GUID),而不是以用户。我们需要采集的信息可以是:浏览器版本,浏览器窗口大小,主机分辨率,时间戳,鼠标移动轨迹,TCP层的IP和应用层的IP等。这些东西经过我们后期的机器学习和算法优化后特性将会越来越明显。我们可以把采集到的所有机器特征标识为一个GUID(唯一用户标识),然后入库。
服务端我们一般采用分布式架构比如Spark和Mongodb,我们有之前入库的GUID,然后通过我们调教后的算法给出一个Risk Score来评估设备的信誉值。然后可以接入第三方风控机构的API或者DB,来加强Risk Score的准确性。为了进一步加强我们的准确性,我们还可以建立一个高危用户数据库。这些用户在互联网中被泄露,存在很高的风险,他们的安全对于我们来说需要承担更多的风险。
显然我们需要一个初步的算法,这里我只给出一个非常简略的逻辑。比如用户登录的地点,时间戳,访问的页面等。现在打个比方,比如用户A今天在上海登陆,明天又在加州登陆,这些用户可能就存在着欺诈或者被盗号的风险,那我们就可以要求他进一步验证身份。第二个比方,用户B直接访问了修改密码的Page,然而他并没有通过任何相互关联的Page进入,那么用户B可能存在攻击或者被攻击的行为,那我们就可以要求他验证。
针对P2P的业务逻辑而言,用户可能执行注册,登陆,支付,提现这些重要的操作。那我们的GUID在这个时候就可以派上用处了。比如新用户注册的时候,判断他是否已经存在过注册的行为,如果存在的话那他显然就是欺诈,那么该设备的信誉就会很低。当然,如果用在Loan中效果会更加明显,结合Risk Score和第三方风控机构的数据库,可以准确的轻易的判断这个用户会不会是否欺诈,或者在多个平台贷款。
最后我们说一下Risk Score的作用。
用户在社交网络中的每一个信息都能够透露他们的财务习惯,兴趣爱好等。例如我们可以在微博中爬取他们的关注者和粉丝,这能够让我构建出社交关系的图谱。比如点评,我们可以获取用户的消费习惯,常出入地点。这些东西都能够帮助我们来进行建模,并对用户进行分析,用户是否存在高危行为和欺诈行为,跑路的几率有多少,然后最终给出一个用户的最后价值和风险值。
综所上述,我相信当数据量达到一定规模的时候,我们的风控系统可以轻易的帮助平台降低坏账率,获取更高质量的客户和抵挡恶意攻击与操作。
本文作者:李文吉(点融黑帮),现任点融高级安全工程师,曾就职大数据反欺诈公司安全研究员,专注互联网安全、熟悉WEB安全与安全开发。
【原文:大数据的风控与安全防御 | 点融黑帮 作者:Sam 安全脉搏Blackhold整理发布】