导语:我们尝试将“六度空间”映射到风控领域,构建一个用户知识图谱。
从校内到人人,微信到陌陌,我们早已熟悉各式各样“你可能认识的人”,”六度空间”理论早已深入人心。社交软件通过不同人的社会特征将大家关联到一起形成一个庞大的社交网络。同样,在电商的客户里我们有上亿各种类型的用户,我们是否可以分析出他们之间的关系?这些用户里有好人也有黑产,我们是否能从这些关系里推断出谁可能是正常用户,谁可能是黑产,从而将这些数据应用到风控中,从而识别潜在的风险交易?我们尝试将“六度空间”映射到风控领域,构建一个用户知识图谱。
2012年以前的语义web中描述一个人可以是“23岁”,”男”,”江苏人”,“三多”“许三”,这些描述都映射到“许三”,许三被称作“本体(ontology)”。“许三-性别-男”这样的“资源-属性-值”的描述方式称之为RDF(资源描述框架)。当我们构建无限多个像许三这样的本体之后就形成了一个本体的集合,就可以研究“属性-本体”,“本体-本体”之间的关系,他们可以兄弟也可以是父子,甚至可以判断外号三多和许三是同义,代表同一个人,这样就形成了一个人与人之间的关系网络。
2012年,google推出了知识图谱,知识图谱的本质还是语义web,将本体从学术引入到应用。知识图谱构建了一个基于图的数据结构,将现实世界的实体(学术本体)关系通过点和边来描述,实现了一种更有效的展示本体之间关系的网络,也给我们提供了一个通过关系去分析问题的方式。简单来说,知识图谱就是把所有数据信息通过关系连接在一起形成的一个关系网络。
在风控领域里,我们尝试用知识图谱去描述两个人张三和李四,当张三和李四曾经都使用同一个收货手机,那么我们可以通过手机来为两个人建立一个关系,如下图:
在风控领域我们描述一个用户有以下常用属性:用户id,注册手机,注册时间,注册ip,登录ip,登录时间,收货手机,收货地址,设备指纹,实名信息,银行卡,支付信息,行为信息等。
概括出来,知识图谱在风控领域的应用主要分为以下几个部分:
1. 关联识别 2. 聚类识别 3. 推导识别 4. 异构识别 5. 碰撞检测 6. 同义识别
简单举例,实际情况比示例要复杂的多。
1.关联识别
1)关系识别
匿名用户与登录用户
匿名用户A与登录用户B拥有相同的设备指纹,客户端信息等,可以初步推断匿名用户A与登录用户B是同一人,若A有风险行为,则B的操作不可靠。
2)行为识别
撞库行为识别
用户账号A,B,C……等账号在同一个时间段内在同一个设备上有尝试登录的行为,可以推断此时存在撞库风险,对此时登录成功的账号应发起改密提醒。
2.聚类识别
由于资源的有限,黑产总会最大程度利用资源,在很多不同的注册,登录,下单的场景中,看似独立的每个用户可能因为共享有相同的手机号码,登录ip,下单ip等信息而形成一个聚合集体,这个集体很容易从知识图谱中识别出来。
在应对刷单的场景中,黑产为了能够收到刷到的商品会将收货地址选定在某个固定的区域内便于降低收货成本,通过对收货地址的区县聚类,可以形成一个以地理位置为维度的知识图谱,通过对图的规模识别来反映刷单风险。
3.推导识别
用户账号A与B拥有相同的手机号,用户账号B与C拥有相同的收货地址,则可以推导A与C是存在关系的。如果在某个营销活动里,用户A推荐了B,B推荐了C,C推荐了D,如果判定A为黑产则可以推导这个图的节点上所有用户都疑似为黑产。
金融风控领域,在贷后催收过程中如果被催收人A失联,可以通过知识图谱找到与A关系相近的其他人,进行追踪。
4.异构识别
在一个时间段内用户A的知识图谱的关系结构有较大的变化,有关系的断开也有关系的变更,就要关注这部分用户的信息变化,识别潜在的风险。
5.碰撞检测
同一个时间,订单1收货手机A对应的收货人姓名为许XX,订单2收货手机也为A但是收货人姓名为李XX,则A的手机归属人存在冲突,存在潜在的风险。
在金融领域,用户填写个人信息,公司信息的时候,可能存在虚假信息,比如A填写的公司为G1,地址为“上海市闸北区”,公司电话为“021XXXX”,用户B填写的公司也为G1,地址却为“上海市闵行区”,公司电话为“021YYYY”,此时同一个公司有有两个地址和电话,可以判断为信息冲突,需要核实两个地址是否为同一公司。
6.同义检测
在用户填写信息中如已确定“唯品会”与“四行天地”为已知正确关系,如其他用户填写“唯品会(中国)”与“四行天地”,通过相似度匹配可以认为“唯品会”与“唯品会(中国)”为同义词。之前我们提到,在RDF中可以构建一个同义词的关系,用知识图谱建立该关系,可以在碰撞检测中去除掉一部分同义词产生的碰撞,使结果更加的准确。
了解了应用场景,下一步就是将理论上升到实践中啦。