我们生活在“未来”——准确地说,是我们不久之前设想的未来。自动驾驶技术投入使用,语音助手协助人类完成工作,通过人脸识别解锁手机……机器学习驱动技术进步,并不断塑造和改善着我们的生活。

将海量数据导入模型,无需下达明确指令,机器会开始推断不同数据点之间的联系——这就是机器学习的本质。Spotify会根据用户浏览记录和同类音乐听众的收听记录推荐新单曲。汽车通过分析传感器、3D地图和历史行程的视频记录来决定移动方式,比如停车让行或等待红灯,从而实现自动驾驶。在反欺诈监测领域,机器学习的工作原理类似。

利用由历史订单构成的强大数据网络,反欺诈监测模型可以实时辨别可信订单和欺诈订单。与其他形式的机器学习一样,反欺诈监测系统需要依据输入的数据执行任务时,这些输入被称为“特征”。

基础介绍

高级统计模型在执行任务时会用到成百上千甚至上万个特征。特征可以很简单,例如订单金额;也可以更复杂,例如理解账单地址和送货地址之间的联系。我们可以将订单金额、账单地址和送货地址的联系等信息输入模型中,但如何利用相应特征做出决策,则由模型自行决定。

在接触了数百万个订单后,模型可能会判定金额超过250美元的订单比小额订单的风险更大。同样,模型可能会认为账单地址与送货地址匹配的订单可信度更高。那么,模型是否会批准所有账单地址和送货地址匹配的订单,而拒绝所有金额超过250美元的订单呢?当然不是。通过长期的训练积累,以及行业专家对模型的监督指导,机器会逐步学习应该给模型中的各个特征分别分配多少权重。因此,更详实的数据、更丰富的特征有助于模型做出更准确的决策。

电商欺诈影响着各行各业的商家。其中,有些特征具有行业针对性,有些则是普遍特征,可为任何行业提供决策信息。下面的例子将帮助我们了解普遍特征和行业具体特征是如何优化反欺诈监测模型的。

欺诈的普遍特征

线上交易所需的某些数据普遍适用于所有行业。无论是预订机票还是购买运动鞋,消费者都必须提供一套固定的信息。下面列举了几个无论什么行业都可用于欺诈监测的普遍特征:

邮箱注册年限:邮箱账号注册年限是反欺诈监测系统的常用数据。通常,邮箱注册得越早,订单风险就越小。比如,一个在过去七年一直保持活跃的邮箱账号比昨天刚注册的更可信。

快递运输:商家应对特殊快递需求保持警觉(亚马逊除外)。消费者一般不愿为加急配送额外付费,但欺诈者往往不介意花别人的钱来支付运费,以便更快收到商品。

折扣订单:折扣商品订单通常比正价商品订单更安全。根据Riskified的数据,折扣商品对欺诈者来说并不那么有价值,在像“黑色星期五”这样的折扣日,欺诈行为往往会较平时下降一半。

虽然这些都是电商领域的普遍特征,但还是需要根据具体情况区别对待。例如,欺诈者可以盗用7年前创建的邮箱账户来瞒骗反欺诈系统,而很多新创建的邮箱账户反而安全可信;有些消费者可能愿意为快递服务额外付费。因此,各项特征在不同的模型中会被赋予不同的权重,而且还会加入行业具体特征,帮助进一步提高反欺诈模型的准确性。

行业具体特征

反欺诈模型都需要加入具体行业的特征,因为并非所有特征都适用于所有行业。例如,就旅游业而言,提前数月预订的行程通常安全性更高,但在时尚行业,则无法应用“距离出发的时间”这项特征。对电子产品订单,“重新寄送”可作为一项欺诈指标,但对用国际信用卡交易的高端时装订单来说,则不一定是危险信号。下面列举了几个有助于监测欺诈的行业具体特征:

消费者年龄与礼品卡购买的关系:年长者通常不会购买电子游戏礼品卡,除非是在节日送给孩子的礼物,否则这类订单涉嫌欺诈的可能性就会比较高。结合大量的第三方数据,模型可以确定下单者的年龄,并推断在一年中的某个时段购买礼品卡是否合理。

运动鞋交易记录:很多人都会网购运动鞋,任何人都可以在平台上销售自己的产品。在运动鞋行业,如果卖家已有丰富的交易记录且拒付率较低,这些信息对模型来说非常重要,表明在该商家下单出现欺诈的可能性总体较小。

IP地址和账单地址的距离:这项特征适用于多个行业,但在不同行业,距离远近的意义和结果也不同。例如,如果IP地址和账单地址距离较远,对时尚或电子产品订单可能是个重要的预警信号,但对旅游或票务类产品则不一定如此。对零售业而言,IP地址和账单地址的距离如超过10英里(约16公里),订单就较为可疑;而对旅游和票务而言,预订后续航班或参加活动时,在境外或省外下单的可能性更大。

如果把机器学习比作一幢高楼,特征就是组成高楼的砖块。砖块之间的连接越紧密,高楼就会越稳定。同样,模型中的特征越丰富、越复杂,决策就会越准确。综合运用各项特征,包括普遍特征和行业具体特征,模型会逐步学习应给每项数据分配多少权重,结合具体情况做出决策。商家不妨参考以上案例,结合自身情况,考虑一下哪些特征最有助于您自身的欺诈监测,并决定是否要利用机器学习来进行反欺诈。