反电信诈骗的技术原理？

資深大佬 : noqwerty 39

最近面试的时候被问到了这一题，假如你有充足数据的话，要如何实现在用户接到诈骗电话后几分钟内联系预警？除了人工标记电话号和语音识别之外有什么效率高的方法吗？
我目前想到的一些方法感觉都很难把诈骗电话和骚扰 /广告电话区分开，所以想听听大家的看法。

大佬有話說 (8)

資深大佬 : ETiV

接电话的人没钱，就不会被骗
————
我曾经接过**来自香港**的电话，中间被挂断了两次，事后民警来找我，告诉我防诈骗。
資深大佬 : pengtdyd

这家公司真是大聪明
資深大佬 : locoz

这个题本身就有点问题，因为反诈是一个完整的体系，单看这一个部分能做的事情并不多，但为了实现反诈的效果可以做很多事。
像现在有充足数据，那可以先看看“充足数据”的数据源有哪些，比如：
– 有没有运营商提供的通话、短信之类的数据？这样可以直接识别出高频拨号、只拨打陌生号码的号码、没有注册过任何账号但经常打电话或发短信的号码等不属于正常情况的，并在这个基础上加以处理。
– 能不能对前面筛选出来不正常的号码进行监听和获取地理位置？这样不仅可以通过语音识别的方式将通话内容转为文字，再让 AI 来自动判断是否可能是诈骗电话，还可以通过地理位置结合大数据分析来判断是否可能是诈骗分子控制的号码。
– 有没有网络服务商和运营商的流量、聊天、支付等数据？这样就可以通过大数据和 AI 来筛选出高风险内容、用户、操作，也就可以得知比如每个人近期点过什么高风险页面、与什么高风险用户交流过、有没有突然进行的与消费水平不符合的大金额非可信商家非熟人支付操作，在不知道诈骗分子电话的情况下进行预警甚至更进一步的干预。
除了数据以外，还能不能做一些别的事？比如：
– 把一些混杂着可被自己控制的手机号的数据散播出去钓鱼？这样可以从源头上对大概率是诈骗分子控制的号码做好标记。
– 在黑产群里说自己是卡商，然后卖一些已被记录号码但确实可以用的手机卡？这样也是可以从源头上对大概率是诈骗分子控制的号码做好标记，甚至直接得到诈骗分子的地址信息。
实际情况中应该还可以做到很多花里胡哨的操作，就看实际能掌握哪些数据和权力了，在行业内实际做这事的人肯定能想到更多。
主資深大佬 : noqwerty

@locoz #3 可能本身就是比较开放的题目吧，感觉所谓的「充足数据」主要来源是运营商方面的通话、地理位置、时长等信息。另外我也想到了通过实名制关联的银行卡在通话后一段时间的资金往来信息，不过似乎以上数据还是没办法把诈骗和广告很好的区分开？两者的模式应该是很类似的。从用户 /受害者的角度进行分析的确是个很好的角度。其他的骚操作感觉脱离这道题的范畴了
資深大佬 : locoz

@noqwerty #4 所以说还是得知道具体能有哪些数据嘛，一般人能想到的也就大同小异的那些了。而且如果不考虑其他操作的话，到了这一步的时候其实很有可能多数都是事中止损而不是事前预防了，还是得成体系进行才行，毕竟在越早的阶段进行预防效果越好。
区分是诈骗还是广告一样是需要结合其他方面，比如：
比较规范的大公司的电话广告都是那种相当于备案过的号码，少数的一些买别人服务搞少量电话广告的也会是相对固定的一些号码段，这些都可以通过结合对企业的筛查来控制；
极少数的那种让销售员拿手机打电话的，也很容易根据地理位置来判断某些号码是不是在同一个公司的，上门筛查就好了；
而诈骗的一般都是用手机号，比较正规的服务现在都要求实名和企业认证的，而为了防止被追踪和为了演戏，一般都是弄一堆手机号，一搞起来就必然扎堆出现，这个也是很容易通过地理位置来判断。像有些被宣传过的带一堆那个多卡宝跑酒店里给诈骗分子做转发服务的，通过这种方式分分钟就能查出来，虽然报道中都不提做法，但事实上很可能也就是这么做的。
主資深大佬 : noqwerty

@locoz #5 挺合理的，感谢回复！
資深大佬 : Akiya

图数据库了解一下，诈骗电话有一个很明显的特征就是出度很多，入度很少(基本上只有打出去，很少有打进来的)，当然还要参考其他数据，比如是否实名，是否是企业申请的号码
主資深大佬 : noqwerty

@Akiya #7 还是像上面说到过的，单凭这个很难区分诈骗和广告电话。我最近倒是在玩一些 neo4j 的东西，当时面试竟然完全没考虑这个方向