叶小岛 潘雯静2017/1
版权声明:此文系华尔街Fintech 俱乐部(WSFC)精品原创。转载请联系俱乐部(contact@wallstreetfintechclub.com)并符合文末转载要求,WSFCS是创建于纽约由华尔街资深金融从业人士组建的研究平台,www.wallstreetfintechclub.com。微信公众号:华尔街Fintech俱乐部。
此文十分钟让信用分数不再神秘: 中美征信发展简史(上)的续篇(点击这里)
中国征信的发展正经历着前所未有的机遇和挑战。一方面,巨大的数据量结合成熟的模型方法,为企业和政府提供了快捷方便的用户行为分析。如果说十几年前搜索的关键字代表了用户想知道什么,那今天社交媒体上的交流互动则告知了用户的喜好和立场,从而更准确地判断个人是否适合某种产品、某个社群甚至是某段关系。另一方面,征信所承担的责任重大,任何数据片面、模型缺陷和监管不利都会对个人或企业造成不良影响,轻则妨碍用户体验,重则导致道德误判。因此,在普及的同时,审慎厘清当前时代背景下征信所面临的疑难是非常必要的。
一.实战引发的讨论–支付宝圈子
2016年 11月底,支付宝发布新版本引发热议。原因是一项对部分用户试运行开放的社交功能-“圈子”。通过支付宝用户的消费数据,用户获得进入不同群体的权限。其中有些“圈子”只限女性会员,还根据芝麻信用分限制男性会员在“圈子”的评论权限。很多用户因此还展开讨论,如何提升芝麻信用分来进入更多“圈子”[1]。如果读者看过我们以前的文章中讲到的美国对信用分数的严格监管,再来审视这个问题,应该能够发现解决问题的方法并不是如何提高分数,而是要从根本上去质疑个人征信的依据和运用是否合理。我们可以从以下几方面去思考:
(图片来源:江湖Miu论,”支付宝征信困局”众筹家, 2016-12-05,引用于2016-12-16, http://www.zhongchoujia.com/article/24006.html
1.个人征信的目地是什么?
美国的个人信用分数主要运用于金融特别是信贷领域,评估的是个人产生信用违约的可能性,使用场景非常明了。而中国由于发展征信阶段正逢大数据时代,获得的数据量丰富多样,此前又没有监管规范信用分数的使用,使得这个领域的创新极其活跃,特别是一些互联网企业希望把分数运用到各种生活场景中。虽然每个人都渴望在接触他人的过程中减少自己受伤害的风险而对风控模型有所需求,但即使善良的人都会有偏见,何况是通过有限渠道收集的交易数据和个人资料来给分的数学模型呢?穿着科学的外衣滥用分数,一旦普及到对个人道德的偏见判定并被全社会被动接受,那将是非常可怕的。
那么,个人征信最当务之急的目地是什么?在中国金融产品越来越丰富的今天,金融机构对信贷和欺诈的鉴定是有很大提高空间的,漏洞存在的时间越长,对风险的评估误差就越大,可能造成的经济损失会带来整个金融体系的危机。我们应当集中精力把这方面的个人征信系统尽快完善规范起来,收集联网全面的数据,做出尽量公平透明的征信模型来界定,才是目前个人征信应该首要突破的关口。
2.个人征信的方法及数据是否可靠全面?
有人说他们从不欠款,但由于在淘宝上交易甚少,芝麻信用分比较低。不管这是不是真正的原因,都应该引发一个思考。那就是,个人征信应该使用怎样的数据?使用的准则和依据是什么?当今社会,一旦涉及到社会各领域对人的界定,公平合理是至关重要的,无论中国和美国。而个人征信作为界定工具责任重大。首先,设想判定个人是否借款不还跟判定与这个人结婚是否幸福,使用的关键参数和方法应该是不同的,不然就很有可能是“一棒子打死”一个人的方方面面。第二,美国征信可使用的数据是受监管的,即使在大数据时代也是保守为主。比如性别可能会被用来界定收入高低,生活圈子档次甚至违约危险高低的依据。而这本身是对某一性别全体的“歧视”。还有,征信数据如果只看用户与某几家公司之间发生的交易就未免以偏概全,有可能用户实际消费最多的商家并没有被收集收据,这样做出的分数未必可靠。最后,如果样本中大多数用户都保持良好的信用行为,那模型就不能充分学习不良用户的行为,从而导致模型在预测中有失偏颇。综上种种都需要有系统合理的方法和界定,才能尊重和保障公民的权利。
3.个人征信引发歧视问题怎么办?
前面讲到,有些个人信息是不可控因素,如性别,若在征信中草率使用很有可能引起对某一群体的歧视。在美国,人种是不能用在征信模型中的,对应我们国家的民族地区等因素也同样需要谨慎对待。如今很多征信体系里究竟用的哪些参数,广大用户都模棱两可。而在美国,一个用户一旦被银行拒绝贷款,银行一定要明文解释最重要的三条被否定的原因。用户据此可以判定银行是否对他个人有所歧视,并采取相应的法律措施。这也帮助了金融系统发展更公平完善的征信方法。中国目前在这方面对征信对象的保护比较欠缺,也就是说试图控制风险的征信体系本身就有可能存在对用户“歧视”的风险。
(图片来源: June O’Neill,”Race and gender wage gaps: Discrimination still to blame” AEIdeas,2013-04-09,引用于2016-12-16, https://www.aei.org/publication/race-and-gender-wage-gaps-discrimination-still-to-blame/)
国家目前迟迟不对任何个人征信企业发放征信牌照[2],可见对这块领域的开放是慎之又慎。个人征信的健康发展也需要全社会多对征信系统提出质疑讨论甚至法律方面的诉求,才能加快推动其公平合理地发展与完善。
二.大数据征信面临的技术挑战
除了从根本上明确合理化征信评分的依据和应用范围,在技术分析方面,大数据征信所面临挑战还包括一下几点
1. 第三方数据的应用
用于权衡用户信用分数的第三方数据来自于征信机构以外的数据方,应是绝对独立于征信机构的,从而保证征信分数对每个人的公平性和全面性。然而中国的民间征信机构中第三方数据的使用已经模糊化了,例如腾讯征信主要的数据来源是微信,QQ上的社交数据,和服务腾讯的放贷业务[3],这就使得某些用户为提高个人的腾讯征信分数,就必须在腾讯的生态体系中更加活跃,这其实就是在变相鼓励其征信分数受众增加使用相应民营征信机构旗下的产品。再看阿里,虽然芝麻信用总经理胡滔一再强调,芝麻信用用于计算用户评分的数据,来源于约60家合作伙伴,其中超过九成的数据是来源于蚂蚁金服及阿里巴巴体系之外[4]。然而,网上关于如何提高芝麻信用分的经验分享帖,无一例外的是在强调增加在淘宝消费的频率,多用支付宝转帐付款…等等。因此推断,体系以内的产品对于每家民间征信机构所给出的信用分数的影响比较大,如果以偏概全地应用到多个领域,就会导致较大的判断偏差。
2. 信息安全的监管
基于隐私保护和信息安全的考量,模型变量的设计和选择要格外谨慎。在美国,政府和相关部门对于个人隐私保护的监管非常严格。而这些变量是否被用在国内的征信模型里我们尚不可知,是否被安全加密老百姓更是困惑不解,只能静待央行对民间征信结构的验收结果。业内人士认为,征信牌照迟迟未发,也是因为个人征信涉及到个人隐私方面的问题,而央行在这方面一直比较谨慎[5]。
3. 建模专家的稀缺
如何将不同纬度,格式的数据统一量化,生成高质量的,对信用评价有影响的模型变量,需要更多相关领域的建模专家。中智诚征信有限公司CEO李萱就曾表示,“迄今为止,没有一个国家,没有一家真正的征信机构做出来的基于互联网的征信产品,能够应用于较大的人群,我们没有见过一个基于互联网大数据做出的(征信)模型KS评分能够超过35分。”[6]。KS(Kolmogorov-Smirnov Test)评分是统计学上对模型准确度的一种衡量,分数越高表明数学模型对实际预测的准确度越高。这一点可能也是个人征信牌照迟迟未下发的另一个原因。
(图片来源:David Gewirtz,”Volumn, velocity and variety”,ZDNet,2016-04-20,引用于2016-12-16, http://www.zdnet.com/article/volume-velocity-and-variety-understanding-the-three-vs-of-big-data/)
4. 对模型结果的诠释
由于大数据模型的复杂性,如何对机器模型产生的信用评级结果进行恰当的解释还需要亟待弥补的。像上一篇文章所说,在机器集成学习法中,最终进入模型的变量可能多达成千上万,而每一个这样的输入变量对最终征信分数的影响可能都很小。因此如何整合变量信息,从而给低信用分数的用户一个合理的解释,将是一个非常具有挑战的课题。
三.展望未来
即使困难阻碍重重,但纵观中国征信在大数据时代中的快速发展,基于大数据的征信评分系统将辅助甚至最终替代传统征信必将是大势所趋。征信的目的是给企业和个人提供安全可靠合理的服务,尤其是金融服务。征信的合理性至关重要,需要从监管到征信机构到用户的全方面监督和讨论,谨慎决策。良好的征信框架,从监管、数据、方法、诠释和应用的规定,缺一不可。这不仅能让更多的人受惠于大数据征信的低门槛,拥有全方位考量完善的信用评价系统,而且能够激励企业和个人的自我约束,用高诚信负责任的行为来给自己未来的生活带来便利。
华尔街Fintech俱乐部(WSFC)
作者:叶小岛 潘雯静 2017/1
编辑:周玉琳,CFA, FRM
图文编辑: 周华瑛
版权声明:此文系华尔街Fintech 俱乐部(WSFC)精心原创。转载请联系俱乐部(contact@wallstreetfintechclub.com)并符合转载要求,WSFCS是创建于纽约由华尔街资深金融从业人士组建的研究平台,www.wallstreetfintechclub.com。微信公众号:华尔街Fintech俱乐部。
转载要求:转载必注明1)作者,2)出处是华尔街Fintech俱乐部,3)版权声明用上面原文,4)务必完整转载(包括标题图和书中图,并保留格式),5)作者介绍,,6)文末WSFC二维码。
作者介绍
叶小岛: 任职于纽约金融机构全球风险监管高级经理,审核美国和全球市场的风险模型,包括基于Basel II & III资本协定的银行信用风险内部评等模型,授信核查,信用额度管理,客户管理以及欺诈预测。统计和系统工程双硕士,系统工程博士候选人。
潘雯静:任职于纽约金融机构风险管理部门高级经理,负责在线商业借贷业务的拓展和营销分析。曾在多个类Fintech前沿项目中负责风险监控和项目管理。
本文仅代表作者个人观点。
请关注华尔街Fintech俱乐部:官网:http://www.wallstreetfintechclub.com
[1]陶力,“支付宝“圈子风波”后续:芝麻信用反思征信使用边界”,21世纪经济报道,2016-12-09,引用于2016-12-16, http://money.163.com/16/1209/05/C7QQ8LHC002580S6.html#from=keyscan
2]刘筱攸,“信用滥用程度如何,支付宝圈子事件不小心露底了”,券商中国, 2016-12-05,引用于2016-12-16, http://stock.hexun.com/2016-12-05/187189405.html
[3]张程,“大数据征信引发争议社交数据可靠性成为焦点”,新浪科技,2015-6-20,引用于2016-12-30, http://tech.sina.com.cn/i/2015-07-20/doc-ifxfccux2812000.shtml
[4]江晓川,“芝麻信用胡滔:个人征信的数据是怎么来的?”,腾讯财经,2016-7-12, 引用于2016-12-30, http://finance.qq.com/a/20160712/044280.htm
[5]邓莉苹,“民间机构频牵手银行个人征信牌照仍未落地”,每经网, 2016-5-13,引用于2016-12-30, http://www.nbd.com.cn/articles/2016-05-13/1004707.html
[6]张程,“大数据征信引发争议社交数据可靠性成为焦点”,新浪科技,2015-07-20,引用于 December 30, 2016,http://tech.sina.com.cn/i/2015-07-20/doc-ifxfccux2812000.shtml