叶小岛2016/12
此文系华尔街Fintech俱乐部原创文章,禁止非授权转载,有意转载请联系本俱乐部。
华尔街Fintech俱乐部是创建于纽约由华尔街资深金融从业人士组建的学习交流平台,北美第一家华人主导的Fintech研究平台。欢迎访问俱乐部官网:http://www.wallstreetfintechclub.com/
一. 美国征信概况
二. 美国征信新发展
三. 中国征信现状
四. 大数据征信面临的挑战
附:作者介绍
个人信用评分是建立在信用信息数据库系统的基础上,运用统计学原理,对消费者的信用风险进行评估量化的方法。一个健全的个人信用评估体系是现在社会良好信用消费的保障和基础。相比较于个人信用评分体系最发达的美国,中国征信在2012年底才真正走上规范道路,但发展快速。在过去短短的四年里各类个人征信产品层出不穷,例如蚂蚁金服旗下的芝麻信用分就已广泛的应用到了日常生活中。本短文将从美国征信的历史和发展讲起,并对中国的征信现状做一比较和展望。希望此文让大家开始关注起个人诚信,探讨最新的Fintech在网络征信上的应用,让信用分数的计算不再神秘。因文中会涉及一些类似于信用分数的算法和变量等商业”机密”,作者会试图通过引用可靠文献来最大还原真实模型。关于我们华尔街Fintech俱乐部的关于Fintech的其他文章,请参看我们网站http://wallstreetfintechclub.com/,或我们公众号“华尔街Fintech俱乐部”)
一.美国征信概括
FICO评分是美国应用的最广泛的一种信用评分系统,创办于1950年代。信用分数在300-850之间,分数越高,说明客户的信用风险越小,它采集客户的人口统计学信息、历史贷款还款信息、历史金融交易信息、银行征信信息等,通过逻辑回归模型计算客户的还款能力,预测客户在未来一年违约的概率:
- 人口统计学信息:如客户年龄、家庭结构、住房情况、工作类别及时间等;
- 历史贷款还款信息:即过去6个月或12个月的付款方式、逾期次数等;
- 历史金融交易信息:即过去6个月或12个月的平均月交易笔数、金额等;
- 银行征信信息:如过去12个月中新开的账户总数、所有账户的总额度、账户信用使用率,账户是否逾期等。[1]
(图片来源:”Credit score scale: what is a ‘good’ credit score?”, www.cafecredit.com,accessed December 06, 2016)
消费者在申请信用卡,房贷,车贷等信贷服务时,银行会结合FICO评分和内部的金融信息来做决定。在有些州,车险公司也会根据FICO信用等级来决定用户保险金。 因此在美国,拥有良好的FICO评分是非常必须而且重要的。根据美国消费者金融保护局2015发布的最新调查,在美国有两千六百万人没有任何的信用记录,一千九百万人没有足够的信用记录,导致总共14%的适龄人口比率没有FICO信用分数[2]。
二.美国征信新发展
为了使更多的民众拥有信用评级,从而扩大信贷市场和加强信用监管,FICO联合LexisNexis® 和Risk Solutions and Equifax® 开发了FICO XD。FICO XD主要采集的信息是电视网络帐单,水电煤帐单和电话帐单的付费记录。
FICO XD自今年开始在一些银行试用,但仍还在验收模型阶段,还未大规模覆盖。至今已有超过一半没有FICO评分的客户,利用FICO XD评分来申请贷款。FICO XD只是针对没有FICO信用评分的消费者,分数的范围跟FICO一样。 据Wall Street Journal汇总[3],有35%到50%的消费者在FICO XD的分数高于620。研究同时证明,当这部分人群积累了足够的信用信息从而获得FICO评分时,同样可以保证很高分数,据统计有超过一半的人可以达到700以上的传统FICO分。由此可见,FICO XD分数的推广有助于给银行带来和积累更多信用良好而且稳定的消费者。
除了FICO在创新他们的信用评级,在美国还出现了一些非传统借贷机构,他们通过除金融信息以外的其他渠道来评价消费者信用。介于多数无信用分数人群无任何银行信息,例如工资是以现金方式支付,几乎没有存款,没有固定房产。但是如果利用手机运营商的通话聊天记录,或者网上消费记录等,可以从另一个侧面了解贷款者的信用历史。
相比较传统信用评分的单一信息来源,这些新信息来源的纬度更加宽泛多样,数据量更加庞大。这同时给建立模型者带来了更多的挑战和困难。首先,新引入的不同类型的数据源,势必需要我们使用与以往不同的方式收集,整合和研究。例如,如何建立一套标准和制度来处理原始数据;如何分析和整合多维度数据源;如何提取其中有效信息等,是当前非常亟待解决的地方。以电话运营商提供的数据为例,如果想从其中提取与信用相关的信息,就需要相关专家来决定哪些数据有意义,数据的具体形式为何样,如何整合数据以提高信息量等。现在的很多征信建模者都缺乏相应领域的专业数据分析经验。其次,如何获得新数据同样面临各种阻碍,例如数据拥有方对外公开数据意愿,政府对消费者隐私权和信息的保护。最后在对信用评分的解释上,运用大数据的新信用评分很难给出像传统评分方法一样清晰的答案。新信用评价多运用机器集成学习法来处理大数据信息,因此受到成百上千个输入变量的影响;传统信用评价体系利用回归算法,一般选择小于50个输入变量。因此在对结果的解释上,传统信用评价体系容易给出更加直接清晰的答案。
美国互联网金融公司ZestFinance是美国新征信时代的一个代表,创办于2009年。创办者是Douglas Merrill, 前google CIO (chief information officer) 。ZestFinance的定位是搭建一个科技平台,将类似google用于搜索引擎的数学算法运用到个人信用评价上,他们试图颠覆维持了50多年单一依赖金融信息作为信用评价标准的体系。自创办以来,他们致力于研发居于大数据的信用评估模型融合多源信息,采用机器学习的预测模型和集成学习策略,进行大数据挖掘。他们收集了上千种来源于第三方的数据,比如水、电、煤账单,电话账单,房屋租赁信息,和传统的金融借贷、还款信息等;通过机器学习的方法寻找数据间的关联性并对数据进行必要的转换;在关联性的基础上将数据重新整合成不同的测量指标;每一种指标反映个体的某一方面特征,比如诈骗概率、长期和短期的信用风险和偿还能力;最后,将所有指标按加权投票的原则,做成最终的信用评分[4]。
(图片来源:ZestFinance官方主页,accessed December 06, 2016)
ZestFinance利用他们的机器集成算法为低收入贷款者提供平均600美元的贷款,APR高达390%,违约率为15%[5],风险是市场上相同贷款产品的一半。他们同时开发了Basix贷款,为将近5千万无法从银行取得贷款的中产阶级提供网上贷款。他们同时致力于提供平台给全球各种行业,2015年他们与中国最大的网上商城-京东合作,试将用户网上购买信息转换诠释成信用信息。
三.中国征信现状
2015年调查显示[6],相比较美国人均持卡2.9张,中国人均信用卡持有量只有其十分之一,大约人均0.3张卡。因此在中国,将近有五亿人口没有任何信用记录,这让借贷风险很难量化。
近些年,随着大数据的到来和发展,可用于评估人们信用的数据越来越丰富,例如网上交易数据,网络行为数据,社交类数据,很多来自互联网的数据可以帮助金融机构更加充分地了解客户。
中国征信的发展也是日益蓬勃,主要的征信机构及特征概括如下:
- 侧重电商:芝麻信用。芝麻分来自淘宝、支付宝的数据占30-40%,综合考虑个人用户的信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度的信息;
- 侧重社交:腾讯信用。通过社交网络上的大量信息,比如在线时长、登录行为、虚拟财产、支付频率、购物习惯、社交行为等,得出用户信用得分;
- 侧重运营商:聚信立。综合个人用户运营商数据、电商数据、公积金社保数据、学信网数据等,形成个人信用报告;
- 侧重信用卡:51信用卡。根据用户的信用卡数据、开放给平台的电商数据所对应的购买行为、手机运营商的通话情况、登记信息等取得多维信息的交叉验证,确定用户风险等级。[7]
在此以芝麻信用为例,介绍下中国征信的现状:
阿里巴巴推出的芝麻信用分则是以大数据分析技术为基础,采集多元化数据,包括传统的金融类交易、还款数据,第三方的非金融行为数据,互联网、移动网络和社交网络数据等,帮助贷款方从多个方面考察个体的还款能力、还款意愿,做出合理、全面的信用评分。
(图片来源:招商证券网站,accessed December 12, 2016)
上图展现了基于大数据分析技术的机器集成学习法Ensemble。不同于传统的逻辑回归模型,它采集了上万个数据项、从不同的层面(还款能力、还款意愿、欺诈可能性、稳定性等)对个体进行建模打分;再把这些单个层面的评分、结合个体的综合信息,给个体一个最终的信用评分。
两种评分模型采用数据量的不同体现了其评分思路的区别。通常,FICO评分模型只有十几个评分项,每一个评分项对目标变量(即是否违约)的预测性和影响力都很高。但是,在机器集成学习法中,最终进入模型的评分项可能多达成千上万,而且每一个这样的评分项对目标变量的单独预测性可能都很小;Ensemble就是利用机器学习法,把这么多微小的预测性汇总成为最终对个体的违约可能性有很强预测性的评分。[8]
中国征信自上个世纪80年代后期开始,第一家信用评级公司-上海远东资信评估有限公司成立,经历了起步,发展,扩张,到2015年1月5号,央行印发《关于做好个人征信业务准备工作的通知》,要求民间征信机构做好个人征信业务的准备工作。其中包括芝麻信用,腾讯征信等。这些民间非金融评价信用可以看作是对央行纯金融信息的征信体系的补充,这些民间征信机构借助自身的用户群体及大数据优势,恰好弥补了非金融信息方面的缺漏。但目前银行贷款与否仍只以央行征信报告为准。
请继续看下篇
华尔街Fintech俱乐部(WSFC)
作者:叶小岛2016/12
编辑:周玉琳,潘雯静
版权声明:此文系华尔街Fintech俱乐部原创文章授权转载,有意转载请直接联系本俱乐部。华尔街Fintech俱乐部是创建于纽约由华尔街资深金融从业人士组建的Fintech研究平台。官网:http://www.wallstreetfintechclub.com微信公众号:华尔街Fintech俱乐部。
转载要求:请注明:1)作者,2)出处华尔街Fintech俱乐部,3)版权声明用上面原文,4)务必完整转载(包括标题图和书中图,并保留格式),5)作者介绍
作者介绍
叶小岛(Xiaodao Ye):叶小岛: 现任美国运通银行控股公司总部全球风险监管高级经理,审核美国和全球市场的风险模型,包括基于Basel II & III资本协定的银行信用风险内部评等模型,授信核查,信用额度管理,客户管理以及欺诈预测。统计和系统工程双硕士,系统工程博士候选人。
请关注华尔街Fintech俱乐部:官网:http://www.wallstreetfintechclub.com
其他参考文献:
- CFPB, “Data Point: Credit Invisibles”, CFPB, May 2015, accessed November 11, 2016, http://files.consumerfinance.gov/f/201505_cfpb_data-point-credit-invisibles.pdf
- Tobias Baer, Tony Goland, and Robert Schiff, “New credit-risk models for the unbanked”, McKinsey&Company,April 2013,accessed December 13, 2016,http://www.mckinsey.com/business-functions/risk/our-insights/new-credit-risk-models-for-the-unbanked
- Zestfinance公司主页, accessed December 06 2016, https://www.zestfinance.com/our-story.html
- 招商银行,“大数据征信:芝麻信用、腾讯信用和51信用卡等信用评分模型解析”,招商银行,May 17,2016,accessed December 13, 2016, http://www.36dsj.com/archives/52084
- 人民网,“8家民营机构获个人征信牌照业内:补充央行征信体系”,人民网,February 3,2015,accessed December 13, 2016, http://finance.people.com.cn/n/2015/0203/c1004-26501451.html
- 江晓川,“芝麻信用胡滔:个人征信的数据是怎么来的?”,腾讯财经,July 12, 2016, accessed December 13, 2016,http://finance.qq.com/a/20160712/044280.htm
[1]KPMG大数据挖掘,“解读芝麻引用和FICO评分的差异”,一站阅读,April 11, 2016, accessed December 13, 2016, http://www.a-site.cn/article/34241.html
[2]Nick Clements, “6 things you need to know about the new FICO XD credit score”,Forbes, October 10, 2015, accessed December 13, 2016, http://www.forbes.com/sites/nickclements/2015/10/10/6-things-you-need-to-know-about-the-new-fico-xd-credit-score/#4814c5a754d3
[3] FICO XD主页, http://www.fico.com/en/products/fico-score-xd#overview
[4]KPMG大数据挖掘,“解读芝麻引用和FICO评分的差异”,一站阅读,April 11, 2016, accessed December 13, 2016, http://www.a-site.cn/article/34241.html
[5] John Lippert, “ZestFinance issues small, high-rate loans, uses big data to weed out deadbeats”, The Washington Post, October 11 2014,accessed December 13, 2016, https://www.washingtonpost.com/business/zestfinance-issues-small-high-rate-loans-uses-big-data-to-weed-out-deadbeats/2014/10/10/e34986b6-4d71-11e4-aa5e-7153e466a02d_story.html?utm_term=.06fcc9e18b4d
[6]东方网, ”中国信用卡市场调查:人均持卡量仅美国的1/10”,搜狐理财,August 9, 2016, accessed December 13, 2016, http://money.sohu.com/20160819/n465022501.shtml
[7]招商证券,《全民征信时代开启,大数据推动创新》,招商证券, May 17, 2016,accessed December 13, 2016, http://www.gongxiangcj.com/phpqrcode/upload/30fe2b2d8b0c2d59acb17a40d57b2587.pdf
[8]KPMG大数据挖掘,“解读芝麻引用和FICO评分的差异”,一站阅读,April 11, 2016, accessed December 13, 2016, http://www.a-site.cn/article/34241.html