【专题研究】互联网信托制度设计研究(六)

2022-01-30 10:23:58

基于大数据的风险管理为互联网信托提供可持续保障

（一）互联网信托的风控思维与底线

金融创新与金融风险始终是相伴而生的矛盾，互联网金融在扩大金融惠及面、提升金融效率的同时，也使得风险跨越了行业、地域和人际关系，呈现了新的形式和风险点，对金融风险管控提出了挑战。

1.金融系统性风险维度

虽然互联网金融是由互联网技术的发展与应用衍生出来的全新金融形式，但是互联网金融的本质仍然是金融。无论是从正向角度分析互联网金融与普惠金融的天然结合，还是从反向省思P2P业务的风险频发，互联网金融发展具有双刃剑属性，其跨界混业经营的创新模式更易引发金融系统性风险。有鉴于此，有效防范互联网金融的系统性风险是风险控制的底线和红线。同理，互联网信托的风险控制底线也需要以金融系统性风险防范为目标。

2.受托人审慎经营维度

互联网信托的制度落脚点仍然是信托制度的优化和信托业务的创新，受托人审慎经营的义务始终是互联网信托应当遵守的合规底线。信托公司作为受托人的忠实义务和勤勉义务在互联网信托业务创新中虽然会被赋予新的内容，甚至会对受托人提出更高的要求，但是判断其履行义务的基本标准依然具有普适性，即是否遵循信托目的，尊重委托人意愿，为受益人的最大利益服务。

（二）互联网信托的大数据风控技术

大数据技术既是互联网金融的典型标志，也为金融风险控制提供了新的模式和手段，迅速成为互联网金融的热点。

大数据技术，即是对包括互联网数据在内的海量数据进行专业化的处理，从而快速获得有价值信息的技术。这种技术的意义在于从大量异构数据中寻找出一定的相关性，然后推演出行为方式的可能性。尽管不再执著于因果逻辑，但基于数据量的爆发增长、无处不在的数据源以及数据处理能力的大幅提高，大数据技术反而能够更多地揭示事物的本质规律和未来趋势。因此，大数据技术的重要价值在于信息发现。现代金融风控的基本职能也是信息处理，其本质是将分散的碎片化局部信息收集加工融合成为具有完整视图效果的全局信息，从中有效识别风险，并辅助进行决策。

因此，金融风险控制内在具有减少信息不对称、降低信息成本的动机，与大数据技术天然契合，大数据风控技术的应用价值也在逐渐显现。

1.扩大风控普惠覆盖面，更好地促进金融公平

从信息、效率和成本的特点来看，互联网金融具有普惠金融的优势，而覆盖面也是互联网金融风控的最核心需求，但这种需求很难为传统风控手段所满足。首先，中国金融体制发展较晚，，仅有3亿多人具备有效征信数据，尚不足总人口的1/4。而全国工商联2010年的调查发现，95%以上的小微企业没有和银行发生过任何借贷关系，得不到任何征信方面的支持。其次，在这种金融发展不平衡、信息不对称问题突出的情况下，逆向选择机制会导致长期的信贷配给现象，从而放大了小微企业的信息缺乏和道德风险问题，使得传统风控手段将小微企业排除在外，进一步加剧了金融不公平。

大数据一词中的大字，不仅是指数据规模的巨大，更是指数据来源的广泛。大数据风控技术尤其是大数据征信手段，为互联网金融提供了一个全新的风控视角。大数据征信的数据基础是大体量、多元化、大样本的非结构化数据，其原理是通过对信息主体的各种行为数据进行综合性、多角度、多层次的收集处理，同时根据信息主体对应产品维度建立对应的数据模型，然后使用该模型计算，按照特定维度与关联性得出信息主体的各个信息维度特点，最终按照一定的信用评估算法计算信用主体的信用分数。

资料来源：中航信托。

图7 大数据征信系统的数据来源与特征

通过对这种基于互联网海量的、多样的、交叉互补的数据采集，大数据技术把更加分散、碎片化、底层的数据加工处理成为更加完整的全局信息，金融机构可以获得信用主体及时、全方位的信息，从而有效地减少信息不对称，扩大互联网金融的覆盖面，促进金融普惠。

2.利用线上数据和自动计算能力，降低成本，提高效率

不同于传统风控手段强调的“深度”，大数据风控更强调“广度”。传统风控是劳动密集型的，其高额的边际成本也影响到互联网金融的扩张。大数据风控的数据基础更加分散、底层、碎片化，但也更易获得，可累加，可复用。随着数据的积累和模型的优化，大数据风控的标准化程度将进一步提高，也会使得风控的自动化和批量化程度更高，更进一步地降低风控成本。

这种自动化和标准化不但会提高金融企业的风控效率，还会在业务过程中提升风控数据采集的自动化程度，如通过身份证号系统自动获取社保信息等，极大地节省了客户准备材料和办理业务的时间，提升了风控效率和客户满意度。

3.基于多维变量混合建模，更具有效性和针对性传统金融机构通常基于强变量进行风控建模，。这些模型的关注重点是财务实力和历史信用，一般有十多个强变量，主要包括财务报表、信用记录时间、信用额度、借款逾期记录、房屋按揭还款记录、用款占信用额度的比例、坏账记录等，其中最重要的变量是各种还款逾期、坏账数据。由于强变量权重较大，一旦有任何一两个变量的数据缺失，就可能导致模型失效。同时，这种风控模型指标明确，逻辑固定，有多种途径可以进行准备和造假，极易产生欺诈风险。

相反，大数据风控通过引入海量的、多样的、交叉互补的数据，结合金融数据和非金融数据进行强弱变量混合建模。例如，利用用户日常的消费、社交、旅游、娱乐、阅读等数据，这些数据类型丰富且彼此间相关性较弱，能够更加精准地刻画出用户的人物画像。把多种强弱变量结合起来建模，部分变量的缺失或失真对模型的稳定性影响会很小，并且这些行为数据分布广泛，单独造假某一类数据并不会对评估结果产生重大影响。

同时，大数据风控可以针对不同场景和不同人群，建立多种数据维度的风控模型。通过这种特征化、标签化的风控模型，能够得到更精准的信用判断及风险定价，为互联网金融的产品设计提供更好的风控支持。

4.主动式动态监测，提供全过程风控

不同于制式表格的数据填报，大数据风控技术的数据采集形式多样，既包括对历史记录的挖掘，也包括对对象行为数据的采集，甚至于客户在申请服务的同时，就已经开始风险建模和识别。这种主动获取而非被动接收的数据，一方面扩大了数据来源的可能性和针对性，能够更加精确全面地反映风险的全貌，另一方面也更加真实有效，数据原始性更好，，也减少了信息传递过程中的损耗。金融风险可能产生于业务的事前、事中和事后，而不仅仅是准入阶段。由于业务数据持续产生，风险概率在动态变化，对风险的监测也应该动态贯穿于业务全过程。如通过对借款人贷后行为数据的挖掘，动态监测用户、商品消费、媒体阅读、收支等级、航旅、社交等，持续评价个人的信用风险。对风险的动态监测也为可能的风险处置提供了精准的数据支持和决策辅助。

5.应对系统性风险具有更优化的防护模型

系统性风险又被称为不可分散风险，是指整体金融市场因外部因素的冲击或内部因素的牵连而发生剧烈波动、危机或瘫痪，使单个金融机构不能幸免，从而遭受经济损失的可能性，系统性风险通常是由外部不可控因素引起的。在更强调逻辑性的传统金融风控模型中，为了风险计量，经常会进行一定程度的抽象处理。根据这种抽象方法，无论是外部不可控因素，还是内部次要因素，都可能在抽象层次较高的模型中被忽略。

大数据风控技术通过对不相关数据的相关性分析，更注重事物发展特征的联系。随着样本数据的爆炸式增长，对事物内在联系的揭示和预测越来越精准。尤其是引入大量的非金融数据和行为数据，从技术上实现外部因素参与到预测分析中，进一步降低了系统性风险的预测难度。如在光大乌龙指事件中，通过事后的大数据分析，可以精准揭示风险的扩散和影响范围，不但为事后评估提供了证据支持，也为今后类似风险的识别和预防提供了实证数据。于大数据技术以其对表象特征的关联性分析和判断，能够更加灵敏地发现系统性风险的影响路径，从而对系统性风险及时响应。

（三）互联网信托的大数据风控实践

作为互联网金融开展的先行者和实践者，信托公司在开展自身业务过程中主动利用大数据风控技术进行有益的实践和探索。中航信托在大力推进普惠金融尤其是消费信贷业务发展的同时，也尝试通过大数据风控技术建立了一套包括贷前征信、贷后监控在内的风控体系。

1.大数据风控在个人信贷业务的应用

征信是金融风控的首要环节，也是大数据风控的核心和切入点。中航信托在普惠金融业务开展过程中，对于大量个人征信需求，基于多维数据，以模型为驱动，将大数据征信技术整合在信贷系统的信审环节，从业务源头上对贷款人风险进行排查和审核。其中，用户信用画像作为大数据征信的主要产出，在贷前风控环境中起着核心作用。

用户画像是根据用户的各类属性、行为等信息抽象出的一个标签化的用户模型。用户画像的核心是标签化，即对用户标注从信息分析出来的高度抽象的特征标识。针对个人消费信贷业务的个人征信，信托公司通过客户提供、授权查看和第三方数据分析的方式，整合了近百个数据源，形成了大数据信用画像辅助进行信审决策。

（1）数据来源。

（2）模型设计。通过对以上七类数据所形成的多维变量进行特征分析，并利用挖掘分析进行归类抽象，系统整合形成了多个标签组，加身份属性、履约能力、信用记录、交易行为和社交关系等，并最终勾画出用户的信用画像。同时，在信用模型的具体运用上，系统还进行了定制化、替代性和优先级设计。

（3）模型优化。信用画像的分析模型并非是一成不变的，而是在风控过程和数据积累的过程中进行动态调整和自我进化。在信托公司的模型设计中，主要考虑了三个路径的优化设计。

基于部分变量相似性的模型优化。该优化算法基于对违约记录在部分变量上具有相似性的性质，通过对历史累加的违约记录持续动态搜索，找到具有相似性的变量特征。如果能够证实存在的相似性，就可以利用这些变量特征，对信用模型进行持续的优化改进。

例如，在车辆消费贷款的模型优化分析中，曾利用遗传算法对产品的历史违约记录进行了学习，识别出“收入水平”与“免抵押”、“车价”、“首付比例”之间的关联特征在产品违约记录中具有相似性，并据此对产品的信用模型进行优化。经过后期实践验证，该特征对违约的识别率达到了818%，而误判率仅为175%，是一次非常有效的模型优化。

基于内部一致性的模型优化。该优化算法的基本逻辑是伪造数据大多不能保证字段间的内部一致性，即伪造记录的某些变量不具备合理性，可能不符合正常的分布规律。如果能够通过内部一致性分析，发现这种字段关联的分布规律，即可作为后续模型优化的基础，来识别出伪造数据。

该优化算法对欺诈率较高的某款信贷产品进行了三个月以上的跟踪分析，最终发现了收入与职业、城市、工作年限、性别、婚姻状况、联系人与申请人关系等变量的一致性具有较高辨识度，同时还发现，可以将申请人与贷款期限、还款方式、贷款利率、年龄等之间的一致性作为补充规则。基于这两条规则的综合判定，最终得到的识别率为6364%，误判率为817%，也较好地实现了对信用模型的优化。

基于变量分布稳定性的模型优化。许多蓄意骗贷行为都存在时间（短时间内大量伪造）或者来源的一致性（住址类似、工作单位类似）。识别这一点可以协助识别违约风险。对于一条新增记录，当发现跟它能否“部分相似的若干数据都集中在某个时间段或者都来自某同样来源时，则很可能需要进行重点分析。这种算法思路即是基于变量分布稳定性的模型优化路径。这种分布稳定性的优化算法在反欺诈风险识别中具有非常重要的意义。针对某款车贷产品的大数据风控就曾经通过这种特征识别技术，发现某几个小区在短时间内新增大量特定车型贷款，通过人工排查发现是贷款服务公司与某汽车销售商勾结骗贷的风险事件。

2.企业大数据风控决策支持

由于企业征信的复杂性和数据源大多不公开，目前大数据技术在企业征信的运用上更多的是一种决策的补充和支持，主要集中在数据相对公开、人工又很难分析的关联分析和负面监测方面。

（1）交易对手的负面舆情监测。在对企业交易对手的负面舆情监测中，主要利用了两类数据，即公检法的处罚公开数据和基于互联网抓取的舆情数据。其中在对舆情数据的分析中，中航信托建立了负面关键词库用于进行舆情监测。该负面关键词库不仅预置了6000多条负面关键词，更利用了语义分析、情感分析模型，实时对热点事件和最新关键词进行负面标识和词库更新，基本实现了对互联网舆情的及时响应和分析。

在具体运用上，信托公司将这种负面监测分析能力融入两个环节，即业务申请的准入环节和贷后管理的自动监测环节。在业务准入申请中，利用第三方数据源对交易对手过去3年的处罚信息和12个月的负面舆情信息进行汇总标识，将其提供给风控人员以辅助决策。在贷后管理中，改变了传统依靠业务人员主动性的被动局面，采用系统自动监测和报告的手段来实现对业务风险的全流程管理。

（2）交易对手的关联分析。在对交易对手的风险分析中，关联方关系是风控的核查重点之一。在传统的尽职调查手段中，对于隐蔽的关联关系和复杂的关联结构，很难依靠人工手段进行识别和判断。中航信托利用风控系统，通过对交易对手公司注册信息、财报信息和公告信息等数据的集成和挖掘分析后，形成了可视化的企业关联关系图谱，包括公司股权关联、公司债务关联、公司重大交易对手关联、公司高管关联等多种关联关系。同时，这种关联关系还根据背后限定的关系规则，进行风险等级判别，如将债务临期关系指定为关注等级，而对于债务违约、诉讼状态等关联关系，则指定为风险等级。

这种关联分析结果，不但可以在业务准入环节实时为风控部门提供决策支持，也可以在贷后管理过程中，对重大关联关系变更和关联关系风险等级变更进行自动预警，提醒贷后管理人员及时进行风险识别和处置。综上，大数据风控技术不仅在具体类别的信托业务中提供了有效的风险识别和管理手段，而且针对广泛意义的交易对手风险识别也可以实现一定程度的辅助决策作用。

（课题牵头单位：中航信托股份有限公司）

摘自：《2016年信托业专题研究报告》