现今机器学习模型愈发复杂,新风险丛生。合理调整传统风险管理模式下的验证框架,可更好地管理模型,降低风险。

作者:Bernhard BabelKevin BuehlerAdam PivonkaBryan Richardson Derek Waldron

利用海量数据所构建的模型,机器学习和人工智能将优化商业决策,提供定制服务,改进风险管理。两者带来的优势也注定会为银行业带来翻天覆地的变化。麦肯锡全球研究院的数据显示,这些技术的应用有望为银行业创造超过2500亿美元的价值。

但是,机器学习模型的应用也放大了某些传统模式下的风险。目前,大多数银行在对模型风险进行评估和管理时,采用的都是传统风险管理模式下相对成熟的模型验证框架。这些传统做法虽然能够满足监管合规要求,但仍不足以有效管理与机器学习模型相关的新型风险。

考虑到其管理难度,多数银行都在谨慎前行。比如,它们会试探性地将机器学习模型应用于数字营销等低风险业务中,以测试银行可能会面临的财务、声誉和监管风险。银行害怕自身会不知不觉地触犯反歧视法,从而招致巨额罚款。出于这一担忧,一家银行明令禁止其人力资源部门使用基于机器学习的简历筛选器。鉴于上述情况,如果银行想最大程度地从机器学习模式中受益,更好的、可能也是唯一可持续的办法,就是加强模型风险管理。

目前,监管机构尚未发布任何具体章程,来引导企业如何管理机器学习和人工智能相关模型。在美国,监管机构规定,银行必须负责管理机器学习模型带来的所有风险。与此同时,他们也指出,诸如美联储此前颁布的”模型风险管理指南”(Guidance on Model Risk Management)(SR11-7)等现有监管准则的内容已足够宽泛,可作指导手册而用。

可喜的是,许多银行并不需要通过建立全新的模型验证框架,来应对机器学习模型的风险。它们大可对现有模型管理的验证框架进行一系列补充,以达到同样目的和效果。例如,它们可将新模型纳入模型清单中,并确定相应的风险偏好、风险层级、风险角色、管理职责,以及模型生命周期管理中相关的模型验证技术。

新风险、新选择、新实践

近年来,新兴机器学习模型产生的负面新闻并不少见。2016年,算法的逆向反馈机制直接导致英镑“闪崩”6%。此外,一辆基于机器学习技术而研发的自动驾驶汽车,也未能正确识别并避让一名推着自行车过马路的行人。

无论机器学习模型被应用于何种行业或应用,这些风险发生的原因,与所有机器学习模型中风险被放大的原因其实都相同:即模型复杂性的大幅增加。机器学习模型通常基于大规模的非结构化数据集(如自然语言、图像和语音信息等),并使用新的软件包和特定的计算基础架构进行构建。这些算法比传统的统计方法要复杂得多,往往需要在测试训练环节开始前,就做好设计决定。

然而,模型本身的复杂并不意味着我们也要采取过度复杂的应对方式。如下图所示,只要理解得当,银行现有的传统模型验证框架,完全能够有效管理与机器学习模型相关的风险。

从上图中,我们可以清楚地看到,麦肯锡Risk Dynamics模型风险验证和管理团队,对模型验证框架和实践方法作出了调整。这一框架覆盖了SR11-7的监管要求,曾被用于验证银行业数千个传统模型。它的审验范围涵盖8大风险管理层面,共计25个风险要素。针对机器学习和人工智能技术相关模型,模型风险验证和管理团队修改了12个已有要素,增补了6个新要素,让银行能够借助新模型来有效识别和管理与机器学习相关的风险。

六大新要素

这六大新要素(可解释性、偏差、特征工程、超参数、生产就绪和动态模型校准)代表了对传统验证框架最根本的增改。

可解释性(Interpretability)

受模型架构的牵制,机器学习生成的结果有时会难以理解或作诠释。因而,机器学习又常被称为“黑匣子”。例如,为了帮助业务经理交叉销售,某银行花费数月开发了一个基于机器学习的产品推荐引擎。然而,由于业务经理无法理解模型为何会做此推荐,便决定无视这些建议,甚至对模型采取置之不理的态度。这种忽视会直接带来人力资源的浪费,甚至可能还会错失商业机会。不过,如果一味地听从模型并采取行动,而不深究其背后的原因,可能也会带来严重的后果。

对银行而言,决定机器学习模型的可解释性应到达何种程度,是银行应根据其自身风险偏好而作出的一个政策规定。银行可以规定所有机器学习模型的可解释性都必须保持在统一的高标准,也可以选择根据模型风险的不同而进行具体区分。以美国为例,决定是否批准借贷申请的模型受美国公平信贷法管辖,因此,当模型做出拒绝的决定时,必须提供明确的原因代码。有些时候,银行可能会认为,机器学习模型做出的某些决策不会对银行带来太多风险——如在特定客户的移动应用上投放产品广告。在这种情况下,了解模型做此决定的原因就没那么重要了。

验证人员还需确保模型符合所选策略。幸运的是,尽管机器学习模型一直有“黑匣子”的别称,但近年来,我们确实在其结果的可诠释性方面取得了重大进展。基于模型类别,我们可从一系列方法中做选择:

  • 线性且单调模型(如线性回归模型):线性回归系数有助于揭示模型结果对输入的依赖程度。
  • 非线性但单调模型(如有单调性约束的梯度提升模型):通过限制模型输入(自变量)和函数值(因变量)具有全域上升或下降的关系,从而简化输入对预测的贡献。
  • 非线性非单调(如非约束的深度学习模型):可采用LIME(Local Interpretable Model-Agnostic Explanations)或Shapley值,以确保局部可解释性。

偏差(Bias)

一般来说,模型主要会受到四种偏差的影响:样本偏差、测量偏差、算法偏差,以及对特定人群偏见的偏差。在机器学习模型中,后两种类型(即算法和偏见)的偏差可能会被放大。

具体来看,随机森林算法倾向于采用价值更为明确的输入值,但这样会增加决策欠佳的风险。例如,某银行开发了一个随机森林模型,以期识别潜在的洗钱活动。他们发现,该模型倾向于采用具有大量分类值的字段(如职业)。但事实上,某些分类值较少的字段(如国家)则能更好地预测洗钱的风险。

为解决算法偏差,我们应更新模型验证过程,以确保在任何给定情况下,都能选择出合适的算法。当然,有时候也存在一些技术解决方案,比如随机森林模型的特征选择。如果没有技术解决方案,便可换种思路,比如建立“挑战者”模型,即用其他算法来对标该算法的表现。

想要解决针对特定人群的偏见偏差,银行必须首先确定,公平的评判标准是什么。以下四个评判标准最广为人知,但具体的使用情况还要视模型的选择而定:

  • 人群无关性:机器学习做出的决策基于一系列有限的特征集,但这些特征与受保护的人群——即受法律或政策保护的人群——相关度极低。
  • 人群均等: 所有受保护人群的特征值按比相等。
  • 机会均等: 所有受保护人群的真阳性率相等。
  • 几率相等: 所有受保护人群的真阳性率和假阳性率相等。

模型验证者需要确认开发者已经采取了必要的措施来保证公平。在模型开发的各个阶段,验证者可对这些模型进行公平性测试,在必要的情况下,会对从模型设计到模型性能监控的各个阶段进行修正。

特征工程(Feature engineering)

相较于传统模型,机器学习模型的特征工程更为复杂。原因有以下几点:第一,机器学习模型可以容纳海量的信息。第二,机器学习模型基于非结构化的数据源(如自然语言),而这些非结构化数据通常在数据集训练前就需要特征预处理。第三,现在已有越来越多的商业机器学习包都在提供所谓的自动机器学习(AutoML),自动机器学习可以生成大量的复杂特征来测试多种数据转换。使用这些特征产生的模型可能会非常复杂,从而导致过度拟合。比如说,某机构使用了一个商业自动机器学习(AutoML)平台搭建模型,结果发现,一款产品应用程序中的特定字母序列会被视作欺诈行为。这是算法为了实现模型样本外性能最优,而得到的错误结论。

在特征工程中,银行也需要制定相应的政策来降低风险。比如,银行必须明确,为实现每一个特征的概念完备性需要多少支持。当然,随着模型应用场景的不同,政策的设定也会有差别。比如说,如果是一个受到严格监管的信用决策模型,银行可能就需要仔细评估模型中的所有特征。而对于风险较低的新型模型,银行也许仅仅审视一下特征工程的处理流程(如数据转换和特征排除)就可。

接下来,模型验证者应确保,特征及特征工程过程与相应的风险政策互相吻合。在针对某个特征进行测试时,模型验证者通常会考虑三点:模型输入的正确转换、特征选择的标准,和特征对应的商业逻辑。例如,银行可能会认为,与客户使用自动取款机的频率(ATM usage)相比,将客户的债务收入比(debt-to-income ratio)纳入信贷模型建模的特征会更为理想。这一决定从商业角度来看十分合理,因为客户使用ATM机本来就是银行所倡导的,不应为此而受到政策上的惩罚。

超参数(Hyperparameters)

在训练过程开始前,机器学习模型的许多参数都应得到明确的定义,如随机森林模型中树的深度,或深层神经网络中的层数等。换句话说,它们的值并不是从可用数据中派生的。从经验来看,那些用于解决其他问题的参数,甚至是用于反复试验的参数,都是常见的替代品。在统计建模中,有关这类参数(称为超参数)的决策,通常都要比类似的决策更为复杂。令人不足为奇的是,模型本身的性能及稳定性,也会视所选超参数而改变。例如,银行越来越多地在使用二进制分类器,如结合支持向量机和自然语言处理,以识别客户投诉中潜在的行为准则风险。选定的内核函数不同,这些模型的性能和泛化能力可能也会十分不同。

模型验证者应当确保,所选的超参数越正确越好。与定性型输入不同,在某些定量性的输入上,可以使用特定的搜索算法来确定参数空间的最优范围。在其他情况下,选择超参数的最佳方法,是将专家判断与可以获知的最新行业实践相结合。

生产就绪(Production Readiness)

不同于规则驱动型的传统模型,机器学习模型由算法驱动,因此需要的计算过程也更多。在模型开发过程中,对计算的要求通常会被忽视。现实情况是,模型开发人员在构建完复杂的预测模型后,却往往发现银行现有生产系统无法给予支持。例如,某家美国银行投入了大量资源,建立起一个基于深度学习的模型来预测欺诈交易,结果却发现,它根本无法达到系统运行所需的标准。

在传统模型验证框架中,与模型实施相关的系列风险都得到了有效的评估和审核。但对机器学习模型而言,相关风险评估的范围还需进一步扩大,比如预估模型将会拥有的数据流量、评估生产系统的体系架构(如用于深度学习的图形处理单元),以及估算相应的运行时间。

动态模型校准(Dynamics model calibration)

有别于传统的定期手动审阅及更新模式,机器学习模型可以通过强化学习算法,或贝叶斯模型来动态修改其参数,以反映数据中隐含的新态势。值得注意的是,如果监督不够,随着时间的推移,过度强调数据的短期态势可能会损害模型的性能。

因此,银行需要明确动态重校准的触发规则。比如,它们可能会认为,只要监督得当,类似于算法交易的部分应用可以进行动态重校准。但对其他应用,如信用决策而言,则需有明确的证据表明,动态重校准确确实实要优于静态模型,这样才可采取相应的操作。

明确了相应的规则后,模型验证者便可根据模型的预期用途,来评估是否需要采用动态重校准,并制定相应的监测和控制手段来识别和减轻潜在风险。比如,预先设定好反映模型运行发生重大变化的指标(如样本外性能评价指标)阈值,和其他预定义值(如风险敞口上限值),这样才能判断是否需要人工评估的干预。

针对机器学习和人工智能技术的普及,银行业需要逐步开展和完善相应的风险管理工作。银行要做的第一步,就是确保所有现存的机器学习模型都已被纳入模型清单中。以一家银行为例,其模型风险管理部门一直认为,该银行并没有使用机器学习模型。直到最近他们才发现,其新成立的创新部一直在忙于开发用于反欺诈和网络安全的机器学习模型。

为了有效管理机器学习模型的风险,银行可以考虑扩展现有的传统模型验证策略。考虑到模型性能的监测和优化需要长时间的积累,银行可以先对部分特定的机器学习模型进行管理,积累更多经验后,再在未来逐步将这些验证策略推广至各类机器学习模型。若能有效发挥机器学习的技术威力,银行可显著降低风险。

亚洲实践

随着机器学习的推广,亚洲金融机构也会日益将其视作一种流行的技术手段,广泛用于商业决策和风险管理等领域。这种局面出现后,如何有效控制相应的模型风险,也会成为各大金融机构的焦点所在。

近期,东南亚某商业银行就在遵从上述模型验证框架,从初始诊断开始,逐渐建立起整体模型风险任务、模型风险政策和治理框架,以明确模型生命周期中的各个角色与职责。他们还建立了中央模型库存,以便管理所有使用的模型。除去使用模型分层法,在每个模型层分别建立起相应的验证标准外,他们还将模型风险引入了高管KPI,并建立起了一套模型风险实时报告体系。针对复杂度更高的机器学习模型,这家商业银行建立了相应的验证标准,有效且高效地进行了模型验证工作。

作者

Kevin Buehler是麦肯锡全球资深董事合伙人,常驻纽约分公司;

Adam Pivonka是麦肯锡Risk Dynamics全球副董事合伙人,常驻纽约分公司;

Bryan Richardson是麦肯锡资深知识专家,常驻温哥华分公司;

Derek Waldron是麦肯锡全球董事合伙人,常驻纽约分公司;

Bernhard Babel是麦肯锡自身外部顾问。