张衍珍、崔兴嘉:基于联邦学习的金融信贷风控场景建设_数据_联邦_学习

随着金融科技的飞速发展与支付手段的迭代更新,消费信贷业务也不断发展壮大,逐步向互联网金融领域纵深发展。济宁银行紧跟金融市场发展趋势,推出了多种消费信贷产品,并投入资源建设了新一代信贷平台——星云信贷平台。

随着业务规模的增长,客户进一步呈现出多元化特征,传统的风控数据获取方式以及数据应用模式已无法满足风控精准化要求,能否获得高质量的风控数据已经成为制约业务进一步发展的重要因素。数据共享、融合的需求越来越强烈,但数据孤岛的存在及数据隐私和安全问题成了必须面临的痛点问题。

济宁银行副行长 张衍珍

济宁银行信息科技部总经理 崔兴嘉

传统数据合作模式的局限性

传统数据合作模式主要有两种:API和数据包。由数据提供方提供数据查询API是应用最广泛的数据合作模式。这种合作模式下,数据提供方每次仅提供单条数据,较小的数据暴露范围有助于保护数据安全。但是随着机器学习技术的发展,基于大数据的智能风控模型逐步应用,API形式的数据合作无法满足智能风控模型的建模需求。

数据包形式的数据合作可以满足智能模型的建模需求。一种典型的合作场景如下(以A、B作为合作双方为例):B携带数据包X,到A方环境下进行驻场建模。建模结束之后,保存模型,销毁数据。尽管可以支持智能模型的建模,这种合作模式的缺点也显而易见:一是数据时效性低,无法使用实时数据完成建模;二是建模成本高,在全球新冠疫情的大背景下,驻场建模具有较高的成本;三是数据不安全,建模数据明文共享,有数据泄露风险。

展开全文

隐私计算和联邦学习

随着密码学的进步与发展,隐私计算技术逐渐成熟起来,隐私计算技术能在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算,保障数据以“可用不可见”的方式进行安全流通。联邦学习是结合了隐私计算和机器学习的一种新的应用技术。

相比于多方安全计算、可信执行环境,联邦学习更适合当前金融行业对机器学习建模的需求。一是多方安全计算有完备的安全理论基础,缺点是计算复杂度非常高,无法满足机器学习算法的需求,目前主要用在数据分析场景;二是可信执行环境的安全性依赖硬件厂商,灵活性自由度低,无法处理对网络带宽和计算资源要求较高的任务,落地场景不多;三是联邦学习专为机器学习建模设计,建设难度低,数据效果直接,有大量落地的应用场景。

济宁银行联邦学习

金融信贷风控场景的建设经验

通过对比各类解决方案,结合我行实际情况,济宁银行选择使用联邦学习技术解决互联网贷款业务中数据共享、融合的痛点问题。联邦学习技术作为扩展风控数据维度,强化线上自营产品风控体系建设的有效补充,有益于我行拓展信贷业务的广度与深度。将联邦学习技术应用于信贷风控场景的过程中,济宁银行积累了一些有益的经验。

1.应用场景选取。2019年5月我行依托星云信贷平台,推出自营互联网贷款产品“济时雨e贷”,利用大数据分析对客户进行精准画像,实施差异化授信策略是该产品的特点之一。因“济时雨e贷”经营时间长、渠道广、客户沉淀充足,我行选取该产品风控模型迭代环节作为联邦学习技术应用场景。在实施过程中,遵循“先存量后新增”“先局部后整体”的原则,进行联邦学习技术应用探索。

图1 新一代信贷平台星云信贷系统简介图

图2 济宁银行联邦学习技术应用简介图

2.应用模式确定。我行对联邦学习安全性、合规性进行充分考察,评估在数据安全及隐私保护方面的优势。安全性方面,需要满足同态加密、差分隐私、SGX等多种安全策略算法,保证数据的安全。合规性方面,严格执行各项监管政策要求,重视客户隐私及相关权益的保护,确保联邦学习技术应用依法合规。

经过业务梳理、资源评估,我行确定了联邦学习应用方向:利用济宁银行底层数据结合场景方独有数据进行联合建模,针对性分析客群特定和偏好,建立符合本地客群的互联网贷款风险模型,在联合建模过程中保证数据不出本地、在数据安全及保护隐私的基础上最大化数据价值。

3.场景建设与模型训练。建设完成联邦学习的基础平台设施之后,联邦学习的应用重点在于模型的训练。整个模型的训练流程可以大致划分为:样本数据选择—数据对齐—模型训练—预测任务—模型发布。

样本数据选择:参与方统一联邦学习的目标后,需要分别确认任务将使用到的样本数据集,检查与确认隐私数据不可交换后,完成数据集的加载和部署,进行后续的联邦任务。样本数据对最终产出的模型质量有决定性作用,因此这里选取的样本必须具有典型性,并尽量扩大样本数据的覆盖范围。

数据对齐:由于双方的样本数据并非完全重合,系统利用基于加密的用户样本对齐技术,在双方不公开各自数据的前提下确认双方的共有用户,并且不暴露不互相重叠的用户,以便联合这些用户的特征进行建模。

模型训练:联邦学习的核心步骤,这一步将产出机器学习模型。这一步完全由已搭建好的联邦学习平台自动完成,无需人工干预。

预测任务:对训练后的模型进行预测新任务,采集新样本数据并进行数据对齐、数据处理,通过已有的模型对数据进行预测,以评估模型效果。

模型发布:将模型发布到在线推理模块,以供风控系统调用。

模型的训练不是一蹴而就的,如果训练得到的模型效果不理想,则需要调整数据集、参数进行重新训练。高准确性的模型需要反复训练,不停地训练才能得到理想效果。同时,模型训练也不能一劳永逸。为了随时适应市场的发展情况,需要建立行之有效的模型跌打机制,不停地利用新产生的业务数据进行新一轮的模型训练。

经过一年多的探索、实践,我行联邦学习应用基本达到了建设之初设定的目标。一方面增加了风控数据维度;另一方面在数据支持的前提下,优化了模型开发算法。两个目标的达成有效提升了我行互联网贷款风控模型开发的质量和效果。

4.应用经验总结。为了联邦学习技术的探索与应用能够顺利实施,我行主要做了以下几方面工作。一是组织架构清晰合理。自2016年开始,我行实施数字化转型战略,制定金融科技3年规划,做好顶层设计,明确数字化转型的目标任务、实施路径和重点任务,在此基础上实现组织架构转变,初步形成数字化敏捷团队。特别是在互联网贷款方面,我行组建部落制的金融科技团队,实行业务、科技、第三方集中联合办公模式,快速推进项目建设和业务发展。

二是资源整合充分。相对省内同类机构,我行较早开办互联网贷款业务,实行全行层面的数字化转型战略。互联网贷款风控体系建设、联邦学习创新应用等在行内各方面取得阶段性成果。我行持续投入资源进行大数据风控体系建设及前沿技术尝试,并形成良性循环。

三是风控数据多维。我行开办互联网贷款业务以来与各大互联网公司充分合作,积累了丰富的风控经验。同时大量的优质客户及样本表现数据,为风控技术的探索与创新奠定了扎实的基础。在应用初期选取了自营产品“济时雨e贷”,该产品经营时间长、渠道广、客户沉淀充足,很好地支撑了初期的探索。

四是人才建设扎实。我行重视线上贷款风控队伍建设,团队人员配置较为完善、岗位分工明确,能够实现互联网贷款业务全流程风控管理。同时,不断强化在岗人员培训,加大同业交流学习,加强专业人才梯队建设,打造风控人员储备库,充分保障互联网贷款发展战略的顺利实施。

联邦学习作为一个新兴技术,虽然是目前解决数据安全的理想方案,但商业银行在应用中往往存在问题,需要在实践过程中进一步思考。一是性能效能问题。联邦学习主要使用同态加密算法,在跨方传输环节上密文体积的膨胀以及传输轮数的增多都会带来网络性能的高消耗。二是算法可解释性。联邦学习涉及的隐私保护技术和密码算法非常多,而密码学本身的特性导致原理难以解释。对于业务人员接受程度还有待进一步提升。

未来,我行将继续加强联邦学习的建设,共建联邦学习开源和创新应用生态,审慎推进联邦学习的合作伙伴与我行的共同建模,探索更多行业和更多数据的联合建模,丰富信贷和营销业务的使用范围。

(栏目编辑:韩维蜜)

特别声明

本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。

分享:

扫一扫在手机阅读、分享本文