金融年夜模型闯关最后一公里，如何避免"卖家秀"酿成 "买家秀"？

显示全部楼层 · 2023-12-17 02:02:40

如何将年夜语言模型更好地“缝合”到金融业务场景中？各办事商和金融机构在争分夺秒地寻找计划。

摩根士丹利已在使用GPT-4进行投资策略剖析，高盛也用年夜型语言模型做风险治理剖析 ……在ChatGPT成为华尔街投行们的新装备时，更快、更准、更定制的金融年夜模型来了——彭博社宣布针对金融领域500亿参数的年夜语言模型BloombergGPT，在处理  金融专业任务上的表示，比通用年夜模型实现了年夜幅提升。

今年以来，年夜模型席卷金融业，一夜之间，几乎所有金融场景都在探索适配年夜模型的接口。然而，理想很饱满，现实很骨感。有年夜型金融机构IT部分人士比方，金融年夜模型从战略计划到安排落地，有着从“卖家秀”走到“买家秀”的差别  。年夜模型在金融场景落地的最后一公里并欠好走，现在谈效果为时过早。

在记者的采访中，各类介入主体均多次提到“生态共建”，期待联合多方力量解决算力、算法、数据、平安、监管等问题，共赴这场金融年夜模型的“开卷考试”。

年夜模型席卷金融业

随着年夜模型走向千行百业，一个共鸣逐渐形成：将通用年夜模型与垂直领域的专用年夜模型相结合，可以有效提升年夜模型的适配性。继ChatGPT后，人工智能将在垂直应用领域掀起第二波浪  潮。

巨浪席卷而来，国内金融机构和年夜模型厂商们也在争分夺秒。

犹记今年8月份金融机构宣布半年报，年夜语言模型还停留在高管们的口头申报中。如今，它们已经化身一张张采购订单投向市场。金融机构的采购需求，从算力贮备到模型采购，从云计算资源到数据治理，笼罩了人工智能家当链上的各类厂商。

10月10日，工商银行宣布 “NLP年夜模型产品  新技术采购项目”入围结果，智谱华章入围；同月，招商银行千亿级预训练基础年夜语言模型招标中，上海稀宇科技夺标；11月10日，百度网讯、中国电子系统技术有限公司联合拿下邮储银行“超年夜范围预训练模型金融场景应用系统软件开发”项目包。在各年夜保险集团内部，针对年夜模型准备的GPU办事器采购、数据治理办事项目的招标，也在紧锣密鼓地推进。

据了解，金融机构安排年夜模型主要有三种方法。

第一种，是自力全栈自研的方法，强调自力自主可控。这是一些AI基础较好的年夜型金融集团结构年夜模型的路径之一。

第二种，在通用年夜模型或者专业年夜模型基础上进行微调，结合自身海量数据和丰富  场景，形成契合自身需求的金融年夜模型。

第三种，从云端挪用，按需接入各类年夜模型API，完成私有化安排。当前，百度的文心一言、阿里的通义千问、腾讯的混元年夜模型，都有面向金融行业构建生态合作伙伴的安排。

拥有众多子公司和业务场景的多元化金融集团，通常选择多种方法齐头并进，并在内部形成赛马机制；一些科技基础相对软弱的中小金融机构，通常采取第三种方法，以控制成本。

面对庞年夜的市场需求，各年夜厂商纷纷  开发金融年夜模型，一些金融科技公司也凭借过往在金融领域的积累，宣布适配各类业务场景的垂直类金融年夜模型，以实现“近水楼台先得月”。

市场火热之下，今年国内金融领域垂直年夜模型竞相出炉。5月，度小满推出国内首个开源的千亿级中文金融年夜模型“轩辕”；8月，马上消费宣布首个零售金融年夜模型“天镜”；9月，蚂蚁集团针对金融家当深度定制的金融年夜模型AntFinGLM亮相，并在集团内的财富、保险平台上内测；10月，恒生电子金融年夜模型LightGPT升级，在专业金融数据集、合规性要求和安排方法上实现突破，并宣布三款年夜模型应用产品  开放公测。

度小满CTO许冬亮在近期一场公开活动中感慨，“今年以来，围绕生成式AI的浪潮，每周都有新迭代、新成长，每天都能看到真实的效果，有点爆炸式成长、奇点临近的感到。”

如雨后春笋般涌现的金融年夜模型，也给金融机结构成了选型困难。金融业需要什么样的年夜模型？今年9月，由中国信通院牵头，联合腾讯云、科年夜讯飞、恒生电子、马上消费等四十多家企业配合编制了国内首个金融行业年夜模型标准  。该标准  涵盖了金融年夜模型的症结能力要求，包含场景适配度、能力支持度和应用成熟度三年夜方面。此外，标准  还从金融行业特性出发  ，笼罩了投资研究、投资参谋、风险治理、市场营销、客户办事等多个应用场景，并详细划定了金融年夜模型在数据合规性、可追溯性、私有化安排、风险控制等方面的要求。

“值得重做一遍金融办事链”

和传统人工智能相比，年夜模型能为金融行业带来什么增量价值？

如果说传统人工智能是专用的、烟囱式的、孤立的，在年夜语言模型时代，人工智能已经可以借助专业知识和推理能力，在特定领域完整地执行一段任务。

不久前，一批数字员工被引入太保集团审计中心，在审计检查、公函质检、咨询问答等工作环境下进行能力试点，这些数字员工与真实员工进行人机编队，配合作业。太保数智研究院院长王磊日前表示  ，年夜模型会带来新的范式革命，和传统人工智能的巨年夜区别体现在思考模式、行动力、通用性和边际成本等方面。“年夜模型涌现后，实现了对人、对岗亭建模的可能性。”

在消费金融领域，年夜模型能力也在崭露头角。今年8月，马上消费宣布天镜年夜模型时披露，经过近3个月的使用，新的智能客服对客户意图理解准确率达到  91%，相较于传统人工智能的68%有明显提升；客户介入率61%，高于传统模型43%的介入率，也高于人工坐席平均28%的水平。

在近期举办的保险行业年夜模型研讨会上，阳光保险集团科技中心副总经理顾青山详解了“阳光正言”年夜模型开放平台。据介绍，该模型在“梦客全线上销售机器人”项目中，信息抽取任务准确率提升了15%，意图识别和智能问答准确率也均有明显提升。

蚂蚁集团副总裁、蚂蚁金融年夜模型负责人王晓航在近日的金融街论坛上说，“金融办事链上的每一个症结环节，都值得用年夜模型重做一次。”

比如  ，将年夜模型与客户洞察结合，提升交互式理财的体验；让年夜模型赋能专家理财和保险参谋团队，赞助提升专业度；在数字化营销方面，年夜模型能更好地舆解客户的金融需求、匹配供给  ，还能协助生成营销创意，提升告白投放的效率。

在金融中后台，年夜模型也可以打开效率空间。比如  ，年夜模型在金融研判、量化编码等方面，可以年夜量替代初级至中级难度的工作，将投研剖析师、风险策略人员、精算师从事务性劳动中解放出来。

“我们看到了立异应用场景的爆发和涌现。”王晓航说。

落地可靠性“闯关”

理想很饱满，现实很骨感。年夜模型时代，看似一切都能重构，但当金融机构将年夜模型安排到公司内部的时候，往往发明挑战不小。

“年夜模型比如一个优秀的文科生，推理、理解、语言能力强年夜，但在金融投资领域，进行风险订价、运筹优化、量化剖析等更多是理科生的工作，年夜模型无法胜任。做严谨的决策并不是年夜模型的专长。”王晓航说，“金融业对可靠性极致的要求，与年夜模型‘生性浪漫’的幻觉，存在着严重冲突。”

可靠性是年夜模型在金融领域落地最年夜的鸿沟。通用年夜模型对金融领域知识的欠缺，在严谨性上明显的短板，使其弗成能“开箱即可用”，还需要经历庞杂的工程以完成适配。

为了将年夜模型更好地“缝合”到业务场景中，提升可靠性、平安性和流畅度，各年夜厂商的主流计划有三种。一是将年夜模型与专业领域的小模型结合，年夜模型负责认知、理解、沟通、创作，小模型负责把握风险、承载严谨的逻辑；二是将年夜模型的参数知识与结构化、显性化、可靠的金融知识图谱相结合，此举能很好地为年夜模型注入可靠性；三是将开放QA（问答）和封闭  QA的结合，让年夜模型获得请求指令后，在专业知识领域内进行检索，年夜幅提高准确性。

例如，度小满宣布的轩辕年夜模型，在通用年夜模型基础上增加了年夜量的金融领域专业知识，从预训练开始调剂模型，在国内银行从业资格考试的答题表示中明显好于通用年夜模型。

数据训练拦路虎

无论是传统人工智能时代，还是年夜模型时代，数据都是基础。在年夜模型领域流行一句话：“Garbage in，Garbage out”，即输入垃圾数据会导致输出垃圾结果，可见对年夜模型进行预训练，数据是重中之重。

据王晓航估计  ，全市场上有质量的金融语料，年夜概不到2000亿tokens，但满足“高质量、年夜范围、价值不雅正确”条件的语料占比不到40%。在王晓航看来，语料质量的重要性要高于数量。

“我们公司在年夜资管领域做了20多年的数据标准  化，然则在年夜模型面前，仍觉得曩昔的工作异常初级——各家机构对于数据的标准  都有自己的界说。”一位金融IT办事商高管道出了金融机构存储的数据的现状：标准  不统一，非结构化数据多，数据治理工作沉重。

华为盘古金融年夜模型人士表示  ，当前金融机构最重要的任务之一，是如何将散落在业务场景里非结构化的数据集和企业原有的高质量数据集相整合。

数据作为金融机构最重要的资产，流通性差是其特点之一。目前，各家金融机构引入的年夜模型都是私有化安排，各自训练，以最年夜水平保障数据平安、隐私和合规要求，但也造成算力的浪费，数据库重复建设和成本居高不下等问题。

北京本应科技总经理曹凯认为，当前金融年夜模型依旧是“小学生水平”，难以帮助对投资趋势进行洞察，原因包含，模型的数据参数量不敷年夜，对家当、社保、工商等多元异构数据的积累不敷多，且数据间的联系关系性较弱，无法达到  年夜模型“涌现”的效果。

谈论效果尚早

一位年夜型保险集团科技部分人士把年夜模型的安排进程比作“卖家秀”变“买家秀”的进程。

他透露，公司推进年夜模型进程中遭遇到了各类问题，包含但不限于训练数据问题、算力不足问题、成本收益平衡问题、数据风险问题等。

他忠告，在年夜模型应用场景选择上，应先内后外，先易后难；要有兜底机制，不克不及只谈智能、没有人工，短期内还有深化传统模型的需求。“年夜模型产生  的虹吸效应，把许多IT资源都吸曩昔了，这对于多元化科技生态来讲，不见得是功德。”

太保数智研究院院长王磊也表示  ，该集团的“数字员工”项目要真正落地，仍是一件十分有挑战性的工作。比如  ，要有强年夜的算力基础、底座年夜模型平台来支撑它运作；要输入岗亭所需的专业知识和数据，构建数字工作环境；除此之外，项目真正落地时还会碰到新的问题。

受现实条件的限制，金融年夜模型的落地应用水平并非想象中那么高，谈论效果更为时尚早。恒生电子面向金融机构进行的年夜模型应用状况调研显示，71%的受访者所在的机构正在调研年夜模型，17%的机构已经在测试中，真正落地实践的机构不到10%。

共建生态“光靠自己不可 ”

买通年夜模型在金融业落地的最后一公里并非易事。在记者的采访中，无论是年夜模型办事商、金融机构，还是各类金融科技公司，在交流中均多次提到“生态共建”，其内涵包含 “共创、共建、共治”，如同共赴一场“开卷考试”。

不久前，众安保险宣布了保险行业首份AIGC应用图谱，协助保险机构在年夜模型内嵌入行业专业领域知识库，实现AIGC在保险垂直领域的应用快速适配。

日前举办的金融科技数智年夜会上，阳光保险同时组织召开了“保险科技数智立异联合体”准备闭门会议。据悉，该联合体旨在推动保险垂类年夜模型的深入研发和应用，提升保险业整体智能化水平。

面对年夜模型落地的挑战和技术难度，太保集团也认为“光靠自己是不可的”。据悉，太保和行业联合建立实验室，希望实现优势互补，行业共享，风险共担。今年进博会上，太保和华为、科年夜讯飞成立了实验室，希望三方联合起来面对一些挑战。

推动年夜模型在金融领域施展更年夜的价值，各界都在努力。日前，上海人工智能研究院院长宋海涛对记者表示  ，该机构正在推动设立工业及制造业、金融等领域的专业语料库，以减少资源的浪费。

深圳天使投资引导基金副总经理徐向东认为，当前金融行业存在数字化水平不足、金融数据流动性不足、数据字典不统一等问题，制约了年夜模型的使用。他呼吁，应尽快培育数据要素市场，加强金融数据标准  化，增强数据可信、可用，可流通、可追溯水平，为年夜模型更好地在金融行业落地创造  条件。

责编：桂衍民

校对：杨立林

金融年夜 模型闯关最后一公里，如何避免&#34;卖家秀&#34;酿成 &#34;买家秀&#34;？

金融年夜模型闯关最后一公里，如何避免"卖家秀"酿成 "买家秀"？