元保发布保险行业首份大模型评测报告

【资料图】

去年底以来，以ChatGPT为代表的AI大模型横空出世，大幅提升了AI尤其是自然语言处理技术解决实际问题的能力。各个行业都在尝试探索大模型应用落地的路径，这其中也包括保险行业。AI大模型在大众领域体现的出色能力，能为具备相当专业门槛的保险行业所用吗？AI大模型又能给保险行业带来哪些具体的业务价值？

日前，国内知名保险科技平台元保，联合国内保险科技研究机构分子实验室，共同发布了《人工智能大模型保险行业应用评测报告》。作为保险行业内的首份大模型评测报告，《报告》特邀国内知名高校专家学者、中国大地财产保险股份有限公司、众惠财产相互保险社等保险公司的专业人员共同调研并撰写完成。区别于以底层专业性指标为评测维度的大模型评测，《报告》立足国内保险行业实际需求，以应用场景的视角和维度进行评测，通过设置保险知识、法律知识、医疗知识等行业常规知识问题，测试大模型的保险行业基础能力；同时针对性设置了保险业务场景问题，以测试大模型的保险行业实际应用能力——以期向保险行业呈现更为实用、直观的信息和结论，在一定程度上降低众多保险机构在大模型选择上的试错成本，并提供一定借鉴价值。

清华大学金融科技研究院副院长、中国保险与养老金研究中心主任魏晨阳表示，对大模型的评测工作，在全球范围都是意义重大的事情。结合金融领域一个重要板块（保险）的大模型评测，其实更具有特殊的意义。包括AI在内的科技赋能，核心在于结合具体应用场景时，模型是否在实操层面、核心业务的前沿，真正有实用价值。

在测评对象层面，《报告》对市场上十大主流的大模型进行了系统性测评，包括ChatGPT3.5、ChatGPT4、Claude-1、Claude-2、清华智谱ChatGLM130B、百度文心一言、阿里通义千问、科大讯飞星火、360智脑、昆仑万维天工等。

在测评维度层面，《报告》从常用的保险业务场景中抽离出三大能力，即专业知识问答能力、营销服务应用能力、合规风控应用能力，基本上涵盖大模型在保险领域的主要应用方向。在每个应用能力之下，又细分出多个能力测试维度，如专业知识问答能力下，涵盖介绍和了解产品过程中所需的保险常识、法律知识、医疗知识三方面；在营销服务应用能力下，涵盖代理人展业过程中所需的营销素材设计、营销话术优化、客服话术推荐、综合规划配置方面的模型能力；在合规风控方面，主要关注保险服务过程中的智能核保、智能理赔、实时质检方面的大模型应用能力。

综合各问题回答表现的平均分，10个主流大模型在医疗知识、保险常识、保险法律知识领域表现普遍较好，在智能核保、智能理赔、话术优化上表现不尽如人意，在营销服务应用能力上表现参差不齐。具体而言，由于国内大模型厂商在中文数据语料上更加丰富，因此国内头部大模型在回答专业领域的基础知识问询时，对国内情况更加了解，回答的表现也比国外大模型更加出色。通过评测可以看到，当下的国内外大模型在保险行业的能力，有些已可直接应用，有些还有漫长的提升之路要走。然而，技术是不断进步的，特别是AI在跨越了智慧的奇点后，进步将会是飞速的，值得期待。

从本次《报告》评测呈现的结果看，AIGC在保险行业应用层面的表现尚未成熟，但AIGC为保险业务场景深度赋能的潜力已然显现。中央财经大学保险学院院长、中国精算研究院院长周桦表示，国内的大模型平台在追击国外先进大模型的过程中取得了不错的成绩。衷心希望在这项基础设施建设中，国内大模型能持续前进，成为国际AIGC领域的重要力量。同时也希望国内保险公司和我国的科技力量能整合平台，联合研发，在中文保险领域大模型开发中实现质的突破。（经济日报记者于泳）

关键词：