当前位置:首页 > 空调维修 > 文章正文

模型评测怎么做?一篇文章看懂

编辑:[db:作者] 时间:2024-08-25 07:02:20

前段韶光公司非常看好AI赛道,以是想要将AI能力凑集年夜公司内的产品中,助力产品降本增效。
在调研初期,我也走了比较多的弯路,在这篇文章里,详细说说模型测评怎么做,该当如何制作文档有助于申报请示。

模型评测怎么做?一篇文章看懂

由于我们是工业低代码产品,在b端中也属于较为繁芜的,之前也非常负责的撰写过操作手册、搭建规范,也研究过更为易读的办法,但依旧不能提升用户对产品的熟习速率,以是公司前段韶光希望能够利用AI快速办理这个问题。

之前我一贯对测评这件事的目的不是特殊明确,除了确定大模型的价格、功能还须要测评什么。
一次标准流程的测评能够赞助大家更好的对模型进行深入理解,如验证算法模型的有效性,为技能选型供应依据;创造模型潜在的问题,判断是否可以优化或选择其他模型;还可以识别模型在特天命据集上的表现,这样能够确保它的准确性和可靠性。
其余模型测评不是一个人的事情,中间有很多的事情(如性能指标之类的)须要算法同学帮忙。

以下是我根据事情中碰着的常见评测内容及方法进行的汇总内容(仅供参考),希望能给大家一些帮助。

一、前期准备

在正式开始测评前,我们先看一下可能会存在的误区和须要准备的一些资料。

1. 模型评测的误区过度依赖单一指标:只关注准确率或其他单一指标,忽略了其他主要的性能指标。
不同的运用处景可能须要不同的性能指标,如精确度、召回率、F1分数等,综合考虑多个指标可以更全面地评估模型性能。
忽略模型的可阐明性:只关注模型的预测结果,不关注模型的决策过程。
模型的可阐明性对付建立用户信赖和知足法规哀求非常主要,也须要合营一个标准的提示词框架对模型进行限定,可以让模型回答的更加符合哀求。
没有标准的打分指南:不同评估者给出的结果可能差异较大,难以达成共识、影响团队对模型性能的准确理解和决策。
须要制订一套详细的评估指南,包括评估指标、评分标准和操作流程。

2. 测评的基本流程

模型评测的一样平常步骤和流程包括以下几个关键阶段:

3. 网络必要信息

须要网络模型评测所需的数据、文档等,本次我们公司是想要验证知识库在低代码产品中的可落地性,以是利用的数据为产品的标准培训手册。
常日演习数据集须要以下几份不同用法的数据,但是可以根据企业需求进行选择。

演习数据集:用于模型的初始学习过程。
验证数据集:用于模型调参和超参数优化。
测试数据集:用于评估模型的终极性能。
标注数据:如果模型须要进行监督学习,须要有标签的数据。

4. 评测指标详解

在模型评测中,确认企业测评的目的后首先就须要确认所需的测评指标,只有有了指标才能更好的确定模型提问 的问题。
下面的各项指标用于衡量模型的不同方面,能帮助开拓者和决策者理解模型在实际运用中的表现:

大模型根本能力

多轮对话理解:评估模型是否能够理解并记住多轮对话中的高下文信息。
意图识别理解:模型是否能够准确识别用户的需求和意图。
信息检索:评估模型是否能够快速从企业知识库中检索到干系信息。
信息呈现:评估模型供应的信息是否准确、全面,并且易于理解。

性能指标

准确率 (Accuracy): 精确预测的数量除以总预测数量,反响模型整体的预测准确性。
精确度 (Precision): 精确预测为正类的数量除以预测为正类的总数量,反响模型预测为正类的准确性。
召回率 (Recall): 精确预测为正类的数量除以实际为正类总数量,反响模型找出所有正类的能力。
F1分数: 精确度和召回率的调和均匀数,是一个综合考虑精确度和召回率的指标。
ROC曲线和AUC: 吸收者操作特色曲线下面积,衡量模型在所有分类阈值上的性能。

效率指标

相应韶光: 模型完成单个预测所需的韶光,影响用户体验和系统性能。
资源花费: 模型运行时对打算资源(如CPU、GPU、内存)的需求。
吞吐量: 模型在单位韶光内能处理的数据量。

稳定性和鲁棒性

稳定性: 模型在不同韶光或不同数据集上的同等性和可靠性。
鲁棒性: 模型对输入数据中的噪声、非常值或小的变革保持性能的能力。

安全性和隐私保护

数据保护: 确保模型处理的数据符合数据保护法规,如GDPR。
访问掌握: 模型供应的访问掌握机制,防止未授权访问。
隐私透露风险: 评估模型是否可能导致敏感信息透露。

本钱效益剖析

整天职析: 评估模型支配和运维的总本钱,包括硬件、软件、人力等。
投资回报率 (ROI): 评估模型带来的收益与本钱之间的关系。
长期本钱效益: 考虑模型的长期掩护和升级本钱。

可扩展性和兼容性

可扩展性: 模型适应数据量增加或功能扩展的能力。
技能升级: 模型适应新技能或框架升级的能力。
平台兼容性: 模型在不同操作系统、硬件平台或环境中运行的能力。

5. 确定评测问题

根据指标确定提问问题 ,本次公司内部紧张环绕企业业务场景:提升产品易用性,降落投诉率。
须要借助大模型完成以下功能:

在低代码产品中,通过对话结合产品内组件自动天生静态页面、自动选择图标等,能快速提升用户搭建的页面质量(此功能须要结合Agent);企业知识库,用户/运用团队/互助伙伴能够通过单轮/多轮对话快速理解操作办法;产品智能助手:能够通过用户所处页面判断场景,供应可能的辅导方案(此功能须要结合Agent);

常日测评问题可以分为:功能性测评、非功能性测评。
功能性的测评是关注大模型是否供应了预期的功能和行为,比如能够通过阅读供应的帮助手册回答用户关于产品操作的问题;非功能性测评注系统或模型的性能、安全性、可用性等非功能方面,比如回答一个问题须要多少时长、能够为未来的功能集成供应更好的环境,这部分有很多的指标是须要算法同学帮忙进行的。

以我们公司的项目为例,我的功能性测评为:

非功能性测评

6. 确定打分指南

产品经理须要制订一套标准的打分指南,能够便于对模型评分进行阐明,而不是过于主不雅观的进行评分,示例:

4:完备知足哀求,一字不改。
直接采取。

3:不完备知足,有小瑕疵但可接管。
小改之后采取。

2:不完备知足,有大瑕疵,虽然可以改,但改起来也比较麻烦。
不会改,直接抛弃。

1:完备不知足,都是错的,都是偏题。
无法用。

7. 数据预处理

在我们确认目标并开始测试前,须要对已有的文档进行预处理,由于公司之前的文档是我写给团队内部及互助伙伴的参考操作手册 ,以是一定存在一些口语上的问题、格式分歧一等,为了让大模型更好的理解企业文档中的内容,以是我进行了如下操作:

数据规范化 (Data Normalization)

缩放数值:将数据缩放到特定的范围或比例,例如0到1之间,以肃清不同数值范围和量纲的影响。
归一化:将数据转换为具有统一比例的格式,常用的方法包括最小-最大归一化、Z分数归一化等。
编码分类变量:将分类变量转换为模型可处理的格式,如利用独热编码(One-Hot Encoding)或标签编码(Label Encoding)。
特色工程:创建新的特色或修正现有特色,以提高模型的性能,例如通过多项式特色扩展或交互项。
降维:利用PCA(主身分剖析)等技能减少特色的数量,同时只管即便保留原始数据的变异性。
阐明:对文档中独占的黑话进行阐明,避免大模型理解涌现偏差。

数据洗濯 (Data Cleaning)

去除重复记录:检讨文档中的重复行,并删除它们以避免在剖析中产生偏差。
处理缺失落值:识别文档中的缺失落值,要决定是添补它们、删除它们还是保留它们。
纠正缺点和非常值:识别文档录入缺点和非常值,进行纠正/删除,以担保数据的准确性。
格式统一:确保文档中的内容遵照统一的格式,比如日期和韶光格式。
文本数据洗濯:对付文本数据,建议去除无意义的添补词(如“啊”、“嗯”等),标点符号,或者进行词干提取和词形还原。
文本化:去除文档中的图片,并将内容以文本的办法补充在文档中。
分词:对付文本数据,进行分词处理,将句子分解为单词或短语。
停用词过滤:从文本数据中移除常见的但对剖析没有太大意义的词,如“的”、“和”、“是”等。
词袋模型:将文本转换为词袋模型,即文本中单词的涌现频率。
TF-IDF:打算单词在文档中的主要性,用于评估单词的干系性。

二、模型测评

真正的测评部分就比较大略了,搭建好流程往后将自己的问题提给大模型,然后进行打分即可。
这部分紧张说下我们利用的平台-Dify。

Dify是一个开源的大措辞模型(LLM)运用开拓平台,许可开拓者通过直不雅观的界面或者代码办法来创建AI运用,管理模型,上传文档形成知识库,创建自定义工具(API),并对外供应做事。

开拓者拥有高度的定制化能力和对项目的掌握权,适宜那些寻求灵巧办理方案的专业开拓者,并且企业利用收费不高。

(非广告,紧张是事情中在用这个平台,coze没有用过没法比拟,大家根据自己的需求选择)

我这边紧张先容一下根本流程,创建账号➡️接入模型➡️创建Agent/知识库助手➡️配置流程➡️配置提示词(可以对模型角色进行限定,回答的内容会更加精准)➡️完成。
详细的操作大家还是要看下官方手册

官方操作文档:https://docs.dify.ai/v/zh-hans/guides/application_orchestrate/agent

ps:提示词模版(仅供参考):

– Role: 企业运用知识库检索助手

– Background: 用户须要一个能够快速检索企业知识库并供应专业建议的助手,以办理事情中碰着的问题。

– Profile: 作为一个专业的企业运用助手,我具备深入企业知识库、理解用户需求并供应办理方案的能力。

– Skills: 知识库检索、问题剖析、建议天生、信息整合。

– Goals: 供应快速准确的知识库检索做事,帮助用户找到问题的答案并给出专业建议。

– Constrains: 检索结果需确保准确性和干系性,建议应基于最佳实践和企业标准。

– OutputFormat: 结果应以清晰、条理化的形式呈现,包括直接答案、干系文档链接和进一步的操作建议。

– Workflow:

1. 吸收用户的检索要乞降问题描述。

2. 在企业知识库中进行关键词匹配和内容检索。

3. 剖析检索结果,提取关键信息和建议。

4. 向用户供应答案和建议,并根据须要供应进一步的辅导。

– Examples:

– 用户要求:检索关于“项目管理”的最佳实践。

助手回应:检索到关于项目管理的最佳实践文档,并供应关键点择要和干系操作步骤。

– 用户要求:办理“供应链中断”的问题。

助手回应:供应供应链中断的常见缘故原由剖析、预防方法和应急相应方案。

– Initialization: 欢迎利用企业运用知识库检索助手。
请见告我您须要检索的内容或须要办理的问题,我将为您供应专业的帮助。

三、结果剖析与可视化

结果剖析与可视化是模型评测过程中的主要环节,它帮助我们直不雅观理解模型性能并传达评测创造,利用图表和图形展示结果能够很好的剖析模型的上风和不敷。
将之前评测的不同问题进行打分,然后利用数据可视化工具或者excel转换为图表即可。

四、撰写评测报告

撰写报告时明确报告的构造和内容,所处案例和利用场景一定要贴合企业需求,尽可能清晰、准确地呈现评测结果,也便于企业后续进行存档和查阅。

五、模型优化建议

模型优化是一个持续的过程,能够提升模型的性能、可扩展性、和实用性。
可以关注以下几个方面:

框架选择: 考虑改换或组合不同的算法/Agent流程,找到最适宜当前数据和任务的模型。
对模型预测缺点的案例进行深入剖析,识别缺点模式和缘故原由。
选择模型时考虑未来可能的扩展,如支持新功能或处理更大规模的数据。
加强流程的安全性,防止潜在的数据透露和恶意攻击。
让用户参与到模型优化过程中,网络他们的反馈和建议。
在模型支配后,持续监控模型的性能和用户反馈,快速相应问题。

六、结语

目前平台的知识库功能已经上线了一段韶光,Agent赞助搭建页面、蓝图等功能也内测了好几轮。

总的来说,AI对繁芜系统的提效还是挺多的,只是前期要把所需文档准备好,尤其是企业知识库这块,操作手册、公司文档可以说是最主要的东西,系统的操作手册搭建也是须要很长一段韶光沉淀下来。

agent赞助功能则须要不断的沉淀系统的标准化场景,只管即便给AI供应足够多的样本进行学习,天生的内容会更加符合需求。

以上是一些个人总结,各位看官有疑问可以随时提出,一起谈论。

本文由 @13号小老婆球 原创发布于大家都是产品经理,未经容许,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/ktwx/168048.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com