当前位置:首页 > 家装 > 装修设计 > 文章正文

AI产品经理之数据标注

编辑:[db:作者] 时间:2024-08-25 03:43:41

前几天参加京东的AI技能沙龙,在提问环节,有个小伙说:

AI产品经理之数据标注

“我是做发卖的,刚才您讲的我都没听懂,我就知道,现在AI是风口,只要做AI干系的就能挣钱,您能说几个现在我们这类人能做到吗?能挣钱就行!

台上技能出身的老师自然一时语塞。
小伙说的没错,百团大战的时候确实一批刷单公司赚得盆满钵满。
但是这些投契取巧注定不能长远。

让更多人卷进这次AI浪潮的可能便是数据标注了,All in AI的百度拥有大量的标注业务,大部分河南标注工厂用的是百度的标注工具,干的是百度的活。
开始的时候标注的利润空间可以达到60%—70%。
有些企业盲目扩展,一下子招了几百人;但是陆奇离开后,百度需求减少。
准确率又普遍提高至95%-96%,活难干了。
这些工厂只会百度的标注工具,很难接别家的业务,因此去世了一批。

现在来看标注行业是一个苦行业,“如果你和谁有仇,就劝他干标注吧。
”这是标注圈有名的段子。
干标注就像将水倒进一个水桶里,每拉一个框便是添一碗水。
目前,谁也不知道还能添多久,只有水溢出来时,才知道。

数据是AI公司的必需品。
数据对付AI模型的主要性尤为主要,AI建模没有门槛,数据才是门槛。
现阶段的人工智能是大略的认知智能。
分类器的布局是个数学问题,便是由数据堆起来的。
或者说深度学习实质上是个数学问题,是由大量的样本空间数据反向布局分类器的系数空间的过程。

数据标注模型

数据标注业务的配置是一个繁芜的数学模型。
比如,有些任务须要串并联的事情流,并联的事情流是多人协同的事情。
串联的事情流是后一个结果是基于前一个结果进行处理的,串并联的事情流须要平台来实现业务事情流的配置。
比如一些NLP型的文本标注作业,须要多个人来标,末了N选一或者投票。
串并联配置涉及到底层数据流的分发等。
或者说更像是一个流水线作业流程。

不断地用标注后的数据去演习模型,不断调度模型参数,得到指标数值更高的模型。

数据的质量直接会影响到模型的质量,因此数据标注流程设计和监督纠错就显得非常主要。

一样平常来说,数据标注部分可以有三个角色:

数据标注员:标注员卖力标记数据。
(文本、图像、视频)数据审核员:审核员卖力审核被标记数据的质量。
(抽检)标注管理员:管理职员、发放任务、跟进流程。

只有在数据被审核员审核通过后,这批数据才能入库利用。

一样平常众包数据标记流程

任务分配:一样平常数据分配由后台自动分发,根据用户选择标注类型每次分发几条内容,标注完成后再次分发。
复核入库:一样平常一条任务会分配给大于三个人的基数职员完成,根据少数服从多数原则确定该条数据的终极标签。
质量验收:一样平常会根据用户标注总数量和入库数量打算该用户的标注质量,和打算有效标注数量,质量高的和质量低的薪酬打算方法会有差别,以此来淘汰不能完成高质量标注的职员。

数据标注类型图像标注-线标注

根据需求标注检测工具相对应的线型位置,例如:车道线。

图像标注-边框标注

标注检测工具相对应的区域,例如:汽车/行人等各种物体。

图像标注-3D边框标注

将图像中待检测物体以立体形式标注,例如汽车检测。

图像标注-语义分隔

根据检测区域不同,将图像标注为不同的像素,例如来自汽车拍摄的图像。

图像标注-多边形标注

根据需求标注检测工具的形状,例如:标注图像中的汽车轮廓(示例图)或标记污损边界。

图像标注-点标注

根据需求标注检测工具参考点的像素坐标,或者图像中的关键点标记,如人脸。

图像标注-3D点云标注

在3D空间中,标注点云数据中指定的检测工具,如汽车、行车道等。

视频标注-跟踪标注

在视频或者连续的图像中跟踪标注检测工具,形成有ID关联的运动轨迹。

文本标注-中英文语音转写与校正

英文语音转中文文本,或中文文本转英文语音。

文本标注

实体命名,标注文本中的实体。

语音标注-客服语音标注

外呼机器人进行外呼记录语音标注呼叫成功或者失落败,从而演习话术。

标注流程需求确认:对标注任务需求确认,标注数据集准备完成,规范标注需求,指定标注模型。
职员筛选:确定标注职员及职员角色职员培训:针对不同角色培训标注规范和标注标准开始试标:先标注少量数据,试用标注数据,调度标注流程,使得效率最优。
正式标注:完成整体标注任务。
导出数据。

总结

快速、高效的进行数据标注,是机器学习和深度学习的根本,现在一些标注工具通过深度学习模型和主动学习技能,通过NLP模型来提高标注效率,集数据标注、数据管理、模型演习和模型做事于一体,使数据标注更加轻松、更高效。
离AI最近的重复繁芜的事情,是首先会被机器取代的。

#干系阅读#

《AI产品经理须要理解的概率论通识:4个观点3个问题》

《AI产品经理须要理解的线性代数通识》

《AI产品经理须要理解的微积分通识》

作者:老张,宜信集团保险奇迹部智能保险产品卖力人,运营智囊同盟创始人之一,《运营实战手册》作者之一。

本文由 @老张 原创发布于大家都是产品经理。
未经容许,禁止转载。

题图来自Unsplash,基于 CC0 协议。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/lz/zxsj/105010.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com