编辑:[db:作者] 时间:2024-08-25 03:19:08
图源:unsplash
作为新晋风口“AI”和“机器学习”,无论是商业领导人、创业者、天使投资人、企业中层管理职员、黑客马拉松的裁判还是“技能”干系职员,都有可能面对这种情形:有人试图“推销”他们的“AI产品”、“机器学习软件”或者其他时髦词汇的花哨组合。
如果陷入这样的田地,有时你会感到专业知识不敷,无法妥善决策。
坚守阵地,不要被吓倒了!
以下七条知识可以帮你从捕捉旗子暗记,看穿夸夸其谈的说辞,看破骗局和谎话。
1.“我们用AI来…”
爱因斯坦说“不能简明地阐明一件事,解释你对它懂得不足多。”
如果有人说到“AI”这一包罗万象的观点,请小心,这有可能是花哨的推销。当然啦,也有可能是真的为了避免顾客烦心,因此省略了令人痛楚的繁芜细节。
可以先假定他们无罪,但是要深挖细节,多理解一下详细利用了哪个机器学习模型,并让他们通过类比阐明。
你可以问问他们这些问题:
1. 为什么选择这一方案,不选其他方案?
2. 为什么对付这些数据,这个方案赛过其他方案?
3. 是否有人办理过类似的问题?如果有,他们采取了什么方法?
4. 有试过别的方法(模型/算法/技能)吗?结果与现在的方案有什么不同?(如果可以的话,哀求供应图表作为证据)
只管没必要一开始就明白所有问题的答案,但是我们该当问问题,尽可能地弄清楚、搞明白。笔者还没有碰着过哪个机器学习观点是无法用类比阐明的。因此,如果以为评论辩论太多技能细节太过困难,就哀求进一步的阐明。这样仔细的审查不仅能加深理解,也能展示该方案的思路。
2.无用输入,无用输出
图源:https://media.tenor.com
“除了上帝,我只相信(优质)数据。”——爱德华兹戴明
只有优质的数据,才能得到精良的模型。因此,你应确认用于演习机器学习模型的数据质量。虽然“质量”难以定义,但有一个大略的方法可以理解演习数据的质量,问问他:与模型在“现实天下”处理的数据比较,演习数据的相似度和代表性如何?
无论一个机器学习模型有多花哨、多前沿,如果用于演习的数据质量堪忧,结果一定极其糟糕。
3.适者生存
上世纪90年代到本世纪初,电子收件箱的垃圾邮件过滤器会探求拼写缺点和其他明显的迹象,自动将垃圾邮件放入垃圾邮件文件夹。
现在,垃圾邮件制造者变得更聪明了,垃圾邮件也越来越难检测了。现在的电子邮件做事商必须适应这一趋势,采取更精密的机器学习模型,准确识别垃圾邮件。
图源:unsplash
有一点我们必须明白:随着时期变革以及输入数据迭代,机器学习模型是否能够无障碍地用新数据重新演习,或者用更出色的模型替代。这很主要,顾客该当知道他们购买的方案是否有“有效期”。
4.用精确的标准衡量精确的东西
图源:unsplash
衡量机器学习模型的分类性能标准当中,准确性是非常常见的标准。例如,对付分类猫和狗图片的机器学习模型来说,96%的准确率可以说非常出色。这意味着在100张猫和狗的图片中,模型能够准确地猜出个中96张。
现在,假设某银行将同样的标准运用于对敲诈交易的识别。敲诈识别器可以轻松达到96%的准确率,由于敲诈交易十分罕见。然而识别敲诈交易并不是96%的精确识别就足够了,而是要降落出错率,缺点识别4%的敲诈交易会带来很大的危害。
对付银行敲诈的例子来说,假负率比准确率更能反响模型的性能。根据不同问题的哀求,可以用其他的标准替代准确率,比如精确率、召回率、特异性和F1值等。你必须把稳他是否利用精确的指标,如果可能的话,可以利用多种指标。
5.更多,更多,更多!
一样平常来说,在其他条件不变的情形下,用于演习的数据越多,模型的表现就越好,深度学习模型尤其如此。它就好比备考SAT的高中生,如果做了大量的练习,练习了各种各样的问题,就更有可能在SAT考试中取得好成绩。
图源:unsplash
得到(足够)数据之前就形成理论是一个重大的缺点。主要的是,确保任何机器学习模型都有足够的数据用于演习。多少数据才算够呢?多多益善!
空想情形下,数据该当来源可靠,而且必须物尽其用。
6.可阐明性
在机器学习中,每每须要在追求卓越模型性能和简要阐明模型运行之间保持平衡,低性能模型尤其如此。一样平常来说,对付繁芜的数据,模型越精密、越繁芜就越好。然而,由于这些模型更加繁芜,阐明输入数据对输出结果的影响也就更加困难。
举个例子,假设要用非常繁芜的机器学习模型预测某产品的销量。输入模型的数据是电视、报纸和广播的广告开支。这个繁芜模型能够给出非常准确的销量预测,但是无法阐明这3种推广渠道,即电视、广播和报纸,哪个对销量的影响最大、哪个更值得投入。
另一方面,更大略的模型可能结果没有那么准确,但是能够阐明哪个渠道更值得投入。顾客必须有平衡模型性能和可阐明性的意识。这很主要,由于如何在可阐明性和性能之间取得平衡取决于目的,因此利用模型的人必须做出决定。
7.那么…你有什么优点和缺陷?
图源:https://i2.wp.com
这是企业口试时常问的问题。在评估机器学习方案时,优缺陷问题非常有用。如果有人推举某个机器学习方案,一定要问问他们这个方案的局限性:
1. 采取这一方案是否利大于弊?
2. 该方案的局限性将来是否会影响其性能?
成功的关键在于理解自身弱点并成功地填补弱点。缺少这一能力的人总是失落败。站在采取高效、可持续的机器学习方案的角度来说,理解其局限性对付其成功至关主要。
不仅如此,哀求推举者解释方案的局限性也能反响透明度的问题。这反响出推举这一方案的人考虑有多细致、是否值得信赖。
如你所见,看破谎话的关键之处便是不要慌张,大胆提问吧!
讯问、澄清、仔细审查所有不愿定的东西。依赖这7条建议,你可以强化理解并全面评估机器学习方案。答不上来这些问题的推销者们,还烦懑快现身!
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/xyj/96537.html
上一篇:为什么电力设备要进行高压试验?
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com