当前位置:首页 > 洗衣机 > 文章正文

AI也要玩“猜图”?微软放大年夜招图像理解能力更上一层楼

编辑:[db:作者] 时间:2024-08-25 08:19:42

大家小时候都玩过“猜图”游戏吧?看着残缺的画面,绞尽脑汁猜出背后的秘密,是不是造诣感满满?现在,微软家的AI也要寻衅“猜图”啦!
不过,它玩的可不是一样平常的猜图游戏,而是难度更高的“视觉字幕规复”!

AI也要玩“猜图”?微软放大年夜招图像理解能力更上一层楼

什么?AI玩猜图,还带字幕规复的?

没错!
微软最近发布了一项全新的视觉措辞模型(VLM)任务——视觉字幕规复(Visual Caption Restoration)。
大略来说,便是给AI看一张图片,图片上的字幕被部分遮挡了,然后让AI考试测验把被遮挡的部分推理出来。

这有什么难的?AI不是已经可以识别图像了吗?

你可别鄙视这项任务!
普通的图像识别只是让AI认出图片里有什么,但这项任务哀求AI不仅要识别图像,还要理解图像和字幕之间的关系,并根据高下文进行逻辑推理。
这就好比,我们不仅要看懂图画,还要读懂故事,难度系数直接拉满!

微软为什么要让AI玩这么难的游戏?

当然是为了演习AI更强大的图像理解能力啦!
现有的AI模型在理解图像和措辞方面还有很多不敷,常常会涌现答非所问、忽略细节等问题。
而视觉字幕规复任务的涌现,便是为了让AI学会更全面、更深入地理解图像信息。

这项技能有什么用?

运用可就多了!
想象一下,未来这项技能可以帮助我们:

自动修复老照片和受损文件上的笔墨开拓更智能的图像搜索引擎,只需输入笔墨描述就能找到想要的图片帮助视障人士“看到”图像内容,冲破信息壁垒 ❤️

怎么样?是不是觉得未来充满了希望? 微软的这项研究成果,无疑是人工智能领域的一次主要进步,让我们看到了AI在图像理解领域更广阔的运用前景。
相信在不久的将来,AI会带给我们更多惊喜!

关注我 mytoolsAI,带你理解逐日最新人工智能,AI信息!

整理 | Kate、Nash

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/xyj/192796.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com