当前位置：首页 > 洗衣机 > 文章正文

AI也要玩“猜图”？微软放大年夜招图像理解能力更上一层楼

编辑：[db:作者] 时间：2024-08-25 08:19:42

大家小时候都玩过“猜图”游戏吧？看着残缺的画面，绞尽脑汁猜出背后的秘密，是不是造诣感满满？现在，微软家的AI也要寻衅“猜图”啦！
不过，它玩的可不是一样平常的猜图游戏，而是难度更高的“视觉字幕规复”！

什么？AI玩猜图，还带字幕规复的？

没错！
微软最近发布了一项全新的视觉措辞模型（VLM）任务——视觉字幕规复（Visual Caption Restoration）。
大略来说，便是给AI看一张图片，图片上的字幕被部分遮挡了，然后让AI考试测验把被遮挡的部分推理出来。

这有什么难的？AI不是已经可以识别图像了吗？

你可别鄙视这项任务！
普通的图像识别只是让AI认出图片里有什么，但这项任务哀求AI不仅要识别图像，还要理解图像和字幕之间的关系，并根据高下文进行逻辑推理。
这就好比，我们不仅要看懂图画，还要读懂故事，难度系数直接拉满！

微软为什么要让AI玩这么难的游戏？

当然是为了演习AI更强大的图像理解能力啦！
现有的AI模型在理解图像和措辞方面还有很多不敷，常常会涌现答非所问、忽略细节等问题。
而视觉字幕规复任务的涌现，便是为了让AI学会更全面、更深入地理解图像信息。

这项技能有什么用？

运用可就多了！
想象一下，未来这项技能可以帮助我们：

自动修复老照片和受损文件上的笔墨开拓更智能的图像搜索引擎，只需输入笔墨描述就能找到想要的图片帮助视障人士“看到”图像内容，冲破信息壁垒 ❤️

怎么样？是不是觉得未来充满了希望？微软的这项研究成果，无疑是人工智能领域的一次主要进步，让我们看到了AI在图像理解领域更广阔的运用前景。
相信在不久的将来，AI会带给我们更多惊喜！
✨

关注我 mytoolsAI，带你理解逐日最新人工智能，AI信息！

整理 | Kate、Nash

本站所发布的文字与图片素材为非商业目的改编或整理，版权归原作者所有，如侵权或涉及违法，请联系我们删除，如需转载请保留原文地址：http://www.baanla.com/xyj/192796.html