当前位置:首页 > 家装 > 装修设计 > 文章正文

全量免费的EMO模型上架通义APP外媒称之为Sora之后最受期待的大年夜模型之一

编辑:[db:作者] 时间:2024-08-25 02:14:31

又一个国产大模型运用火出圈!

两个月前,阿里巴巴通义实验室公开了一篇能够让照片唱歌说话的天生式AI模型论文,EMO(Emote Portrait Alive),在外洋媒体和社交平台引起热烈反响,被一批科技圈大V轮番转发。

全量免费的EMO模型上架通义APP外媒称之为Sora之后最受期待的大年夜模型之一

4月25日,EMO正式上线通义APP,开放给所有用户免费利用,运用上线瞬间通义APP一度被挤爆,有用户创造自己要排队数小时。
其火热程度可见一斑。

EMO是通义实验室研发的AI模型,于今年2月尾公开技能论文,被外媒称之为Sora之后最热门的AI模型之一,在开源社区Github上已经得到了超过6700颗星标。
只须要一张人物肖像照片和一段任意时长的音频,EMO就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本保持同等,实现自然的面部表情和头部姿态。

短短两个月后,通义实验室已经将EMO产品化。
所有用户都可以在通义APP中打开EMO产品页面,在涵盖各种歌曲、热梗和表情包的80多个首批上线模板中任选一个,上传一张肖像照,即可让照片、绘画、“纸片人”、数字人乃至雕像开口说话唱歌,并随时分享或下载保存所天生的视频。

富有表现力的AI视频天生框架

那么,EMO如何实现如此出色的天生效果?

据先容,与目前市情上的主流视频天生算法不同,EMO的事理是用音频驱动图片的人像,使其做出与音频内容高度匹配的口型和表情。
EMO的算法框架分为两步,用ReferenceNet勾引去噪,用Backbone(主干网络)主干网络去噪。

在EMO之前,Talking Head领域的事情都需针对人脸、人头或者身体部分做建模或者表征,耗时长且天生质量较低。
而EMO首次提出了弱掌握的设计,剔除掉针对人脸的显示表征建模,转而采取一些相对较弱的掌握条件来勾引Diffusion去噪过程。

这就意味着,EMO降落了人物视频的天生门槛,且大幅提升了视频的天生质量,使得这一技能在视频制作、影视创作、电商直播等领域的规模化运用成为可能。

更惊人的是,通过在海量的人物讲话视频上进行演习,EMO模型不仅能够找到音频中详细发音与人像口型的匹配关系,还能创造音频中的语气特色与人物表情的关联性,从而将音频暗含的感情色彩反响到了人物微表情上。
可以说,EMO在演习中逐步地学习了人类表达感情的能力,并对其进行了编码。

不过,随着EMO的横空出世,一些人开始担心,EMO模型可能会成为某些别有用心者的犯罪工具。

为防止对口型技能被滥用,阿里云方面表示,通义实验室团队在运用内预置了经由审核的音频模板,暂不开放用户在EMO中自定义音频。
用户只可上传照片,且需严格遵守平台协议,利用符合规范的照片来天生视频。
其次,平台会对用户天生内容进行算法和人工两道审核,确保内容安全。
用户上传的照片仅用于AIGC天生,平台会严格保护用户的信息安全。

同样是出于安全方面的考量,目前,EMO暂不开放API,团队将对安全策略进行充分论证后再进行下一步事情。
通义实验室也欢迎社会各界群策群力,供应更好的安全建议,以便在安全可控的条件下推动大模型技能和运用的发展。

阿里:做全民可用的大模型运用

从2022年ChatGPT的出身,到海内的百模大战,AI大模型热潮已经持续超过一年。
如今,大模型已经逐渐走进千行百业,乃至成为全民可用的运用。

今年2月,随着OpenAI放出文生视频模型Sora的展示片段,由于其高水平的演示质量和超出一分钟的天生视频时长,急速引爆了AI视频行业。
在Sora之前,已经涌现了Runway、Pika、Stable Video等热门文生视频模型。

不过,Sora直到本日都没有定下面向"大众年夜众开放的日期,而已经开放的Runway和Pika等模型大多须要按利用次数计费、价格不菲,抑或是须要专业的开拓者知识去利用,天生视频时长也不超过16秒。

虽然通义APP上的EMO模型目前只支持有限的模板,但其已经成为全民免费可用的AI视频模型,上手简单、利用方便,还自带供用户进行分享的生态社区。
其余,APP上供应的模板中包含了大量网络热梗,有利于所天生短视频的传播和分享,并展现出该模型未来和更多影视IP互助的潜力。

当下,环球AI大模型行业依然进展飞速,各大科技巨子都在积极地卷模型、卷运用。
面对迭代速率越快、种类越来越丰富的大模型,时常会让用户产生一种不知从何处下手的觉得。
不过,说到底,这些AI模型都是将人类思想与创意具现化的工具,而通义APP有望正在演化成一个包罗万象的工具铺,成为每位用户手中一个随叫随到的超级AI助手。

在大模型的C端入口上,阿里无疑是最激进、步伐最快的科技公司。
自今年年初以来,通义APP已经上线了征象级运用“全民舞王”、超长文档解析、AI编码助手、AI会议助手等浩瀚免费功能,成为海内功能最丰富的大模型运用。

来源: 澎湃新闻

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/lz/zxsj/76609.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com