编辑:[db:作者] 时间:2024-08-25 08:33:34
作者 | ZeR0
编辑 | 漠影
人工智能(AI)创作,怎么溘然就成了AI领域最热门的话题?
AI作画拿大奖的热议事宜才没过多久,这周,两家AI天生内容企业相继官宣过亿美元新融资。最近爆火的Stable Diffusion模型,其背后公司Stability AI宣告得到1.01亿美元融资,投后估值达10亿美元;明星AI内容平台创企Jasper亦宣告获1.25亿美元新融资,估值达17亿美元。
投资界对AI的激情亲切正在回升。这是一个朝阳东升的赛道,正大举挖掘AI的创造力潜能——AI算法在消化大量图像、视频、文本后,能学会创作诗歌、文章、绘画、照片、视频等原创内容,其作品乃至能做到“以假乱真”,乃至被高价拍卖。
今年9月,AI画作《太空歌剧院》夺冠科罗拉多州展览会数字艺术创作类比赛
掀起AI创作热潮的鼻祖级“以文生图”模型DALLE背后的顶级AI创企OpenAI,亦被爆料正与微软会谈,想再拿一笔新融资。
此前OpenAI估值已靠近200亿美元。据外媒The Information今日宣布,一位直接理解OpenAI财务状况的人士透露,该公司有望在今年创收数千万美元。这意味着OpenAI去年的估值可能是2022年预测收入的500至800倍。
同样在这周,做AI音视频编辑的创企Descript,被传就新一轮融资开始与OpenAI CEO Sam Altman等投资者进行会谈。
连艺术圈都开始热议,AI创作,这是要抢走绘图师的饭碗?
一、AI商业化新买卖,明星创企迅速蹿红
今年大火的AI天生图像,满打满算,实在严格意义上才起步大约两年。
2020年7月,马斯克参与创办、微软力捧的国际顶级AI研究机构OpenAI公布Image GPT模型,将在自然措辞处理上取得打破性造诣的Transformer模型引入图像补全及天生任务。
在此根本上,OpenAI于2021年1月推出了一个堪称图像版GPT-3的“炸圈”之作——能够“以文生图”的全新AI模型DALLE。只需输入笔墨描述,DALLE就能画出符合哀求的一系列备选图像。
输入文本“穿芭蕾舞裙遛狗的萝卜”、“牛油果形状的扶手椅”、“将上部的图片素描化”,DALLE分别天生对应的图像
这个开启了多模态学习的重磅研究成果,在AI学术界引起轩然大波。
此前,人们紧张用GAN(天生对抗网络)算法来演习会创作的AI,但这种算法演习难度较高,而且很快碰着瓶颈。随后科学家们转换思路,将2015年出身的扩散模型(Diffusion Model)引入到图像天生,DALLE的出场,验证了这个新方法的可行性,并掀起新的研究热潮。
扩散模型根据“油画画布上的龙”提示词天生的样本
紧接着工业界就开始“卷”起来。从谷歌、百度等科技巨子到一众创企,纷纭入场为AI创作站台。
个中最具代表性的4个“以文生图”里程碑之作,均于今年出身,分别是Midjourney、DALLE 2、Imagen和Stable Diffusion。
2022年3月,AI图像天生平台Midjourney启动Beta版本测试;4月,OpenAI乘胜追击推出二代AI以文生图工具DALLE 2,以4倍分辨率天生更逼真、更准确的图像;5月,谷歌公布用PyTorch实现的以文生图SOTA模型Imagen……
DALLE 1与DALLE 2天生图像比拟
但直至此时,AI创作仍是一个不算出圈的话题,真正将其推向高潮的关键变量,是Stable Diffusion。
今年8月,基于扩散模型的开源模型Stable Diffusion横空出世。相较不对外开放的谷歌Imagen、限定免费作画数量的DALL-E,Stable Diffusion面向"大众年夜众免费开放,上手险些没有门槛,用户利用消费级显卡就能实现DALL-E 2级别的图像天生,且据称天生效率可提高30倍。
从此AI作画开始在网上爆红,每天都有海量网友蜂拥而至,乃至连特斯拉前AI和自动驾驶主管Andrej Karpathy都持续沉迷好几天,在推特上一直晒用Stable Diffusion天生的作品。
Andrej Karpathy在8月连发Stable Diffusion干系推文
目前Stable Diffusion的各渠道累计日活用户超千万,已经吸引超过20万开拓者。
为Stable Diffusion供应算力的是Stability AI,这家创企就凭借这么一个“爆款”开源模型,最新拿到1.01亿美元融资,跻身独角兽企业之列。
Stability AI创始人兼CEO Emad Mostaque是个在英国终年夜的印度人,2005年毕业于牛津,是一位连续创业者,2020年创办Stability AI的目标便是为了在学术和家当界之外打造第三极,为AI研究扫清障碍,实现AI技能的真正遍及化。
结果如其所愿,Stable Diffusion被赞誉为“开源炸弹”,Stable AI也被视作有望撼动OpenAI江湖地位的一匹“黑马”。
Stability AI创始人兼CEO Emad Mostaque
据悉,Stable AI现有103人,操持扩展到300人,其算力目前用的是在亚马逊云科技(AWS)上租用的4000台英伟达旗舰打算卡A100 GPU。Emad在近期接管采访时透露,Stable AI已经签订了很多互助订单,盈利能力超过大多数赔钱的大公司,明年还打算帮助100个AI方向的博士。
另一家本月拿到1.25亿美元新融资的AI内容天生创企Jasper,此前已经推出用AI天生博客文章、社交媒体帖子、网站副本等的多种功能,它的Jasper Art系统同样可以根据笔墨天生不同风格的图像。
Jasper Art系统演示
Jasper Art链接:https://www.jasper.ai/art
二、轻松上手零门槛,天生作品视效惊艳
在科技巨子、明星创企们的推动下,AI自动天生内容的上手门槛正变得越来越低。
经典的DALLE 2已开放测试版,它可以结合文本描述天生风格迥异的图像,兼顾到阴影、反射和纹理细节,还能在天生图像中增删元素。它还有一个大招,是能将图像扩展到原始画布之外,创建广泛的新构图。
DALLE 2链接:https://openai.com/dall-e-2/
还有更易上手的DALLE迷你版——Craiyon,由谷歌和Hugging Face的研究员们开拓。用户可以直接在网络浏览器搜索框中输入笔墨描述,让AI天生各种神奇的画作。
Craiyon链接:https://www.craiyon.com/
据其创始人Boris Dayma透露,自2021年7月推出以来,Craiyon每天天生约1000万张图像,增加了多达10亿张以前不存在的图像。
今年7月,百度也特殊展示了基于其文心大模型1秒“补全”真迹遭焚毁的中国传世水墨名画《富春山居图》。网友只要在百度APP搜索“富春山居图”,在空缺处勾勒几笔,就能用AI补全自己心中的《富春山居图》。
在百度APP用AI“补全”《富春山居图》
再比如今年8月斩获科罗拉多州展览会数字艺术赛道大奖的Midjourney,用法也非常大略,在对话框输入笔墨描述,就能立即得到由AI天生的4张草图。4个“U”按钮可以将对应序号图片的尺寸变大,增加更多细节;“V”按钮可以按照对应序号图片,再天生4张风格近似的衍生草图。
Midjourney链接:https://www.midjourney.com/
不过,AI的发挥并不稳定,有时秒入迷图,有时成品也犯一些低级缺点。
不管怎么说,AI作画拿大奖、赚大钱的事,确实令不少艺术创作者为此破防,十年寒窗苦读,结果一朝被AI分分钟天生的作品打败。
虽然现阶段AI仍旧紧张靠“模拟”,在“悟性”上没法媲美人类,参透不了艺术的灵魂,但顶尖AI算法创作的不少笔墨、图像乃至视频,在许多生手眼中,已经很难分辨出与人类作品的差别。
目前,已经有很多日常消费的视觉类商品,比如海报、插图等,是由AI创作天生的。
还有一些公司另辟路子,从这股热潮的细分环节觅得商机。
正如前文提到的,AI天生作品的质量,一定程度上取决于你的笔墨描述,这个笔墨描述过程简称为“提示词”。如果“提示词”写的好,AI创作的效果就会更加令人满意。
比如今年6月成立的PromptBase,便是一家靠兜售AI绘画工具“提示词”发财致富的公司。用户可以从PromptBase这里花1.99美元买一个“提示词”,将其复制到DAllE、Midjourney、Stable Diffusion等平台,就能天生质量上乘的作品。
PromptBase链接:https://promptbase.com/
科技巨子、明星创企们,还在连续将AI创作的实力“卷”向新的高度。
比如过去一个月,Meta和谷歌接连发布AI天生视频的研究进展。
Meta AI在9月29日公布的AI系统Make-A-Video,基于几百万个视频和23亿张图片演习而成,能根据给定的一段话,天生一个时长几秒钟的短视频。
Make-A-Video天生的“画自画像的泰迪熊”短视频
Make-A-Video链接:https://makeavideo.studio/
继续Imagen,谷歌的Imagen Video模型能天生1280 x 768分辨率、每秒24帧的视频片段,而且能按需天生不同的艺术风格,比如水彩画、像素画、梵高风等。
Imagen Video天生的一些视频片段
Imagen Video链接:https://imagen.research.google/video/
论文链接:https://imagen.research.google/video/paper.pdf
谷歌的另一款AI天生视频模型Phenaki,亦可以切换视频整体风格,而且还能根据200个词旁边的笔墨描述,天生2分钟旁边的视频,并在文本描述中补充添加剧情,形成一个完全的故事。
Phenaki天生2分钟视频的片段:镜头对准了办公室里狮子的脸,聚焦到办公室里穿着深色西装的狮子
Phenaki链接:https://phenaki.video/
论文链接:https://arxiv.org/abs/2210.02399
按这样下去速率发展下去,即将破防的,估计就不但是绘画师了。
三、版权辩论不休,偏见问题难解
随着各种AI生产力工具出炉,AI创作的门槛被不断拉低,一些投资者对AI天生内容模型的期待值越来越高,乃至将其视作极大扩展AI遍及范围的潜在变革工具。
但其商业化道路前方,还横亘着不少难题,最大的争议点就在于版权与偏见。
按事理来说,AI创作是“从无到有”,通过消化大量数据,天生现实天下中原本并不存在的东西,理应不存在陵犯版权的问题。
但实际上,由于AI学习的演习数据集过于弘大,就连造出这些AI工具的研究职员都没法担保,AI不会误拿一些商用需付费的资源,或者不会产生任何陵犯肖像权、牌号权等侵权行为。
例如,Stable Diffusion天生的一些图像彷佛带有水印,解释它的原始演习数据集中有一部分图像该当是受版权保护的。
对此,Getty Images、Shutterstock等有名付费图库纷纭封禁AI天生图片,停滞吸收所有由Stable Diffusion、DALLE 2、Midjourney等AI模型天生的画作。
与种族、性别歧视干系的偏见,更是AI领域长期以来辩论不休的“重灾区”。在国外,很多演习时没有考虑到偏见问题的AI工具,在天生人类形象时,会默认天生欧美白种人、男性形象。
这些问题,都令AI创作在通往落地的路上背负着沉重的枷锁。
长期裹挟在隐私伦理争议中的谷歌,对AI天生工具一贯持谨慎态度,基本上都是只发论文公布研究成果,没怎么将AI模型对外开放。
OpenAI也不断改进其安全方法,包括通过从演习数据中删除存在偏见、负面方向的数据,避免DALLE 2天生暴力、仇恨、色情、政治类图像。该创企还采取前辈技能以及自动化和人工监控系统,来防止AI技能被滥用。
Stability AI创始人Emad Mostaque则不以为关于模型的负面影响源头是技能的问题,认为技能无好坏,人类的利用办法才分善恶,“当人们生理康健时,好事总是远超任何负面的事,现实中,人们会逐步习气这些模型。”
但不管怎么说,在我们尚且无法确保能够勾引AI运用走在正道上时,通过法规进行干系行为、用场的约束仍非常必要。
此外,开源在催化AI创作运用热潮的同时,也降落了技能开拓门槛,专注于此的企业们如何在特定领域探求及培养付费意愿强的消费习气、如何形成长期竞争力,仍有待韶光给出答案。
结语:探索AI,需长期主义的坚持
近年来,随着AI泡沫分裂论声势渐长,环绕AI落地商用代价的磋商逐渐霸占主流,成本彷佛对短期内看不见盈利前景的故事失落去了耐心。
但只管短期内落地进程触达瓶颈,AI的长期代价不应被武断否定。能够改写未来的颠覆式技能,总是须要韶光的沉淀。迄今我们仍不知道现有的算法是否会是走向通用AI的精确路子,然而道路虽远,行则将至,如今AI天生内容家当的日趋繁荣,大概能将人们对AI的关注重点与信心拉回到技能范式改造所带来的长远代价。
至少现在,远未到对AI失落去期待的时候。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/ktwx/197387.html
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com