当前位置：首页 > 热水器 > 文章正文

浅谈当前的AI剪辑对象

编辑：[db:作者] 时间：2024-08-25 01:13:04

半年前，我写了篇文章——《浅淡游戏行业当前的AI视频工具》，将视频制作流程分成了探求灵感、制作草稿、网络素材、剪辑成稿。

浅谈当前的AI剪辑对象

个中须要的AI视频能力分为了以下4类方向。

视频剖析：利用人工智能的剖析和理解能力，提炼出美术设计所关注的核心信息，将大量缩成关键要点，从而提高探求灵感的效率。
素材搜索匹配：基于视频剖析的AI技能，通过对素材库中的视频进行剖析、解构和标记，再根据用户供应的关键词匹配最适宜的视频内容，提高视频类资源制作的效率。
视频天生：基于天生式AI技能，能够通过文本和图像内容天生视频内容。
剪辑工具类：赞助视频资源的制作，提高制作效率。

而最近在“视频天生”方向，各家“视频天生”厂商接连内卷，先是快手可灵公布，然后是Luma公布，紧接着Runway公布了Gen3模型。
用户能够在“没有素材”或者“仅有图片素材”时，利用这些工具进行“文生视频”、“图生视频”天生视频素材，随着行业的发展，当前“视频天生”也已发展到“抽多几次还勉强能用”的阶段。
加上目前各家视频天生能力均匀本钱为几毛钱/1s，也就意味着均匀几块钱能天生一个能用于生产的视频素材片段，比较以前“将静态图片变成动态”的“K帧”动作“1人1天的事情量”本钱，AI现在已经能在某些场景下起到替代人力的浸染了。

但是，这只是空想情形，在实际的业务中，AI视频天生还是存在诸多问题的。

在和业务同事访谈时，问到“如何看待当前AI视频天生能力时”，业务同事是这样表示的，“偶尔抽多几次，能抽到自己想要的东西。
但有时候还是抽到想砸电脑，天生的东西总差点意思，想改又改不了。
”

以下几个例子，或许能帮助大家更直不雅观地认知。

可见，虽然AI能天生视频片段素材，但是存在“指令识别不准”、“无法修正”、“模糊”、“主体不一致”、“物理运动BUG”等问题。
这导致“视频天生”仅仅能在“视频质量”哀求较低的场景发挥浸染。
对付像是高精度的视频诉求，AI无法知足。

那么，像是“视频剖析、素材搜索匹配、剪辑工具类”的发展情形如何呢？这些能力或多或少有在目前的AI剪辑工具上有表示，因此我特地研究了几家AI剪辑干系的厂商的产品，下面我浅浅盘下。
各AI剪辑厂商的发展情形

由于认知和精力有限，仅仅选取了几个个人打仗较多的AI剪辑工具。

01 剪映

提到AI剪辑，第一个肯定是字节旗下的剪映。
背靠字节的大模型底层能力、抖音系视频生态供应的弘大剪辑需求量、多年的产品积累，剪映是所有AI工具中较为突出的那一个。
下面我盘点下其部分部分AI能力。

1. 营销成片

该功能可以基于输入视频素材片段和文案天生，对画面内容进行剖析并裁剪，匹配最得当的视频片段进行混剪视频，然后加上BGM、字幕、配音，并支持导出与连续编辑。

个中文案支持AI天生，用户只须要供应产品名称和干系的属性，AI便能天生多个文案供用户挑选。
但个人以为这个功能只能用于赞助引发创意，AI天生的结果每每不能直策应用，或者说天生的效果比较差。

选择好文案后，AI会天生多个结果供用户挑选，用户可选中须要的内容进行连续编辑或者直接导出。

体验下来，个人以为这功能有点别扭，可能只能知足非企业用户（ToC）和成片质量较低的企业用户（ToB）的需求。
（不是说功能不好，由于我是B端用户，不知足我的需求。
）

“营销成片”这个功能，很明显是面向企业用户（ToB）的。
企业会须要在批量产生视频素材的时候须要这类功能，那么企业的核心诉求是“较低本钱产出符合业务最低限度诉求的大批量素材”，个中的要点是“低本钱”、“符合业务最低限度诉求”、“大批量”。

剪映的“营销成片”这里有个问题，在天生时可配置的内容太少了，比如混剪逻辑、字体颜色、BGM这些内容都无法配置，用户只能按AI识别的内容得到天生的结果，这是个不可控的“黑盒”。
对非企业用户（ToC）来说，这是个很好的功能，他能降落利用门槛。
但是对企业用户（ToB）来说，这些不能配置的内容会降落AI成品的质量，导致不符合“业务最低限度诉求”。
假设业务须要按音乐节拍混剪、字体利用制订字体、配音须要利用不那么呆AI配音，那么现在的“营销成片”便无法知足，须要人力额外花费韶光修正。

以是ToB是最好能够供应配置能力，在一开始预设好该配置的参数，然后提交天生任务给打算机，人力就开释出来去干其他事情了。
而不是让人力守在电脑前，一个个审核，然后去一个个编辑。
如果用户有精力一个个编辑修正，还不如从一开始就自己混剪，批量混剪一批视频，也才几个小时的事情量，都能和一个个编辑修正持平了。

对付成片质量哀求较高的企业用户来说，AI的“高黑盒程度”导致AI成片无法知足“符合业务最低限度诉求”，因此须要额外的人力本钱进行改动，以是也无法知足“低本钱”和“大批量”的需求了。

2. 智能裁剪

该功能可以识别视频人物主体位置，从而修正视频的运镜，担保人物主体在中央位置。
这适用于运镜较多的人物视频，用于跟踪人物主体。

视频片段来自于B站主页推举的up“芋圆有点甜-”

3. 图文成片

“图文成片”这个功能有点和“营销成片”类似，但是天生的是图片拼成的视频，而且更多面向于非企业用户（ToC）。

该功能也是基于AI天生或者自己撰写的脚本文案，再选上得当的AI音色，末了选择自行上传素材匹配或是交给剪映智能识别匹配。
剪映匹配的内容支持表情包和素材，这明显是给非企业用户天生娱乐向内容用的。

考试测验了下，剪映匹配的素材能一定程度上匹配文本内容，给到对应的图片素材。
我试了下天生绝区零的宣扬视频，结果天生的静态图片素材带有水印，多少有点尴尬。

而试了下天生螺蛳粉的宣扬视频，个中也涌现了不有名品牌的片段。

这解释这里的图文成片所匹配的素材库，多少有点版权干系的风险，以是这项能力并不能用于企业用户（ToB）的设计场景，还须要等图片素材库和AI匹配算法再发展一下子。

而且如果要企业用户（ToB）利用，这项能力和“营销成片”存在同样的问题，其可配置的内容太少了，AI的“高黑盒程度”导致AI成片无法知足“符合业务最低限度诉求”，因此须要额外的人力本钱进行改动，以是也无法企业用户（ToB）知足“低本钱”和“大批量”的需求了。

4. 视频翻译

这项能力可以在用户上传本人视频的时候，将用户口播的内容翻译成指定措辞，并将口型转换成对应措辞的口型。
在上传视频时候，须要进行本人认证，以是导致无法利用他人的视频，避免直接搬运他人的视频翻译后上传到别的网络。

目前功能仅支持6种措辞，而且转换口型之后，在人物动作幅度或者角度不正的时候，嘴部有一些明显的瑕疵。
（有点好奇，后续剪映上线某些较长的语种的时候，会采取怎么样的翻译方案。
）

5. 编辑器中的能力

剪映除了上面提到的AI功能，在视频编辑器中也融入了AI能力，用于赞助视频生产者提效。

这里涉及到的功能很多，比如天生文本、文本天生配音、识别字幕、识别音乐、镜头分割、人生分离，就不一一赘述了。

02 即创

即创是巨量引擎旗下的“一站式智能创意生产与管理平台”，用于帮助企业用户在营销场景下供应AI帮助的。
比较起剪映，即创的能力直接面向企业用户（ToB）。

个中的AI工具有视频创作、图文创作、直播创作模块，而视频创作干系的仅有“智能成片”和“AI视频脚本”。

1. 智能成片

该功能通过添加脚本、音乐、口播等配置能力，利用AI天生多个版本的成片视频。
为了方便入门用户和高度自定义用户，即创还供应了“一键成片”和“高阶成片”模式。

“一键成片”和前面提到的剪映的“营销成片”一样，可掌握的元素太少了（混剪逻辑、BGM、声音等都不可控），只能知足成片质量较低的企业用户（ToB）的需求。
而且比较起剪映，即创还无法二次修正，AI天生缺点的内容，想救也救不了。

比如下面的案例，即创会识别脚本中的关键文案，然后天生一些奇怪的殊效。
关键是这个殊效抓得也不准，在成品中意义不明，也无法去掉。

“高阶成片”在“一键成片”的根本上增加了视频前后贴、数字人、配音、音乐、字幕等的自定义选项，这较大程度上办理了“一键成片”和剪映的“营销成片”的问题，使得企业用户能“较低本钱产出符合业务最低限度诉求的大批量素材”。

2. AI视频脚本

该功能分为“脚本天生”和“脚本裂变”。

“脚本天生”是基于输入的信息，利用AI天生脚本文案，支持跳转到“智能成片”中进行快速天生。

便是个人觉得AI天生的脚本，估计只能知足成片质量较低的企业用户（ToB）的需求。

“脚本裂变”则是基于已有的脚本进行派生，用AI模拟已有脚本批量天生更多的脚本。
相对来说，“脚本裂变”天生的效果会相对更好，由于即是进行了提示词工程，减少了AI发散的情形。

3. AI灵感

AI灵感功能会根据用户当前主体下，历史触达人群、售卖商品、素材偏好、品牌调性、营销偏好等多维历史信息为用户推举素材内容，以便引发用户灵感创作。
个中AI灵感功能便捷地供应了素材投放数据、视频要点拆解和一键天生类似脚本的能力，方便用户进行创作。

03 智能创作云

智能创作云是火山引擎旗下的AI剪辑工具，也是一款面向企业用户（ToB）的AI剪辑工具。
个中涵盖的能力有视频混剪、智能脚本工具、自动剪辑成片、视频拆条、视频编辑器、视频裁剪、虚拟背景、智能配音、添加品牌等。

由于能力有点多，下面挑一些重点来讲解。

1. 视频混剪

该能力可对目标混剪素材进行分组，并对每组素材进行排列/组合+内容算法的智能拼接。
根据多素材进行视频混剪，裂变出更多视频。
适用于矩阵号投放场景，大幅降落营销本钱，迅速起号转化。

比较起剪映和即创的能力，智能创作云的配置项更多，能力更抽象，能知足更多B端业务场景。
比如其支持按镜头组设置混剪，而不像剪映和即创完备依赖AI进行视频编排。

2. 自动剪辑成片

自动剪辑成片支持用户自定义导入图片/视频素材一键天生精美视频，供应卡点、运镜、动画、殊效等多种视频效果元素，降落创作门槛，赋能创作表达。

但是测试了下，成品效果比较一样平常，里面由AI掌握的部分太多了。

3. 别的能力

剩下这些能力就大略笔墨概况下好了，和剪映、即创的能力有所重合。

视频编辑器：类似于剪映的视频编辑器，供应包含音视频裁剪、笔墨、殊效、滤镜、贴纸、转场、字幕、配乐等常用能力。
视频裁剪：可变动视频尺寸，并在部分有主体的视频中，识别主体位置（类似于剪映的“智能裁剪”能力）。
视频拆条：可以结合视频内容进行拆分，可将长视频分成多个短视频。
智能配音：将输入的笔墨转化为智能虚拟人声配音，并支持添加背景音乐，天生MP3或WAV格式的音频。

04 其他AI剪辑工具

除了上面提到的剪映、即创、智能创作云，AI剪辑工具还有很多，比如：汇量科技的playturbo、美图的奇觅、网易的见外事情室、筷子科技……

05 AI剪辑工具的发展思路

我们可以整体创造，各家AI剪辑工具厂家供应的能力，实在和剪映、即创、智能创作云的大同小异。
而且，个人以为大体的功能培植思路差不多，都是：

结合业务流程供应AI能力支持，积累AI单点能力。
结合高频需求串联多个AI单点能力，构建事情流能力。

“结合业务流程供应AI能力支持，积累AI单点能力”这个很好理解。

工具类产品目的是在业务流程上供应“使能”与“提效”的赞助。
但是直接给全体业务流程进行赞助难度很大。
以是我们须要“把繁芜的问题大略化”。
我们可以将业务流程拆解成多个核心环节，同时拆解出每个核心环节所需的能力，并基于这些能力需求供应AI单点能力。
比较起直接供应面向全体流程的能力，基于单点诉求供应AI支持反而很大略。
因此这种基于业务流程供应AI单点能力支持是很好的AI功能切入点。

视频制作的业务流程可分为“探求灵感、制作草稿、网络素材、剪辑成稿”这四个阶段。

探求灵感：该环节重点是知道要做一个怎么的视频，这个视频须要达到什么样的目的，并构思其题材、内容、音乐、字幕等干系内容。
因此能引发创作者灵感的功能都可视为该环节的内容，比如即创的“灵感库”。
制作草稿：将灵感构思落地成脚本稿或者分镜稿，形成视频的主体框架大纲，并与干系的业务职员进行确认与核对。
利用AI天生脚本稿的功能属于该环节，比如即创的“AI视频脚本”、剪映“营销成片”中的AI天生脚本稿能力。
网络素材：该环节须要网络用于成片的素材内容，包括但不限于图片、视频片段、殊效、配音、字幕、BGM等等。
个中AI天生的图片、视频工具都属于该环节。
剪辑成稿：基于网络到的素材，基于大纲进行剪辑，从而输出成品稿。
剪映的各项视频剪辑工具就属于该环节。

如下图，基本上AI剪辑工具都能对应上一个环节。

基于这四个阶段的能力培植，各家厂商还会供应将多个流程串联起来的自动化能力。
这便是前面提到的“结合高频需求串联多个AI能力，构建事情流能力”思路。

比如各家厂商都有将“制作草稿、网络素材、剪辑成稿”三个环节串联起来，供应一键天生成品的能力。

如果AI天生的成品准确度够高，那么用户只须要网络到灵感，就可以快速走完“制作草稿、网络素材、剪辑成稿”三个环节，大批量低成本地天生符合需求的视频内容了。

由于单点AI能力的赞助提升是有限的，用户一样平常在实际的业务中会利用到多个单点能力。
假设用户利用了AI脚本制作视频的脚本稿，然后利用AI配音能力天生配音，紧接着利用视频拆条功能剪辑视频，末了到视频剪辑器上完成剪辑。
在多个功能上跳转、传输素材文件十分耗费人力，而且个中存在很多机器的重复事情。

因此，基于这些机器重复的场景，将多个AI单点能力串联成事情流，能进一步提升业务的效率，让用户做到一站式输入输出，极大开释生产力。

06 后续思路推测

前两个阶段是当前能从市情上AI剪辑工具看出的培植思路，那在这之后呢？

个人以为后续的思路会和我之前思考过的作文《浅谈数字员工的实现路径问题》有点类似。

之前梳理到的数字员工培植四个阶段：

从“演习生”到“核心成员”。
将数字员工拆解成“技能”，把繁芜问题大略化。
业务流程数字化、线上化，并贴合业务流程聚合“员工技能”。
行为数据采集，用于进一步演习AI模型，实现AI数字员工。

当前AI剪辑工具的两个阶段可以理解为各家厂商在考试测验布局“AI数字员工”的各项剪辑能力，各家厂商须要持续发力，将AI剪辑能力培植到一定程度，以让AI能够覆盖各个视频制作流程，并一定程度能够替代人力。
这等同于跑通了数字员工的前三个阶段。

然后各家AI剪辑厂商可以采集用户AI的利用数据、参数设置、成品数据等内容，用于演习AI数字员工所需的AI模型。
AI数字员工适用于“AI Agent”框架，即感知、操持、行动三个模块。

各家厂商实现的“AI剪辑能力”属于“行动”模块的构建。

“感知”模块则是用户的需求输入、素材输入、业务的数据等外部情形。

“操持”模块则是我们所演习的AI模型，“操持”模块须要感知用户的需求、素材输入、业务的数据等外部信息，输出所须要产出的视频内容需求，然后调用得当的AI剪辑能力，进行视频的产出，实现视频的“无中生有”。

如此一来，各家AI剪辑厂商就可以配备自己的AI视频员工能力，帮助各行各业自动化、智能化生产视频内容了。

07 谁更随意马虎卷成

既然各家的核心思路都同等，小的就产生了一个新的迷惑——那么终极哪家能在这场AI剪辑领域的内卷中胜出呢？

小的无法准确理解到每家公司的实际情形，但是个人以为，能够在这场竞争中卷成功的AI剪辑工具必定知足以下条件：

用AI剪辑工具能吸引到足够的目标用户。
（有用户）能够跑通与用户代价交流的商业逻辑。
（能赢利）在前两个过程中构建自己的竞争壁垒，以源源不断进行代价交流。
（有壁垒）

先讲讲第一点“有用户”的思考。

虽然AI剪辑工具都是为了视频制作业务做事，但是也会根据对用户进行细分，这里有四个分类方向。

按用户类型：按用户类型可分为非企业用户（ToC）和企业用户（ToC），非企业用户会更方向于制作内容向的视频，企业用户则会有较大一部分是制作营销向的视频。
按行业类型：指比如游戏、动漫、电商等行业。
按视频类型：可分为内容向和营销向。
内容向是指有进行非营销目的内容输出与表达的视频，比如游戏讲授、电影讲授、舞蹈、动漫混剪、vlog等。
而营销向则是指有一定营销目的的视频，比如产品推广、品牌宣扬等视频。
当然，视频可以同时属于内容向和营销向两个种别。
按视频质量：视频也是有高低质量之分的，有些视频会包含良好的创意脚本、精美的画面、精良的分镜、动听的BGM等内容，这项视频可视为高质量的视频。
但是有些视频脚本粗糙、画面低劣、分镜简陋，是低质量的视频。
不过，低质量视频并不虞味着这些视频没用，低视频也是有能发挥浸染的地方，比如在广告投放场景上，低质量也能起到低本钱获客的浸染。

AI剪辑工具会有自己的目标人群、所做事行业、视频类型/视频质量制作方向。

比如剪映的官网标语是“轻而易剪”，其目的是供应大略的易用的剪辑工具，因此剪映的做事群体会相对更泛，各种用户、行业、视频类型都会涵盖。

而即创和智能创作云是ToB的AI剪辑工具，一个是挂在广告买量平台上，一个作为SaaS工具被售卖，可见主打的便是给企业供应视频制作做事。

不同的群体意味着有不同方向的剪辑需求。
AI剪辑工具如何把AI能力点（比如混剪、文生脚本、AI配音、视频拆条等）结合用户的需求和场景供应得当的事情流能力支持？并平衡好功能的标准化与定制化培植？这个问题是吸引用户留存的关键。

比如面向C端用户，功能不能太繁芜，最好是一键式的傻瓜操作。
而面向B端用户，功能要有较好的标准化程度，才能更多地知足企业在不同场景下的需求。

就拿各家都有的“混剪成片”能力来举例解释，即剪映的“营销成片”、即创的“智能成片”、智能创作云的“视频混剪”，这几个能力都是基于“混剪”这个AI能力点进行产品功能设计的。

所谓标准化，在B端产品设计中常常用到，是指将多个类型的业务按统一的标准进行规范，使得在业务流程进行的过程中，不同类型的业务能按统一的标准进行，从而减少效率的丢失。

如果在“混剪成片”能力上进行高度标准化培植，能使得“混剪成片”能力可知足大部分的混剪需求。

在研究到的示例中，智能创作云的“视频混剪”、即创的“智能成片”是标准化程度较高的，个中的混剪逻辑、视频前后贴、数字人、配音、音乐、字幕等选项都可以自定义。
但这样带来一个问题——功能繁芜度提高，这导致用户的学习本钱变高了，实际生产中的操作本钱也变高了。

所谓定制化，是指给特定的场景进行功能定制，使得在某些特定场景上做到“低配置本钱的输入和输出”。
而剪映的“营销成片”能力便是相对定制化的能力，其可配置的输入项做了减法，意在让更多人上手这项功能能力。
这也可能和“剪映的用户群体涵盖更多的非企业用户”有关系，以是他们的功能须要更大略、更随意马虎上手，从而让更多人能用上这些能力。

可见目前看到的各家剪辑工具，AI剪辑功能呈现上大体上都是较为符合用户群体的需求的，差距就在于后续的功能推出、产品运营、产品营销方面的手段差距了，这一块暂时未能看出任何结论。

那么接下来是“能赢利”这一点。

个人以为，AI剪辑工具的商业模式是：AI剪辑工具通过供应视频制作流程上的“使能”和“提效”做事，用户为这项做事能力进行付费。
只要AI剪辑能力能给到业务“使能”和“提效”的帮助，并且这个本钱低于产出同等质量和量级内容的人力本钱。

BTW，剪映在这一块还会有点差异，由于剪映背后有抖音，其核心目的还有“为抖音的短视频内容生态供应生产赞助”，以是付费盈利不一定是剪映的核心商业模式。

目前各家AI剪辑工具都是直接开启商业化，要么是按点数收费、要么是会员制，不存在亏本获客，除非后续运营手段层面搞价格战、搞买量、搞政策扶持，搞到ROI为负数、无法回本。

末了便是“有壁垒”这一点。

值得一提的是，除开自行演习的大模型，AI剪辑中的大多数能力实在算不上“壁垒”。
因此这些能力大多数都有开源的技能，或者说通用的底层大模型能力，其他家厂商轻微研究研究也能做到同等的程度。
因此要在后续连续卷赢，必须得有自己的壁垒，这些壁垒可以是：

自行演习的大模型：除非企业基于自有的数据进行大模型演习，且大模型有较好的效果，且其他厂商不能利用这个大模型，能够给到与其他AI编辑工具有差异化的效果。
那么，该大模型能力便可以算是技能层面的壁垒。
剪辑能力：由于AI幻觉问题的存在，AI天生的结果中每每有一定的缺点比例，如果能够供应强大的编辑器作为兜底能力，便能一定程度环节壁垒的影响。
比如剪映的编辑器已经发展了好几年，能够供应十分完善的剪辑能力，比较起即创的“抽盲盒”模式，剪映的体验会更好。
素材库：如果AI剪辑功能能够调用弘大的素材库，并对这些素材进行准确的AI剖析分类，AI剪辑工具能在用户的“探求灵感”、“制作草稿”、“网络素材”环节供应高效的赞助。
比如在特定场景上，供应一键成片能力，通过输入的脚本关键词，匹配准确的视频片段画面。

这些能力依赖于企业有垂直于用户所属行业的弘大素材库，并且企业须要能够有资源进行这些素材的处理和AI模型演习。
这个方向每每是须要企业能够背靠弘大的视频市场，比如背靠抖音的剪映、背靠巨量的即创。

行业赋能能力：由于AI剪辑工具有行业之间的差异，如果能垂直赋能某一行业，给某个行业供应更高效的能力支持，同时沉淀一些该行业的能力支持、最佳实践案例（比如行业素材模板、事情流模板等等），那么企业也能在某个领域守住自己的一亩三分地。

08 总结

总的来说，AI剪辑工具目前也处于快速发展的阶段，目前还存在一些技能和运用上的局限，但其潜力和前景不容忽略。
随着技能的成熟和市场的适应，我们有情由相信，AI将在视频制作领域发挥更加关键的浸染。

而个中谁能从中胜出，暂且也无从得知。
但是个人认为，在个中能卷出头的AI剪辑工具，必定符合“有用户”、“能赢利”、“有壁垒”这三个特点。

本文由大家都是产品经理作者【柠檬饼干净又卫生】，微信"大众年夜众号：【柠檬饼干净又卫生】，原创/授权发布于大家都是产品经理，未经容许，禁止转载。

题图来自Unsplash，基于 CC0 协议。

本站所发布的文字与图片素材为非商业目的改编或整理，版权归原作者所有，如侵权或涉及违法，请联系我们删除，如需转载请保留原文地址：http://www.baanla.com/rsq/57765.html

上一篇：单词联想resist resistor

下一篇：返回列表

浅谈当前的AI剪辑对象

相关文章

推荐标签

热水器推荐

热水器热门