空间计算时代,内容赛道何去何从

报道 10个月前 (03-07)

本文经授权转载自微信公众号 出海同学会(ID:chuhaiwenda)

作者 | 出海同学会

原文标题:《空间计算时代,内容赛道何去何从 | 出海同学会No.106期干货》

空间计算时代,内容赛道何去何从

导语

苹果在去年发布Vision Pro,这一划时代的产品从2015年立项以来,海量的一线科技人员参与其中,足够的时间加上足够的资源,堆叠出来了质变,为我们拉开了空间计算的大幕。

上周Open.ai的Sora为行业又扔下了重磅炸弹,其物理引擎的完善,文生视频的呈现效果让行业无数从业者惊叹。当然,巨头在此方面的垄断也让创业者与出海圈发生了巨震,质疑、激动、无奈、憧憬,一同纷至沓来。不光是Apple与Open.ai,Sphere对传统影院的颠覆,Tesla人形机器人带给我们的联想,艾尔登法环、塞尔达、原神、Minecraft等沙盒游戏的完善,许多迹象显示,我们目前正处于一个空间计算、空间内容飞速发展的前夜,而这些技术与硬件的变化,从另一个角度讲,又为文娱出海创新创作者提供了一个远比过去大的多的舞台,让过去无法想象或落地的Cinematic game、元宇宙、具身智能等具备可能。

24年第3期的闭门研讨,我们就行业瓶颈、Vision Pro与Sora对行业的影响、从技术演进到Mass adoption的时间线等问题进行了讨论。

本期课代表同学

Artsio 中国业务负责人 周树人

PPIO派欧云 创始人CEO 姚欣

PrismXR 创始人CEO Richard Wu

RWKV 创始人CEO 罗璇

ShortsCreative 创始人CEO 金塑

VAST CMO Sienna

VAST 创始人CEO 宋亚宸Simon

根号叁科技 创始人CEO 吴立新

某电影工作室 骆翼云

某硅谷硬件企业 Owen

某海外AIGC企业 Sisi

某头部影视公司 汪子怡

腾讯游戏 战略和投资 Marc Yan

仙瞬科技 创始人CEO 贾捷阳 

白鲸科技 记者 辛童(值日生/主持人)

(*按公司名数字-字母序)部分同学因公司PR保密不能露出外发布内容,我们忍痛删除了大量精彩篇幅,同样感谢他们的精彩输出

要点问题

Part 1 – 背景研讨

上一个时代涉及3D、ARVR等的创新瓶颈哪些行业关键要素已经发生了质变

Part 2 – 破壁研讨

Vision Pro对行业的影响Sora对行业的影响

Part 3 – 未来机会研讨

技术演进到 mass adoption 的时间线

Part 1 背景研讨

  • 上一个时代涉及3D、ARVR等的创新瓶颈?

腾讯游戏 Marc

一些新的游戏引擎,像是过去两年在 Unreal five出来之后,我们看到了一个瓶颈:当这些创作工具的精度变好,或者说它能够实现的各种效果越来越好的情况下,我们在人力投入方面的斜率并没有发生变化,它并没有减轻我们的工作量,或者提升人效,还是要投入更多的人去达成这些效果。尤其是设备里面,因为更高的算力,玩家对于各种应用场景有更高的要求。

所以我们反而认为,我们的成本越来越高,效果越来越好,但其实我们的商业化或者说其他一些方式并没有跟上,导致现在行业到了一个特别内卷的过程里,这导致我们很难去justify要不要投入更多人和生产资源到这里。

另外,最近我也开始去关注像是 VR 等等的一些很娱乐的方式,但其实我们看下来会觉得今天尽管最近头显算力也有很大的改变,但即使在 APP 这样的平台上,如果要做到像游戏或者主机 PC 这样的精度,还是有很大的瓶颈。而且到底玩家视觉能看到部分的精度到底要达到哪个程度?怎么去平衡真实感、沉浸感以及算力?其实我们觉得还是有很多的困惑在,但我们本身不是做 VR 游戏的,我们只是说去评估要不要进去。

VAST Simon

我们最近背回Vision Pro试玩了,我发现里面缺乏空间内容,核心的原因还是 3D内容的创作成本和门槛比较高,需要花大量的人力、资本、时间去完成一个3D内容。所以这就是为什么我们希望利用3D大模型的能力去降低创作者的创作成本,能够让用户更快更好地去创作 3D 内容,当然也包括 XR 的空间内容。

RWKV 罗璇

这个问题我觉得很有意思。我觉得上一个时代涉及3D、 AR、VR 创新的瓶颈在于两块:

第一个是3D的交互之前一直都没有很好地落地,这次 Vision Pro 给大家一个信心:通过眼动加手势等,在空间计算这个领域其实是还不错交互体验。

第二个是 ARVR 的内容生成在过去也是一个非常大的问题。我身边也有很多做这块创业的人,但是内容这块往往是个瓶颈,因此很难形成正反馈。而接下来大模型的内容生成,Generative AI这个领域可以帮助 AR 和 VR 的内容产生质和量的变化。

还有一个很重要的点:ARVR是不是能够真正带来一个比手机更丰富的场景?现在大部分大家看到的场景还是视频和游戏,但大家也知道不可能每天8个小时都在看视频玩游戏,所以这不是一个随身带 ARVR 的一个理由。我觉得这个问题并没有本质上的解决,即使是Vision Pro,也很难在连续带超过 3 个小时。当然也有很多网红带超过 3 个小时,但是是为了拍片嘛。我今天上午也带了一会,感觉还是有会有点重。我非常期待接下来 ARVR 真正找到一些关键的场景去重新定义这款产品,我觉得现在和定义还是有问题。

某头部影视公司 汪子怡

我刚刚听各位老师的分享,有几个点其实大家都是共通的。

首先可能是,生成领域跟我们传统影视拍出来的、大家能够正常观赏的东西,还是有一定差距,这个点就是它的成熟度,包括在内容方面的稳定性等。

第二个可能就是成本问题。我们可能传统影视会有一个点,尝试说 AI 换脸,因为可能有一些劣迹艺人的问题,但是这个方案最后还是被 ban 掉了,我们还是用了传统的换脸方案,很大的原因就是这个成本。哪些行业关键要素已经发生了质变?

某电影工作室 骆翼云

目前,我正致力于研究如何利用大型语言模型来提升工作效率。例如,在剧本会议中,编剧们的讨论、总结和重点提炼可以通过建立一个语音转文字的数据库来实现。这个数据库能够被AI工具随时访问和总结,随着数据库内容的丰富,可以根据特定的说话人、角色或剧情片段等不同维度进行展示,为编剧团队提供一个高效的归纳总结。这样不仅节省了人力资源,还能让大家将更多时间投入到有价值的创造性工作中。

此外,我们已经实现了剧本格式的自动化调整功能。过去,我们需要手动通过Word的“格式”功能来调整剧本格式,而现在,大型语言模型软件能够一键完成这项工作。在未来的开发阶段,我计划继续探索。在音频方面,希望AI能够学习各个角色的声音,以便在剧本朗读和演绎时提供帮助,这将在写作阶段成为编剧的有力辅助工具。在视频方面,考虑是否可以通过文生视频相关工具,在筹备阶段,生成一系列动画预览,以实现简单的视觉化呈现,一方面降低虚拟拍摄成本,另一方面将之前分镜步骤进一步升级,将导演的拍摄意图更好的呈现。

Artsio 周树人

从终端应用场景来看,大家对于内容素材产出物的预期会非常高。但是,可能在Sora出来之前或者即使sora可正式使用,整个创意、素材生成的完成度靠单一模型都不会非常高,尤其是在视频这个层面。

我是坚信生成式的技术会让内容的可产生性越来越强,但是一个最直观的感受是,不同的行业的业务导向的内容生成需求差异依然会很大,很难说一个工具可以解决所有生成内容的需求。可能未来短期的几年内,都还是不同行业依然要用一个行业相关联的工具。也许最终可能有一个大一统的各类视频生成工具,但是这个模型依然是一个底层生产力工具,要怎么挥好这个铲子,还是需要去做很多的工程化,或者是业务场景的改造。所以简单来说,我觉得创意和内容素材的生成会在未来有更多的可能性,但是短时间依然不会像大家想象那样变成一个单一模型简单输出的万能的铲子,满足所有人各种各样的需求。

VAST Sienna

Tripo 是一个 3D fundational model,简单来说就是我们是从文字或图片生成 3D 格式。刚才刚好提到了创作工具,这个部分确实是我们从开始一直做的。刚好也 Echo 一下这个问题,就是我们在创作这个领域到底发生了什么样的事情,让我们选择做这件事?首先是因为我们团队都是非常资深的游戏玩家,我们很明显地看见了从文字、图片、再到一些待交互的可能、不仅仅是视频,可能有更多交互化的元素在创作和产生。

我们第一感觉是,比如抖音、剪映这样的分发和制作工具,降低了大家创作分发内容的门槛,我们也期待在更加交互的部分会有这样的形式。所以我们看到的趋势是,交互确实是未来内容发展的趋势,我们也期待做一个类似的工具帮助大家更好地制作内容。所以这一次我们确实也觉得在内容这个方向,Sora可能提供了一种视频内容创作、降低门槛的方式,但事实上对于内容的发展肯定还需要有更多的方式,比如内容创作者的聚集。

关于内容分发平台,比如关于 Sora 的讨论可能不仅仅是他创作出了好的内容,可能还有比如我们如何去分发这样 AI 创作的高质量的东西?我们是不是可以基于现在 AI 创作的东西,面对接下来更多更密集的需求,通过其他的产品化的方式来解决?那可能都是我们接下来在这个领域产品化思路上考虑更多的地方。

对于 3D 行业其实也是一样,我们做出来的这样的工具产品,现在有非常好的用户体验反馈,那我们接下来要做的事情也是如何探索这个。

某头部影视公司 汪子怡

刚刚各位老师在聊应用,其实我可以分享一个,最近在国内有一个 AI 内容生成的应用做得蛮好的:大家在刷抖音或者是 TikTok 可能刷到过网文,可能以往它的模式是用一个很长素材,然后通过语音把网文给观众听下来。但是现在很多是用 AI 生成图片视频,并且生成的图片视频跟网文本身内容是很拟合的,这个应用场景还是蛮大的,在市场上也已经被普遍接受了。

下一步的话,这种工具就会跟短剧联合起来,比如说短剧的素材、包括短剧的解说等等。这块我觉得是我目前看到国内在 AI 内容生成上运用比较落地的、且这个市场也比较接受的形式。我们最近也在看这块,包括如果在视频内容和短剧结合落地之后,我觉得可以跟,比如说传统影视剧的剧宣、电影的宣传、广告、各种类型都可以结合起来,这个想象空间还是比较大的。现在文生图已经完全可以了,视频需要稍微在技术上跨越。

Part 2 破壁研讨

  • Vision Pro对行业的影响

根号叁科技 吴立新

我们一直深耕在 3D 相关的东西,我想先分享我们思考的前奏。我们认为上一个时代是由三种数据格式构成的:文字、图片、音视频。每一种格式都有三种维度展开:生产、编辑、分享。这三个维度展开其实构成了完整的市场化。

比如文字的生产可能是做硬件的键盘、做软体的比如输入法;图片的生产可能是摄像头的迭代;编辑相关的比如 Adobe、美图秀秀、P图的软件;音视频的生产比如手机也可以拍出还不错的视频,这都是生产,包括我们用像 3D Max,包括 Houdini 等等一些三维的数字化软件,以及我们用一些 AI 相关的东西,比如说把图片转化生成为 3D 数据,这都属于生产。那它的编辑,比如说 3D Max 等等去做后期特效等这一块。最终的分享,比如代表性的TikTok、抖音、快手。我们是用这条线去看待上一个时代的。

我们认为未来的时代,第四种数据,3D 的数据,如果说能变成人与人之间生活工作,包括说三维互联网构成下一个时代,我所有的一切,比如跟朋友的聊天和工作,都可以通过 3D 数据流来进行流转。

Vision Pro 的出现终于完整呈现了 3D 的魅力。它可以呈现出4K、8K 以上的材质贴图的状态;可以让大家因为高清、3D 数字内容的精细化、以假乱真的程度,而沉浸在三维互联网。大家至少愿意付出时间成本投入在里面,不管是在什么维度。

我自己每天体验Vision Pro 4 个小时,白天两个小时用来工作,尝试能不能抛开Mac、iPad、手机等来工作;晚上是观影体验,这样高频的交互体验将近 14 天。抛开重量这些体验不说,假设几代迭代之后它接近墨镜形态,我们相信可能我早上起来就会戴着这副眼镜看新闻等等,但看新闻的形态可能就不再局限于一个矩形框,它可能是通过 180 度或者 360 度的全景视频,我可能在刷牙的时候一会儿切换到比如以色列的一个场景,或者切换到哪个国家的选举现场,我可以像刷抖音一样切换 360 度视频或者 180 度视频,可能在刷牙的两分钟已经看了比如20 条新闻推送。另外我可能要预约会议或者出行,这些形态都有可能。想象我们生活的这些时间碎片,然后如果用 Vision Pro 这种可能不到 100 克极致化的形态(假设有这么夸张的想法),那我们是不是可以戴得住,把它完全替代手机?

我们认为穿戴式设备必然会替代携带式设备。就像手表以前是怀表,后来发明了一个钩,就一直戴住了;眼镜也是一样,早年的眼镜是举着的,这都叫携带式设备,但一旦变成了穿戴式,穿得住、戴得住的时候,整个量化的沉浸式时间投入是完全不一样的。

我们认为下一个时代还有一个维度,就是我们认为从 80 后开始,到 90 后,到 00 后,这三个阶段的同学们是看 3D 数据长大的,跟 60、70 后对 3D 数据内容的排斥不一样。我觉得我们应该是纯天然的兼容,看动画片、打游戏长大的,所以我们认为大家对这一块的投入和期待会更多。

某硅谷硬件企业 Owen

我介绍一下自己,我在某硅谷互联网企业,负责硬件技术的相关研发。我的视角可能跟各位不太一样,我是这个行业的从业者,所以也希望跟大家交流一下,从业者如何和生态的开发者一起去做好这件事情。

Vision Pro 对我们行业最大的影响是,苹果是第一个对全链路进行整合的公司,这也是只有苹果能做到的。它从生产端到中间流程到消费端都给大家打了样,这件事情苹果认为是怎么做的,而且确实也亲自下场花了钱去做。苹果的设备卖 10 万台,和别的公司的设备卖 10 万台,这里面的影响力是不一样的,不但在于这个硬件本身性能的好坏,而且在于在这个基础上它额外投入的研发、宣发,或者说是跟整个行业之间的整合投入,背后的投入是很大的,所以这个是对行业的一个非常大的鼓励作用,就是苹果给我们探的路。我们知道什么样的路上会有什么样的问题、有什么样的反应,这一点是大家都觉得在 2024 年会非常的受到欢欣鼓舞,能够去学习的一个点吧。

然后我想展开讲刚刚我说的这个生产端到中间流程到消费端的一个全链路的影响。

消费端:这两个星期从 application Pro 发布开始,我每天都在看苹果发新闻,又有什么样新的应用,大的宣传或者大的准备工作。这点是很让人新奇的,因为这件事情反映出,苹果并没有完全准备好所有的事情才发这个硬件,而是以一个开发者或者开发工具的形态去先把这件事情 announce 出来了,然后慢慢地去加码,慢慢把更多新的内容、新的合作去一步步地展现给大家,所以需要大家的耐心,也需要大家一直去看这里面的效果。就比如说这里面有大咖的加持,对吧?有 Apple Vision Pro 和 Disney plus 等公司的 3D 内容合作,然后有一些新的内容创作范式,比如昨天刚看到的信息是 Apple 将会和这个美国的职业足球大联盟做一个8K、3D、180 度的全程进的体育电影。这个是一个什么体验?可能是平时大家没有办法去想象,或者没有办法通过文字去交换的一个感受,只有苹果能够有这个体量去做这件事情,能够调动这样的资源,所以苹果花了钱让大家去看、去学,这点是我觉得这是最大的一个影响。这是消费端。

生产端:苹果特别强调了空间视频或者空间计算相关的内容生产收集。它在这样的设备里面唯二的一个物理按钮是给了空间视频的。如果你带过它头上有一个旋钮是沉浸式的调整,另外一个按钮,作为最大的一个shortcut,就是按了之后能够做空间图像或者视频的采集,所以看得出来他对这件事情的重视程度。我非常 intense 地去体验了这里面的空间视频采集,确实是有跟之前的图像、影像都有不一样的体验,所以我觉得这会是一个未来的爆发点。

另外我想提的关于这个采集设备的信息是,它其实是一个专业级影视技术的下放。这里面的技术它是新的吗?它可能不是新的,但是它把一个可能只有在 studio,或者只有在数千万成本的电影大制作里才能够用到的设备下放到了一个平民级的三五千块钱、可能很贵、但是是一个平民能够用上的设备。

其实这件事情跟 iPhone 在做的事情是类似的,我们最近会不断看到有 iPhone 上面关于图像照片、影视方面的宣传是shot by iPhone,就是说很多专业级的电影导演会用 iPhone 来做采集,也就说明我们其实能够用上性能和专业设备一样或者接近的产品。这一点是不管是硬件上还是图像管线上,苹果把这个技术平民化了。那么其实它也就是结合大众参与创意产业的这样一个趋势,就是让更多的人能够用上它,能够去记录自己的生活,像抖音的 TikTok 这样子的平台,也是希望成为下一个平台,能够在 3D 内容方面普遍化的、流行化的去采集信息和分享内容。所以我觉得这两块是 Vision Pro 让我们看到的未来,但是还是需要一定的时间让它更加的完善化。大家保持耐心,保持积极态度,我个人是非常期待的。

贾捷阳 仙瞬科技

从我们角度来讲的话,对于可穿戴设备,我们认为有两个大的方向:一是把重点放在“可穿戴”三个字上,强调的是便携性,强调的是跟人体的结合,强调是日常使用场景、如何去融入场景。

另外一个重点是放在“设备”两个字,强调的是性能,强调如何通过这个设备实现之前设备没有去很好实现的一些功能。在我们看来的话,Vision Pro 毫无疑问是把重音放在设备两个字上,它实现了一些之前的不论是 VR 产品还是其他的一些产品没法实现的一些东西。

但是从我们角度来看的话,我们其实觉得在另外一条方向上也是有很多空间可以探索,尤其是在这个 AI 时代到来之后让互联网发生第二次形态大大迁移,第一次是从 Web 互联网到 APP 互联网,第二次从 APP 互联网到 AI 互联网,我们认为很多硬件会更加着重看待场景。我们看到 Vision Pro 在功能和内容探索上是做了很多创新的,但是由于它的设备属性使然,在让这个产品融入场景方面其实做的很多工作是不够的。就比如前几天 b 站上的何同学发了一个视频,它里面指出一个很有趣点,就带上Vision Pro 之后,你连喝咖啡都喝不了,它那个大小会在喝咖啡的时候卡住杯子。你虽然看到苹果宣传片里面有说在咖啡馆里面用 Vision Pro办公很爽,但是甚至大家都没有意识到说带着 Vision Pro 是没法喝咖啡的。

这是我们认为这是很有意思的一点,这也是仙瞬科技在做的事情,我们看到很多厂商用各种非常牛逼的技术去制造新的功能、拓展人的行为边界的时候,我们其实觉得另外一条度也是值得去做的,如何能够让现有的设备更好地融入场景,结合 AI 的技术,或者是先把 AI 放在一边,本身就是利用一些我们现在能够去立刻采用的技术,让现有的设备更好融入场景,我觉得也是另外一条值得去探索的路线。

PrismXR Richard WU

我们是一家主要做 XR 周边智能硬件的公司。从我们的角度来看,我对软件的开发和内容应用的开发不是特别熟悉,但是从给 XR 设备去配套的一些智能硬件上面来讲,我们会发现有比较多的机会,以及就同行里面也做得比较多的,从最简单的一些辅助佩戴、箱包类的,包括这类的设备都已经有些落地了,我们看到销量起得非常快。

另一个层面我们也看到了解到,大家一方面在提 Vision Pro 的一个很好的点是从眼动加手的方式去进行控制。但是它还是缺乏纯物理的反馈。我觉得这个本身跟人之前在手机、平板电脑等的过程中还是有一个比较大的区别。那在一些相对需要精确性、或者说在需要连续使用的过程里还是有一些挑战,所以我们看到了交互类的一些硬件产品也在开发过程中。

另外咱们前面的有老师也提到过,在空间视频这个方向。我们也是在空间视频这块看了比较多。目前我们在这一块主要推进的方向是空间视频的设备和辅助拍摄设备。我们会认为这个方向能在下一个点带来一些比较大的机遇。但总体来说,无论说是应用、还是说Vision Pro 的出货量都不足够庞大,所以它能不能支撑一个商业的闭环?这块还都在一个探索阶段。但至少很明显的是大家在探索的节奏上和落地的路径上还是非常积极的,确实在立项做项目的一些开发。

  • 相关问题1:每一个时代的新的硬件出现之前都会出现一个超级应用,现有的 VR 的可能更多应用集中在游戏或者影视,下一个属于这个 VR 眼镜时代的超级应用可能会是什么类型呢?

某硅谷硬件企业 Owen

这个问题坦率的说没有答案。我们也一直在看,但是我们确实没有看到一个能够让大家在现在这个时间节点就有超高的粘性的应用。这个里面有本身 APP 的问题,也有现在的硬件技术没有达到包括重量、体积、体验方面的问题,所以其实这是一个需要去迭代、去慢慢发现的过程。我觉得哪怕对于 iPhone 来说,10 年前的 killer APP 和现在的 killer APP 也是不一样的。苹果在这里面用的是一种非常开放式的态度,在这一个平台我把所有的技术拿出来、展示给大家看,然后希望大家一起 keep an open mind去寻找最合适的应用。所以我觉得这是一个开放,就是 open ended question。

  • 相关问题2:关于成本趋势

某硅谷硬件企业 Owen

我可以举个例子, Apple Vision Pro 是一个软硬件结合的产品,这里面关于这个问题的核心,就是一些核心的硬件技术成本方面的下降会是一个什么趋势?Apple 在这里面起到什么作用?

我们可以用这个智能手机的这条路径来做一个类比。可以看到苹果在很多的方面,不管是一个先驱者,还是一个另类,比如说这里面的 face ID,它是一个另类,先驱者比如说他可能是比较早的使用OLED屏的一家公司,就这些技术在苹果应用了之后,迅速的在各大厂商都得到了应用,也在各个供应链上面就有个很强的反响。

然后这里面的反响就是说因为设备的投入,核心元器件在开发,其实很大部分是设备的投入以及在量上面摊薄来使成本下降,所以这个就是说苹果打了样,然后如果确实是有好的效果的话,那大家会很快的跟进。所以对这点我是保持非常非常乐观的态度的。就是说苹果把最极端的技术在现在的 state of the art 情况下能做到什么程度,给大家打了个样,这个样不单是技术,而且在产业链的可实现程度又打了个样。每个公司都有很多聪明的人在做技术的开发,所以他们会很快的响应,而且会选择其中认为正确的方式去推进,所以这个大家会在后面的时间看到更多的产品出来,所以我是很积极的。

  • Sora对行业的影响

PPIO派欧云 姚欣

我现在做的事情可能更加偏向于云计算,当然 Sora 这个事我也非常的关注,因为视频我差不多做了 20 年,刚才前面有一位同学在讲到这个三个维度去看,实际上从创作,然后编辑,包括到整个传播这三个维度,整个视频的产业链在过去的 20 内在每一个时代都在被二次重塑。

这一次我觉得 Sora 带来的变化,首先第一个肯定是意料之内,因为视频行业的变化趋势就是从早期只是一些渠道的改变,或者在编辑和传播层面的改变,最重要的核心改变往往都是在生成层面,包括我们前面经历过的移动短视频,其实很重要一条就是,如何用像手机这样的设备来去拍摄制作,然后用快节奏的方式来生成。

今天 Sora 的整个这一套模式,我觉得最大的一个推演是会让我们的视频真正进入到完全的个性化。今天大家去看的短视频,我认为还不是真正个性化短视频,它应该是一个分发的分众化视频,它其实还并不是一个完美的、完全基于你的当前的状态和你的诉求来实时生成,也有点像就前两年大家讲的元宇宙概念,我觉得这一次 Sora 的诞生的话,可以让我们往这个方向来去推进,以后可能我们看视频就应该是一种像类游戏的体验,极强的互动和交流、社交化的体验,这个是我们能看得到的一个趋势性发展。

在创新方面,我其实还有点悲观。我觉得三五年Sora都不会对于整个视频产业链进行太大的这种冲击,我觉得它只是在一些效率上的提升。原因是在于前面说的第一个问题,我认为反而是因为 Vision Pro 这些硬件产品还没有及时落地、还不可能在用户侧大规模的普及,导致整个从视频的生成、创意到传播这个环节,还得依托于今天既有的互联网分发加手机的这套系统。我觉得这个分发的模式和渠道和这种创作模型和商业模式三五年内都不会改变,所以说我觉得今天能看到的 Sora 也许还只是在这个内容的创作生成侧的大幅提升效率,会带来内容的爆发,这可能是我的一些判断。

某海外AIGC企业 Sisi

我先介绍一下自己,我在 Dreamix 做战略跟产品的方向规划,然后同时还读着博士,也对 Web 3 比较关注。我接着姚老师刚刚提到的一点就是他说游戏包括 Vision Pro 带来的空间交互平台,以及之后像 Sora 这种再往前进一步,从 text 到video,或者说北美那边可能比较流行,从去年开始就有这个 AI generated world 的概念,就是 AI 生成世界,跟国内的元宇宙有点像。我比较推荐大家去看一下 A16Z的那篇文章,它里面就强调说可能在 AI 的技术迭代之下,我们传统意义上定义的游戏包括影视,包括视频这些,边界会变得非常模糊,最后就会演变成一种可交互的、空间的体验,我觉得是这个比较认可姚老师刚刚讲的。

另外一个是姚老师刚刚提到这个创新,我觉得最大的一点是可能所谓的 copy to China 的这种概念已经不存在了,而且 OpenAI 这种 AI 的创业模式,已经不是上个时代移动互联网的那种稍微低成本就可以复制的思路。AI 是一个重资产的行业,我觉得可能更多的创业者要调整,从创业到 Creator 的概念,可能更多的是在平台上去变成一个创作者,而不是说搞一个套壳,这个可能更难。

最后我想补充一点,我觉得去年跟一个朋友聊很震撼的一点是,他说 AI 的这种发展趋势下面我们可能要重新定义人作为生产者这个大前提。人类跟 AI 最本质的区别应该是在消费端。AI 是无论如何不会在现有的金钱消费定义下去消费,所以它是一个很好的生产者,但它没有办法成为现有消费逻辑体系下的消费者,但人是很天然地可以成为消费者。所以从这个角度上来讲,我可能 Echo 到前面一个点,就是刚刚 Richard提到的 Web 3。如果从人只能是消费者的这个概念出发的话,我觉得 AI 到一定程度上,内容的消费等,人可能要依靠 Web 3的 UBI 的东西,然后来对来给大家提供基本的物质保障,可能每个人想去从 AI 创业中获得金钱的,这个难度越来越大。

VAST Simon

Sora背后的技术是DiT,基于ViT的image/video encoder/decoder,也即tokenizer,做scale up。各家创业公司之前没有资源或魄力赌,尤其在国内资本是风险厌恶的。那么对于创业者来说,没有容错率去做一些可能需要大资源投入,但是高风险的事情。

OpenAI 是这个时代的特例(怪胎),作为一家创业公司,它却拥有媲美大厂的资源。它可投入的资源不亚于谷歌、微软、腾讯、字节等大厂,同时它的执行力和魄力更像一家年轻的创业公司。虽然我们现在还不知道Sora正式开放会是怎么样的,不知道推理成本会不会高,或者成功率会不会低,这些我们还不知道。但是能看出来他们确实是在这个方面取得了很大的成功。至于Sora之后会不会演化成一个 world simulator,可能也是大家比较期待的。

对于创业者来说,初心很重要。我们认为 OpenAI 的愿景是做成AGI。那么视频,从视觉层面上来说是一个用了最多信息的方式去理解这个世界。那么他去创作更多的视频,包括文字和图片,对于理解这个世界本身才是最关键的。他们不会去创作一些 3D 模型,然后用这些 3D 的模型通过引擎重新渲染成视频再去训练,否则就变得南辕北辙了。

所以说我们对它的判断可能还是会停留在视频生成这个层面上,并且这个视频的尝试可能是非常关键的。未来很多长视频的生成或者说制作,都会通过 Sora 去实现。但目前对于3D领域来说,3D模态的特殊性导致目前还没有足够好的3D 表达方式能够支持充分的模型和计算 scale up,而我们正是从2023年中就关注到这一问题做针对性研发,技术上目标找到最适合的3D 表达方式和3D tokenizer,并且已经取得了技术领先性。

Artsio 周树人

OpenAl其实一直在都在给所有的生产者创造好的工具,无论是一开始文字生产还是现在的视频内容生产。其实 OpenAl强调了 Sora的几个比较典型的能力。第一,完整的视频生成,这肯定是最直接的。

第二是不同场景的视频融合,这个其实就是我们一直希望用模型链和工程的技术解决的很多切换场景的问题。其实他在用他自己的生成的方式,在重组视频的方式上帮我们解决这个问题,不然的话大家现在所有看到的视频转场,切换场景可能都要有加特效,或者是很生硬。

所以我觉得本质上来说Sora没有跟任何一家做场景化内容生成的公司冲突,他在做底层更好的工具,就像有了 GPT 之后,在context window不可能无限大的情况下,我们依然需要去构建 RAG 系统,才能做好一个真正有领域知识的智能客服或者问答机器人。其实Sora未来会给基础生成层面的模型工具带来生产力层面的极大提升,所以我感觉没有跟我们做的事情有冲突,其实我们面对的问题就是好像客户想要的视频质量和从脚本到视频组织的故事性延续性都不够好,底层模型的提升是提升这些问题最好的解决办法。

包括其实Sora被大家说得太多了,被它的声量完全盖住、同时期发布的Gemini 的多模态模型也是在模型认知真实世界上非常重要的方向,学习理解和推理生成多模态内容两者同样重要。

所以其实我们自己做视频生成,在我们来看,无论是现在内容生成的基础模型还不够好,我们用现有的存量资产去做重组,还是说等到未来多模态内容生成的模型更好,我们可以把它变成有更长的叙事逻辑的一个视频生产。比如目前sora它也只是一个1分钟左右的视频,它可能只是对于短视频形态来说,大家觉得长度够了。在真正制造成本极高的电影影视、大制作广告、游戏影视CG等,他们的视频时长可能会更长,对于极大降低制作成本的视频生成的需求渴望会更强。我所以我一直以来的理念就是OpenAI会一直持续为我们提供更好的铲子,但我们依然要想好怎么把铲子挥得更好。

ShortsCreative 金塑

Short creative 是一家创业公司,助力于生产营销短视频。我们第一个落地点是用户上传一些产品信息,图片、视频,然后我们再配合有一个,我们自己的一个 AI 达人的技术去生成带 AI 达人的视频。目标是能规模化生产这样的视频,将每条视频的成本达到 5- 10 美金左右。我们这个公司大概跑了有 5 个多月了,也跟客户做了一些测试。

之前没有 Sora 的时候,我们是拿 Pika 和 Runway去做一些带真人视生成视频的这个的短视频,然后发现 Pika 和 Runway 都不太行,所以我们觉得这个赛道在被 Pika 和 Runway 的公司打败前可能至少有两年的窗口时间,所以我们打算再发育一下。

等到Sora出来之后,看到它整个带真人视频的连续性质量之后,我们决定要往这个方向去探索一些新的方向。然后我们新的方向可能会跟目前的一些产业,电影产业或者是广告产业去做一些深度的结合,帮他们深入到这个使用场景里面去做一些目前流程上的迭代的和优化。其实可以说Sora出现对我们公司的整个方向会有比较大的改动。

某海外AIGC企业 Sisi

因为现在 Sora 是说有一部分感觉好像懂了物理引擎的一些定律,但是我意思是说它有没有可能下一步会结合物理引擎的一些规则?因为我原来觉得就是很多大家一直在讨论 OpenAI 的使命是AGI,我始终没有搞明白各个博主如何定义AGI,因为我不知道大家在这个上面有没有Alignment,所以我就一直很好奇,那我个人觉得如何定义AGI?就是如果 AIGC 到最后生成的 3D 空间,它有物理规则,就跟我们现实差不多,那就很有可能能最终实现AGI。

另外一个是说我觉得Sora有一个信号是,它可能让我们能够就是意识到后面的 AI 可能放到游戏这种空间场景下去做测试。因为你如何去验证原来的那个AI,包括各种 agent 是否懂一些所谓的常识?除了 text 层面给出一些回答,包括像 GPT 这种它是问答,那在 Video 这种层面的话它就出现交互,如果它能更好地交互,那下一步也就验证了我们可能在现实环境中可以把这种技术和机器人结合起来,它如果懂物理规律,懂如何去在这种情况下交互,那我们 AI 机器人就会又往前进一步。

Artsio 周树人

其实相比做底层模型研究和探索的研发者来说,我们的产品服务毕竟是更靠近应用层,所以我从不那么底层的思维我的感受是我并不是特别在意基础构造原理上Open AI以后想做什么或者该怎么做,那些不是我能左右或者评判的。以终为始,毕竟我们是以它为工具来,无论是做 agent 还是做应用,所以所期待的AI就是一个推理能力足够强的核心大脑,相比sora我更期待未来GPT会成为一个认知更完善,逻辑思维和推理能力更强大的,有更好的物理世界交互能力的模型。

  • 相关问题1:Sora 一个比较大的变化是可以理解物理世界的规则和动作间的连接逻辑吗?

Artsio 周树人

我觉得这是互联网信息茧房给大家的一个误解,Sora本身并没有像传统3D模型那样先去用传统的物理逻辑去构建场景,在官方的文档中有简述他们的核心逻辑是如何用token让模型可以吸收多维特征信息,他理解了过往喂给他的这些视频片段的组织形式。所以现在生成中经常看到的bug会出现人会倒着走,咬了饼干没有饼干咬痕这些问题,就是因为他本质并没有依靠物理逻辑构建物体关系,他只是按他的方式理解了这些token在时间序列下的组织方式而已,所以不好直接用他和物理引擎相互做比较,也不一定两者是不是可以互相产生帮助,这些也都需要研究者持续探索。

  • 相关问题2:OpenAI 是否会下一步把物理引擎的data,或者说 Rose 的东西去做标注以及做强化学习?“

Artsio 周树人

还是前面的逻辑,我不是一个专业的模型训练者,所以我没法也没不能揣测是不是这样做或者应该不应该这样做,但是我相信如果需要学着一定都会探索,让模型沿着更理解、更真实地创造真实世界的方向发展。

所以回答刚刚老师的那个问题,我的直观感受就是,无论是机器人还是做任何的有具体世界场景的一些任务的话,当核心大脑变得越来越强,那你只需要关注这个大脑会替代原本人需要去编辑的逻辑、思考的方式,都由这个大脑来实现,真实世界场景的接触也同样需要有交互层面的的人去解决,Open AI 会一直让这个大脑更强更全面。我觉得如果以这个方式去思考问题的话,那你不用去管它在这个路径上会怎么实现,打个比方,上一代AI之所以不同场景要做不同的模型,因为模型需要再不同场景训练构造,没有对问题理解产生泛化,所以大家才需要或者期待所谓的通用人工智能,期待一个模型通用化地解决,或者至少在一些层面会用共性的方式解决不同行业的问题。

Part 3 未来机会研讨 

技术演进到 mass adoption 的时间线

PPIO 派欧云 姚欣

其实一开始我也提出了这个问题想跟大家交流,我们比较聚焦在底层,然后我抛几个大的观点吧。第一个我认为计算的架构正在被改变和颠覆,原因是在于,实际上这个是泛人工智能了,就是整个人工智能的崛起,我们自己的测算,就 GPU 的算力市场是数量级有大于今天现有的公有云市场,所以会由此围绕着以算力为核心来去建构整个云的技术架构和服务。

以前我们可能更多的是会去看存储,看数据在哪里,但今天的话我们要去考虑计算的位置。那计算的位置一个特点趋势是在行业、产业的早期,为了实现较容易去落地,往往我们都会选择在云端去做计算,但是为了用户体验的提升和为了最后性价比成功的时候,我们都要放到端侧。

就像今天咱们也提 Vision Pro,其实 Vision Pro 是堪比 MacBook Pro 的这种算力,甚至还有更大的这种算力级别的计算能力。其实这块的增长非常高,就像咱们当年,其实大家都知道最早的计算,首先是 PC 端的计算,后来才有个云计算,那今天可能又是一个从云到端的一个过程,所以这一块是我们能看到算力上面会在大的发展。

这种发展就会导致在移动互联网非常流行的完全靠一个云计算加上一个终端就能跑起来,会变为我的算力必须同时跑在云和端上面。像比如我看到现在新一代的很多 AI 手机的建构都是,小模型和简单的处理我可以在本地化完成,我性能效率好,基本上没有所谓的推理成本,但是稍微一复杂还要放到云侧,那这样的话可能整个技术架构我觉得会发生变化。

比如说像我们自己非常关注的跟视频的生成、分发传输这一块,我们的一个看法就是前几年大家都在考虑像云游戏,包括像整个元宇宙的这些计算架构,其实也是要适合于新一代整个 AI 生成的结构,简单讲就是我们要把 GPU 的算力和像 CDN 的分发能力都要放在网络的边缘侧,然后能够让每个人去实时地创作、生成、处理,然后模型的部署也会很分散。

因为包括到今天的ChatGPT,其实它对于文生文或者文生图的时候,它对于实时性都没有要求,但是到了文生视频的时候,它对于实时性要求就非常的重,再加上整个生成内容的丰富度极高,你就必须要去做很好的地域上的分布,因为你可能每个区域的人看的内容和喜好和偏好,可能同样是一段文字提示,得出的结果可能都不一样,那这样的话就以又更加地要求千人千面。由此的话就说我们也能看到,这个也是为什么说现在看分布式和边缘计算会是一个趋势,我认为会加速这样的一个推动啊。

第二个点的话我觉得如果更具体去看到算力本身,现在一个大家都在探讨的问题,是不是要看纯GPU?前段时间出了那个Groq,这个就是LPU,然后大家再去看计算。的确,从未来的性价比的角度考虑,考虑它的功耗,考虑它的这种测算的性价比等等的话,其实应该是出现底层的计算更加地走向专有化芯片,然后百花齐放。当然是我觉得现在面临的一个问题是什么呢?就是技术不稳定,就是算法的不稳定。

这次 Sora 的一个好处是让我们看到 Transformer 这个模型还是有它的生命周期,目前还可以在 scaling law 上面继续去运作。但是会不会继续地往前发展?这个谁都不确定。今天如果基于这些算法上面去定制化生成的硬件,在面对下一代新的这些技术突破的时候,是不是能够继续有效?这个其实非常的制约,所以说为什么说今天大家不得不去采用 GPU 来应对可能的一些基础变迁。

我认为今天底层算法模型还在快速演进、不确定的情况下,底层的计算芯片还得要依托于 GPU 来发展一段时间,等到底层的技术已经到了瓶颈了,不会再有进一步的大的发展的时候,算力的分化、算力芯片的分化,这种分化才会带来真正大幅的成本下降,才能带来我们应用的普及,这也就是支撑为什么我前面觉得今天其实制约整个空间计算也好、想象力也好,无论是终端侧像Vision Pro 设备的普及,还是在算力侧成本可能成千倍的成本下降,都面临这样的一个挑战吧。

RWKV 罗璇

其实刚刚那位朋友聊的方向我是比较认可的。我们其实是在做一个新的架构的模型,是一个非transformer的架构。在我们去年 4 月份的时候就在跟不同的朋友聊这个事情,一个是算法的演进,现在transformer 的算法实际上它的最大问题就是计算效率,它的计算复杂度非常的高,时间、空间都是 n 方,从第一性原理的角度来说就不太适合是一个未来 AGI 的底座的架构,所以你肯定是会有这个流量空间的。然后部分就是在这个新的方向发展的一个架构,我们也看到美国有 CMU MIT Stanford,都有类似的方向的论文和研究出来。

第二个是其实 Transformer 的这个 scaling law,语言模型这块我听说也是出现了问题,在 60B 以上的话, scaling law 边际效益是快速递减的。如果在线有做大模型训练的朋友可能也会了解这个问题。我认为 OpenAI 在做Sora的,我认为就是因为语言模型的 scaling law 基于 transform scaling law 出现的问题。那需要有另外一个证明,这个 Transformer scaling law 一个新的方向。

当然视频有一些好的发展,我们也是乐于看见的,但是我会发现 Sora 这一个本身,它不是一个符合物理规律的一个架构,我们还是更倾向于看杨立昆的这个世界模型的方向有没有什么新发展,因为毕竟你的一个模型如果会胡说八道,或者说是不符合物理规律的话,那他只是能够辅助你们去做一些事情的,不能够真正的去做一些更 serious 的业务,这是算法这个层面,我们认为未来肯定是会继续往前演示出新的算法出来。

第二个算力。我们也认为未来肯定会有专有芯片。但是现在的这些芯片是不是未来芯片,我个人是不这么看的,认为现在并没有摆脱冯·诺依曼架构的约束,所以我是更看好像存算一体的芯片、内脑芯片这种非冯·诺依曼架构可能能够带来新的摩尔定律,因为如果没有新的摩尔定律的话,整个数字世界的发展可能就没有办法像过去 20 年发展那么快了。所以新的摩尔定律是非常重要的,所以下一步非冯·诺依曼架构的芯片我是非常看好的。当然了,再过20年会不会有量子算的芯片出现,可能更远一些?

第三个是数据。现在我们看到的多模态的很多数据其实是不够的,包括视频数据、三维数据,还有我们要做端到端的多模态的话,这个端到端多模态的数据其实也是不够的。所以怎么样去合成好的数据,或者是通过跟人交互生成好的数据,会影响到技术进一步的演进到多模态。所以从算法、算力数据的一个变化来看,会直接影响到整个技术的大规模落地,然后另外一个就是从单模态到多模态的演进。

还有一个就是从技术到产品的落地,我们现在看到了有很多的方向,包括 Copilot Agent 这个方向,但实际上怎么样能够真正的从在软件上 scale up 起来?我们看到微软带的Copilot,有很多人在做Agent,实际在 Agent 并没有很好的落地。我们看到我觉得 Agent 可能还是要借助于事件模型,各个领域的事件模型。

还有一个就是从 Copilot Agent 怎么从软件到硬件?未来我们认为XR其实是 Copilot 的一个硬件化,而机器人可能就是 agent 的硬件化,这两个就是XR和具身智能,这两个方向也是值得大家关注的,有可能会变成下一步计算终端一个大规模落地的点。

最后一个点就是,我们过去一直把人工智能分为符号派、连接派、行为派。但是是不是我们要多看一看这三个领域的结合,才有可能能够带来进一步的发展,甚至未来的 AGI 的一个发展?我觉得连接派之前跟符号派互相打来打去是没有太大意义的,所以我们希望大家更能包容融合地看这个事情。

根号叁 吴立新

我们扎根在 3D 数据相关的领域。我们可能做不了太高深的一些东西,但是我们可能有自己的一些坚持。首先是一种统一格式的出现,就像比如说我们现在文本格式主流可能被 PDF 统领了。然后或者说在图片时代的 jpg,或者说视频的mp4等等这些,那我们认为说 3D 格式,最终比如说像 USDZ格式的,大家都可能会趋向于同一个格式。

我们也通过好几年的时间把全球各个领域,比如说像家装的 3D Max、动画的Maya、工业的 soliwork 等等,这些我们发现说有100 多个数据格式,像 Brenda 这块做的就还不错。那我们后面自己也完成了一个事情,基本上目前全球,包括芯片以及 3D 扫描仪产生的 3D 数据格式,我们先做了完整的统一。上传到我们的平台,我们都可以解析成一个统一的格式,这是我们做的第一步,也是一个实现。

后面就是我们认为所有技术流的发展,包括说大模型也好等等,那我们的认知就是说首先要让全球,比如说有几十亿的人他都会去用起来,那这个时候几十亿人他会划分出,比如说大家要获取这个数据,有一种是自我生产,其实大多数的人是不会去、或者说不太有这种能力去构建比较专业或者说很高精、材质贴图也非常细腻的这种数据。所以可能会出现 3D 搜索引擎,或者说当然现在可能流转了一些 3D 数据平台,像我们现在的视频可能已经在互联网上有几千万个甚至更高数量级的存在。那像比如说很写实的、跟我们生活息息相关的,比如这个模型它一定对应一个真实物体的比如桌子、椅子、沙发、车,它都是有一个真实的产品存在的。那现在互联网上还有很多 3D 的数据模型,大家可以接触到下载的,但更多可能会服务于游戏相关的一些。

那比如说传统的普罗大众,我将来想要搜索某一种产品,搜索出来就直接得到这个结果,我搜索一个机船,它是一个什么样的,包括盾构机,能不能给我这样的一个答案,而并不是像现在的文字、图片、视频来呈现出来。所以我们认为商业模式是一个很好的校正器,倒过来就是说从我们的用户以及普罗大众的用户的需求,它会很好地校正数据趋向。我要什么,那我就去找什么,那什么地方能有,才会到了我们现在讨论的大模型,”有“再往前就是它是怎么出来的,它可以很好地辅助大家在高效的过程中。

就像淘宝,我相信淘宝带动了一个逻辑,就是说大量图片的生成,很多的产品突然间在很短的比如十年的时间,这个量级可以覆盖到之前的几十年的一个量级,因为各种各样的产品都在拍照,甚至一个杯子它都拥有一些海报、写真等等各个角度。那如果说未来的这种真正会说从技术演进到一个大规模使用的话,我认为说最根源的一块,至少说在 3D 数据流这一块,可以被大家所接触到,这个是我们的坚持的一个方向。

再然后就是说什么样的方式大家会形成高频使用?真的比如说 Vision Pro 已经到达 100 克了,这么小的一个重量,这么方便的一个体积,那我们的需求是什么?这些需求的底层的我们说的逻辑又在哪里?所以我们也从一些出发点、做了一些阐释。

比如我们希望说企业未来的官网是三维立体的,这个是我们的第一个认知。然后我们也在做这样的一个方式,我们现在做到了可以让每个企业 10 分钟就创建一个三维立体的空间,并且把它的产品 3D 数据优化上传,它就可以得到使用 Vision Pro 去交互的东西,那这个产品很快也会跟大家去接触。

还有一个思考,如果说 ToC 一个逻辑,就是我们带上Vision Pro,那么腾讯的微信将来的产品显示是什么样子的?总不能说在当下的形态说,OK,我给 Richer 发一条微信,Richer说你等会我戴一下我的Vision Pro给你发一条信息,这种逻辑不存在。一定是戴得住,我们一开始就戴住了微信Pro,然后我们接触信息处理工作等等,是会比较很 nice 的一件事情。

所以这里面有一个先决的逻辑,就是我们产品也好,软件也好、硬件也好,他都需要给用户的一个理由,就是我为什么每天要跟这个产品接触长达 6 个小时甚至 8 个小时以上的时间,无论我们在工作、生活、娱乐。所以我们就希望说有一套逻辑,就是说当然这里面还有一个很深的东西,就是我们其实现在只有两套交互方式, PC 就是双手放在桌上敲打键盘,那么手机就是单手握持手机,这两套交互方式统领了目前所有的交互流。那另外一种电刺激的遥控方式,我们认为是伪命题。

还有一个观点就是我很认可苹果的一个套逻辑,它是先把游戏放在后面,原因是全球玩游戏的人,我们大概可以笼统一点说就 5000 万人,像索尼的 SPS 或者说 Switch 等等。那么如果说把这种设备定义成为是游戏设备,我们一进入到淘宝或者说京东的产品详情,看到这个设备的介绍,它就是一台游戏机,看大屏和很好玩的游戏,常规的我们现在社会上能挣钱的主力军,大家其实是不会买游戏机的,或者说没那么多时间,因为还要养家糊口,还要创业等等。

所以我们认为说它更应该是解决一些企业上的逻辑,工作、学习、生活这种逻辑。然后游戏应该是最后的吞金兽。比如我们每天使用这种设备六个小时,里面 70% 的时间已经在解决我们的学习、工作来生活,然后后面我们再分出 20% 的时间去进入娱乐游戏,那个时候是一个很 nice 的一块。

VAST Simon

之前大家讨论到 3D 的制作是比较重要的点。无论是游戏性内容(gaming content),还是未来XR平台上的空间内容(spatial content),或者是整体互动内容(Interactive content)的爆发,以及传统的CG、广告、动画等等都会涉及到3D美术资产的生产,都会面临创作成本高,创作周期长,创作门槛高的问题。

我们认为3D内容的爆发离不开一个交互式内容的创作和分发平台的诞生,同时需要让用户去创作丰富品类的 3D UGC内容。因此,无论是静态的美术资产,还是动态的骨骼绑定,蒙皮,动作的生成,以及物理、特效等问题,都需要被降低门槛以傻瓜化的方式去实现,而不可能通过传统的3D制作专业管线去实现。那怎么样才能够去降低创作的门槛和成本,让每个人都可以成为超级创作者?我们认为很重要的一个方向就是利用 AIGC 的能力让用户可以通过输入文字、图片、视频,去生成 3D 的静态资产,然后再通过骨骼的自动绑定,蒙皮,动作生成去实现让资产变得可交互。未来任何创作者可以直接通过多模态的方式去创作完整的 3D 内容。

我们之前花了几个月时间做出来过一个 3D 的内容平台,类似于 3D 时代的TikTok,有上千名创作者创作各种各样的 3D 内容。但我们观察到大部分创作者的创作流程非常复杂且专业,导致创作的成本很高,这也是为什么我们公司致力于去降低用户创作的门槛,这样才有机会涌现出更多的3D内容创作者。

刚刚讲到,不管是CG,还是广告,或者动画也好,这些传统公司也需要这样的3D生成能力,包括我们和比如说字节、腾讯、索尼、微软等一些大厂合作,也是希望能够去降低这些现有的传统管线的生产成本和周期。当然他们可能也在开发类似的 UGC 内容平台,AIGC 给予他们的用户一个更便捷、更便宜、更高效的 UGC 创作方式。3D生成可能是未来创作者不可或缺的一个大众级的内容创作工具,类似于视频时代的手机摄像头。