推出 AI 耳机,字节真正的野心是什么?

报道 16小时前

本文经授权转载自微信公众号 极客公园(ID:geekpark)

作者 | 连冉

编辑 | 靖宇

推出 AI 耳机,字节真正的野心是什么?

10 月 10 日上午,字节跳动豆包发布了一款硬件产品——AI 智能体耳机 Ola Friend。该产品是一款开放式耳机,单耳 6.6 克同类最轻,可接入豆包大模型,并与豆包 App 深度结合,售价 1199 元。

用户戴上耳机后,无需打开手机,只需喊出关键词「豆包豆包」,便能唤起豆包进行对话,后者能够在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助。

今年以来,大模型应用落地加速的同时,AI 手机、AI 耳机、AI 眼镜等 AI 硬件新品纷纷涌现,究竟谁能成为 AI 时代,用户与人工智能交互的第一个入口?

Ola Friend 并不是字节推出的第一款硬件产品,但此前包括大力台灯以及收购 PICO 后的探索并未出现明朗结果,这次会有所不同吗?

目前可以看到的是,相比之前更为激进的策略,Ola Friend 这款 AI 耳机的定位回归到基础阶段,在功能上远低于大家想象,但这似乎反而体现了字节思考得很清楚——今天在想象 AI 硬件的时候,不应该太过于乐观,而是应该更务实地来想这件事。

在 Ola Friend 发布当晚,极客公园「今夜科技谈」直播间邀请了极客公园创始人 & 总裁张鹏,和灵宇宙创始人顾嘉唯一起聊了聊,这款这款 AI 耳机对于字节跳动的意义、以及 AI 硬件产品真正的机会到底在哪里。

以下是直播沉淀文字,由极客公园整理。

字节推 Ola Friend:只迈出了 0.1 步?

张鹏:你怎么看字节今天推出的 Ola Friend 耳机?它在预期之中吗?

顾嘉唯:这款产品的定义方向是正确的,不过它目前只迈出了 0.1 步,还需要进一步迭代。

从 Google Glass 到今天的 Ray-Ban Meta,这些终端的探索,实际上是所有科技公司梦寐以求的大目标——打造类似电影《Her》的 Personal AI。

过去 20 年间,争夺入口始终是商业竞争中的巨大挑战,尤其是在交互层面上。字节推出 Ola Friend,是一次不错的尝试——先把用户在手机里用「豆包」APP 调到耳机里,离人更近。

值得一提的是,Ola Friend 谨慎控制了预期,没有盲目扩展功能。做硬件产品,很重要的一个能力就在于不断做减法、做收敛。

张鹏所以你认为 Ola Friend 没有发散功能、控制用户的预期是对的。

顾嘉唯:产品的外观设计方面,很多人认为它跟上一代区别不大,甚至在质疑为何使用传统的 TWS 耳机来冒充 AI 硬件。

推出 AI 耳机,字节真正的野心是什么?
Ola Friend 目前四种配色|图片来源:Ola Friend

事实上,字节是在通过这种方式管理用户预期,让用户先认为它只是一个普通耳机,然后当它在软件端的 AI 能力展现出来时,用户就会感受到超出预期的体验。这样做的目的也是为了让「豆包」更容易触达用户,降低用户使用「豆包」的门槛、减少进入层级,以提高活跃率为小目标的。

在我的使用体验中,豆包在电脑端的功能表现还是很出色的,无论是插件、划词、截屏等功能,响应迅速、便捷高效,很好地提升了工作效率。但是在移动端的表现就不太尽如人意了。这背后有很多原因,其中之一在于入口之争的难度所在。

虽然豆包不具备像 Google Assistant 那样的系统层能力,但在应用层面,它本质上构建的是一个 AI friend 的角色,来提供情感交互

使用「豆包」比较多的话,会发现上面有许多 agent,这些 agent 不仅在文本转语音(TTS)的音色上表现出色,还能通过情感表达让人产生共鸣。这种情感交互的体验,也正是过去半年 GPT 技术不断发展的成果之一,尤其是通过互联网文本到视频数据训练涌现出的结果。

如果你使用过 Ola friend 这款产品,就会体验到一种「aha moment」,就是那种强烈的陪伴感,就像身边有人在跟你低语交流。这种陪伴感正是吸引用户的重要特质之一。

张鹏:所以它本质上很多交互其实超越了手机的形态。

顾嘉唯:对,只是说它今天还没有做到环境感知、主动理解。

张鹏:做到的话,那就真的是有点往 her 走了。

顾嘉唯:现在它至少已经实现了「即唤即用」(Instant On)的功能。虽然还没有到「始终在线」(Always On)的程度,但当用户需要时,它的唤醒方式非常便捷——无论是通过轻触,还是使用唤醒词,用户都可以很轻松地启动设备。耳机本来就是手机搭配非常自然的延伸设备了,做到比手机更随时随地更 on demand 的选择,这是一个最安全低摩擦的一个品类选择。

接下来,我觉得应该再往前一步,把环境感知和主动交互加入进来,这样才能真正与手机的使用区分开来。我们灵宇宙认为下一代 AI 硬件形态可能是各种形式,但有一点是重要的:可以更多更长时地感知用户周围的环境空间信息,进一步作为输入,从被动地需要用户唤起转变到可以主动感知并且支持用户。同时做了 CoT 的算法设计,去更深层次理解人的意图,把被动唤醒变成主动理解人意图、能察言观色、有眼睛见儿的深度交互。

和以往交互模式有什么不同呢?我自始至终一直在做「交互」这件事情,在微软研究院的时候从事的行业就是人机交互,大家一直谈论 GUI、TUI、LUI、以及我们主动交互的 NUI,核心都是在于回归以「人」为中心的交互。这也就是为什么我认为今天 Ola friend 只迈出了 0.1,而后面的 0.9 还会有极大的变化,我正带着团队锁定 NUI 的下个代际跃迁。

探寻 NUI 的同时,在 Personal AI 和 Ambient AI 领域中探索 AI 产品在空间交互技术栈和数据获取的潜力。目标是构建一个可随身携带、交互式的 AI 产品,无论是任务型、服务型,还是情感陪伴型,都是探索的方向。

给 AI 加了个硬件?

张鹏:字节推 AI 耳机,某种程度上是不是可以理解为,有价值的是 AI,给 AI 加了个硬件?

顾嘉唯:手机是最大消费硬件,短期内难脱离「以手机为中心」环境,你可以理解豆包耳机所有的价值功能几乎都来自于手机上的豆包 APP。AI 给手机带来的不只是功能叠加,而是重新定义运行方式和交互模式。

在场景中用更好软件体验升级可称「加 AI」,如手机上各类被 AI 赋能升级的应用及功能集成的手机 OS 正被大模型以 SDK 化改造升级,这是商业化落地有效路径。以 AI 为中心重构手机日常使用方式,包括交互流程等;系统级 AI 助手包括意图理解与指令执行。

大模型以 Agent 形式重构用户与手机交互,包括新 AI 硬件变化,人们也在找「AI 原生」场景及解决方案,有 AI 后这些场景能打通。

不过,定义这两类产品时思考方式不同。若产品基本能力已占据高频场景,就有机会通过 AI 替代、提效或替代非 AI 完成的功能,这种机会确实存在。

我们今天聊的主要是能成为 AI 交互入口类型的产品对吧。对于「加 AI」,在智能音箱出来之前,我们曾经在 2015 年前后定义了一类家庭管家助理类的产品叫 Jibo,是基于 rule-based 写的脚本,我们增加了多模态,增加了视觉,他能够看得见,所以他有机会环境感知;而对于 AI 原生,我在过去的非常多产品尝试,例如 Luka 卢卡出现之前家长给孩子读绘本只能自己读,学习机品类还是一块屏没有摄像头扫题指读,基于 Luka 卢卡把桌面上的交互场景变成一个可交互的多感官空间。我过去的很多产品,尤其是在软件端,都是基于这样的思考进行的。

很多创业者在上一个周期前仆后继地进入这个领域,现在大概率也逃不出这个循环。从这个角度来看,有一类我定义成「容器属型」的产品可能并不是完全的 AI 原生,而是上一个周期的产品基础上「换 AI」,例如从 rule-based 换成了 LLM Agent,场景交互真实升级后,催生了原本需求的激活,带来了更高的市场天花板。这个逻辑套到现在我们陆续看到的成功的 AI 硬件产品上都是适用的。

张鹏:总体来看,目前还没有那种能够稳定成长的目标级产品。不管是 TPF(技术可行性)还是 PMF(产品市场契合),都没有真正实现。不过随着时间的推移,我相信我们越来越有机会找到结合 TPF 和 PMF 的AI硬件。

字节跳动今天推出了一款在功能上远低于大家想象的AI耳机,但反而体现了字节思考得很清楚,今天在想象 AI 硬件的时候,还是不应该太过于乐观,还是应该更务实地来想这件事。

顾嘉唯:我认为在未来一到三年,甚至三到五年内,AI 硬件创业者拥有巨大的机会,前途无量。这些机会源于底层技术能力的进步在今天真正实现了有价值的落地。

张鹏:未来我们需要思考的是,AI native 的硬件是否能真正发挥作用,关键在于与用户的互动时长吗?如果这些产品只是短暂使用,是否意味着它们仅解决特定问题,从而变成一种目的性的硬件,也就变成了硬件+AI。

而真正抓住未来机会的关键,可能还是在于如何深入融入用户生活,延长使用时长,不断为他们提供个性化、持续的价值体验

离个人助理还有多远?

推出 AI 耳机,字节真正的野心是什么?
Ola Friend 可以当作「随身百事通」使用|图片来源:Ola Friend

张鹏:从情绪价值这个层面去切,我其实也非常认同,因为我觉得在过去一段时间里,整个大模型领域印证了一点,大模型能够确定交付的一个价值就是情绪价值。

那继续往下走,是不是就是要在系统侧做一个 assistant?也就是从目前的情感搭子逐渐转变为一个更加实用有效的助理。你觉得这种发展路径存在吗?

顾嘉唯:豆包其实已经在电脑端上无论是浏览器还是屏幕权限都拿捏得很好,不断提升使用率和触发率的各种场景,但在手机上实现这一点就很难。人们可能更倾向于从手机的复杂环境中提取出一个能够更高频使用助理和情感互动功能的场景。通过推出这款耳机,字节至少找到了一条可能的路径。

很多人期待这款耳机能够具备的一些功能,事实上并没有,比如说讯飞耳机已经支持的电话录音和语音摘要这些功能,但这款豆包耳机却并没有具备,这其实就是产品在做「减法」的结果。

Ola Friend 现在更专注于在某些垂直场景中打磨出色的用户体验。比如英语口语陪练、汽水音乐与字节私有音乐生态结合等主打场景,都是适合大模型现阶段「笨任务」相对稳定可靠的技术低垂果实,应先将一两个核心功能做到 80-90 分,而非在多个功能上平均用力致每个仅 50-60 分。在 AI 创新产品开发 PMF 多年,吃过最多的亏就是以前总习惯于去挑「聪明任务」去做,前沿技术「不稳定」致创新体验不足以支撑替换成本的情况很多。

这是对于定义 AI 硬件,或者任何以软件驱动为核心的消费级硬件来说,非常重要的策略。

再回到个人助理的这一点,目前距离要做出一个真正意义上的个人助理还相当遥远。要知道现在在豆包里想要打电话都还不行。这不光是涉及技术本身的进程,还包括商业生态的打通。

在新兴的技术入口之争中,首先入局的往往是手机厂商,紧随其后的是像微信这样的超级应用。也就是说,一旦 AI Agent 助理技术发展到一个高度成熟的 PMF 阶段,手机厂商和这些超级应用巨头都会迅速涌入,字节推出 Ola Friend,算是抢跑了一步。不过若是各家手机厂商的 TWS 耳机都联调适配好了自家 AI-OS 以后,届时豆包 inside 生存空间会是什么样呢?

真正的目标:掌握交互入口

张鹏:我在想,对于字节跳动这样的公司来说,这款耳机是否能够赚钱,或者能赚多少钱,并不是他们最关心的问题。它更像是豆包的一个辅助工具,这样理解对不对?

顾嘉唯:如果我们猜测张一鸣特别想要全面投入 AI 这个入口,那么他可能不会把硬件作为商业模式,因为无论是 PICO 还是大力台灯,字节已经走过一遍路径了。

除了耳机,眼镜、项链这些形式都是有机会的,只要能离人的五官,也就是离人类天生的传感器更近,比人看得更清楚,听得更清晰,拥有第二大脑,无缝地提供 AI Agent 服务,就有机会成为下一个 AI 入口。这种交互方式实际上更有可能实现从即时启动(instant on)到始终开启(always on)的转变。交互方式创新了,就会产生新场景。

可能字节真正的目标还是想要掌握超级应用的入口。如果把交互入口作为第一性原理来看,那么肯定要通往 her,要做一个高度个性化的 AI 助手,这也是所有科技大佬的梦想。

张鹏: 那基本可以预料未来 AI 耳机这个品类一定会有更多的品牌进来做。核心问题在于,AI 耳机的竞争力到底是体现在其 AI 技术上,还是耳机的硬件质量上?另外,AI 耳机真的是一个值得投入资源去竞争的赛道吗?

顾嘉唯:我非常相信 Mark Weiser 对人机交互的未来发展路径规划——ubiquitous computing 隐形计算。手机之后,更轻、更小、更随身的个人穿戴终端将成为 Personal AI核心价值的延伸。在这一过程中,耳机、眼镜、项链等产品形态是创业者需探索的方向,关键在于后端交互体验的承载,是各家需深耕之处,也是资本市场有较高期待的领域。

我们来看当下人交互的主流媒介还是「接触式」的,例如手机、电脑,体验最好的交互方式还是手机;而「非接触式」的,例如体感游戏机、智能音箱、智能家居等通过手势、语音、声控;可穿戴设备介于这两者之间,属于「嵌入式」,这里面的产品形态和匹配的交互方式还有很大的创新空间。

张鹏:那回到 AI 耳机,它的长期竞争力是不是更多地依赖于其软件和 AI 能力,而不是硬件本身?

顾嘉唯:对。

张鹏:AI眼镜会是更好的选择吗?字节这次推出了 AI 耳机而不是 AI 眼镜这件事,你是怎么看的?

顾嘉唯:字节肯定是有在做AI眼镜的,无论是头盔式 VR,还是其他轻量型设备,例如 BB 和光波导等光机画幅技术实现透视效果的设备,字节都有在积极探索和做迭代。

对于像字节这样的互联网大厂来说,选择做硬件不仅是基于情怀,更是对构建入口的持续追求,探索和试错都是必经之路。

尽管目前还没看到字节发布类似 Ray-Ban Meta 这样的硬件产品,但可以预见,他们必然会沿着这条路径寻找机会并逐步推出相关设备。

在今天,探讨耳机与摄像头结合的必要性很明显。提升 AI Agent 助理功能,从 instant on 到 always on,成为更好的独立 AI 硬件或手机辅助配件以支持更多交互和 AI 功能,一定要轻薄便携,不应笨重,更不应去跟日渐普及的手机折叠屏 PK 显示效率。

张鹏:不要低估字节在布局硬件上的资金、动力以及决心。不过就眼镜来说,如果想让智能眼镜成为取代下一代手机的终端,在今天是非常困难的,很难实现。但如果目标不是从手机屏幕上争夺用户的使用时间或屏幕使用量,那可能就会是另一个讨论方向?

顾嘉唯:从长期来看,比如五年、十年,甚至更长的时间周期内,有可能会出现一种替代手机,成为新的交互中心的可穿戴设备。

这种设备应该具备显示功能、支持多模态交互,能够感知环境,还能够进行成像和有良好的画幅显示表现。

张鹏:重要的是至少五年,不要想明年。不过光机方面最近还是会有一些进展。

AI硬件的真正机会在哪里?

张鹏:怎么理解在眼镜上面加摄像头这件事它真正的意义?

顾嘉唯:空间智能和空间交互是技术演进中一个非常好的载体。它的第一步是看今天的大模型能否从文本能力涌现出更多的认知,进而朝着 CoT(Chain of Thought,思维链)和推理能力的方向发展,然后引入更多的空间认知。

推出 AI 耳机,字节真正的野心是什么?
百度 2014 年推出了 BaiduEye,一款穿戴式产品原型|图片来源:百度

之前我在百度选择开发 BaiduEye 与 Meta 现在选择推出 Ray-Ban Meta 是出于相同的目标。BaiduEye 欲成为人类的「第二个大脑,第三只眼睛」,打通物理世界空间交互数据集以索引真实世界,其产品原型受以色列 AI 视觉公司 OrCam 的 MyEye 启发,其创始人 Ziv 也是 Mobileye 创始人,了解自动驾驶历史的朋友一定不陌生。推动此目标过程中,已见大模型在前端意图理解和后端自动化执行有显著突破,中间缺失数据源可由 AI 眼镜这类载体补充以完成空间智能构建。

张鹏:摄像头其实能起到第一人称视角的数据源的输入。

顾嘉唯:关系算法和空间交互是通向 Personal AI的必经之路,通过这条路的核心是数据集。

今天占据「空间交互」数据闭环是竞争关键。未来做具身智能或通用人形机器人,所需数据源既要像第三视角,如游戏过肩视角,观察人在真实场景互动,包括人与人、人与物、人与空间交互;又要以人本身视角完成第一视角操作。

从数据源的价值角度来看,大家在未来的发展路径应是相似的,关键在于谁的数据构建速度更快,但这波核心在于感知。感知指什么?AI 硬件叠加多模态能力后搜集大量多模态数据,此多模态非原有文字或屏幕二维维度所具备,先有感知再有交互升维是 AI 迭代重要条件。当前具身领域正在经历硬件的迭代,但最终硬件能力可能会相差无几,核心在于感知交互及由此带来的能力差异。灵宇宙针对随身 AI 场景积累大量感知的空间交互数据,使 AI 交互进化出不同体验。

张鹏:这一切的核心在于,如果未来我们想要基于AI为用户交付价值,就需要给 AI 提供更丰富的信息输入,而不仅仅依赖用户的指令。只有这样,AI 才能更默契地与用户互动,通过更简单的交互提供更大的个性化价值。如果一切都依赖于用户来提供信息,那用户会非常疲惫。

从手机中抽取时间,本质就是要为用户提供超越以往的价值。这意味着要在一些手机无法实现的场景中,提供更好的体验。虽然手机积累了大量数据,但仍然是有限的。所以需要在数据维度上做得更加丰富,才能真正交付出AI的个性化价值。这可能就是我们今天所说的 AI 硬件的真正机会。

顾嘉唯:今天屏幕上,多模态任务操作简洁直白,为流式交互路径,可同时多模态、多任务并行操作。但耳机和语音场景只有线性操作,任务高效性不足,那怎么改变?需让 AI 先完成主动处理部分,即我们灵宇宙要做的 Proactive Intention 主动意图交互。

原来所有功能靠调 API 操作,如今大模型能中控调度持续获取服务和调用信息,跳过 GUI 应用层写脚本,模型更小、执行效率更高,推动了 agent 发展,能更灵活产生价值。

张鹏:交互这件事儿,过去是人机交互,是人在将就机器,因为机器不懂人的东西,我们就是哄着人们说你用这种方式让机器理解你的意图。但未来终于到了,机器应该主动去理解人的这个阶段。

顾嘉唯:传统人机交互模式是基于信息流和服务流的推送,这是早期互联网和移动互联网发展阶段的典型特征,人们更多是通过学习如何与机器互动,来获取信息或服务。

现在,随着 AI 技术的驱动,交互模式正在发生根本性变化。未来的交互将不再是单纯的人与机器的交互,而是基于「思维链」来重塑 AI,基于”关系链”来塑造内容。这意味着,未来的 AI 交互将会更注重人际关系和社交属性及人与环境空间关系,而非仅依赖机器功能服务。

随着这种转变,传统人机交互可能会逐渐消失,取而代之的是人与「类人」智能体的交互。这种交互方式不再是简单命令执行,而是更接近于人际关系中的互动——包含情感陪伴、任务完成、结果交付等方面的社会化属性。未来的 Agent 智能体将会模拟人的行为和情感,与人类建立更加紧密的关系,成为一种社会化的存在。届时,或许由计算机、电子工程自动化等构建起来的人机交互也就消亡了,取而代之的是政治、法律、社会学等构建的人「人」交互。

创业者要避开哪些坑?

张鹏:上一波的AI硬件,其实没有特别成功的东西出来,这一波 AI 加到硬件上,可能会面临什么坑?

顾嘉唯:今天占据空间交互,数据闭环是竞争关键。从数据源价值看,未来发展路径相似,关键是谁的数据构建速度更快。这波 AI 硬件公司最大的坑可能是忽视这一点,或没有能力做到这点——谁都知道数据价值,但就是「启动无数据优势,过程无价值数据」。

目前市场上的许多智能硬件产品实际上无法真正被称为「智能」。这是因为人们往往对其「智能」功能寄予厚望,期待它们能带来颠覆性的用户体验,但在实际交付时往往远低于这些预期,导致许多用户失望。

例如今天的语音交互产品中,用户「可感知」的智能之一就是「Barge-in 随时打断」,NUI 自然对话智能里最大的摩擦是用户已经开口说了,机器 AI 还没反应过来还在那自说自话的违和感,然后机器 AI 说话时出现冲突,要不抢话,要不跟不上节奏,就显得很弱智,不像跟身边的人讲话那么自然流畅。其实,只要用户必须迁就机器,就不是一个好的的人机交互。

过往我们迭代语音产品时,就是典型的需要攻克的一个技术项「全双工打断」。通过 VAD 语音活动检测,结合通道降噪,以及音视频各通道的信息理解做融合策略和对话控制管理。

相比于原来智能音箱类场景,其实这个技术难点在耳机场景已经好解决很多,因为耳机贴近人的感官耳朵和嘴巴,语音采集的信号更清晰,话音起止更易判别,麦克风阵列与用户出声位置距离相对固定,又避免了环境噪音和语音衰减等影响。

目前已知的无论是 GPT-4o 还是豆包,全双工打断体验都不佳,主要还是误打断居多。原本的 ASR 语音识别 – NLP 语义理解 – TTS 语音合成多阶段的做法,迟早会被「端到端」取代掉,Transformer 架构能够并行处理句子中的各个部分,大大提高语义理解的效率,LLM Agent 智能体也应该充分利用之前对话的上下文信息,通过构建对话历史的知识图谱或记忆网络,在理解用户打断意图时参考之前的话题信息等。总之,用 LLM 大模型来实现「流式交互」是这一轮语音类产品的共同目标。

另一个大坑,就是基础硬件的「基本功」没做到位。

我们来区分下是用蓝牙或者内建网络协议等仍旧以手机为中心的「周边硬件」,还是独立计算能力不依赖手机以自己为中心的「独立硬件」,今天我们谈论的豆包 AI 耳机属于前者,智能音箱属于后者。

今天我们用大模型创造「独立 AI 硬件」的话,除非智能算力能完全跑到本地,不然首先得要做好联网基本功,AI 硬件在这个时间点首先需要把硬件基本功给做好,你以为我们要讨论的都是高大上的 AI,实际上消费者往往还卡在「上一步」呢。AI 硬件在用户实际使用中的场景往往非常极端。如何在这些极端情况下优化 AI 的容错性,是 AI 硬件开发中的另一个关键环节。

特别是在我们讨论的下一代的个人穿戴设备作为 AI 入口,通常没有屏幕或小屏幕的终端上,联网功能的实现变得尤为复杂,尤其是当产品需要通过 Wi-Fi 连接时,用户在每个步骤的错误操作反馈都可能影响整体体验。解决这些问题需要在硬件配置和成本之间做出取舍,并且需要企业在开发过程中积累大量的经验教训。

开发过程始终面临一个关键的权衡点——如何在成本和性能之间找到平衡。而且,硬件即便价格便宜,仍然需要物流和一系列的交付流程,这对用户来说也构成了一定的心智门槛。要跨越这个门槛,对于那些没有积累的新公司来说,定义和推出一款新的产品,确实是极具挑战的。开发过程面临成本与性能的权衡点。硬件即便便宜,物流及交付流程对用户有心智门槛。对无积累的新公司,定义和推出新产品极具挑战。

硬件产品的首次交付质量直接决定了未来市场表现和用户预期的管理。若首次交付时表现不佳,即使后续进行多次迭代,可能也难以彻底挽回用户对产品的信任。但如果首次交付能达到至少 70 分,企业就有机会通过后续改进来提升用户体验。

硬件产品由于其高成本和生产周期的限制,容错率极低。硬件的几次错误决策就可能导致整个产品的失败,甚至需要重新考虑是否将产品推向市场。

张鹏:做硬件产品相对软件可能难了不止十倍,那涉及到AI硬件,可能里面又有一堆新问题。那这次灵宇宙的思路是怎么样的?跟你之前在做的事儿有什么区别?

推出 AI 耳机,字节真正的野心是什么?
最右为顾嘉唯此前推出的社交机器人 Jibo 和绘本阅读机器人 Luka|图片来源:灵宇宙

顾嘉唯:我一直在坚持的一个梦想,交互类的机器人。其实,机器人的核心构件无外乎三种:物理层面的移动(依赖轮或足)、任务的操作执行(依赖手臂和身体)、以及意图理解后的交互(头和脑)。最终,这些都归结到交互本身——让一个设备有一个界面,有一个「脸」来与你互动,本质上就是交互的核心所在。

这个路径上关键在于找到一个有效的数据积累方式。

张鹏:创业者应该选择什么领域?

顾嘉唯:今天占据空间交互这一层的数据闭环是竞争的关键,数据构建速度是影响未来空间智能、AI 陪伴软硬件等诸多领域的最关键的因素。创业公司的核心竞争力、护城河都取决于此。

灵宇宙是基于大模型对意图理解的升维,通过传感器收集 life streaming data 全天候场景数据,实现空间交互,重新定义「万物有灵」,构建机器人的灵魂,在 Personal AI 和 Ambient AI 结合的领域,通过软件定义硬件,探索 AI 产品的发展潜力。关系算法和空间交互,也是我认为通往 Persona AI 必经的路径。

要实现这一点,核心问题就是数据集的构建。通过垂直人群收集空间交互的数据,就像特斯拉通过大量司机真实驾驶数据构建 FSD(完全自动驾驶)系统一样。特斯拉的优势在于不依赖高精度地图,而我们灵宇宙则试图通过相似的路径,为 Personal AI 构建闭环数据集,尤其针对那些最原生的 AI 交互智能终端使用者。

从策略上来说,如果我还在大厂里,可能会选择眼镜或耳机这样的超级品类较量,但作为创业者,我的选择会更加谨慎,一些看似边缘甚至鸡肋的领域,恰恰有足够的市场空间,能够保障初创公司真正做到位。越细分的市场,越能解决明确的特定价值,越容易取得成功。

现在市面上大多数通用人形机器人公司还在努力挣扎于 TPF 阶段,都没有真正迎来的 PMF 时刻,但创业那么多年的经验告诉我,一旦跨越 PMF 只要是生意必然会面临复杂竞争格局中如何定位找到自己的 7 Powers 实现可持续发展。

我之前一直在做连接内容和交互的产品,创业选择做内容型产品的好处其实是,不太会像那些纯工具类的产品大多会被巨头清出局。像监控摄像头、智能音箱这类产品,就容易在大公司的平台生态中被卷得无路可走。但如果产品有足够深的内容厚度,它就能在一定程度上界定它的受众范围,创造出属于自己的生存空间。所以对于创业公司来说,选择这些赛道反而更有优势,因为它不会被轻易取代。

在大模型出现之前,我们谈交互和内容的关系时,总觉得交互是辅助的,想靠它来提升内容的体验,真的挺难的。虽然我们有技术优势,能创造更好的交互方式,但因为内容生产投入占的比重大,交互撬动的效果并不好。

不过,现在情况不一样了。大语言模型及相关技术带来的 AIGC 技术进步其实在悄悄改变着交互和内容的平衡,让我们这些深耕交互技术的公司看到了新的机会。

我们坚持「先数据后 AI」的原则,结合我们 Luka 卢卡品牌过往近千万台产品在市场上已经收集了百亿参数用户交互行为数据,为后续的模型优化打下了坚实的基础。

张鹏:今天 AI 硬件要去往前走,即使只是在一个相对边缘的场景中,但如果真的交付了足够的价值,即使不是行业的「白马骑士」,至少是为用户解决问题的存在,而且解决的问题比过去的方式更好了,只要能够在这些细微的场景中创造价值,创业团队就可以沿着这条路径往前走。

那未来在像耳机、眼镜这种显然可能会成为某种交互入口的领域,会不会有新的补贴大战?

顾嘉唯除非未来出现像当年智能音箱那样的激烈竞争,并且所有大厂都把它视为「明牌」,否则很难看到再次出现大规模的补贴大战。

当时智能音箱至少被认为是明显的「明牌」。但如今硬件产品并没有出现同样的「明牌」路径,市场更多样化了。

另外,补贴的本质是互联网流量变现的方式。现在的大型模型则采用不同的商业模式,更加注重成本控制。在这种情况下,单纯依靠补贴很难产生根基效应的复利。

回头来看,怎么定义创业公司创造出独有的稀缺性能力?我认为关键在于找到一个有效的数据积累方式,这些数据源其实就是我们灵宇宙今天在核心投入的地方,希望能够通过空间交互来完成更多样的交互视角的数据闭环,然后来构建一条类似于通往 Robotaxi 路径过程早期特斯拉 FSD 的「南坡」路径。同时明确所擅长的、能够深入理解并持续钻研的垂直人群的需求,才能来构建一款以人为核心 AI 产品的核心轴线。

今天空间交互的数据闭环建设,尤其是高速建设是竞争的关键。只有行业竞争到了这一层面的阶段,才有可能还会出现补贴大战。