苹果专利为AR/VR演唱会提出传送多摄像头交互式内容的解决方案

作者 | 映维Nweon2022-03-29

随着AR/VR的兴起，人们畅想的一个用例是足不出户就能身临其境地参加各种活动，比如说音乐会。对于所述情景，可以在音乐会现场使用多台摄像设备来录制内容并生成XR环境。以这种方式，即便没有亲自出席，AR/VR用户都可以通过相关体验来获得一种身临其境的感觉。但由于网络和处理能力等多方面的限制，如何有效交付多摄像头内容成为了厂商需要解决的一个问题。

在名为“Efficient delivery of multi-camera interactive content”的专利申请中，苹果就介绍了一种用于更有效传送多摄像头交互式内容的方法和系统。

在各种实施例中，在物理环境中捕获内容的录制设备可以确定其在物理环境中的位置，并在可用于流式传输录制内容的清单中对其位置进行编码。然后，基于录制内容呈现XR环境的设备可以使用编码位置来确定是否基于用户在XR环境中查看内容的位置来流式传输录制内容。

以音乐会作为示例，如果用户尝试在XR环境中的音乐会舞台附近位置查看内容，则呈现设备可以下载于音乐会舞台附近录制的内容，因为所述内容可能与用户的当前视场相关。作为对比，在远离音乐会舞台位置所录制的内容可能与用户的当前视场无关，所以呈现设备可以基于所述内容的编码位置来确定不下载内容。

在一个实施例中，录制设备同时可以在录制内容时确定其姿势，并在清单中对姿势进行编码，以便呈现设备可以确定录制设备在物理环境中的方向，以便确定其是否与用户的视场相关。例如，当录制设备的姿势指向舞台时，若用户选择的位置朝向音乐会观众席，则录制内容可能与用户的视场不太相关。

简单来说，苹果构思的方法是：活动现场有多台摄像头录制内容。对于XR头显体验，可以确定用户在XR环境中的位置和方向；接下来，选择与之最为匹配的机位所录制的内容；然后，头显下载并呈现基于所述机位录制内容渲染的沉浸式体验。所以，这种选择性下载和处理机位录制内容，而不是完整下载和处理所有机位录制内容能够有效交付多摄像头交互是内容。

苹果指出，能够根据物理环境中录制设备的编码位置和姿势来快速智能地确定用于显示的录制内容，这可以帮助XR设备大大减少流式传输的内容量，从而节省宝贵的网络带宽。

内容递送系统10

图1示出了内容递送系统10。在所示实施例中，系统10包括多个摄像头110A-C、存储器120和呈现设备130。摄像头110可以包括编码器112。存储器120可以包括清单122A-C和视频片段124A-C。呈现设备130可以包括流式应用132。

摄像头110可以从空间100内的不同位置录制物理环境的内容，例如音乐会场馆。摄像头110可以放置在音乐会场馆不同的位置，以从不同的角度实时捕获流媒体内容。为了便于将物理环境中录制的内容分发到呈现相应XR环境的设备，摄像头110可各自使用相应的编码器112。

编码器112可以包括一个或多个视频和/或音频编解码器，并用于以各种格式和质量级别生成编码内容118。为了便于生成相应的XR环境，编码器112可以确定摄像头110的一个或多个位置114和姿势116，并将所述信息编码到内容118中，以便于流媒体设备选择内容。

在各种实施例中，位置114是摄像头110在物理环境中录制内容时的位置。例如在所示实施例中，可以使用在空间100内定义的笛卡尔坐标X、Y和Z来指定位置114。在各种实施例中，姿势116是摄像头110在物理环境中录制内容时的姿势/方向。

由于给定摄像头110可以随时间改变其位置114或姿势116，摄像头110可以对多个位置114和/或姿势116以及多个参考时间进行编码，以指示摄像头110所在的位置及其在给定时间点的当前姿势。参考时间同时可以基于摄像头110之间共享的公共时间参考，以便能够确定一个编码内容118的录制时间相对于另一个编码内容118的录制时间。

在各种实施例中，存储器120配置为存储从摄像头110A-110C接收的编码内容118A-C，并促进对编码内容118进行流式传输。存储器120可以以清单122和相应视频片段124的形式存储编码内容118。在各种实施例中，清单122包括关于每个视频片段124的元数据，以便接收器可以选择适当的视频片段124。

在各种实施例中，诸如头戴式显示器的呈现设备130配置为向用户呈现基于摄像头110编码内容118相对应的沉浸式环境。

编码内容134的选择200

图2描绘了编码内容134的选择200。在所示示例中，流媒体应用132正在从由摄像头110创建的三组编码内容118中执行选择200。具体而言，由摄像头110A产生的视频片段124A可以描绘第一帧212A中的内容，由摄像头110B产生的视频片段124B可以描绘第二帧212B中的内容，而由摄像头110C产生的视频片段124C可以描绘第三帧212C中的内容。如图所示，选择200可以从流媒体应用132下载清单122并确定位置202和姿势204。

在各种实施例中，位置202是头显设备用户在XR环境中查看内容时的位置。姿势204是用户在XR环境中查看内容时的姿势。

基于位置202和姿势204，流媒体应用132可以读取清单122以识别视频片段124的位置114和姿势116，以确定哪个视频片段124与用户的当前视场相关。

在一个示例中，流媒体应用132可以确定帧212A-C都与用户的当前视场相关。但基于所描绘的位置202和姿势204，流媒体应用132可以确定帧212C位于帧212A或帧212B后面，从而确定下载视频片段124A或124B，而不下载视频片段124C。

当用户的当前位置202和/或姿势204改变时，流媒体应用132可以确定停止流式传输由一个摄像头录制的内容，并转而流式传输由另一个摄像头所录制的内容。例如，如果用户沿着姿势204的路径向前移动到音乐会舞台，这时帧212A和212B将位于用户当前视场的后面，但帧212C依然直接位于视图的前面。所以，流媒体应用132可以开始下载对应于帧212C的视频片段124C，但停止下载分别对应于帧212A和212B的段124A和124B。类似地，如果用户保持在相同的位置202但改变姿势204，这时帧212A-C不再在用户的当前视场中，则流媒体应用132可以停止下载视频片段124A-C。

在一个实施例中，流媒体应用132可以进一步将多个帧212的内容拼接在一起，以便向用户呈现连续视图。如图所示，流应用132可以根据清单122并基于用户的当前视场，确定帧212B可以部分地与帧212A重叠。在帧212A没有完全占据用户的当前视场的情况下，流应用132可以决定依然使用帧212A作为主帧，然后使用帧212B（假设它能够提供一定的缺失内容）作为补丁帧，使得补丁部分214A与主帧212A结合以产生连续视图。然而，帧212B的重叠部分214B可以丢弃。在帧212A和212B没有实时流传输的情况下，流媒体应用132可以读取清单122中包括的参考时间，以便帧212A和212B是在重叠的时间帧期间所创建，亦即可以拼接在一起。

设备130中的组件框图

图4示出了呈现设备130中的组件框图。在所示实施例中，呈现设备130包括一个或多个用户输入设备410、姿势传感器420、包括内容预测器430的流媒体应用132、显示器440、扬声器450。

在各种实施例中，用户输入设备410配置为从用户收集信息，以便确定用户在XR环境中的位置202。例如，当体验开始时，用户的查看位置202最初可以设置为某个默认位置202。然后，用户可能想要改变位置202，并向用户输入设备410提供相应的输入，以使位置202改变。例如，在用户输入设备410包括摇杆的实施例中，用户可以向前推动摇杆，以向前移动查看位置202。

在各种实施例中，姿势传感器420配置为从用户收集信息，以便确定用户在XR环境中的姿势204。姿势传感器420可以包括基于当前头部位置和眼睛位置确定用户姿势204的头部姿势传感器和眼动追踪传感器。在一个实施例中，姿势传感器420可对应于前面讨论的用户输入设备410。例如，用户可以通过向前或向后推动摇杆来调整姿势204。

如上所述，流媒体应用132可以考虑用户的位置202和姿态204来选择用于呈现的编码内容134。在所示的实施例中，流媒体应用132可以通过向存储器120发送请求432以流式传输由摄像头110录制的内容，从而启动其与存储器120的交换并获得所选内容134。响应于请求432，流媒体应用132可以接收一个或多个可用于流式传输由摄像头110录制的内容134的清单122。

基于在清单中标识的摄像头110的位置114和姿势116，流媒体应用132可以向存储器120发送请求434，以提供基于位置202和姿势204所选择的录制内容118的视频片段124。

在一个实施例中，流媒体应用132可以基于预测器430的预测来进一步发送针对视频片段124的请求434。其中，预测器430可以基于未来位置202和204预测可能需要视频片段124。然后，流媒体应用132可以从存储器120接收请求的视频片段124并进行相应的处理，以产生经由显示器440呈现的相应XR视图436和经由扬声器450呈现的相应XR音频438。

在各种实施例中，预测器430追踪位置202和姿势204信息的先前历史，并尝试使用诸如线性回归的机器学习算法来推断未来的位置202和姿势204。在一个实施例中，预测器430的推断可以基于正在流式传输的基础内容的属性。例如，如果用户正在查看内容，并且已知一个项目将出现在可能会引起用户注意的内容中，例如爆炸，这时预测器430可以假设用户可能改变位置202和/或姿势204来查看所述项目，例如爆炸。在其他实施例中，可以使用其他技术来预测未来内容118，以便从存储器120中进行选择。

苹果专利为AR/VR演唱会提出传送多摄像头交互式内容的解决方案

图5A示出了第一计算设备110执行的方法500，第一计算设备可以是摄像头。在步骤505，第一计算设备录制第一计算设备所在的物理环境的内容。在各种实施例中，内容可交付给第二计算设备，所述第二计算设备可以是头戴式摄像头。。

在步骤510，第一计算设备确定第一计算设备在物理环境中的位置（例如位置114）和姿势（例如姿势116）和/或确定第一计算设备录制内容时的参考时间（例如参考时间332）。

在步骤515，第一计算设备对清单中的位置进行编码，清单可用于将第一计算设备录制的内容流式传输到第二计算设备。在各种实施例中，编码位置可由第二计算设备用于确定是否流式传输由第一计算设备录制的内容。在一个实施例中，第一计算设备同时对清单中的姿势进行编码，编码后的姿势可由第二计算设备使用，以确定在呈现相应环境的同时是否基于第二计算设备的姿势来流传输由第一计算设备录制的内容。在一个实施例中，第一计算设备同时对清单中的参考时间进行编码，所述参考时间可由所述第二计算设备使用，以便其将所述第一计算设备录制的内容与所述一个或多个附加计算设备录制的内容拼接在一起，从而呈现相应的沉浸式环境。

相关专利：Apple Patent | Efficient delivery of multi-camera interactive content

名为“Efficient delivery of multi-camera interactive content”的苹果专利申请最初在2021年5月提交，并在日前由美国专利商标局公布。