2025年3月,在东京巨蛋举行的MLB(美国职业棒球大联盟)开幕系列赛,不仅现场气氛热烈,线上直播也同样火爆。其中,直播的精彩回放场景中使用的一项技术,吸引了全球棒球迷的目光。这就是被称为“自由视角影像”的最新影像技术。
这项技术在东京巨蛋已于2023年引进,对日本的粉丝来说已不陌生。其技术开发者正是佳能。我们访问了该公司位于神奈川县川崎市的工作室,并与相关负责人进行了交流。
一、MLB开幕战上令世界惊艳的“自由视角影像”
3月MLB开幕系列赛洛杉矶道奇队对阵芝加哥小熊队的比赛中,大谷翔平选手的本垒打回放使用了自由视角影像。当美国媒体“FOX Sports”在X(推特)上分享这一画面后,立刻在社交媒体上引发热议。通过自由视角影像,从大谷选手的球棒击中球的瞬间开始,摄像机视角从投手后方缓慢移动到大谷选手的侧面,最终切换到从本垒板一侧目送击球的视角。 开幕战中,小熊队对阵巨人队比赛里外野手的精彩防守回放也备受瞩目。回放的自由视角影像从选手后方追随其精彩动作,并捕捉到了直播中未能拍到的选手振臂欢呼的姿势。 实现这一自由视角影像技术的,是一种名为“立体影像技术”(Volumetric Video)的技术。东京巨蛋自2023年起已正式引进佳能制造的立体影像系统,目前被用于读卖巨人队的主场比赛。虽然在日本电视台的直播中已司空见惯,但对美国的观众来说,这似乎显得格外新颖。
二、从125台摄像机捕捉的图像,构建立体影像
立体影像技术,是通过大量的摄像机对一个空间进行拍摄,并从二维的拍摄数据中创造出三维数据的技术。由于其获取的是体积(=volume)信息,因此被称为Volumetric。通过从所有方向进行拍摄,可以将整个空间完整地记录和存储下来。之后,再贴上颜色和纹理并进行渲染处理。对于人物等部分数据,会将其与背景分离后进行处理。
虽然瞬间切换多台摄像机影像的手法早已存在,但立体影像技术是将拍摄的整个空间进行3D数据化,因此可以从任意喜欢的角度再现影像。除了前述的自由视角影像,它还能输出3D模型等成果。 目前,东京巨蛋的上部马道、后挡板下部等位置,共设置了125台4K摄像机。这些摄像机是改造自“EOS C300 Mark II”,能以60fps进行拍摄。该项目于2022年以87台摄像机起步,之后逐年增加。
重要的是,这125台摄像机必须精确同步。通过对摄像机的定制化改造,实现了低于1微秒精度的同步拍摄。对此,佳能影像事业本部IMG第三事业部IMG32事业推进中心所长藤井贤一先生解释说:“同步拍摄是关键点。所有摄像机在低于微秒的精度下同步,实现同时快门。”
三、执着于“3秒”的背后——橄榄球世界杯成为实用化的转折点
佳能将生成立体影像的一系列处理过程,在短短3秒内完成。 这份对“3秒”的执着,是在该技术的开发过程中获得的。回顾历史,佳能于2016年开始研发立体影像技术。“我们过去以静态图像、单反相机为强项,但我们怀着‘今后要向影像,而且是3D影像领域拓展’的想法开始了研发,”藤井先生说。从此,想法逐渐丰满:“我们希望让人们能够以自己喜欢的视角观看影像,包括那些在传统直播中看不到的场景。”
于是,公司集结了内部的摄像机、硬件、图像处理、网络等领域的专家,组建了项目团队。初期聚焦于足球,反复进行实验性拍摄。与藤井先生同属IMG32事业推进中心的部长神谷泰次先生回顾道:“由于无法进行实时处理,我们只能将拍摄的数据带回实验室,花费大量时间将其3D数据化。”
左为佳能影像事业本部IMG第三事业部IMG32事业推进中心所长藤井贤一先生,右为同部门部长神谷泰次先生 图片来源:CIO.com
转折点是2019年的日本橄榄球世界杯。他们在日产体育场设置了125台摄像机,拍摄了包括决赛在内的6场比赛。当时,立体影像的文件是在赛后1小时才能提供,因此很遗憾未能在直播中使用。但是,在线上发布的自由视角影像引起了巨大反响。 如果在直播中能即时播出,或许会更受欢迎——团队的目标是实现广播可用的时间,即“3秒内生成”。为此,他们从算法、硬件、软件等多个方面进行了改进。
“其实,技术上当时已经实现了‘3秒生成’。但是,选择适合制作自由视角影像的有效比赛场景、以及制作出希望观众回看的摄像机角度的影像等环节耗费了时间,所以才会在1小时后提交影像文件。为了达到广播可用的标准,我们必须在维持3秒生成的基础上,实现更高画质、摄像机角度的即时制作,以及与直播工作流的联动。”神谷先生详细解释道。 如此开发出的当前系统,在边缘端进行3D模型的生成,并以3D模型化的影像数据为基础,进行立体影像的生成处理。实现高速处理的关键在于其独有的硬件技术。设置在摄像机附近的硬件会进行预处理,然后再将数据发送至服务器,据说其中也进行了一部分利用AI生成3D模型所需的图像处理。这一点,与在云端用大量服务器进行处理的方法截然不同。 就这样,他们最终实现了能在3秒内生成广播级立体影像。“立体影像技术其他公司也在做,但这一点是我们的强项,”藤井先生自豪地说。
四、从娱乐到技术传承,用途不断扩展,未来目标是“一源多用”
由于在橄榄球世界杯上获得好评,体育领域的应用案例不断涌现,例如NBA在2021-2022和2022-2023赛季都活用了立体影像技术。应用也扩展到了体育之外,比如“能乐”表演(日本的“能乐”(Noh)是一种非常古老的传统戏剧形式,起源于14世纪,至今仍在日本上演。它融合了舞蹈、戏剧、音乐和诗歌等多种艺术元素,以其独特的美学和表演风格而闻名),利用立体影像技术制作出了能立体展现演员动作的影像。 佳能于2020年,在神奈川县川崎市的事业所内,设立了立体影像技术的专用工作室。可拍摄范围为8米x8米,周围环绕着159台专用摄像机。这里进行了篮球等体育项目、音乐视频和时装秀等的拍摄。在新冠疫情期间,还诞生了新的活用方式,如身在日本的空手道大师向海外的道场直播“型”(套路)。以传承护理或寿司师傅等匠人技艺为目的的拍摄也在增加。最新的案例是,为NHK的晨间剧《あんぱん》(红豆面包)制作了片头影像。 尽管感受到了应用的广泛扩展,但挑战依然存在。如何推广这项目前认知度尚不能说高的技术,以及尚未看到能引爆市场的杀手级应用。
藤井先生等人也指出了立体影像拍摄设备的课题。为实现高品质影像,需要准备大量高性能摄像机。为了在边缘端进行处理,也需要服务器等设备,还必须配置操作人员。在体育场馆安装和导入这样的设备,既耗时又耗资。解决之道似乎仍在探索中。 在影像时代,以立体影像技术为首的边缘计算领域的视频处理,预计将持续增加。而在这个领域,AI的影响也不容忽视。 专注于边缘IT基础设施的IDC Japan株式会社数据与分析、企业基础设施研究经理下河邊雅行先生,指出了视觉语言模型(VLM)这一值得关注的技术。这是一种能同时处理图像和文本的AI模型,将能以口语形式操作影像。“可以预见,VLM与立体影像技术的融合,将极大地简化操作员的操作,”他说道。
关于立体影像技术的认知度和杀手级应用,他表示:“除了橄榄球、棒球、篮球,它还能在各种体育项目中带来卓越的观看体验。使用立体影像技术的一方,持有‘想做什么’的视角和热情,比思考‘能做什么’更重要。此外,建立一个能让体育团体以外的利益相关者也参与进来的商业化机制也很有必要。” 另外,立体影像技术不仅限于体育和娱乐等现有案例,在数字孪生环境中的虚拟化身等商业领域,也完全有活用的可能性。“要让立体影像技术从‘锦上添花’(nice-to-have)变为‘不可或缺’(must-have)的技术,需要整个行业共同努力,”下河邊先生说。 佳能已将“一源多用”(One source, multiple uses)定为下一阶段的目标。“目前是由直播方操作自由视角,但如果用户能自由操作,会不会更有趣呢?”藤井先生说。例如,在棒球比赛中只追随二垒手,在娱乐表演中只看组合里的“推し”(偶像),这样的欣赏方式将成为可能。为此,存在数据容量等技术课题,目前正与合作伙伴共同探索解决方法。
“我们希望实现一个观众能自由操作和观看影像的世界。如果能提供前所未有的体验,我们认为那对我们来说也将是一个重要的里程碑,”藤井先生说。
【核心创新:佳能以3秒生成速度,推动立体影像进入直播时代】日本相机与影像巨头佳能(Canon)正通过其“立体影像技术”(Volumetric Video),在全球范围内开拓全新的沉浸式视觉体验。该技术的核心是通过在场馆内部署上百台(如东京巨蛋的125台)经过精密同步(低于1微秒误差)的4K摄像机,从各个角度捕捉整个三维空间,并将其完整地3D数据化。由此生成的“自由视角影像”,允许从任意虚拟摄像机角度进行观看,在MLB(美国职业棒球大联盟)等顶级体育赛事中,因其能提供传统直播无法呈现的、如电影特效般的精彩回放而备受瞩目。佳能最核心的竞争优势在于,凭借其强大的边缘计算硬件和AI图像处理算法,能够将这一复杂的数据处理过程压缩在短短3秒内完成,从而首次实现了将立体影像技术无缝融入瞬息万变的体育赛事直播中。
【多元应用:从体育娱乐到文化技能的“体验数字化”】在2019年橄榄球世界杯上取得巨大成功后,佳能的立体影像技术迅速从体育转播,扩展到更广泛的应用领域,其本质是实现“体验的数字化”。在娱乐领域,它被用于拍摄音乐视频和时装秀;在文化与技能传承方面,它被用来三维地记录和展示珍贵的非物质文化遗产,如日本的“能乐”表演,以及空手道大师的套路、乃至寿司师傅的精湛技艺,为远程教学和数字存档提供了前所未有的可能性。为此,佳能专门在川崎设立了大型立体影像工作室,进一步探索其在不同场景下的商业潜力,旨在将各种转瞬即逝的“瞬间”,封装成一个可以从任意角度反复体验的“数字琥珀”。
【未来展望:迈向观众主动操控的“一源多用”新纪元】尽管目前面临着市场认知度不足和部署成本高昂等挑战,但佳能的未来愿景是实现“一源多用”(One Source, Multiple Uses)。其最终目标是,通过与视觉语言模型(VLM)等AI技术的深度融合,将视角的控制权从直播导播,交还给每一位观众。届时,观众将不再是被动地接收固定的电视画面,而是可以成为自己观赛体验的“导演”,能够自由选择全程跟随自己喜爱的特定球员或偶像的视角。这一从“观看”到“参与”的体验升级,虽然仍需克服数据容量等技术难题,但它预示着一个全新的、高度个性化和互动化的数字内容消费时代的到来。
日本相机巨头佳能(Canon)正通过其“立体影像技术”(Volumetric Video)开拓全新视觉体验,该技术在MLB等体育赛事中因“自由视角影像”而备受瞩目。其核心优势是强大的边缘计算能力,能在3秒内生成广播级影像,无缝融入直播。除体育外,该技术正迅速扩展到娱乐、文化与技能传承等领域,旨在实现“体验的数字化”。其最终愿景是实现“一源多用”,让观众从被动接收转为主动操控视角,将“观看”彻底升级为“参与”。
从体育观赛到文化传承,这项技术正在将转瞬即逝的“瞬间”,封装成一个可以从任意角度反复体验的“数字琥珀”。
技术综述:Free-Viewpoint Video: A Survey(中译:《自由视角视频技术综述》)
发布机构/作者:M. M. S. W. M. W. T. Bandara et al.
推荐理由:本文的核心是“自由视角影像”。这篇学术综述文章系统性地回顾了自由视角视频技术的发展历史、关键技术(如多视角几何、图像渲染)以及面临的挑战,为希望从技术层面深入理解其背后原理的开发者和研究人员,提供了坚实的理论基础。
有效链接:https://www.researchgate.net/publication/224213327_Free-viewpoint_video_A_survey
行业报告:The Future of Sports Broadcasting: The 2024-2029 Outlook(中译:《体育转播的未来:2024-2029展望》)
发布机构:Deloitte (德勤)
推荐理由:佳能的技术在体育转播领域影响巨大。德勤的这份报告探讨了流媒体、5G、AI和沉浸式技术(如AR/VR和本文的立体影像)将如何重塑未来的体育观看体验和商业模式。它为理解这项技术的市场潜力和商业化路径,提供了权威的行业洞察。
有效链接:https://www2.deloitte.com/us/en/insights/industry/technology/future-of-sports-broadcast-media-trends.html
书籍名称:Edge Computing: From Hype to Reality(中译:《边缘计算:从炒作到现实》)
作者:Rajkumar Buyya & Satish Narayana Srirama
推荐理由:佳能能在3秒内生成影像的关键在于其强大的边缘计算能力。这本书详细解释了边缘计算的架构、关键技术和在不同行业(包括实时视频分析)的应用案例,有助于读者理解为什么像佳能这样的公司选择在边缘端(而非云端)进行大量数据预处理,以及这种架构选择的优势所在。
有效链接:https://www.amazon.com/Edge-Computing-Reality-Rajkumar-Buyya/dp/103219119X