你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
“中国版Sora”再落一子,火山引擎如何赢战中国AI大模型下半场?
作者:福建CIO网 来源:钛媒体 发布时间:2024年09月26日 点击数:


截至今年9月,豆包大模型的日均Tokens使用量已经超过1.3万亿,4个月时间里Tokens整体增长超过10倍,经过字节跳动内部50+真实业务场景实践验证,30+行业外部企业深度共创。


作者|林志佳

编辑|胡润峰

本文首发于钛媒体APP


AI视频模型赛道近期已成为生成式AI领域新风口,最新发布的是“字节版Sora”。


9月24日,预告已久的2024火山引擎AI创新巡展深圳站上,字节跳动首款AI视频模型——豆包·视频生成模型正式登场。


豆包·视频生成模型基于全新DiT扩散模型架构,能够精准理解复杂prompt(提示词),实现多个主体运动的复杂交互,保持多镜头切换内容的一致性,且具备高保真高美感的影视级生成水准,从而用于电商营销、城市文旅、动画教育、微短剧等多个场景中。


那么,不仅“纸上谈兵”,而且还要“真练”,那么我们下面看看“字节版Sora”效果如何。


图片


首先是一段“童话王国”视频,花团锦簇在小房子周围,门窗和灯光清晰可见,桥上和房子背后的动物动作栩栩如生。


图片


第二段是羊群奔跑的状态,腿部和奔跑状态都如同真实场景一般,后面的黑羊穿过乌云跑向前方。


图片

图片


最后一组是呈现多尺寸高清视频,以及展现AI生成“口红”广告的品牌营销,基于豆包·视频生成模型,鲜红色的口红能让更多人有了下单购买的欲望。


而且,豆包大模型时隔不到半年还实现6款模型发布和能力升级,包括:豆包·视频生成模型、豆包·同声传译模型、豆包·音乐模型;以及升级的豆包通用模型pro、豆包·语音合成模型、豆包·文生图模型。


很显然,火山引擎正加速豆包大模型产品和方案落地。


实际上,当下大模型技术快速迭代,技术可用性大幅提升,已具备文本、语音、视觉的多种模态能力,并开始完成复杂指令。因此,生成式AI技术竞赛已进入“下半场”,不仅要有能力,而且商业化也成为各家AI公司的“必争之地”。


《生成式AI商业落地白皮书》显示,当前有53%的中国企业已开始有组织地进行生成式AI布局。这意味着,很多中国企业已意识到生成式AI技术对于自身发展的重要性,并将在其中投入资源和精力。


一个公开数据可以例证:今年上半年,国内AI相关招投标市场招标总额已超过2023年全年规模,用于教育、医疗、交通等多个领域的数百个场景。


作为中国领先的云和智能解决方案企业,火山引擎最新数据显示,截至今年9月,豆包大模型的日均Tokens使用量已经超过1.3万亿,4个月时间里Tokens整体增长超过10倍;同时,C端下载量超过1亿次,拥有超过3000万月活,经过字节跳动内部50+真实业务场景实践验证,30+行业外部企业深度共创。


“(今年)下半年是整个AI应用的元年。”火山引擎总裁谭待表示,作为国内第一个把模型成本做到每千token低于一厘钱的企业,火山引擎的豆包大模型推动大量的创新应用随之不断涌现,模型调用量突飞猛进,大家共同努力让应用的生态更加繁荣。


如果说2023年还是“百模大战”,大家卷技术、卷能力。而到了今年,以火山引擎为代表的“中国OpenAI”们,不仅在大模型层面要有强大“能力”,同时也需要实现对客户的快速交付及商业落地,证明着生成式AI技术能够对企业产生更大的业务价值、产业价值。


三大豆包垂直模型首发

主力模型综合提升超25%

图片


2024年,全球生成式AI技术持续“狂飙”。


Crunchbase数据显示,2024年上半年,全球AI风投总投资规模达330亿美元,比2023年同期增长177%。预计今年全年,全球AI投资规模将有望达到650亿美元,在这其中,被投企业主要来自AI基础设施和AI应用领域。


年初至今,OpenAI发布的三款AI大模型产品,包括2月的AI视频模型Sora、5月的实时通话模型GPT-4o、9月的推理最强模型o1-preview和o1-mini持续引发关注。


回到国内,“百模大战”正转向百款AI应用和场景模型,并呈现新一轮“百家争鸣”竞争态势。字节跳动、阿里、腾讯、百度、蚂蚁、智谱AI等企业纷纷发力,文小言、支小宝、秘塔AI搜索等多款AI智能体(Agent)应用不断落地。


截至目前,作为国内使用量最大、应用场景最丰富的大模型服务商之一,火山引擎已经公布超过10款AI模型。同时,智源研究院旗下FlagEval大模型评测平台此前发布的榜单显示,在闭源大模型的“客观评测”中,豆包大模型以综合评分75.96分排名国产大模型第一。


如今,火山引擎再度发力。9月24日,火山引擎AI创新巡展深圳站上共发布和升级6款大模型产品:


  • 3款全新发布:豆包·视频生成模型、豆包·同声传译模型、豆包·音乐模型;


  • 3款模型能力重磅升级:豆包通用模型pro、豆包·语音合成模型、豆包·文生图模型。


首先是非常受关注的豆包·视频生成模型,堪称“字节版Sora”。


全新豆包·视频生成模型基于DiT架构,通过自研的高压缩比、高还原性视频隐状态编码和解码模型,强力保证了扩散模型在隐状态空间的高效编码与运转。而豆包·视频生成模型基于深度优化的Transformer结构,从而大幅提升视频生成的泛化能力。


图片


事实上,文生视频作为新的AI视频制作工具,当前主要解决4个方面的问题:提高效率、降低成本、创意实现、版权合规。


全新豆包·视频生成模型具备诸多卓越特性:精准的语义理解能力可处理高难度 prompt(提示词),达成时序性多拍动作与多主体复杂交互;切镜方面,全新的扩散模型训练方法攻克了多镜头切换一致性难题,10秒就能讲述一个起承转合的故事且各镜头主体、风格等保持一致,支持一致性多镜头生成;借助高效的DiT融合计算单元,它能呈现强大的动态与丰富的运镜效果,其影视级的生成水准,细节逼真、美感十足,还支持多种风格和比例,能快速生成优质的视频片段,赋能电商影视创作、广告传媒、短视频等多个场景。


例如,电商营销行业,文生视频可以把商品变成3D动态多角度展示视频,匹配适合的营销背景素材(中秋、春节、七夕等)并生成不同尺寸快速上架;动画教育行业,文生视频可以降低动画的制作成本,低门槛的实现童话故事的想象情景等超现实画面。


图片


这是一段香水广告,透过豆包·视频生成模型,可以展现水流淌到香水周围的画面,凸显香水的高贵与典雅。


其次是直接对标Suno的豆包·音乐模型——你的专属“音乐创作大师”。


该音乐模型可以通过“海绵音乐”进行体验,用户只需通过简单的描述或上传一张图片,就能轻松生成一首包含旋律、歌词和演唱的1分钟高品质音乐作品,并支持民谣、流行、摇滚等10余种不同的风格和情绪的随心选,极大地简化了音乐的创作过程,可应用于音乐创作、音乐教育、娱乐产业、广告营销等应用场景。目前,豆包·音乐模型已经上线“海绵音乐”App和网页平台,而且也可以在“豆包”产品内进行体验。


下图是我们利用一段情感类文字,几秒钟就生成了1分钟左右的高品质音乐,你可以听一下效果。


图片

   

              

再次是全新的豆包·同声传译模型。


该模型基于端到端同声传译智能体CLASI,效果已接近专业人工水平的同声传译。依托于豆包基座大模型和豆包大模型语音组的语音理解能力,具备实时翻译、超低延时、自然高质量、音色克隆等特点。同时,在办公、法律、教育等场景中,豆包·同声传译模型显著超过了其他所有竞品,并且在两个语向上均达到78%以上的准确性,接近甚至超越人类同传水平,并具备了从外部获取知识的能力,形成媲美人类水平的同声传译系统。


最后是豆包通用模型pro、豆包·语音合成模型、豆包·文生图模型实现能力升级。


其中,作为豆包主力模型,此次豆包通用模型Pro的最新模型在数学能力、专业知识方面有超过35%的提升,综合能力超过25%的提升,其他包括指令遵循、代码等能力也在持续提升,能够面对复杂的企业生产场景。同时,Pro具有长文本能力,上下文窗口长度翻至两倍,达到256K,约40万汉字。


同时,豆包·文生图模型全面升级到2.0,采用更高效的DiT架构,能显著提升模型的推理效率和整体性能,在复杂图文匹配、极速模型出图、中国文化理解都有提升。基于高效DiT构架,同等参数下推理消耗是flux的67%,模型最快做到3秒出图同时,在内部Elo数十万轮评测第一名。据披露,自豆包文生图模型在豆包App上线以来,人均下载图片数量提升1倍,下载用户人数提升45%。


比如,这张戴着棒球帽、墨镜并喝着咖啡的卡通风格插图。


基于全新豆包·文生图模型,可以实现复杂图文匹配,精确呈现真实世界与想象世界的复杂场景,包括更符合物理世界规律现实场景,升级多数量、多属性、大小、高矮、胖瘦和运动6类图文生成难点的精准匹配,并更好实现对中国古代绘画艺术的理解和呈现。



此外,豆包·语音合成模型能力也全面升级,一句话声音复刻后就能混音创作,支持超强混音功能,打破语音合成的音色数量限制,并能够精准捕捉不同声音的韵律、音色、表达方式、语气语调等特色,而且可以将数百种精品音色自由组合,无限DIY不同音色、情感、性别、年龄和风格的声音,创造出极具戏剧张力的语音效果,在连贯性、音质、韵律、气口等各方面表现堪比真人。


总结来看,截至目前,从文字到语音合成,从文生图到视频生成,豆包大模型都已全部覆盖,不仅拥有更强模型能力,而且有更低价格、更易落地等特点,利用AI和云帮助企业和客户能够解决一系列实际问题。



谭待表示,任何数字化底座一定是云,包括现在AI也是数字化的一部分,基于AI的云设施可以给客户传递更大价值。企业要做好大模型落地,面临模型效果不好、成本太贵、落地太难三大关键挑战,因此,火山引擎既要有好的基础大模型做支撑,解决复杂难题,也要有低成本的推理服务让大模型被广泛应用,还要更多工具、平台和应用帮助企业做好场景落地。


加速商业落地

共创关键场景应用

图片


今年上半年,AI大模型“价格战”又引爆了行业竞争。


截至目前,在各家大模型最强版本价格对比中豆包大模型比行业价格低98%以上。


以豆包为核心的国内AI大模型将价格逼近“厘时代”。而这种极低的成本,使得大模型商业化应用变得更加可行,不仅对大型企业有利,而且为中小企业提供了前所未有的机会。


从“参数战”到“价格战”,AI大模型领域正由技术之争,转变为商业之争。这不仅是成本与市场的博弈,也更加考验企业的创新能力、应用能力、运营和商业化能力。公开调研数据显示,有37%的受访企业认为,基于生成式AI技术可以给项目带来超过10%的成本缩减。


对于中国超过5200万中小微企业来说,尽快落地生成式AI技术至关重要。当前AI时代,企业面临诸多挑战,降本增效是生存关键,且需数字化、智能化转型升级,不断创新,以免错失机遇。在科技快速发展的今天,未及时跟进的企业可能会在未来竞争中处劣势。


作为国内云与智能服务商,基于豆包大模型更强模型、更易落地、更低价格特点,火山引擎已经宣布与30+行业外部企业深度共创豆包大模型商业落地,全面助力零售、游戏、汽车、教育、医疗、企业服务等领域,助力客户提速增效。


以企业物流领域龙头G7易流为例。



当前随着直播电商和外卖物流需求快速增长,国内快递包裹数量高达1150亿件以上,因此,物流领域面临预订单和订单的管理问题。然而,不同系统、平台和通信渠道(如微信群)中的订单单据格式千差万别,这给物流行业的录单工作带来了极大的挑战。传统的人工录单方式需要将原始的、非结构化的信息转化为格式化数据,这一过程不仅工作量大、效率低下,而且容易出错。


因此,G7易流利用豆包大模型的强大语言理解和文字抽取能力,联合豆包大模型打造“智能接单”机器人,可迅速从微信群中提取关键信息如客户名称、货物详情、发车时间等,并将其转化为结构化数据直接导入业务系统,进一步显著提高接单的效率和准确性,使录单工作变得异常便利。


其中,处理能力层面,大模型简化了G7易流平台数据处理流程,大幅缩短接单时间,产品日均处理量稳定在300-400单之间,接单时间从原2小时减至30分钟以内,效率提升高达75%,提升了整体业务效率。而且,通过精确的数据处理,显著提高订单的准确性,进而提升客户满意度。


2024 ITValue Summit数字价值年会上,G7易流创始人、首席执行官翟学魂提到,“如果我们能够在窘迫的产业中,发现可以改变产业结构的稀缺的数据,并让这些数据形成闭环,产生飞轮效应,我们就有可能获得‘一线生机’。”


G7易流首席科学家王守崑则认为,事实证明,结合大模型技术,确实能够提升我们平台的接单效率。G7易流和火山引擎是一次成功的尝试,也是技术与物流行业的创新结合,我们对未来更多更深入的合作充满期待。


除了物流行业,客服、销售这一领域也是大模型能够快速落地以及产生价值的重要场景。


专注智能客服10余年的晓多科技选择与火山引擎合作,基于豆包大模型,晓多科技全面升级智能客服能力。结果显示,在火山引擎提供的豆包大模型帮助下,晓多科技的“AI训练场”场景获得了更高的并发保障,同时成本也优化了50倍以上,实现了效率成本双提升。通过使用豆包大模型能力强化的“AI训练场”,晓多科技不仅将客服培训周期缩短了50%以上,还通过更多元化的顾客模拟,训练出能力超越常规培训的客服团队,推动销售转化率上升了3%-5%。


很显然,豆包大模型以创新技术驱动的极致性价比,助力G7易流、晓多科技在业务当中提质增效,实现了效率成本双升级,从而为火山引擎在物流、智能客服、零售等行业性整体落地和开拓商业模式打下了坚实的基础。


谭待强调,火山引擎的定位是云和AI服务提供商,在大模型的时代,他们的主要目标是帮助企业降低成本、提高效率,并且促进企业的创新。在生成式AI的时代,找到产品市场匹配度(PMF)是至关重要的。这需要厂商不仅要对技术有深入的了解,还要对业务有透彻的认识,这样才能确保技术能够真正落地并发挥作用,进而构建起火山引擎的AI生态系统。


大模型落地非一蹴而就

火山引擎与产业共创新AI时代

图片


中国以大模型为核心的生成式AI竞争已进入“下半场”,商业落地成为关键,尤其AI已逐步给企业带来直接的成本节约或效率提升。可以预见,“价格战”的下半场将是“商业战”、“生态战”。


不过,当前OpenAI的商业化之路不如预期,导致市场对AI产生了更多的质疑。


据报道,2023年OpenAI年收入达到34亿美元左右,但包括租用微软服务器(40亿美元)、招聘大量顶尖人才(15 亿美元)在内,OpenAI运营成本却可能高达85亿美元,即OpenAI每年或亏损高达50亿美元。而如其他商汤、云从在内的AI软件公司,也依然面临持续亏损、盈利能力较弱等风险。


而相对于OpenAI面临的商业挑战,火山引擎依托字节跳动强大的算法、算力、数据和商业化经验能力,在豆包大模型层面拥有更清晰的研发路径、商业化路径,基于丰富的端到端、垂类、场景化豆包大模型,火山方舟等一系列解决方案,火山引擎将技术能力优势和行业落地相结合,不仅发力B端市场,而且在C端市场上也有更多的商业想象空间,持续释放其价值潜力,正成为各行各业落地实践的更优选。


未来,生成式AI将开启一个新的黄金时代,拥有巨大的市场潜力。


据研究机构IDC预测,到2030年,AI将为全球经济贡献19.9万亿美元,推动2030年全球GDP增长3.5%。这意味着,AI是全球经济增长的新引擎。


当前,围绕AI能力的新应用和服务将不断涌现,在各个行业掀起智能化变革的浪潮。从金融、医疗、教育到制造、交通、能源等领域,AI技术都将找到广阔的应用空间,为传统行业注入新的活力。


面对新一轮生成式AI革命,企业需要以开放、创新的心态拥抱变革。而从文生图的DiT架构升级,到语音模型的“All-in-One”,火山引擎将持续提供强大AI模型、云计算等技术优势和能力,有志于“用科技改变世界”,以更强模型、更低价格、更易落地方式助力企业成长,推动各行各业在AI变革中抓住先机,重塑现有的行业格局和价值链。


当AI技术变得无处不在、无所不能时,它将像互联网一样,深度融入商业和社会的方方面面,就像今天的互联网一样渗透到每个角落,成为支撑一切活动的基础设施,推动中国经济持续产生新动能。


(本文首发于钛媒体App)


赵何娟对话火山引擎谭待:大模型的下一个战场在哪?



价格战之外,“大模型落地有三个核心关键挑战:更好的模型、更低的成本和更易落地的工具。”


钛媒体注


如果站在未来的视角回望这场始于2023年的中国“百模大战”,从上半场积蓄动能时的竞相破局,到下半场的价格战开打后的硝烟弥漫,在一片喧嚣之中,大模型也迅速迭代到了从“玩具”到”工具”的关键时期。


2024年进程未半,中国大模型市场的竞争已经骤然进入白热化阶段,大规模降价潮、免费潮来临。在这个过程里,字节跳动的火山引擎豆包大模型率先打响了大规模降价99%的第一枪。之后阿里通义千问、百度文心一言等也都陆续推出了更低价格甚至免费模型服务。它们都希望这能更大地降低各大产业应用的使用门槛,扩展应用场景,加速中国在创新应用上的优势落地。而这是否会如愿呢?


钛媒体高端对话节目「何谓2024」-「何谓AGI」系列,特意请到了这次打响了中国大模型价格战第一枪的火山引擎总裁:谭待。来共同探讨:在中国大模型当下格局以及全球AGI革命浪潮翻涌的大背景下,大模型竞争的下半场将会走向何方?以下是本期「何谓2024」完整版对话视频,以及部分精华文字内容摘编。欢迎参与更多讨论。



大模型价格为何走向“厘时代”?

图片


赵何娟:很高兴今天能够请到火山引擎的总裁谭待来到「何谓2024」的节目,火山引擎的大模型发布会,可以说引起了行业非常大的一个反响。其中最重要的一条就是开始卷价格战了,大家可以看到最大的一个亮点,就是价格比同行能低到99%,为什么你们一开始选择以最低价的方式来做市场的引爆?


谭待:我们发现,企业在AI应用创新上会面临两大挑战,一个就是模型的质量,目前市场上主流的模型基本能达到“可用”的质量水平;另一个就是以模型为首的创新成本。


目前AI还是一件很不确定的事情,失败概率会比较高,如果用AI去做企业的创新通常90%会失败。现在很多企业去做一个AI驱动的创新项目,可能至少要100亿Token起,而且用完之后可能才能知道是否可行,如果按以前的价格来说,可能需要将近100万元成本,但是如果能降成1万块钱,企业的创新门槛就大幅下降。


ToC的商业模式是把用户规模做大,通过别的方式来变现,比如说广告。但ToB的企业服务讲究的是持续性,企业在乎的是能够持续得到持续且质量好,价格也稳定的服务。因此即使一方面市场有需求,但另外一方面如果做不到,这个事也很难持续。所以实际上火山引擎是在整个模型的成本优化上做了非常多的事情。


有的芯片内存是瓶颈,有的芯片算力是瓶颈,把这两类芯片组合在一起成本就能下降。因为规模非常大,调用量非常大,把不同的调用量混合在一起就可以降低成本。


再比如有的人是白天工作时候用,有的人是晚上娱乐的时候用,还有人是大家都睡着的时候用,但是有些科研,有些这种离线的任务也可以来用,我们把这些不同的对大模型的调用负载混合在一起,成本又可以降低很多。所以我们做了这么多优化之后发现我们可以做到这个事,从技术上我们可以做到,同时市场也需要你做到,那就应该这么来做。


还要提供很多应用的工具,包括插件,还有低代码的扣子平台,它可以让你不会写代码,也能够去开发自己的Agent,还包括一些脚手架的工具等等。


总体来说,需要持续做好三件事:更好的模型、更低的价格和更易落地的方案。


赵何娟:国内的云服务厂商中火山云因为入场是最晚的,因为入场晚,就意味着规模肯定不如先发者,比如说阿里云。为什么阿里云规模效应更强,但它的价格做不到那么低?你们现在能把价格做到这么低,本质上来说还是有利润的,并不是在倒贴钱给客户?


谭待:其实做云这个事情,最大的壁垒就是规模,规模大弹性就能好,弹性好成本也能低,也可以有资源,去让更有更强的团队去不断优化成本。


火山虽然对外做得比较晚,但是其实火山是字节的一部分,对内自用部分的时间和规模是可以综合进来的,当时我加入字节的时候,就在讨论说要不要进入云这个市场?战略团队就顾虑,我们做得比较晚,可能在规模上追有点难,但我说不应该这么算。在技术上,我们可以把自有的规模和外部客户的规模在安全可控的情况下做一定隔离,但是可以在资源上做混合的调度。所以这个时候去算规模,就不是去看纯外部的规模,而是看整个所有的负载的规模。所以火山坚持技术上一定要内外统一。所以可以认为不管是我们外部的客户,比如说手机、汽车、零售、金融的客户,还是内部的,比如说抖音、头条,其实都跑在火山引擎上。这样综合起来算,我们的服务器数其实就是中国第一,我们整体的服务器数,也看到了友商公布的服务器数。整体通盘有这个规模,自然就有把云,包括后面比如说现在把AI推理做好的底气,只需要技术上不断去优化,去把这个规模的优势做好。


倒贴这个事情,其实是不可持续的,如同前面说过的,ToC模式往往是“羊毛出在猪身上”,就是把用户免费地拿过来之后,可以通过别的变现方式来做。ToB不是这样的,售卖的是一个服务,而这个服务它得不管是从品、性能、服务的质量,还是说价格上,都得是一个稳定的。特别是云,它是一个可持续的。因为可能客户签了个3年的合同,这中间是不能变的。所以要去定一个价格的时候,一定要是保证这个事情是有毛利的。当然在这个阶段的时候,最重要的是说我们其实想让AI被更多的人能用起来,能有更多的创意,更多的创新出来,所以即使有利润我们也不会把它定特别高。


赵何娟:当初为什么字节要进入到云这个市场?毕竟字节是做ToC起家的,ToB业务逻辑完全不同。在当时“后发”的情况下,你们是怎么说服张一鸣?我们虽然进入公开市场晚,但是综合基础不差,一定能做成这个市场的?


谭待:首先是看这个市场重不重要,大不大?任何数字化底座一定是云,包括现在AI也是数字化的一部分,底座也是带来大量的云的消耗,这个市场是非常大的,中国未来的云市场会占全球17%-18%,,这个比例非常高了,而且现在保持着一个非常高速的增长。,有数据显示,2025年后,全球整个云市场就要超过在线广告的市场,所以这个空间是很大的。


而且云市场并不是一个赢者通吃的市场,马太效应不明显,大企业一定会采取多云政策。一方面避免被一家“绑定”,无法拿到好价格,另一方面,每家云都有自己擅长的地方。如果只用一家的话,就没办法采各家之所长,也不利于企业的技术的创新。也就是说在空间很大的云市场,后来者也是有机会的。


这个市场值得做。但是怎样才能做好?核心是战略一定要有定力,因为ToB是一个很长的事情,跟客户合作,可能有的客户得需要一年、两年才能真正去做得比较深。所以战略一定要稳定,要知道能创造的价值是什么,擅长是什么,不擅长什么,什么是自己做,什么是伙伴来做,给客户传递的是什么价值。


AI,云服务市场的下一个驱动力

图片


赵何娟:提到火山的战略定力,哪些方向是火山比较明确的战略方向?公有云应该算一个吧?AI这个方向火山发声比较早,是不是也算一个?


谭待:公有云肯定是火山的战略方向之一,因为规模化是共有用发展的基础,前面也提到,这正好我们的优势,此外火山引擎确实花了很多精力去想什么是驱动云技术变化和发展的下一个关键因素。上一个关键因素是互联网,特别是移动互联网下一个大的关键点是什么?在自动驾驶领域,其实已经从以前的小的视模型、视觉模型或什么模型转向Transformer,典型的就是以前可能是用那些小的算力卡,后面当时开始用A100,生信也是一样的,生信制药想再把Alpha Fold出来,大家也在做这个事情,虽然那时候大模型,大家没有看那么清楚,但是明显已经感到Transformer大量的应用,AI会成为云的下一个驱动力。


所以在2022年的时候火山其实就在深度地做这个事情。第一要把供应链做好,要把算力的基础建好。第二算力规模变大之后,需要好的平台配合调度。所以火山在整个GPU的调度、优化上做了非常多的事情,比如算子的优化,整个平台的调度能力的提升,整个MFU提升。一个是要坚定不移地把规模优势发挥好,把模型成本和平台稳定性做好。第二则需要把握住大的技术变革。比较幸运的是火山在这些方面还是看得比较早,也非常准确的。


赵何娟:我听说在2022年的时候,国内有很多大厂都准备要放弃掉AI这个方向,或者说觉得看不到希望,而且把已经采购的或者囤积的GPU的A100的卡可能直接都要准备退还,据说退的这几万张卡都被字节给接了是吗?



谭待:2022年的时候确实发生过这样的事情,因为有些友商大量地去做退订。但是那个时候我们很坚定不移地看好AI这个方向,认为AI是驱动云很重要的一块。


当然同时也需要结合自身情况做技术层面的判断。因为刚好我本身技术出身,所以这个选择可能需要结合技术,也要结合商业来判断。因为那时候大模型没有发展起来,那个时候如果有谁说我已经看到了大模型未来的爆发?他肯定是在骗人。但是我们可以看到的是,自动驾驶是很确定的事情,而且除此之外至少有一两个行业已经有很大的体量能够支持大模型的发展。其实放到现在汽车行业在自动驾驶领域也投入非常大,并且在这个领域算力储备也比较雄厚。只不过聚光灯可能更多的看到是大模型的公司,比如说2022年火山和毫末建立了一个驾驶领域最大的算力集群。所以这个领域相当于是火山不仅从技术上有所判断,而且从客户的需求上也验证了这一点。


既做裁判员又做运动员?

图片


赵何娟:现在国内的做大模型的企业和团队非常多,包括像月暗、智谱、百川,在国内来说相对来说有一些知名度的大模型,基本上还是在火山引擎上跑。作为一个行业底层服务的提供商来说,你会觉得国内现在的“百模大战”“千模大战”优势在哪里?或者有一些什么问题?


谭待:首先我觉得这些公司和团队其实做得都非常好,每家也有自己的特色,行业认知水平也在不断提升。


当然这个行业还需要让更多人参与进来:第一模型要好,第二成本一定要低,把100万的成本降低到1万,那进入这个行业的人可能就不是多100倍,而是多1000倍了。可能10个项目里里面,虽然9个项目不一定能成功,但只要有1个项目成功了,可能前期的所有投入就都回来了。


火山做了很多插件平台,做了方舟2.0,以及扣子这个低代码的平台,就是让更多的人能够更便捷地使用大模型。


所以通过这个平台,通过好的模型,通过低的价格,把整个做创新的门槛一降再降,就能看到行业的繁荣。


赵何娟:你觉得做大模型的平台,有必要什么应用都自己去开发吗?既做大模型的底层基座,又在上面去做各种各样的专有模型,会不会给行业造成火山既做裁判员,又做运动员的感觉?


谭待:豆包这个模型,有一个对应的同名的APP,就像OpenAI有个ChatGPT,因为平台需要有一个对应的一个产品,去让用户能很直观地感受到这个模型的好和坏,模型本身是开放的,火山引擎也是开放的。


比如说字节内部也会产生平台的客户,比如说抖音想用这个模型能力做些事情,抖音其实也就成为了火山的一个客户。外部比如说快手也想用,道理也是一样,对于火山来说,就是要保持一个开放性和中立性,只要是客户,就提供同样的优质的服务。


算力之外,大模型的增长动能在哪?

图片


赵何娟:在2022年底ChatGPT发布,全行业爆火之后,据说2023年整个火山引擎的财务业绩翻了好几番。2023年现在的整个的业绩规模和2024年现在半年过去的增长,让你们的财务模型又已经进入了新的平衡点。有没有可能接下来的规划中会更考虑利润的提升?


谭待:我们觉得什么最重要?是有毛利的规模是最重要的,不是只看规模,也不是只看利润。而是要看是带毛利的规模。带毛利的规模决定了可持续性。比如说要做语音,需要组建一个非常大的团队,然而人力成本是非常高的,因为只有很强的团队,才能把技术和产品做好,所以人力投入肯定是最大的开销之一。只要看重和坚持带毛利的规模,最终就可以做到平衡、盈利。


赵何娟:可以说现在火山引擎的算力储备是非常充分的,可以说是前两年的准确的战略判断带来的,那么算力用完了怎么办?可能这两年的财务增长和爆发都是基于之前的储备带来的。未来的持续性如何保证?会不会受到美国制裁的影响?


谭待:首先规模是正循环的,规模大,对未来就有预期,就有信心做更大的投资。更大的投资又能带来更大的规模。所以如果之前的增长是基于我们判断得早,以及我们内外复用的规模优势。我们在这个领域就一直很会很有先机和优势。


第二其实现在算力在当下的这个情况下,是一个异构算力的系统,因为可能每一个团队有不同的芯片的选择,而且不同的芯片有不同的擅长的地方,有的内存很大,有的算力很强,有的兼容性很好,所以就对技术平台本身要求很高,技术的打磨也是很重要的。


第三其实也在看和各家厂商,比如下游的芯片厂商如何合作。我不仅只是说在算力层面,让大家一起能合作得更紧密。比如说我们最近和英伟达一起在中国发布了Omniverse,这样企业可以在中国通过火山引擎来使用Omniverse,这个合作也很重要,第一就是未来物理世界和真实世界可以连接在一起,这样可以用AI通过仿真或者其它方式,不仅改变虚拟世界、数字世界,也能去改变物理世界,所以一方面平台做这个事情。另外一方面通过合作,其实双方也加强了合作的深度和广度,可能关系会更加紧密,也会在其它层面的合作上也会有更多的帮助。


赵何娟:从美国的芯片的出口的规则限制来说,可能中国企业过去还能正常购买A100或者H100这样的芯片。可能将来这种高制程的芯片都是不允许被中国公司购买的,在这一点上来说,可能之前的护城河或者说壁垒,事因为规模在早期带来的壁垒,但这种壁垒可能再经过两三年就被别人取代了。这种前提下,对于火山来说,是不是相关的壁垒就不存在了?


谭待:规模优势是始终存在的。所以不管说会不会涌现出更多的底层的供应商,都会第一时间想到和字节、和火山来合作,所以这个优势是持续的,规模的好处就在这一点。所以我们这一次能把推理的成本做低,也是因为用了异构的芯片,去把它们的特点都发挥出来,所以就能通过分布式推理来做这个事情。


赵何娟:所以从这个角度来说,开源大模型更好?还是闭源大模型更好?。


谭待:不管是开源还闭源,目的都是让大家更多地来使用。


第一开源有开源的商业模式,闭源有闭源的商业模式,大家只是不同商业模式而已,开源有很多成功的公司,闭源也有很多成功的公司。所以第一就是你自己这家公司怎么来选择,不能简单说开源和闭源谁更好。


第二也要看企业的具体需求,企业选开源、选闭源,背后的需求是说,第一性能好不好?第二安不安全?当然开源有安全的解决方法,闭源也有安全的解决方法。


第三就看成本,用开源就代表着底层的算力没有办法在云的池子里面来混合,如果云平台没做好,肯定还是用开源便宜一些。所以对企业来说,要决定自己的战略路线是什么,用什么样的商业模式来做这个事情?但整体上没有必要去争论这个事情。现在豆包是闭源的,但我们将来肯定也会推出豆包某一些系列的开源的模型,我们肯定是这样的一个逻辑。


大模型落地的应用场景和挑战

图片


赵何娟:互联网革命来自C端的爆发,然后逐步延伸至B端,你觉得AI或者大模型的这波2.0的浪潮更可能在C端还是B端率先爆发?


谭待:我觉得可能会是在B端和C端同时开始爆发。


移动互联网可能先是在C端也就是手机端爆发,但如果我们看PC互联网,其实最开始也是工作场景和生活场景不分的。比如邮箱和搜索,用户也是为了获取知识而非娱乐。刚开始软件诞生的时候,很多也是给B端使用。比如70年代时候的软件巨头其实都是做ToB的事情。所以我觉得一个技术的提升,是不一定先从C端爆发,或者先从B端爆发的。


AI能够提升生产力。所以AI在B端有很多天然场景。但实际上当AI能带来很多能力之后,C端用户也就开始在日常生活中使用了。比如说ChatGPT其实有很多付费用户,他们也是同时在工作场景和生活场景中使用。


赵何娟:豆包模型也有ToC和ToB的模型,你们在做这个模型,或者在推出相关模型应用的时候,有什么样的区别?


谭待:首先我们要有一个通用模型,这个通用模型应该是最强的。


比如说豆包通用模型Pro就干这个事情的。豆包通用模型Pro就是可以同时解决C端和B端的需求。而且支持长文本128K可精调。尤其在B端使用的时候,需要让模型做一定的优化,所以能不能可精调是很重要的。


在此基础上,再看哪些场景是很垂直,规模又很大,就可能会把它做一定的特化。比如说角色扮演,看起来可能是C端的使用场景,这个情况下就需要通过AI去和用户在场景中进行交互娱乐,所以我们有一个专门的角色扮演模型。


所以整体核心就是最底层通用的强大,如果没有把最强的底层大模型做出来,后续做专有模型大概率就不会做得好。


赵何娟:下半年你会认为有很多应用出来,从应用场景上来说会有哪些判断?比如说哪些行业可能会跑得更快一些?


谭待:首先终端上肯定还能做出很多创新出来。比如手机、汽车、PC、IOT,这就是为什么我们这次搞两个大联盟,一个是手机的大模型联盟,还有一个是汽车的大模型联盟。还有一些场景,比如说C端的一些助手类的应用,包括Agent,包括搜索。


在企业内部,大模型对于企业就整个知识的管理,包括数据的分析肯定是有很大的辅助。比如说我们做Chat BI,以前CEO问一个问题,底下人不知道,马上就找人去查,查完以后截个图再反馈过来就很慢,CEO说我还想看看别的,就需要再走一次流程。其实这些数据BI里面都有。管理就是一个很大的效率题,我们有个理念叫数据飞轮,以前大家看数据中台讲的是说要积累多少数据,但数据不用是没有意义的,所以应该看数据飞轮每天消耗了多少数据,用了多少数据,消费了多少数据,就要想各种方法去把消费的便捷性和体验做好,Chat BI就是这样,以前信息传递靠口口相传,现在是直接向Chat BI提问,这样就把数据消费的实时性和便利性都提升了非常多。


比如说有个职业叫打字员,也是一个白领,以后可能就再也没有这个职业了,取而代之的可能是一个更智能的“打字员”,它能做扩写,做很多其它的事情,但是我自己还是一个乐观主义者,我认为人类最精髓的部分始终还是在人的这个地方,而且也许人可以跟AI共同进化,而不是说AI取代人。


赵何娟:2022年11月底推出ChatGPT的时候,12月初我们就组织了一个讨论,那个时间段感觉行业里面对这件事情关注度和热度还是非常高的,但是大众领域还没有那么关注,大众领域一直到2023年,可能1月份、2月份才开始爆发性地关注ChatGPT。那个时间OpenAI推出的ChatGPT对你的冲击有多大?


谭待:因为我一直在做云,所以当时我最大的感受是太好了。看来以前想得很对,比如说我们当时内部在讨论说为什么OpenAI可以做出来ChatGPT,因为不是说中国做不出来,美国反而做出来,其实是OpenAI做出来,别人都没做出来。


ChatGPT比我们想象来得更早。我们本来觉得可能还再晚一点点,比如我们再布局几年,可能会有类似的模型出现,而且也在推测比如生信领域会不会更快一些?但没想到大语言模型是最快来的,我想知道下一个是什么,大模型的概念一直都有,但放在那个时间看到ChatGPT你没想到能做到这么大。


赵何娟:有一个典型的应用场景,我们钛媒体自己现在也在做科股数据的大模型。我们也有自己的数据库。我们就想着基于我们自己的自有的数据业务再做一些预训练的尝试,而且能够基于这个大模型还能开发我们自己的应用产品。从场景上面来说可能还不是那么简单的事情,这一点我不知道你是怎么来面对这种像我们这样很具体的场景应用的需求的?


谭待:我们认为大模型落地有三个核心关键挑战:更好的模型、更低的成本和更易落地的工具。其实刚好你这个例子就可以讲讲我们对以上这三个挑战的理念:


首先有比较好的模型,比如说用豆包,可能都不一定要用精调,做一些提示工程就好了。因为豆包的底座能力是很强的。这样其实基础功能就可以满足了,但是要把这个应用做好,其实还要做很多事情,比如说需要联网,因为财经的数据,是需要有很多实时的数据更新。所以我们方舟推出了联网的平台,而且它能拿到独有的内容,这样你就可以更好地去获得信息和内容。


第二是知识库的搭建,自己积累的知识库是很重要的,可以去帮助这个模型在应用的时候减少幻觉,提高精准度。这个是很重要的,比如有些东西已经在知识库做好了,就从这个受限的知识库里面出内容,而且做到有一些东西让它不要瞎说。


第三就是考虑到用户的交互,用户使用的时候可能只有文字的内容是不够的,还需要有一个视频,所以我们还做了一个内容插件,这样一方面去让大模型去回答问题,出数据报告的时候,还可以去把相应的视频内容播放出来。


除此之外用户在很多使用过程中有很多细碎的需求。这些细碎的需求可能需要做一个对应的Agent,来去解决它,通过扣子平台。比如说用户需要了解和体育相关的公司的财经知识,不需要写代码,只需要编辑或者是其他业务人员,用扣子平台很快就能搭建一个这样的一个小助手一个Agent。让它和应用放在一起,当用户来的时候,小助手就可以自动调出来回答用户的问题。


最后,我们还配了一个叫算法BP团队,就是算法服务团队。因为他们有很多经验,他们其实就是火山AI相关的算法人员。有需求的客户团队所以可以和算法BP团队的技术人员先对接一次,帮助把这套基于AI基于大模型来开发和应用的流程建立起来。未来就可以不断去更新它来运转起来。这样操作会让整个服务更易落地,同时还能够有一套配套的服务体系来帮助客户完成既定目标。


豆包大模型发布视频生成模型,语义理解精准、画质高保真


火山引擎总裁 谭待


截至到9月,豆包大模型的日均 tokens 使用量已经超过1.3万亿,4个月的时间里 tokens 整体增长超过了10倍。在多模态方面,豆包·文生图模型日均生成图片5,000万张,此外,豆包目前日均处理语音85万小时。

谭待

火山引擎 总裁



9月24日

2024火山引擎 AI 创新巡展在深圳举办

带来豆包大模型最新进展


豆包大模型家族迎来新成员

全新发布豆包·视频生成模型

以及豆包·音乐模型豆包·同声传译模型


豆包通用模型pro 和文生图模型、

语音合成模型等垂类模型大幅升级

不断增加的各类模态以及规模化的调用量

让豆包大模型“更强模型、更低价格、更易落地”的优势持续凸显


其中,主力模型“豆包通用模型pro”

最新版本在各维度上国内领先

模型效果持续增强




图片


火山引擎正式发布豆包·视频生成模型

全面加速 AIGC 应用创新


 先上大片!

 带你感受豆包·视频生成模型的高级质感!


精准的语义理解

多动作多主体交互


豆包·视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力。


图片

图片


强大动态与酷炫运镜

告别PPT动画


可以让视频在主体的大动态与镜头中炫酷切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力,灵活控制视角,带来真实世界的体验。


图片

图片


一致性多镜头生成

10秒讲一个完整故事


成功攻克多镜头切换时一致性的技术挑战,在一个 prompt 内实现多个镜头切换,同时保持主体、风格、氛围的一致性。


图片

图片


高保真高美感

多风格多比例


支持包括黑白、3D 动画、2D 动画、国画等多种风格,包含1:1、3:4、4:3、16:9、9:16、21:9 六个比例,适配于各种终端,以及电影、手机竖屏等不同画幅。


图片

图片



图片


强大画面效果的背后,是字节跳动在视频大模型技术研发的不断投入。

图片



图片


视频生成能力,为众多企业场景带来创新。例如在电商营销场景,豆包·视频生成模型不仅快速把商品变成 3D 动态多角度展示,还能配合中秋、七夕、春节等节点替换背景和风格,生成不同尺寸快速上架;在动画教育场景,豆包·视频生成模型可以大幅降低动画的制作成本,生动的呈现童话故事情节。


此外,还有城市文旅、音乐 MV、微电影、短剧等应用场景,都可以通过豆包·视频生成模型实现降本提效和创意合规。


图片

电商营销

图片

动画教育

图片

城市文旅

图片

微剧本(音乐 MV/微电影/短剧等)




图片

图片

                                                                                                                       

“中国版Sora”再落一子,火山引擎如何赢战中国AI大模型下半场?


图片

 


豆包大模型家族成员更加丰富,模型能力持续升级,为大模型在多模态、多元化方面的落地应用打下了良好的基础。火山引擎将继续推进模型能力的不断升级与迭代,探索模型能力在更多场合的应用,持续为企业借助大模型实现云上智能化注入动力。


即梦AI接入豆包·视频生成模型,打造更高质量智能化创作体验



图片

9月24日,2024火山引擎 AI 创新巡展在深圳举办。巡展正式发布豆包·视频生成模型等全新模型,豆包通用模型pro 及多个垂类模型也得到了大幅升级。


会上,即梦 AI 及剪映市场和运营负责人陈欣然从产品和用户使用的角度,分享了 AIGC 时代即梦 AI 将如何基于豆包·视频生成模型,帮助创作者解放创意,带来效率提升。


即梦 AI 及剪映市场和运营负责人 陈欣然


陈欣然指出,目前即梦 AI 已经接入了豆包·视频生成模型,正在进行内测的场景和效果打磨,未来将逐步开放给所有用户,让每个人都能够体验到 AI 创作的趣味性。


01.

 即梦AI等业务场景打磨+技术突破 

 豆包·视频生成模型加速AIGC应用创新 


陈欣然表示,AI 进行创作的过程,与传统创作工具体验存在很大区别。AI 创作是动态的过程,过程中由于生成式 AI 本身的随机性,往往会带给创作者惊喜和启发,在激发更多灵感的同时,拓展想象力的边界,成为创作者和艺术家的智能伙伴。基于这一理念,即梦 AI、剪映、CapCut、醒图等产品都基于豆包·视频生成模型的能力,上线应用了 AI 技术。


截至9月,豆包大模型日均 tokens 使用量已经超过1.3万亿,相比5月首次发布时猛增十倍。豆包通用模型pro 最新版本综合能力累计提升 25%,在各个维度都处于国内领先。作为豆包大模型家族最新成员之一,豆包·视频生成模型具有精准语义理解、强大动态与炫酷运镜、一致性多镜头生成、高保真多风格等优势。基于精准的语义理解能力,能遵从复杂的用户 prompt,解锁时序性多拍动作指令与多个主体间的交互能⼒;拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力,灵活控制视角;在一个 prompt 内实现多个镜头切换,同时保持主体、风格、氛围的一致性;支持包括黑白、3D 动画、2D 动画、国画等多种风格和不同比例尺寸,适配于各种终端,以及电影、手机竖屏等不同画幅。


众多优势背后,是字节跳动对视频⼤模型技术研发的不断投⼊。通过⾼效的 DiT 融合计算单元、全新设计的扩散模型训练⽅法和深度优化后的 Transformer 结构,让⽣成视频的动作更灵动,镜头更多样,细节更丰满。


02.

 即梦AI便捷、易用 

 提升创作效率、打造自由创作体验 


豆包·视频生成模型的进展,得益于抖音和剪映对视频日积月累的理解,而反过来,模型也为视频创作带来了巨大提升。从产品及用户应用角度出发,针对品牌宣传与推广、市场营销等需求,即梦 AI 已经形成并具体落地了部分 AIGC 能力,帮助实现业务创新及加速。现场,陈欣然展示了即梦 AI 基于豆包·视频生成模型制作的成果。


仅需录制或上传一段高清、时长3分钟的正面视频,即梦 AI 即可创造出用户的“数字分身”。同时在豆包·声音复刻模型帮助下,用户仅需5秒语音输入就能实现声音的克隆,为数字人配上自然流畅、毫无违和的声音。


内容营销创作神器可为电商商家用户带来高质量的内容素材。过去,商家可能需要花费几个小时拆解带货视频的镜头转换、文案等,并花费大量时间进行剪辑。启用即梦 AI 后,仅需填写商品名、上传素材或者粘贴商品页链接,即可配合节日等热点,一键生成多个不同风格的带货视频,全过程时间仅需几分钟,极大提升营销素材制作效率。


此前,即梦 AI 联动剪映共同举办了名为“未来影像计划”的短片大赛,大量新时代 AIGC 创作者、艺术家云集于此,并涌现了海量奇思妙想。在此过程中,生成式 AI 极大降低了创作门槛。以往此类创意短片视频往往需要5-10人团队进行协作,且制作周期可能长达1-2个月,在即梦 AI 以及剪映的帮助下,大部分创作者可以独立完成视频的创作,制作时间也缩短至1-2周,能够更为高效地呈现出自己的创意。

  

              

即梦 AI 创作者和艺术家作品演示


陈欣然认为,创作不应该受限于制作成本、风格或者文化背景。豆包·视频生成模型的推出,为创作者提供了探索全新未来世界的有力工具。即梦 AI 希望能够成为创作者们最喜欢和信赖的生成式 AI 工具及内容平台,为所有人提供有趣的、快乐的、自由的创作体验,以更广阔的创作空间和灵感启发,帮助用户打开连接现实世界和想象世界的大门。



火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」

宛辰@极客公园  


图片

更好的模型性能、更好用的模型服务,才能在产品上打开更多场景。


作者 | 宛辰
编辑 | 郑玄

自今年 2 月 Sora 面世以来,很多人都期待字节的动作。拥有抖音和剪映这两个最强的视频 App 在手,字节的视频生成大模型,被寄予厚望。

这就来了。

9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了包括「豆包视频生成大模型」「音乐生成大模型」在内的多款模型。

在此之前,海内外不少现象级的同类模型产品相继发布,包括字节跳动相继发布的即梦、海绵音乐,和剪映(含 CapCut)中的新功能。秘而不宣的海绵音乐 App 更是被视为最适合中文的音乐生成 App、国内当之无愧的「Suno」。

字节为什么选择在多少有些「AI 产品看麻了」的 9 月,推出这几款 AI App 背后的大模型引擎?

对此,火山引擎总裁谭待向极客公园表示,不是按照某个固定计划精心设计什么节点发布,AI 模型进展日新月异,什么时候做好、适合对外就尽快发布。

这背后的逻辑是,火山引擎的定位是字节跳动的 ToB 云平台,模型对企业的开放由火山引擎来做,但推出产品前,需要先在内部使用,打磨到一定程度、做到企业级可用,才会向外推出。此前发布的豆包也是如此,先有字节内部推出的产品豆包 App,再有今年 5 月由火山引擎推出企业级可用的豆包大模型。

他补充说:「不一定要抢第一,要推出成熟的产品,因为模型对未来 10 - 20 年影响长远,做好积累后发先至也是好事。」

而火山引擎未来十年要驶向的远方,并不是一个、两个模型比如视频生成模型的领先,而是「成为全球领先的云和 AI 服务商」。


01

抖音和剪映加持,

字节视频生成大模型

更关注使用场景


视频生成大模型,成为整场发布会最大的亮点。

谭待表示,「因为视频特别难,我们一次性推出两个,充分解决视频里面的各种问题」。豆包家族新成员——豆包视频生成-PixelDance、豆包视频生成-Seaweed,正式面向企业市场开启邀测。

从现场展示来看,豆包视频模型可以根据文字和图片的输入,生成相应的视频。值得注意的是,字节跳动并没有公布其模型生成视频的最大时长,尽管后者被认为是体现技术能力的一大表现。

豆包视频生成大模型,更强调其在实际应用中、各种生活和商业场景所需的三个核心功能点。

首先是模型对复杂指令的理解遵循。以下图的视频为例,输入「特写⼀个⼥⼈的面部,有些⽣⽓,戴上了⼀副墨镜;这时⼀个男⼈从画⾯右侧⾛进来抱住了她」。

 


        视频详情               

在这个相对复杂的描述下,豆包模型生成的视频呈现出了一个人情绪的变化、动作前后时间的变化,还出现了一个新的人物,这个新的人物跟原来的人物也有交互。换言之,豆包视频大模型能够根据指令实现时序性上有连续的动作指令,并且可以生成多个主体,并且让多个主体间进行交互。

豆包视频模型的第二个特点在于运镜,⾖包视频模型让视频在主体的⼤动态与镜头中进行切换,拥有变焦、环绕、平摇、缩放、⽬标跟随等多镜头语⾔的实现。

  

        视频详情              

生成的视频可以灵活控制视⻆,更接近真实世界的体验|视频来源:字节跳动

第三个特点则是⼀致性多镜头。在 AI 生成的视频中,如何保证多镜头来回切时,不同主体在来回切换中的镜头是一致的,这也是当前行业的共性难点。

以下视频来源于                                           极客公园                                                                                                                                                                         


        视频详情              


豆包在一个 prompt 下生成的视频,可以实现多个镜头切换,同时保持主体、⻛格、氛围的⼀致性。|来源:字节跳动

在谈及豆包视频生成大模型的特点时,谭待表示,豆包视频大模型背后有两方面优势,一是技术突破和全栈能力等优势,在技术上,字节在这两款视频模型上做了大量技术创新,比如通过⾼效的 DiT 融合计算单元、全新设计的扩散模型训练⽅法和深度优化后的 Transformer 结构,让整个⽣成视频的动作更灵动、镜头更多样、细节更丰满。

同时抖音、剪映对视频的理解也是优势。「剪映对视频的理解、对豆包视频生成模型有帮助,指令遵循做得好也离不开语言模型,豆包是全体系模型,底层有基座模型有助于更好地理解指令。」

在深入到视频场景的解决方案上,豆包视频模型支持不同题材类型,⽀持包括⿊⽩、3d 动画、2d 动画、国画、⽔彩、⽔粉等多种⻛格,包含支持 1:1,3:4,4:3,16:9,9:16,21:9 等多个比例,对应于电影、电视、电脑、手机等多个商业场景。

⾖包视频⽣成模型通过整个模型能把商品快速 3D,而且动态多⻆度展⽰,还能配合不同的节日,比如中秋、七夕、春节等节点快速替换背景和⻛格,⽣成不同尺⼨的内容发布到不同平台上,最终适合整体营销的战略完成。

在更聚焦的场景上,豆包视频模型也推出了更适配的解决方案,⽐如电商营销场景,可以让用户根据商品生成大量的配合营销节点的视频素材,并且适配不同媒体平台的不同尺⼨发布。

在视频发布环节,还有一个彩蛋,火山引擎带来了内部——剪映和即梦如何使用视频⽣成模型的实践案例。从抖音转战剪映 CapCut 的张楠(Kelly)通过数字分身 Kelly 的形式亮相。

在该数字人视频中,Kelly 数字分身的动作像真人一样自然,口型也可以与各国的不同语言完全适配。

这个案例也向外界展示了豆包视频大模型在场景上带来的新可能,比如自媒体、口播、营销、带货、企业培训等,不必亲自上阵进行拍摄,内容制作成本也可以大幅降低。

据悉,豆包视频模型不是期货,最新模型会在国庆节后上线到火山引擎方舟平台,即梦最新内测版已经使用了豆包视频生成模型-Seawe。

至于定价问题,谭待表示还没确定。他称「视频模型和语言模型应用场景不同,定价逻辑也不同。要考虑新体验 - 老体验 - 迁移成本,最终能否广泛应用取决于是否比以前生产力 ROI 提升很多。」


02

从「卷」价格,

回到「卷」性能


与视频大模型一同发布的,还有音乐大模型、同声传译大模型,和豆包主力模型的新升级。就像豆包视频模型的效果让人眼前一亮,上述模型产品也均有亮眼的性能提升。

这一系列新升级也反应了,火山引擎开始从「卷价格」到「卷性能」的转变,后者将会成为其下一阶段的战略重点。会后接受采访时,火山引擎总裁谭待重申了这一立场,他表示:「大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能、卷更好的模型能力和服务」。

早在今年 5 月,火山引擎推出的豆包大模型把价格降至最低每千 token 低于一厘钱,引发了大模型厂商的价格战。从那以来,模型厂商的整体模型调用量均出现了大幅提升。

据火山引擎披露,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时增长超十倍,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。

尽管如此,模型性能掣肘成为了模型调用量进一步提升的瓶颈,同时也是机会。谭待举例称,业内多家大模型目前最高仅支持 300K 甚至 100K 的 TPM(每分钟 token 数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM 峰值为 360K,某汽车智能座舱的 TPM 峰值为 420K,某 AI 教育公司的 TPM 峰值更是达到 630K。为此,豆包大模型默认支持 800K 的初始 TPM,超行业平均水平,客户还可根据需求灵活扩容。

此前 MiniMax 创始人闫俊杰向极客公园表示,从技术发展的角度看,模型推理成本 10 倍、百倍的降低是必然,只是时间问题,难的是通用模型的性能提升。

在看到从 ChatGPT 到 GPT-4,性能出现了大幅提升时,大模型领域也沿着 OpenAI 在模型预训练上做 Scaling Law,旨在用更多的数据、加更多的算力、提升模型参数量的做法来提升模型性能。随着这一路径的效率降低、优质数据耗尽的担忧,通过这一方法提升性能的路径陷入瓶颈。

现在,随着 o1 的出现,大模型在推理阶段引入强化学习的路径,带来了进一步提升模型性能的明确路径。

同时,随着更多企业在 AI 应用上的探索,也为模型性能的定向提升带来了很多工程调优手段。更好的模型性能、更好用的模型服务,才能在产品上打开更多场景,而这也将成为包括火山引擎在内的 AI 基础设施服务商们下一阶段的重点。