老头猛的挺进她莹莹她的体内视频,精品国产国产综合精品,亚州日本乱码一区二区三区

字節(jié)跳動不能輸?shù)舻囊粓稣?| 焦點分析

發(fā)表時間：2024-10-07 09:26:27

文章作者：小編

瀏覽次數(shù)：

事情大家都知道了：字節(jié)跳動終于發(fā)布了自家的“Sora”。

9月24日的深圳AI創(chuàng)新巡展上，火山引擎發(fā)布兩款視頻生成大模型PixelDance（像素舞動）和Seaweed（海草），并且面向企業(yè)市場開啟邀測。

這是一次毫無預(yù)警的發(fā)布。除了少數(shù)進入到內(nèi)測環(huán)節(jié)的創(chuàng)作者，字節(jié)沒有發(fā)布任何有關(guān)新產(chǎn)品的消息。

盡管低調(diào)，但市場對字節(jié)系Sora仍有著巨大期待。年初，OpenAI的Sora幾乎是一腳踢開了多模態(tài)、視頻生成的大門。之后，6月快手可靈的爆火出圈，徹底點燃了這個賽道。

作為短視頻巨頭的字節(jié)，從去年ChatGPT發(fā)布后，就備受市場關(guān)注。從已有條件上看，字節(jié)幾乎是大廠中，做大模型和AI產(chǎn)品先天優(yōu)勢最足的一家：有錢、有芯片、人才密度也足夠大。

類Sora賽道，也早已被市場公認(rèn)為是字節(jié)、快手的“天選場景”——短視頻巨頭不僅有巨量數(shù)據(jù)，也有足夠豐富的應(yīng)用場景。

但現(xiàn)實是，快手可靈自6月上線以來，已有超260萬人使用過可靈，累計生成了2700萬個視頻、5300萬張圖片。此前的字節(jié)卻仍未有動靜，不免要面對市場上的諸多猜測——等到此時發(fā)布AI視頻生成模型，還有多大勝算？

字節(jié)版“Sora”，可以摘掉Sora的帽子嗎？

從效果上看，兩款模型初步可以實現(xiàn)的的效果，無疑令人驚艷。

字節(jié)官方給出的實例中，無論是統(tǒng)一性、角色豐富度，都上了一個臺階。

由文字或圖像生成的AI視頻，不僅能夠遵循復(fù)雜指令，讓不同人物完成多個動作指令的互動，人物樣貌、服裝細(xì)節(jié)甚至頭飾在不同運鏡下也保持一致，接近實拍效果。

字節(jié)跳動不能輸?shù)舻囊粓稣?| 焦點分析(圖1)

△來源：豆包AI視頻生成模型

值得關(guān)注的，一是多幀視頻的連續(xù)性。

此前，視頻生成模型大多只能完成簡單指令，比如某個人/某個物體，完成單個動作。一旦有比較復(fù)雜的動線，視頻就容易失真、變形。

現(xiàn)在的豆包AI視頻生成模型，則可以實現(xiàn)自然連貫的動作，在奔跑、走路、抬頭等等上面，連貫性和效果都好了不少。簡單來說，不會看著看著，就突然從史密斯吃面，變成特朗普吃面。

字節(jié)跳動不能輸?shù)舻囊粓稣?| 焦點分析(圖2)

△來源：豆包AI視頻生成模型

二是角色的豐富度。豆包這次發(fā)布的AI模型，優(yōu)勢尤為突出的是多主體間的互動。

在不少實例中，都可以看到多個角色之間的互動，動作連貫合理，鏡頭類型也十分豐富，包含了多種類型的鏡頭調(diào)度方式——遠景和近景的切換。鏡頭也能實現(xiàn)變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多種形式的變化。

在切換前后，人物樣貌、服裝細(xì)節(jié)甚至頭飾也都可以保持一致。

下面這則視頻，就從前面戴潛水墨鏡的人，切換到后方另一位潛水員，兩者的形象也都保持了一致。

字節(jié)跳動不能輸?shù)舻囊粓稣?| 焦點分析(圖3)

△來源：豆包AI視頻生成模型

目前，PixelDance（像素舞動）和Seaweed（海草）模型都正在內(nèi)測版小范圍測試，還未完全開放公測。但《智能涌現(xiàn)》通過內(nèi)測風(fēng)景、人物等等場景，即夢AI在實時生成風(fēng)景視頻上，鏡頭的調(diào)度、畫面質(zhì)量上，都可圈可點。

不過，在人物生成場景里，輸入原圖+指定的動作Prompt后，隨著動作改變，一致性還是相當(dāng)可以，但會有部分手指變形的Bug，豆包本次的AI模型基于自研的DiT架構(gòu)打造，這也被認(rèn)為是OpenAI Sora的同款架構(gòu)，是目前AI視頻賽道上的主流技術(shù)路線。

不過，AI視頻生成賽道的發(fā)展階段比文字、圖像都還要更早。如今的底層算法以閉源為主，數(shù)據(jù)極其稀缺——意味著各家都只能閉門造車，拼的就是工程優(yōu)化能力。

火山引擎總裁譚待也表示，即夢AI等業(yè)務(wù)場景，已經(jīng)對Transformer結(jié)構(gòu)進行深度優(yōu)化，而在DiT架構(gòu)的研究上也有多款創(chuàng)新，才能大幅解決AI視頻應(yīng)用成本昂貴的問題，讓應(yīng)用成本降到最低。

但也有AI視頻領(lǐng)域的從業(yè)者保持冷靜，認(rèn)為不用抱有太高期待。“現(xiàn)在底層的大模型沒有代差，拉不開太大差距?！?/span>

AI博主歸藏，就把豆包和AI視頻老大哥Runway，以及明星初創(chuàng)Luma AI的生成效果，做了直觀對比——

字節(jié)跳動不能輸?shù)舻囊粓稣?| 焦點分析(圖4)

△來源：歸藏

從功能上看，此次字節(jié)發(fā)布的Seaweed模型產(chǎn)品功能和體驗更多元，不僅支持各種風(fēng)格提示詞響應(yīng)，還有橫豎多種比例的輸出。

“綜合結(jié)果比Luma要好很多，跟Runway各有優(yōu)劣。”歸藏在即刻上表示。

無論如何，字節(jié)的雄心壯志已經(jīng)擺在了桌上。除了兩款A(yù)I視頻新模型，本次字節(jié)還發(fā)布了新的豆包音樂模型和同聲傳譯模型，以及音樂模型。對創(chuàng)作者而言，豆包的大模型家族真正成為了“全家桶”：覆蓋語言、語音、圖像、視頻等模態(tài)。

更值得關(guān)注的，是業(yè)務(wù)層面的迅猛增長。

自豆包大模型家族正式發(fā)布以來，日均調(diào)用量經(jīng)歷了爆發(fā)式增長。截至9月，豆包語言模型的日均tokens使用量超過1.3萬億，相比5月首次發(fā)布時增加十倍。其中，多模態(tài)數(shù)據(jù)處理量也分別達到每天5000萬張圖片和85萬小時語音。

近期的一張AI產(chǎn)品增長表現(xiàn)統(tǒng)計圖，就頗令人玩味：單單是豆包App的MAU增長，就已經(jīng)遠遠拉開了與其他產(chǎn)品的距離。

字節(jié)跳動不能輸?shù)舻囊粓稣?| 焦點分析(圖5)

△來源：AI產(chǎn)品榜

豆包爆發(fā)式的增長，更多來自此前的激進價格戰(zhàn)。自5月以來，包括字節(jié)、阿里、騰訊等巨頭，以及Deepseek等創(chuàng)業(yè)公司，展開了一場轟轟烈烈的降價。字節(jié)甚至把每千Token價格卷到了以”厘“為單位，迅速拉到了地板價。

現(xiàn)在，底層模型已經(jīng)到了拼性能的階段。火山引擎總裁譚待，這次就又提出了一個新指標(biāo)：峰值TPM（每分鐘Token數(shù)）。“業(yè)內(nèi)多家大模型目前最高僅支持300K甚至100K的TPM，難以承載企業(yè)生產(chǎn)環(huán)境流量?！彼f。

TPM，可以看作是在在單位時間內(nèi)，模型的數(shù)據(jù)吞吐量。豆包Pro支持800K的TPM——據(jù)譚待表示，比如某科研機構(gòu)的文獻翻譯場景，TPM峰值為360K，某汽車智能座艙的TPM峰值為420K，某AI教育公司的TPM峰值會達到630K。這些場景，豆包Pro如今都可以滿足。

隨著豆包AI生成視頻的發(fā)布，字節(jié)最后補上了AI視頻的一塊拼圖。這和昨夜OpenAI突然發(fā)布的高級語音功能一起，一起形成了一種明喻：在模型層，大廠們已經(jīng)武裝到牙齒，大的細(xì)分賽道都有相應(yīng)的模型——留給創(chuàng)業(yè)者的空間，又要再一次打個問號。

字節(jié)和快手的漫長對壘

在AI賽場上，字節(jié)對于勝利的渴望已經(jīng)溢于言表。

剪映及其旗下的AI視頻產(chǎn)品“即夢”，就由前抖音集團CEO、現(xiàn)剪映業(yè)務(wù)負(fù)責(zé)人張楠親自帶隊。而為了盡快讓此次的兩款新AI視頻生成模型上線，字節(jié)也抽調(diào)了不少人做工程。

字節(jié)跳動的焦慮，來自短視頻戰(zhàn)場上的老對手：快手。

2024年6月，文生視頻模型“可靈”，就突然空降快手剪輯產(chǎn)品“快影”。

在行業(yè)苦等“中國版Sora”出現(xiàn)的當(dāng)下，可靈的表現(xiàn)是亮眼的。

“現(xiàn)在視頻生成很難做長的原因，一是成本高，二是前后一致性太難保證?！币幻鸄I從業(yè)者告訴36氪，“但是可靈能生成2分鐘視頻，比Sora（60秒）的天花板還高?！?/span>

更進一步，從鏡頭的連貫性和元素關(guān)系的邏輯性來看，不少業(yè)內(nèi)人士都表示，可靈在中國類Sora產(chǎn)品中，效果是Top級別。

與彼時仍未開放的Sora，和小出圈的生數(shù)科技視頻生成模型Vidu相比，快手對“老鐵們”也可謂是慷慨和坦誠：立馬開放公測，且免費。

與“眾多工程師參與”的PixelDance和Seaweed不同，可靈團隊的項目執(zhí)行方式可謂是相當(dāng)粗放和激進。

有媒體曾報道，可靈團隊只有20余人，從立項到上線只花了3個月。可靈啟動一個月后，就被上升為快手的戰(zhàn)略級項目?？焓指呒壐笨偛?、主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤常說的一句話是：公司的卡都給你們用，公司全力支持。

在豆包發(fā)布之前，可靈也提供截至9月19日，可靈已經(jīng)迭代了9次，最新的1.5版本上線了Web端，有了更高清的畫質(zhì)、更符合物理規(guī)律的運動軌跡，支持更為復(fù)雜的鏡頭控制和可自定義的運動軌跡。

不少從業(yè)者對36氪判斷，可靈的出圈，與快手豐富的視頻數(shù)據(jù)積累密不可分。而能與之一戰(zhàn)的，大概率只有擁有抖音的字節(jié)跳動。

然而在視頻生成領(lǐng)域，字節(jié)對陣快手以來，碰到了罕見的敗北。其實早在可靈發(fā)布前1個月，剪映就在AIGC產(chǎn)品“即夢”上線了AI視頻生成功能。

但無論是關(guān)注度，還是用戶口碑，即夢都不算一款成績漂亮的產(chǎn)品。一名使用者評價：在效果一般的情況下，非會員生成視頻超3秒竟然還要收費。

壓力已經(jīng)給到了字節(jié)。一位AI 3D領(lǐng)域生成的從業(yè)者就表示，AI視頻生成公司給出的樣例，一般都是嘗試過輸入多次Prompt，才得出來的Good Case（好樣本）。等之后全量上線，才能真正看到豆包在實用場景下的表現(xiàn)。

“一些明顯可以感知的指標(biāo)在于，長鏡頭時長什么時候可以超過1分鐘，多分鏡切換后時空一致性能不能保持，以及隨著分辨率加大時，生成時間會不會跟隨分辨率指數(shù)增長?！彼硎?。

對于當(dāng)下的抖音和剪映業(yè)務(wù)體量而言，AI視頻的應(yīng)用成本依舊是高昂的。

一個最直觀的問題在于，對于剪映這樣一個月活已經(jīng)超過3億，專注在視頻剪輯場景的應(yīng)用，如何要在降低AI應(yīng)用成本的同時，維持產(chǎn)品和效果的高水平，將是更難的挑戰(zhàn)。

先發(fā)優(yōu)勢在AI模型層依然重要。目前，可靈、Vidu已經(jīng)先行占據(jù)了視頻生成領(lǐng)域的用戶心智，作為后入者的字節(jié)，不得不加快步伐。

漫長的戰(zhàn)役才剛剛開始。

關(guān)注多享有數(shù)，持續(xù)為您分享行業(yè)熱點要聞！

四川多享信息技術(shù)有限公司是一家專注于數(shù)字化服務(wù)、系統(tǒng)開發(fā)、新媒體營銷、農(nóng)村電商的專業(yè)互聯(lián)網(wǎng)公司，公司位于成都高新區(qū)天府二街，成立16年，擁有豐富開發(fā)經(jīng)驗，至今已助力5000+中小企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型升級。

研發(fā)了B2C商城系統(tǒng)、私域電商系統(tǒng)、分銷商城系統(tǒng)、S2B2b2C供應(yīng)鏈電商系統(tǒng)、小程序商城系統(tǒng)等，支持中臺云倉、供應(yīng)商、自營商城、直播、短視頻、分銷、零售商管理、運營商管理、營銷工具、數(shù)據(jù)分析、會員儲值、積分商城等功能，幫助企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型，助力降本增效，獲取更多收益！

天天影视网色香欲综合网_大桥久未无码吹潮在线观看_日韩欧美一区二区三区免费看_中文人妻无码一区二区三区

字節(jié)版“Sora”，可以摘掉Sora的帽子嗎？

字節(jié)和快手的漫長對壘

電話咨詢

友情鏈接

天天影视网色香欲综合网_大桥久未无码吹潮在线观看_日韩欧美一区二区三区免费看_中文人妻无码一区二区三区

字節(jié)版“Sora”，可以摘掉Sora的帽子嗎？

字節(jié)和快手的漫長對壘

電話咨詢

友情鏈接

字節(jié)版“Sora”，可以摘掉Sora的帽子嗎？