8月22日,可靈AI正式推出基于2.1模型的全新首尾幀功能。該功能通過端到端多模態(tài)語義推理能力的升級,顯著提升首尾幀功能視頻生成效果。據(jù)評測數(shù)據(jù)顯示,與此前1.6版本相比效果提升235%,在視頻轉(zhuǎn)場、視覺沖擊力、復(fù)雜運鏡及創(chuàng)意營銷等維度表現(xiàn)尤為突出。
攻克轉(zhuǎn)場難題 多場景絲滑銜接
可靈2.1模型首尾幀功能的核心突破之一,是解決AI視頻生成中常見的轉(zhuǎn)場難題,如場景銜接生硬“剎車感”強等。測試視頻中,一名年輕亞洲女性從堆滿書籍與佛像的房間轉(zhuǎn)身,鏡頭推進至金色裝飾逐漸增多的空間……過程中,角色發(fā)型(長發(fā)自然垂落轉(zhuǎn)為側(cè)梳)、服裝(白色長袖襯衫變?yōu)闊o袖上衣)、光線(暖光由散射轉(zhuǎn)為聚焦)均實現(xiàn)無縫銜接,場景切換邏輯清晰連貫。

該案例通過多個首尾幀相接實現(xiàn)連續(xù)多個絲滑轉(zhuǎn)場,也驗證了模型對藝術(shù)風格切換與角色動態(tài)銜接的精準把控。
強化視覺沖擊效果 打造超燃視覺特效
此次可靈2.1首尾幀可實現(xiàn)強烈的視覺沖擊效果,助力輕松打造超燃視覺特效。實測視頻中展現(xiàn)了極具張力的人物變身過程,人物輪廓在深藍背景中逐步蛻變?yōu)榧兓鹧嫘螒B(tài),火山巖漿流動、星空背景下的烈焰升騰等細節(jié)均清晰呈現(xiàn),節(jié)奏與危險緊張的氛圍高度匹配,體現(xiàn)出模型對復(fù)雜視覺元素的精準控制。

專業(yè)級復(fù)雜運鏡 全面提升沉浸感
可靈2.1首尾幀可以支持電影級復(fù)雜運鏡,通過首尾幀連續(xù)銜接,實現(xiàn)鏡頭軌跡與場景邏輯的高度匹配。例如,在模型連續(xù)生成的這兩個視頻中,鏡頭先快速向左下?lián)u鏡,突出趴在地上爬行的破舊機器人,隨后快速左搖,拍攝逃竄機器人與爆炸場景……整個過程鏡頭調(diào)度一氣呵成,過程絲滑流暢。

創(chuàng)意十足 輕松打造高質(zhì)感營銷素材
全面升級后的首尾幀功能還可快速生成符合品牌調(diào)性的創(chuàng)意展示視頻,廣泛適用于市場營銷等領(lǐng)域,顯著降低素材制作成本。例如,在這個飲品廣告案例中,易拉罐快速從樹莓中飛出,周圍的樹莓如爆炸般散開,果汁向四周飛濺,整個過程絲滑自然,給觀眾帶來身臨其境的沉浸式體驗。

橫評碾壓 表現(xiàn)超越Midjourney與Seedance
專業(yè)評估人員對可靈2.1、可靈1.6、Seedance1.0 mini、Midjourney等模型的首尾幀功能進行了客觀的效果評測。結(jié)果顯示,可靈 2.1首尾幀在整體效果及多個細分維度上均表現(xiàn)優(yōu)異,與Seedance1.0 mini 對比的整體GSB得分達到2.09,與Midjourney對比的整體GSB得分達到2.30,與可靈1.6對比的整體GSB得分達到3.35。同Midjourney、Seedance1.0 mini 進行兩兩偏好對比顯示,可靈2.1首尾幀的勝率分別達到62%、57%。

注:GSB 指標用于衡量群體意見的一致性和正負傾向,GSB 值越大,說明模型優(yōu)勢越大
這一卓越表現(xiàn)得益于可靈2.1在端到端優(yōu)化的多模態(tài)語義推理能力上的進一步提升。模型能夠深度整合用戶的提示詞與首尾幀圖片中的豐富視覺語義及動作意圖,高效融合多模態(tài)數(shù)據(jù),精準捕捉并推理畫面元素在時空維度上的演變邏輯。無論是不同藝術(shù)風格的切換、角色間的絲滑銜接,還是復(fù)雜運鏡與場景遷移,都能在語義驅(qū)動下生成自然流暢且充滿想象力的動態(tài)畫面。
與此同時,可靈2.1引入了自適應(yīng)擴散引導(dǎo)與方向重定向機制,進一步提升了視頻生成的穩(wěn)定性和專業(yè)質(zhì)感。該機制在擴散生成的每一步對條件分布進行動態(tài)引導(dǎo)和糾正,有效修正偏離語義或視覺邏輯的動態(tài)路徑,確保動作銜接平滑、運動節(jié)奏穩(wěn)定可控。
此外,模型在生成過程中嚴格保持人物/物體身份一致性、色彩風格與畫面基調(diào)的連貫統(tǒng)一,顯著提升了視頻的專業(yè)質(zhì)感。即使面對高動態(tài)場景下的挑戰(zhàn)(如局部失真、細節(jié)破碎、縮放變形及首尾幀視覺跳變等問題),該機制依然表現(xiàn)出強大的錯誤抑制與糾正能力,確保生成內(nèi)容的穩(wěn)定性和可信度。
作為全球領(lǐng)先的AI創(chuàng)意生產(chǎn)力平臺,可靈AI已累計完成30次迭代,服務(wù)用戶突破4500萬,累計生成視頻超2億條、圖片超4億張,覆蓋廣告、影視、游戲等多個行業(yè)。此次2.1模型首尾幀的推出,進一步提升了視頻生成一致性和穩(wěn)定性,廣泛適用于廣告營銷、影視、短劇、動畫等創(chuàng)意制作場景,進一步鞏固了其在AI視頻生成領(lǐng)域的領(lǐng)先地位。