智能數(shù)字人平臺(tái)開發(fā)商「向量方程」,此前完成近千萬(wàn)元天使輪融資,由真成資本(已投資得到 APP、印象筆記)領(lǐng)投,北京極信管理咨詢和上海天使匯跟投。資金將用于豐富數(shù)字人產(chǎn)品技術(shù)的研發(fā)。
「向量方程」成立于 2024 年 3 月 14 日,創(chuàng)始人 &CEO 沈仁奎為原得到 / 羅輯思維 CTO,曾先后就職于騰訊和百度,聯(lián)創(chuàng)團(tuán)隊(duì)具有百度、美團(tuán)等互聯(lián)網(wǎng)研發(fā)經(jīng)驗(yàn)。產(chǎn)品「石榴數(shù)字人」為聚焦于亞洲人的一站式 AI 數(shù)字人視頻創(chuàng)作平臺(tái),于今年 6 月開始商業(yè)化運(yùn)作。
短視頻早已成為流量獲客的王者,AI 數(shù)字人更添一把火。海外 AI 視頻生成公司 Heygen,年化收入在 14 個(gè)月內(nèi)從 100 萬(wàn)美元快速增長(zhǎng)到 3500 萬(wàn)美元。國(guó)內(nèi)預(yù)計(jì)到 2025 年,虛擬數(shù)字人的核心市場(chǎng)規(guī)模將達(dá)到 480.6 億元人民幣,騰訊、阿里、字節(jié)等也紛紛入局。
沈仁奎向《智能涌現(xiàn)》透露,早在四年前他就萌生了做數(shù)字人的想法,只是一直在等到技術(shù)拐點(diǎn)的到來(lái)。
" 當(dāng)看到一篇論文中提出的數(shù)字人新架構(gòu)時(shí),我意識(shí)到這就是自己一直在等待的、可商業(yè)化的技術(shù)。" 他提到," 以往采集建模數(shù)據(jù)通常一天起步,現(xiàn)在 3-5 分鐘就能迅速生成一個(gè)數(shù)字人。"
數(shù)字人賽道正從上一代的 3D 引擎等技術(shù)棧向大模型靠攏,數(shù)字人的生產(chǎn)效率有很大提升——即便是低價(jià)位數(shù)十元做出來(lái)的數(shù)字人效果,也比以前一百多萬(wàn)的效果要強(qiáng)。
在沈仁奎看來(lái),因?yàn)榧夹g(shù)負(fù)債少,公司 " 新 " 反而是優(yōu)勢(shì)。而在巨頭的競(jìng)爭(zhēng)中,新一代創(chuàng)業(yè)者的機(jī)會(huì)依舊存在。巨頭的主要賽道是信息分發(fā),而不是信息生產(chǎn),并且他們即使入局也難以通吃標(biāo)準(zhǔn)化產(chǎn)品和服務(wù)。
「石榴數(shù)字人」是典型的信息生產(chǎn)產(chǎn)品,能夠?qū)⑽谋拘畔⑥D(zhuǎn)為數(shù)字人視頻,為內(nèi)容創(chuàng)作提效。畫面上,它的仿真程度高,能 1:1 重現(xiàn)真人視頻的人物、場(chǎng)景、服裝和動(dòng)作。高質(zhì)數(shù)據(jù)訓(xùn)練得到的優(yōu)質(zhì)底層模型,可以促進(jìn)不同語(yǔ)種的嘴型對(duì)齊等任務(wù),并大幅減少所需的數(shù)據(jù)量。
與目前頭部的視頻生成廠商相比,「石榴數(shù)字人」錄制視頻所需時(shí)長(zhǎng)較短,從以往的 30 分鐘大幅縮短至了 30 秒。同時(shí),「石榴數(shù)字人」更適應(yīng)中文環(huán)境,在戶外走動(dòng)等動(dòng)態(tài)場(chǎng)景中表現(xiàn)出優(yōu)勢(shì),還可以實(shí)現(xiàn)多個(gè)數(shù)字人在同一畫面中互動(dòng)。
能打籃球、能騎車、會(huì)說(shuō)多國(guó)語(yǔ)言的石榴數(shù)字人
聲音上,TTS(Text To Speech,文本轉(zhuǎn)語(yǔ)音)的機(jī)械音問(wèn)題得到了解決,現(xiàn)在的發(fā)聲更真實(shí)自然、抑揚(yáng)頓挫。售價(jià)千元級(jí)的自研高階版聲音對(duì)標(biāo)業(yè)內(nèi)十萬(wàn)級(jí)別,可以個(gè)性化定制口音與發(fā)聲習(xí)慣,更高質(zhì),也更適配場(chǎng)景。
沈仁奎向《智能涌現(xiàn)》介紹,「石榴數(shù)字人」已實(shí)現(xiàn)全流程自動(dòng)化定制數(shù)字人。一方面,用戶在錄制視頻時(shí)無(wú)需注意對(duì)口型的細(xì)節(jié),臉部扭動(dòng)角度不超過(guò) 30 度即可。另一方面,系統(tǒng)能夠處理中英文混排和復(fù)雜的數(shù)字場(chǎng)景,通過(guò)智能斷句和上下文分析,實(shí)現(xiàn)自然流暢的輸出。因?yàn)槿コ巳斯じ深A(yù)成本,平臺(tái)只按視頻生成時(shí)長(zhǎng)收費(fèi)。
對(duì)于高客單,「石榴數(shù)字人」還會(huì)提供 AI 助手,在微信對(duì)話窗口中實(shí)現(xiàn)抓字幕、改寫和生成視頻等交互功能。
當(dāng)前,國(guó)內(nèi)許多產(chǎn)品聚焦于創(chuàng)作者生態(tài),「石榴數(shù)字人」也推出了一鍵式視頻創(chuàng)作服務(wù),這是現(xiàn)階段應(yīng)用最廣泛的場(chǎng)景。然而,沈仁奎認(rèn)為,面向企業(yè)級(jí)市場(chǎng)的機(jī)會(huì)更大,且市場(chǎng)尚未飽和,是公司更關(guān)注的方向。
在這條賽道上,「石榴數(shù)字人」為企業(yè)提供創(chuàng)新的視頻解決方案,借助數(shù)字人和自動(dòng)化技術(shù),幫助企業(yè)快速生成大量視頻內(nèi)容,提升運(yùn)營(yíng)效率并加速效果優(yōu)化。
此外,「石榴數(shù)字人」計(jì)劃拓展至互動(dòng)視頻領(lǐng)域,讓數(shù)字人能夠與觀眾進(jìn)行實(shí)時(shí)互動(dòng),不再局限于靜態(tài)展示。
互動(dòng)視頻并不等同于直播,直播只是其中的一個(gè)應(yīng)用場(chǎng)景之一。盡管數(shù)字人直播是未來(lái)的發(fā)展方向,沈仁奎表示當(dāng)前仍在等待技術(shù)進(jìn)一步成熟。
" 數(shù)字人直播的核心挑戰(zhàn)不僅在于技術(shù),更在于對(duì)行業(yè)需求的深刻理解,關(guān)鍵在于快速提煉出可操作的行業(yè)經(jīng)驗(yàn),并將其轉(zhuǎn)化為用戶友好的產(chǎn)品體驗(yàn)。" 他補(bǔ)充道。
目前,「石榴數(shù)字人」已成功實(shí)現(xiàn)商業(yè)化運(yùn)營(yíng)。未來(lái),公司將持續(xù)優(yōu)化產(chǎn)品功能,擴(kuò)大市場(chǎng)布局,并吸引更多優(yōu)秀人才,推動(dòng)進(jìn)一步發(fā)展。
來(lái)源:36氪