同時,團(tuán)隊(duì )訓(xùn)(xùn )練了一(yī )個統(tǒng)一的視頻理解模型 SkyCaptioner-V1,它能夠高效地理解視頻數(shù)(shù )據(jù),生成符合原始結(jié)構(gòu)信息的多(duō )樣化(huà )描述。通過這種方式,SkyCaptioner-V1不(bú )僅能夠理解視頻的一般內(nèi)(nèi )容,還能(néng )捕(bǔ )捉到電影場景中的專業(yè)鏡頭語言,從(cóng )而顯著提高了生(shēng )成視頻的提示詞遵循能(néng )力。此外,這個(gè )模型現(xiàn)在已經(jīng)開(kāi )源,可以(yǐ )直接使用。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利