為了提高提示詞遵循能力,團(tuán)隊(duì)設(shè)(shè )計(jì)了一種結(jié)構(gòu)(gòu )化的視(shì )頻表示方法,將(jiāng )多模態(tài)(tài )LLM的一(yī )般描(miáo )述與子專家模型的詳細(xì)鏡頭語言相結(jié)合(hé )。這種方法能(néng )夠識(shí)別視頻中的主體類型、外觀、表(biǎo )情、動(dòng)作和位置(zhì )等信(xìn )息,同時(shí)通過人工標(biāo)注和模型訓(xùn)(xùn )練,進(jìn)一步(bù )提升了對(duì)鏡頭語(yǔ )言的理解(jiě )能力(lì )。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利