為了提高提(tí )示詞遵循能(néng )力,團(tuán )隊設計了一種結構化的視頻表示方(fāng )法,將多模(mó )態(tài)LLM的一般描述與子專家模型的詳細鏡頭語言相(xiàng )結(jié )合(hé )。這種方法能夠識別視頻(pín )中(zhōng )的主體(tǐ )類(lèi )型、外觀、表情(qíng )、動作和位置等信息,同時通過人工(gōng )標注(zhù )和模型訓練,進一(yī )步提升了對鏡頭語言的理(lǐ )解能力。
版權所有 ? 2025 青龍影院 保留所有權利