VSP-LLM框架：高效的视觉语音处理

引入了一种全新的框架——VSP-LLM（Visual Speech Processing incorporated with LLMs），即结合LLMs的视觉语言处理，这一框架通过引入大型语言模型（LLMs）的强大能力，极大地提升了上下文建模的能力。VSP-LLM旨在执行视觉语音识别和翻译的多任务，通过自监督的视觉语言模型将输入视频映射到LLM的输入潜空间。

home_open_VSP_LLM_1

针对输入帧中冗余信息问题，我们提出了一种新颖的去重方法，通过视觉语言单元减少嵌入式视觉特征。通过所提出的去重方法和低秩适配器（LoRA），VSP-LLM可以以计算高效的方式进行训练。

准备工作

环境搭建： 首先创建并激活名为vsp-llm的Python 3.9环境。

    
    conda create -n vsp-llm python=3.9 -y
conda activate vsp-llm

代码获取： 克隆VSP-LLM项目到本地，并安装必要的依赖包。

    
    git clone https://github.com/Sally-SH/VSP-LLM.git
cd VSP-LLM
pip install -r requirements.txt

模型与数据准备：下载AV-HuBERT预训练模型和LLaMA2-7B模型，以及根据Auto-AVSR准备LRS3数据集。

数据预处理

根据Auto-AVSR指导文档预处理LRS3数据集。
遵循AV-HuBERT的步骤从第3步开始创建LRS3数据集的清单。

训练流程

脚本配置：在训练脚本（scripts/train.sh）中替换相应的变量路径。

执行训练： 运行训练脚本，开始模型的训练过程。

    
    bash scripts/train.sh

解码与评估

在解码脚本（scripts/decode.sh）中配置相应的变量路径。

执行解码脚本，得到模型的解码结果和评分。

    
    bash scripts/decode.sh

VSP-LLM框架为视觉语音处理领域带来了一次质的飞跃，通过高效的去重方法和LLMs的强大上下文建模能力，实现了更准确、更自然的视觉语音识别和翻译。无论是研究者还是技术爱好者，VSP-LLM都开启了探索视觉语音处理新方法的大门。