LLaVA - AI导航网官网

LLaVA是一个大型多模态模型，旨在实现通用视觉和语言理解。它端到端训练，可以理解文本和图像，并在聊天中灵活运用这些信息。LLaVA在多模态指令跟随数据集上与GPT-4表现相似，相对分数达到85.1%。在Science QA上，其准确率达到92.53%。LLaVA模型将预训练的视觉编码器（CLIP ViT-L/14）与大型语言模型（Vicuna）通过简单投影矩阵连接。训练分为两个阶段：阶段1只更新投影矩阵，基于CC3M子集进行特征对齐预训练；阶段2更新投影矩阵和大型语言模型进行端到端微调，适应日常用户导向应用和科学问答场景。