Janus Pro — DeepSeek开发的统一多模态理解与生成模型

Janus-Pro是什么

Janus 是由 DeepSeek 团队开发的一系列统一多模态理解与生成模型，旨在通过解耦视觉编码来实现多模态任务的高效处理。Janus-Pro 是 Janus 的升级版本，进一步优化了训练策略、扩充了训练数据集，并扩大了模型规模，从而在多模态理解和文本到图像生成能力上取得了显著提升。

Janus-Pro的功能

多模态理解：Janus 和 Janus-Pro 能够处理多种多模态任务，包括图像描述、表格和图表理解等。通过将视觉编码解耦为独立的通道，模型能够更有效地提取图像中的高维语义特征，并将其映射到语言模型的输入空间中，从而实现对复杂多模态数据的理解。
文本到图像生成：Janus 和 Janus-Pro 具备根据文本描述生成图像的能力。模型通过将文本和图像特征序列整合为统一的多模态特征序列，输入大语言模型进行处理，从而生成与文本描述相符的图像。Janus-Pro 在此方面进行了优化，引入了大量合成美学数据样本，显著提升了生成图像的稳定性和美学质量。
指令遵循与对话能力：通过监督微调，Janus 和 Janus-Pro 能够更好地遵循用户指令，并在对话场景中提供准确的回答。模型在多模态理解和生成任务中均表现出色，能够处理各种复杂的输入和任务需求。

Janus-Pro的技术原理

视觉编码解耦：Janus 和 Janus-Pro 采用独立的视觉编码路径，分别用于多模态理解和生成任务。这种解耦方式缓解了视觉编码器在理解和生成任务中的角色冲突，提高了模型的灵活性和可扩展性。例如，在多模态理解中使用 SigLIP 编码器提取高维语义特征，而在视觉生成中使用 VQ 分词器将图像转换为离散 ID 序列。
自回归框架：整个模型基于自回归框架，使用统一的 Transformer 架构进行处理。模型通过内置的预测头进行文本预测，同时引入随机初始化的预测头用于图像预测。这种设计使得模型能够在多模态任务中保持一致性和高效性。
训练策略优化：Janus-Pro 对训练策略进行了优化，包括增加第一阶段的训练步数、在第二阶段中直接使用标准文本生图数据进行训练，以及调整第三阶段监督微调过程中的数据配比。这些改进提高了模型的训练效率和整体性能。
数据扩充与模型扩展：Janus-Pro 显著扩充了训练数据集，包括多模态理解数据和视觉生成数据。同时，模型规模从 1B 参数扩展到 7B 参数，进一步提升了模型的表达能力和性能。