Qwen-Image开源文生图模型

阿里巴巴发布了一款全新的多模态模型Qwen-Image，这款模型拥有200亿参数，专为解决“图中写字”这一难题而生。

Qwen-Image是一个200亿参数的MMDiT模型，可生成写实、动漫、赛博朋克、科幻、极简、复古、超现实、水墨等几十种类型的图片，支持图片的风格迁移、增删改、细节增强、文字编辑，人物姿态调整等常规操作。

在复杂文本渲染和精准图像编辑方面取得了显著进展。实验表明，该模型在图像生成和编辑方面均具有强大的通用能力，并且在文本渲染方面表现出色，尤其对中文文本渲染尤为出色。

Qwen-Image也可以生成OpenAI的GPT-4o爆火全网的吉卜力风格图片。根据「AIGC开放社区」实际测试二者差距很小，尤其是在超复杂中文提示词理解、文字嵌入方面Qwen-Image更好。

根据阿里公布的测试数据显示，Qwen-Image在GenEval、DPG、OneIG-Bench以及GEdit、ImgEdit和GSO测试中，图片生成、编辑能力非常出色，大幅度超越了文生图开源大黑马FLUX.1 [Dev]，成为中文最好的文生图模型。

Qwen-Image开源文生图模型

免费在线体验地址：

1：官网：https://chat.qwen.ai/

开源地址：

huggingface：https://huggingface.co/Qwen/Qwen-Image

相关导航

通义听悟是阿里云通义家族新成员，是一款聚焦于音视频内容的工作学习AI助手。内置了通义千问大模型的理解与摘要能力，结合阿里云在音频AI领域深厚的积累，可帮助用户高效地完成对音频视频内容的记录、转写、摘要、整理和分析，实现通义大模型能力与场景化应用的结合，成为人人都可亲手体验和使用的效率工具。

多语言视觉文本生成和编辑工具，它基于扩散模型，能够在图片中生成或编辑文字

给出一段长视频，我们把它变成一个包含视觉+音频信息的文档。通过将这份文件发送给ChatGPT，我们就可以在视频中进行聊天了！

Stable Diffusion WebUI在线服务，无需代码和GPU，开箱即用，移动使用,集成热门Civitai模型，可视化选择AI绘画模型，也可自己上传模型！

一款适用于搭建内部培训平台的开源系统，旨在为企业/机构打造自己品牌的内部培训平台

一款完全离线的OCR图片转文字识别软件，支持命令行、HTTP接口等多种调用方式，支持截图OCR / 批量OCR / 二维码 / 数学公式识别（测试中）

暂无评论...