AI开源项目

Nano Banana图片生成提示词库

100多条Nano-banana在各个任务场景下生成的令人惊艳的图片和提示词

混元图像3.0 多模态图像生成模型

混元图像3.0（HunyuanImage-3.0 ）是一个突破性的原生多模态模型，它在自回归框架内统一了多模态理解和生成任务。它的文生图能力实现了与领先的闭源模型相当或更优的性能。

ChatBox AI客户端软件

Chatbox AI 是一款 AI 客户端应用和智能助手，支持众多先进的 AI 模型和 API，可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。

Qwen-Image开源文生图模型

阿里巴巴发布了一款全新的多模态模型Qwen-Image，这款模型拥有200亿参数，专为解决“图中写字”这一难题而生。

Gemini-cli

Gemini CLI是一款命令行AI工作流工具。它连接到用户的工具、理解用户的代码，并加速其工作流程。

Jaaz-开源的AI设计Agent工具

Jaaz是一款AI 设计Agent。Lovart 的本地免费替代品。AI 代理，能够设计、编辑和生成图像、海报、故事板等，并带有用于快速迭代和布局发布的创意画布板

SillyTavernAI角色聊天界面

什么是 SillyTavern？ Silly...

Janus Pro 统一多模态理解与生成模型

Janus 是由 DeepSeek 团队开发的一系列统一多模态理解与生成模型

腾讯混元AI视频

腾讯推出的AI视频生成工具

EchoMimicV2

EchoMimicV2利用参考图像、音频剪辑和一系列手势来生成高质量的动画视频，确保音频内容和半身动作之间的连贯性。

HivisionIDPhoto

HivisionIDPhoto 是一款基于 AI 的轻量级证件照制作工具，能智能识别和抠图，快速生成符合多种规格的证件照。支持自定义背景色和尺寸，未来还将推出美颜和智能换正装功能。用户可通过 Docker 部署，轻松搭建本地服务。GitHub 上提供源代码和在线体验。

MiniCPM3-4B

MiniCPM3-4B！该模型的表现超越 Phi-3.5-mini-instruct 和 GPT-3.5-Turbo-0125，并且能够比肩 Llama3.1-8B-Instruct、Qwen2-7B-Instruct、GLM-4-9B-Chat 等多个 7B-9B 参数量的模型。

LabelU 开源标注工具

一款轻量级的开源标注工具,，LabelU 提供了多种标注工具和功能，支持图像、视频、音频标注。

ModelScope-Agent

Modelscope-Agent 是一个可自定义且可扩展的代理框架。单个代理具有角色扮演、LLM 调用、工具使用、计划和记忆等功能

FunClip自动化视频剪辑工具

FunClip是一款完全开源、本地部署的自动化视频剪辑工具，通过调用阿里巴巴通义实验室开源的FunASR Paraformer系列模型进行视频的语音识别，随后用户可以自由选择识别结果中的文本片段或说话人，点击裁剪按钮即可获取对应片段的视频

WhisperDesktop 本地音频转文字软件

支持gpu，可实现本地电脑的音频转文字软件！完全免费开源！支持 Windows、macOS、Linux

Buzz：离线开源免费语音转文字（字幕）

基于Whisper的GUI软件：Buzz：离线语音转文字（字幕）

MaterialSearch AI本地文搜图、图搜图

MaterialSearch是一个支持中文的本地素材搜索工具，可以扫描本地图片和视频，并支持自然语言进行搜索。可以文字搜图、以图搜图、文字搜视频、以图搜视频、图文相似度计算、Pexels视频搜索

CapsWriter-Offline 语音输入字幕转录工具

CapsWriter 的离线版，一个好用的 PC 端的语音输入工具、字幕转录工具。

IOPaint

IOPaint 是一款免费、开源且完全可自行托管的修复/修复工具，由最先进的 AI 模型提供支持。您可以在 IOPaint 中使用各种模型来更改图像，包括修改、擦除

Lepton Search

Lepton Search是由贾扬清创办的Lepton AI应用构建平台开源的一个对话式AI搜素引擎

OpenVoice

OpenVoice 是 myshell ai 开源的一款基于人工智能技术的语音克隆工具。

Portkey AI Gateway

允许开发者通过一个简单的API接口来访问超过100种不同的大语言模型。包括OpenAI、Anthropic、Mistral、LLama2、Anyscale、Google Gemini等。

FastGPT

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景

GPT-SoVITS

支持通过5秒音频克隆、1分钟音频克隆，也支持通过完整训练来克隆

FunASR 基础语音识别工具包

FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程，支持预训练好的模型的推理与微调

PhotoMaker

PhotoMaker：利用多张照片作为身份ID，获取人物特征，然后根据描述生成一个新的、个性化的人物图像。

DDColor

一个为黑白图像上色的魔搭模型，通过双解码器实现逼真的图像着色，输入一张黑白图像，实现端到端的全图上色，返回上色处理后的彩色图像。

LibreChat

一个增强版免费开源的ChatGPT程序，LibreChat 是一个免费开源的聊天机器人平台，集成了多种 AI 模型。

Chatbot UI

一个开源的聊天机器人Web UI框架，Chatbot UI提供 OpenAI 的 ChatGPT UI 的改进版本。提供了一个简单的用户界面，具有新对话、新聊天、导入数据、导出数据、设置和插件键等功能。

AInav - AI导航网 | 发现AI,导航未来