支持gpu,可实现本地电脑的音频转文字软件!完全免费开源!支持 Windows、macOS、Linux
基于Whisper的GUI软件:Buzz:离线语音转文字(字幕)
MaterialSearch是一个支持中文的本地素材搜索工具,可以扫描本地图片和视频,并支持自然语言进行搜索。可以文字搜图、以图搜图、文字搜视频、以图搜视频、图文相似度计算、Pexels视频搜索
CapsWriter 的离线版,一个好用的 PC 端的语音输入工具、字幕转录工具。
IOPaint 是一款免费、开源且完全可自行托管的修复/修复工具,由最先进的 AI 模型提供支持。您可以在 IOPaint 中使用各种模型来更改图像,包括修改、擦除
在此次Qwen1.5版本中,我们开源了包括0.5B、1.8B、4B、7B、14B和72B在内的6个不同规模的Base和Chat模型,并一如既往地放出了各规模对应的量化模型
Lepton Search是由贾扬清创办的Lepton AI应用构建平台开源的一个对话式AI搜素引擎
OpenVoice 是 myshell ai 开源的一款基于人工智能技术的语音克隆工具。
允许开发者通过一个简单的API接口来访问超过100种不同的大语言模型。包括OpenAI、Anthropic、Mistral、LLama2、Anyscale、Google Gemini等。
FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景
支持通过5秒音频克隆、1分钟音频克隆,也支持通过完整训练来克隆
FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调
PhotoMaker:利用多张照片作为身份ID,获取人物特征,然后根据描述生成一个新的、个性化的人物图像。
一个为黑白图像上色的魔搭模型,通过双解码器实现逼真的图像着色,输入一张黑白图像,实现端到端的全图上色,返回上色处理后的彩色图像。
一个增强版免费开源的ChatGPT程序,LibreChat 是一个免费开源的聊天机器人平台,集成了多种 AI 模型。
一个开源的聊天机器人Web UI框架,Chatbot UI提供 OpenAI 的 ChatGPT UI 的改进版本。提供了一个简单的用户界面,具有新对话、新聊天、导入数据、导出数据、设置和插件键等功能。
网易有道一个开源的本地知识库问答系统,旨在支持多种文件格式和数据库,允许离线安装和使用。
一个带web界面的声音克隆工具,使用你的音色或任意声音来录制音频
EmotiVoice是一个强大的开源TTS引擎,完全免费,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。
一键免费部署你的跨平台私人 ChatGPT 应用, 支持 GPT3, GPT4 & Gemini Pro 模型。(基于 LangChain 实现插件功能)
一个功能强大的视频处理工具,可满足用户在视频翻译、配音和编辑等方面的需求。
将屏幕截图转换为清洁的HTML / Tailwind / JS代码
GeminiProChat是GeminiPro的最小化Web界面,提供简洁有效的聊天体验。它支持通过环境变量来控制网站,允许使用者通过Docker部署,并提供易于部署的Vercel和Railway选项。
一个将稳定扩散模型引入Web浏览器的项目
一个用于音频处理和生成的深度学习库
一个封装的非常好的ChatGPT nodejs库
全文本搜索引擎库
一个基于飞桨(PaddlePaddle)的跨模态大模型开发套件,旨在聚合图像、文本、视频等多种模态,以支持各种跨模态任务
一种分层自适应零样本语音风格转换模型
一个功能强大的数据库工具,它可以帮助用户子集化数据库、浏览关系数据,并提供数据库维护和管理功能。