一个开源工具包,可实现语音、声音和歌唱功能
Amphion是一个开源工具包,可实现语音、声音和歌唱功能。除了文字转语音功能,它还能将一首歌的声音换成另一个歌手的声音,并支持声音转换、歌声合成、文本到音频、文本到音乐等功能。
一个用于图像和视频修复的应用程序,它使用ESRGAN模型进行训练,该模型使用合成数据进行图像和视频的恢复
1,100 多种语言推出语音转文本、文本转语音等功能,语音转文本的错误率只有 Whisper 的一半
音频转文字
用户提供一张自己的全身照,就可以获得自己穿上对应服装的样子
一键移除视频内的移动物体,一键移除视频水印。基于E2FGVI实现。
一种专门为实时图像生成服务设计的扩散模型管道,显著地提升了实时图像生成的性能。