文章列表-AI魔法学院

文章列表

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

Prompt提示优化工具

下面汇总了一些Prompt工具，可以辅助日常Prompt的编写。

prompt 提示词

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.01 概述在日常生活和工作中，你是否常因嘈杂的环境、重叠的对话或音视频信号的混杂而感到沟通困难？

ClearerVoice-Studio 语音

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

十大开源语音识别项目

这些项目不仅在语音技术领域具有重要意义，而且为语音识别应用的发展提供了有力的支持。

语音识别开源项目

20款AI工具助力在家副业

通过与AI进行面试练习 4 MyHeritage Reimagine 扫描修复或将日照片动画化的服务 5 Liffery 你的个人人工智能研究助手 6 Gamma 使用人工智能来帮助塑造您的

工作

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

AI换脸工具:facefusion使用心得

下面是不同模型的用途说明(具体查阅了chatGPT4和Gemini)： 1.

FaceFusion 文生图

语音克隆又又又又又升级了

，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求

Meta 语音生成

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

多语言支持：目前支持英语、俄语、中文的语音克隆（来自任何语言的音频）以及英语、俄语合成，并计划扩展西班牙语的语音克隆合成模型。

AI语音克隆实时语音识别

AIGC工具提示词技巧

而现在，给机器或者程序一个具体指令，比如背景、原因、想要的结果等，需要用结构化语言告诉模型。

AIGC 提示词

阿里的AI一键换衣（AnyDoor）工具来了

不过，这个功能实际操作起来还是比较麻烦的，近日阿里和港大推出了一个工具，可以轻松实现一键换衣，当然，这个工具不仅仅换衣那么简单，还可以把任意一张图片里的元素，毫无违和感的转移到另外一张图片，很像哆啦A梦里的任意门

AnyDoor 换装文生图

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1