首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· AI异常值案例库第2期,5个灵感案例,新型流量获客法和产品形态
· Fooocus制作从小到老图
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· 阿里Outfit Anyone实现真人百变换装
· 高效选择:Ollama与LM Studio深度对比
· 大模型中的Top-k、Top-p、Temperature详细含义及解释
· Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰
· 6个最佳开源TTS引擎
· AI换脸工具:facefusion使用心得
· SD入门教程二:文生图基础用法(提示词)
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
Python
Whisper对于
中
文
语
音
识别与转写
中
文
文
本优化的实践(Python3.10)
阿里的FunAsr对Whisper
中
文
领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对
中
文
的
语
音
做一些优化的措施,换句话说,Whisper的“默认”形态可能在
中
文
领域斗不过
Whisper
语音优化
视频
Wunjo AI: 合成和克隆英
语
/俄
语
/
中
文
语
音
,实时
语
音
识别,深度换脸和唇动合成,通过
文
本提示更改视频,分割和修饰
主要特征
语
音
合成:轻松将
文
本转换为类似人类的
语
音
。
AI语音克隆
实时语音识别
工具
AI
文
本转
语
音
工具(TTS):MeloTTS
今天给大家介绍一个效果不错的开源
文
本转
语
音
工具:MeloTTS MeloTTS是一个可以把
文
字转换成声
音
的工具,它支持英
语
、西班牙
语
、法
语
、
中
文
、日
语
和韩
语
等多种
语
言。
MeloTTS
语音工具
OpenAI
【
语
音
识别】OpenAI
语
音
力作Whisper
这么多的标注数据使得我们可以直接在 有监督
语
音
识别任务上预训练Whisper,从标注
音
频转录数据
中
直接习得
语
音
到
文
本的映射。
语音转文字
whisper
开源
网易有道强力开源
中
英双
语
语
音
克隆
/ ckpt
中
3.
语音
开源
开源
语
音
、视频转
文
字神器:开源whisper介绍
Whisper模型使用了一种称为“自注意力机制”的技术,它可以在处理不同的
语
音
信号时,更好地捕捉到
语
音
中
的关键信息。
人工智能
大模型
wisper
关于AI声
音
生成的一切(
语
音
+
音
乐+嘴型)
其实声
音
生成也有很多革命性的工具,例如高质量的声
音
识别、
文
字转成人声、人声克隆、
音
乐生成,已经能组成完整工作流了,其
中
一些工具甚至已经打包好了,只要下载解压就能用!
声音
开源
Chinese-LLM开源
中
文
大
语
言模型合集
-6B 简介:一个开源的,支持图像、
中
文
和英
文
的多模态对话
语
言模型,
语
言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与
语
言模型的桥梁
大模型
中文
视频
栩栩如生,
音
色克隆,Bert-vits2
文
字转
语
音
打造鬼畜视频实践
BERT的核心思想是通过在大规模
文
本
语
料上进行无监督预训练,学习到通用的
语
言表示,然后将这些表示用于下游任务的微调。
Bert-vits
语音
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的
中
文
情感端 - 端
语
音
交互大模型
它作为全球首个开源
中
文
情感端到端
语
音
交互大模型,为
中
文
语
音
交互技术带来了新的活力和可能性。
Westlake
-
Omni
语音
OpenAI
基于 OpenAI Whisper 模型的实时
语
音
转
文
字工具
· WhisperLive 是一款专注于
音
频处理和创作的开源软件,使用 OpenAI Whisper 模型将
语
音
输入转换为
文
本输出,可以用于转录麦克风的实时
音
频输入和预先录制的
音
频
文
件,为艺术家和
音
乐制作人提供了一个强大的平台
WhisperLive
音频
开源软件
大
语
言模型应用
中
的
文
本分块策略
分块的主要原因是确保我们向量化的内容的噪
音
尽可能少,并且具有
语
义相关性。
开源模型
开源
网易(TTS)EmotiVoice:开源
语
音
合成,支持2000多
音
色
你是否曾经想过,如果你能用自己喜欢的声
音
来朗读任何
文
本,那该多好?
EmotiVoice
语音合成
字正腔圆,万国同
音
,coqui-ai TTS跨
语
种
语
音
克隆,钢铁侠讲16国
语
言
此外,通过在训练过程
中
使用多个讲话者的
语
音
数据,并引入自动编码输入来帮助稳定注意力,进一步扩展了模型的规模,使其能够在所有训练过程
中
看到的
语
种
中
一致地合成可理解的
语
音
,包括训练讲话者的本地口
音
或外国口
音
coqui-ai
TTS
语音
工具
惊艳推荐!8款好用又免费的
文
本转
语
音
TTS工具
TTS Maker TTS Maker 是一个
文
本到
语
音
(TTS)服务,支持多种
语
言和不同的声
音
选项(包括:
中
文
、英
语
、日
语
、法
语
、阿拉伯
语
、韩
语
等等,甚至转换成方言:包括东北话、粤
语
、闽南话等等
TTS
Maker
语音
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100