首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 赛博牛马,智谱 AI,悄悄出了一个 AI PPT
· SD的老舅ComfyUI来了,节点式工作流,分部控制出图
· 结构化Prompt必备基础:5分钟学会Markdown语法,实现提示词创作自由!
· 数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源
· 再次重点介绍!!!这款国内的AI制作视频工具
· 3.5k star!一款万能的 SQL 分析工具,厉害了!
· PPT又又有新突破了!智谱AI代码流造PPT
· 语音识别的未来已来:深入了解faster-whisper的突破性进展
· 超详细的 Stable Diffusion ComfyUI 基础教程(二):文生图基础流程
· 深入探讨:Agent全自动写作长篇小说技术原理解析
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
OpenAI真的开源了!这波「
实
时
语
音
」操作,让万物开口说话,我爱了
但现在回想起来,那只麋鹿的“能说会道”,其
实
正是 OpenAI 今天才正
式
揭晓的“谜底”——他们开源了一个叫做
嵌
入
式
实
时
语
音
SDK 的东西!
OpenAI
嵌入式实时语音
SDK
实
时
语
音
克隆
项目简介 这份内容介绍了
实
时
语
音
克隆的技术
实
现,作者通过将说话者验证技术转移到多说话人文本到
语
音
合成(SV2TTS)来
实
现
语
音
克隆。
语音
克隆
大模型
“
实
时
”
语
音
翻译!AI
语
音
具有“情绪”!最强开源AI大模型来了
它可以
实
现多种
语
音
和文字之间的转换和翻译,而且只需要一个模型,就可以支持近百种
语
言,效果也非常出色。
大模型
开源模型
语音
OpenAI
基于 OpenAI Whisper 模型的
实
时
语
音
转文字工具
· WhisperLive 是一款专注于
音
频处理和创作的开源软件,使用 OpenAI Whisper 模型将
语
音
输
入
转换为文本输出,可以用于转录麦克风的
实
时
音
频输
入
和预先录制的
音
频文件,为艺术家和
音
乐制作人提供了一个强大的平台
WhisperLive
音频
开源软件
开源
从 GPT-4o 到 LiveKit:
实
时
语
音
交互的开源
实
现
今天我们来聊聊OpenAI 发布会提到的
实
时
对话
语
音
技术。
GPT-4o
语音交互
6.2K Star!MIT出品的多
语
言
语
音
合成神器,CPU
实
时
推理吊打商业软件!
10种
语
言随便选,CPU就能
实
时
合成,中英文混读丝滑得不像话。
MeloTTS
语音工具
视频
Wunjo AI: 合成和克隆英
语
/俄
语
/中文
语
音
,
实
时
语
音
识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰
语
音
克隆:从提供的
音
频文件中克隆
语
音
或直接在应用程序中录制您的声
音
以进行
实
时
克隆。
AI语音克隆
实时语音识别
开源
GPT-4o
实
时
语
音
方案提供商Livekit开源voice agent:轻松处理
音
视频流
该框架包括用于常见工作流程的插件,例如
语
音
活动检测和
语
音
转文本。
voice
agent
开源
音视频
GLM-4-Voice 9B——
实
时
多
语
言
语
音
对话 AI——几分钟内即可在本地安装
如何设置 GLM-4-Voice 9B 以
实
现无缝的
实
时
语
音
交互,支持英
语
和中文,并探索其独特的架构、低延迟响应和可定制的声
音
属性。
GLM-4-Voice
9B
语音
安装
AIGC
AIGC系列之一-一文理解什么是Embedding
嵌
入
技术
这种
嵌
入
可以是一个词、一个类别特征(如商品、电影、物品等)或
时
间序列特征等。
AIGC
Embedding
嵌入技术
开源
阿里巴巴
语
音
实
验室发布开源
语
音
处理框架ClearerVoice-Studio,支持
语
音
增强、分离、目标说话人提取
ClearerVoice-Studio 由阿里巴巴通义
实
验室开发,致力于为
语
音
处理技术的广泛应用提供坚
实
支持。
ClearerVoice-Studio
语音
OpenAI
【
语
音
识别】OpenAI
语
音
力作Whisper
模型结构(融
入
了多任务:多
语
种的
语
音
识别,
语
音
翻译,
语
音
语
言识别,声
音
活动检测) 模型有5个版本,参数量、支持
语
言、显存和速度如下: &ensp
语音转文字
whisper
开发
语
音
产品
时
设计唤醒词和命令词的技巧
在
实
际开发
语
音
产品过程中,要达到好的
语
音
识别效果,除了
语
音
算法要给力外,设计出好的唤醒词和命令词也能起到事倍功半的效果。
语音产品
唤醒词
命令词
视频
栩栩如生,
音
色克隆,Bert-vits2文字转
语
音
打造鬼畜视频
实
践
相比传统的基于词
嵌
入
的模型,BERT引
入
了双向上下文信息的建模,使得模型能够更好地理解句子中的
语
义和关系。
Bert-vits
语音
OpenAI
whisper-live:OpenAI Whisper模型的近
实
时
实
现
项目简介 OpenAI 的 Whisper 的近乎
实
时
实
现。
OpenAI
Whisper
大模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100