首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 胎教级SO-VITS-SVC使用教程:人工智能生成歌曲
· AI声音克隆 | 最全最简教程(权威版)
· 了解Kimi必看的26个问题 | Kimi系列文(二)
· SD入门教程二:文生图基础用法(提示词)
· 一张照片秒生不同风格图像!小红书InstantID来了!
· 最强开源数字人对口型系统介绍
· 把ChatGPT装进二次元手办,你来吗?AI桌面机器人众筹
· AI Agent新对决:LangGraph与AutoGen的技术角力
· 保姆级教程:Coze 打工你躺平
· 数字人起飞!字节Loopy对口型功能在即梦上线 可根据语境匹配表情和情绪
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
工具
惊艳推荐!8款好用又免费的文本转
语
音
TTS工具
虽然这种方法能够产生可理解的
语
音
,但由于样本数量的限制,很难达到完全自然的
语
音
合成效果。
TTS
Maker
语音
开源
OpenAI 开源
语
音
识别 Whisper 的使用体验怎么样?
关于Buzz Buzz 是一款基于 OpenAI 开源 Whisper 自动
语
音
识别模型的软件工具,能够将
音
频或视频中的
语
音
自动识别为带有时间戳的文本字幕。
生成式AI
开源
从 GPT-4o 到 LiveKit:实时
语
音
交互的开源实现
今天我们来聊聊OpenAI 发布会提到的实时对话
语
音
技术。
GPT-4o
语音交互
GLM-4-Voice 9B——实时多
语
言
语
音
对话 AI——几分钟内即可在本地安装
如何设置 GLM-4-Voice 9B 以实现无缝的实时
语
音
交互,支持英
语
和中文,并探索其独特的架构、低延迟响应和可定制的声
音
属性。
GLM-4-Voice
9B
语音
安装
Python
Whisper对于中文
语
音
识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的
语
音
做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过
Whisper
语音优化
开源
OpenAI真的开源了!这波「实时
语
音
」操作,让万物开口说话,我爱了
就像直播里的那只麋鹿,它能听懂你的问题,然后用自然流畅的
语
音
跟你聊天,就是这个 SDK 的功劳!
OpenAI
嵌入式实时语音
SDK
Google
AI“同声传译”新进展!Google发布,无监督,
语
音
识别:Translatotron 3!
语
音
识别(ASR)是指将人类的
语
音
转换为文本的技术,然而,目前的
语
音
识别技术还面临着一些挑战,其中最大的一个就是如何支持更多的
语
言。
Translatotron
语音识别
语
音
识别的未来已来:深入了解faster-whisper的突破性进展
这种实现不仅提高了
语
音
识别的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
大模型
中国大模型融资暗战:罗曼蒂
克
的快速消亡
多位接近闫俊杰的人士表示,“闫俊杰是典型的技术宅,说话声
音
小,可能并不擅长对外”,所以平时公司对外融资、以及一些管理、外部活动也通常由贠烨祎负责。
大模型
暗战
「
语
音
识别的未来已来」——探索Distil-Whisper,轻量级AI的强大力量
那么,这个被誉为“
语
音
识别的未来”的AI工具到底有何过人之处?
Distil-Whisper
语音识别
AI+
音
乐|对话 Suno CEO:破圈的
音
乐生成产品是如何诞生的?
创始团队 Mikey Shulman:担任首席执行官,他曾担任Kensho的机器学习主管,麻省理工学院斯
隆
管理学院的讲师,哥伦比亚大学应用物理专业的学士学位和哈佛大学物理学专业的博士学位;
suno
音乐
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端
语
音
交互大模型
它在
语
音
合成方面表现卓越,利用先进的深度学习技术,实现了高质量的
语
音
输出,其发
音
精准、流畅自然,仿佛真人发声。
Westlake
-
Omni
语音
数字人
数字人:从科幻走向现实的技术革命
创建数字人需要多方面的技术支持,包括计算机图形学、动作捕捉、
语
音
合成以及人工智能算法等。
数字人
语音
教程
【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定
音
色、设置
语
速、添加停顿词、口头
语
、笑声!!
ChatTTS是专门为对话场景设计的文本转
语
音
模型,例如LLM助手对话任务。
chattts
tts
文生语音
第一性原理以及第一性原理是怎么帮马斯
克
成为首富的
第一性原理是怎么帮马斯
克
成为首富的?
马斯克
商业
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100