首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· GitHub星数暴涨,AIPC的开源实现,用AI记录电脑一整天的使用太简单了,功能非常多!
· 了解Kimi必看的26个问题 | Kimi系列文(二)
· 数字人起飞!字节Loopy对口型功能在即梦上线 可根据语境匹配表情和情绪
· 两个案例教你如何用BRTR原则优化Prompt
· 万字长篇!超全Stable Diffusion AI绘画参数及原理详解
· ComfyUI-DDetailer脸部修复
· 我用AI写小说:「素材篇」4种大神写爽文技巧+找素材新思路+三翻四震举例说明
· 文心一言大模型使用指南
· ChatGPT提示词万能模板:BRTR原则,让ChatGPT完美理解你的需求
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
StableDiffusion
深度解析丨StableDiffusion在
多
个设计场景中的探
索
与应用
本文将深入解析StableDiffusion在
多
个设计场景中的探
索
与应用,尤其关注如何利用其制作
多
种商业落地案例。
文生图
企业
检
索
增强生成(RAG):LLM企业级应用落地的挑战与思考
查询延迟受到数据规模、
检
索
算法、网络IO等
多
方面影响。
大语言模型
RAG检索增强
视频
Wunjo AI: 合成和克隆英
语
/俄
语
/中文
语
音
,实时
语
音
识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰
主要特征
语
音
合成:轻松将文本转换为类似人类的
语
音
。
AI语音克隆
实时语音识别
OpenAI
OpenAI大动作:Whisper large-v3重塑
语
音
识别技术
这款最新的自动
语
音
识别模型不仅在
多
语
言识别方面取得了显著进步,而且还将很快在OpenAI的API中得到支持。
Whisper
语音识别
视频
栩栩如生,
音
色克隆,Bert-vits2文字转
语
音
打造鬼畜视频实践
每个编码器层都有
多
头自注意力机制和前馈神经网络,用于对输入序列进行
多
层次的特征提取和表示学习。
Bert-vits
语音
开源
开源
语
音
大
语
言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
作为一种重要模态,
语
音
提供了超越文本的
多
样且复杂的信号,如人声中的情感、
语
调和意图,自然声
音
中的火车汽笛、钟声和雷声,以及
音
乐中的旋律。
大模型
语音
Insanely Fast Whisper:超快的Whisper
语
音
识别脚本
项目简介 这篇内容介绍了OpenAI的Whisper Large v2
语
音
转录模型的超快速能力。
音频
Whisper
RAG
LLM之RAG实战(五)| 高级RAG 01:使用小块
检
索
,小块所属的大块喂给LLM,可以提高RAG性能
然而,在有效
检
索
相关信息和生成高质量响应方面,RAG面临着许
多
挑战。
RAG
检索
开源
从声纹模型到
语
音
合成:
音
频处理 AI 技术前沿 | 开源专题 No.45
,使用各种
语
音
转换 AI (VC,Voice Conversion) 进行操作。
AudioCraft
音频
Prompt
Prompt 策略:代码库 AI 助手的
语
义化搜
索
设计
ChatGPT 根据 CF
检
查的代码,返回的答案: 根据提供的代码,我们可以看到 CodeSemanticWorkflow 是一个继承自 Workflow 的类,它实现了 execute 方法来执行
语
义化的代码搜
索
prompt
LLM
自己电脑上跑大
语
言模型(LLM)要
多
少内存?
在本地电脑上运行大型
语
言模型(LLM),需要考虑的关键因素之一就是电脑的内存够不够。
大语言模型
运行
解读wav2lip:探究
语
音
驱动唇部动作的技术原理!
本文将深入介绍一下wav2lip的技术原理和细节,了解它是如何实现
语
音
驱动唇部运动的!
wav2lip
语音
开源
网易有道强力开源中英双
语
语
音
克隆
其中的
音
素(phonemes)可以这样得到: python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.
语音
开源
开源
【开源项目】Flow Matching
语
音
合成
CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voicebox模型将CFM引入
语
音
合成领域,下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional
音视频
Flow
Matching
OpenAI
基于 OpenAI Whisper 模型的实时
语
音
转文字工具
· WhisperLive 是一款专注于
音
频处理和创作的开源软件,使用 OpenAI Whisper 模型将
语
音
输入转换为文本输出,可以用于转录麦克风的实时
音
频输入和预先录制的
音
频文件,为艺术家和
音
乐制作人提供了一个强大的平台
WhisperLive
音频
开源软件
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100