首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· GGUF格式详解
· 世界上最流行(github排名高)的开源移动机器人的操作系统ROS开源了!!
· 通义千问
· 火山写作
· 火山写作:一款助力写作能力提升的AI助手
· Suno音乐新手指南(手把手完整版教程)
· [Stable Diffusion]SD安装、常用模型(checkpoint、embedding、LORA)、提示词具、常用插件
· 6个最佳开源TTS引擎
· 全量免费的EMO模型上架通义APP,外媒称之为Sora之后最受期待的大模型之一
· 有感情的语音合成开源模型:ChatTTS安装使用详解
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
网易(TTS)EmotiVoice:开源语音合成,支持2000多音色
EmotiVoice的最突出的特点是,它可以根据你的提示来
调
整语音的情感、语气、风格、速度、音高等参数,让你的语音更加生动和个性化。
EmotiVoice
语音合成
大模型
MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
MaskGCT已在香港中文大学(深圳)与上海人
工
智能实验室联合开发的开源系统Amphion发布,Amphion今天登上了Github global trending榜首!
MaskGCT
声音克隆
语音
解读wav2lip:探究语音驱动唇部动作的技术原理!
具
体来说,wav2lip的训练流程如下:首先,提取音频特征,将音频特征与人脸图像进行配对,形成一个音频-图像对,然后训练专家音频和口型同步判别器。
wav2lip
语音
开源
【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
SenseVoice模型
具
有的功能特点: 多语言语音识别:SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。
asr
tts
声音
浅浅介绍下中文分词,用这些库搞定
以下是一些常用的中文分词库: 1. jieba:jieba是Python中最常用的中文分词库之一,
具
有简单易用、高效的特点。
Python
分词库
视频
Stability AI推出视频生成模型Stable Video Diffusion
然而,需要注意的是,该模型目前处于“研究预览”阶段,使用者必须同意特定的使用条款,明确规定了其预期应用领域,如“教育或创意
工
具
”等,同时禁止用于“真实事件或人物的表现”。
Video
视频创作
SD
ChatGLM
完整ChatGLM3部署教程,支持手机和车载平台部署
同时原生支持
工
具
调
用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
ChatGLM3
大模型
Sora
Sora相关论文合集---全32套大放送
##
具
体操作如下: ### 分类定义: 确定每篇文章或报告主要探讨的是什么?
Sora
论文
开源
网易有道强力开源中英双语语音克隆
项目地址(基于PromptTTS): https://github.com/netease-youdao/EmotiVoice EmotiVoice Docker镜像 尝
试
EmotiVoice
语音
开源
Prompt
图像作为prompt#IP-Adapter
相比于text-to-image方法,IP-Adapter
具
有更小的参数量(22M参数),并且不需要进行大规模的微
调
。
prompt
IP-Adapter
文生图
RAG
Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
除了大海捞针实验之外,Qwen团队还在更复杂的长文本任务上测
试
了Qwen2.5-Turbo的能力。
Qwen2.5
开源模型
新模型Cascade你真的用对了吗?!
Cascade模型与之前的sd模型相比,主要区别是可以在更小的潜空间中
工
作。
Stable
Cascade
模型
神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
3、训练进展与模型成长 在训练过程中,OuteTTS-0.1-350M 经历了显著的阶段式成长: 当训练达到 1 亿个词元时,模型开始展现出基本的说话者音
调
和初步的发声尝
试
OuteTTS-0.1-350M
音频
Stable Diffusion
Stable Diffusion教程:绘制3D风格的手办公仔
Stable Diffusion是一种强大的深度学习模型,能够将2D图像转化为
具
有丰富细节和质感的3D模型。
Stable
Diffusion
教程
3D
大模型
大模型检索增强生成RAG的优化
RAG
工
作流程(with memory) 从RAG的
工
作流程看,能优化的模块有:文档块切分、文本嵌入模型、提示
工
程优化、大模型迭代。
RAG
检索增强
大模型
<
...
68
69
70
71
72
73
74
75
76
77
...
>
1
2
4
5
6
7
8
9
100