首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
· 赛博牛马,智谱 AI,悄悄出了一个 AI PPT
· PPT又又有新突破了!智谱AI代码流造PPT
· Stable Diffusion 30种采样器全解
· 数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源
· Fastwhisper + Pyannote 实现 ASR + 说话者识别
· 挑战真实影像!Stable Diffusion超越摄影师的光影模型
· AI创作 |如何通过GPT进行漫画视频的故事改写
· 如何最简单、通俗地理解Transformer?
· [Stable Diffusion]SD安装、常用模型(checkpoint、embedding、LORA)、提示词具、常用插件
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
OpenAI
被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线
在 MiniCPM 2B 基础上,2024 年 4 月 11 日,面壁又推出了新一代端侧旗舰大
模
型
系列:显著增强OCR能力、甚至部分能力比肩Gemini-Pro的2.8B
多
模
态
模
型
MiniCPM-V
Grok-1
开源模型
Stable Diffusion
Stable Diffusion AnimateDiff | 最火文本生成视频插件
AnimateDiff介绍 AnimateDiff采用控制
模
块来影响Stable Diffusion
模
型
,通过大量短视频剪辑的训练,它能够调整图像生成过程,生成一系列与训练视频剪辑相似的图像。
动画
视频
AnimateDiff
开源
【开源项目】Flow Matching 语音合成
CFM是一种新技术,已被证明可以改进扩散
模
型
,Meta的Voicebox
模
型
将CFM引入语音合成领域,下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional
音视频
Flow
Matching
Prompt
7个有用的Prompt参数
在使用生成式AI
模
型
时,提供一个清晰、具体的prompt非常重要,因为它会直接影响到
模
型
生成的内容和质量。
prompt
Prompt
一文汇总市面上所有prompts提示词框架
Prompts,作为大语言
模
型
交流与理解的桥梁,扮演着无比重要的角色,指引着
模
型
准确解读输入信息,从而生成我们所需的特定输出。
提示词框架
prompt
Stable Diffusion
超详细的 Stable Diffusion ComfyUI 基础教程(一):安装与常用插件
生
态
没有 webui
多
(常用的都有),也有一些针对 Comfyui 开发的有趣插件。
文生图
comfyui
RAG
24年首篇离奇论文:加点噪声,RAG效果翻倍?
与传统的大
型
语言
模
型
相比,RAG系统通过引入外部数据提高了其生成能力。
RAG
检索增强
神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
而 OuteTTS-0.1-350M 作为一款新兴的 TTS
模
型
,正以其独特的技术和功能特点吸引着众
多
关注。
OuteTTS-0.1-350M
音频
AI 产品榜 · 国内 100 强和出海 20 强
如果您是AI公司创始人 | 高管 | 产品经理 | 开发者:从这里,您可以了解到竞争对手的动
态
和当前市场的趋势,从而更好地制定自家产品的战略和发展方向。
大模型
大模型应用
行业分析
语音
语音识别的未来已来:深入了解faster-whisper的突破性进展
faster-whisper简介 faster-whisper是基于OpenAI的Whisper
模
型
的高效实现,它利用CTranslate2,一个专为Transformer
模
型
设计的快速推理引擎。
语音识别
Faster-Whisper
通义千问
必看!阿里通义千问完整技术报告
例如,LLMs可以理解
多
模
态
指令(OpenAI,2023年;Bai等,2023年;Liu等,2023年a;Ye等,2023年;Dai等,2023年;Peng等,2023年b),执行代码(Chen等,2021
大型语言模型
报告
数字人
京东开源普通话数字人JoyHallo,一口流利标准普通话还会讲英语
在音频驱动的视频生成领域,制作普通话视频面临着许
多
挑战。
JoyHallo
数字人
开源模型
Prompt
prompt提示工程最佳实践课程笔记分享
,此后添加了许
多
丰富的内容和示例,分享给大家,希望对大家有所帮助。
prompt
提示词
数字人
腾讯开源的数字人MuseTalk到底行不行?
MuseTaIk是由腾讯团队开发的先进技术,它是一个实时高质量的音频驱动唇部同步
模
型
。
MuseTalk
数字人
音频
Sora
Sora懂不懂物理世界?
一方面因为临界
态
样本的稀缺,另一方面因为扩散
模
型
将稳恒
态
数据流形的边界
模
糊化,消弭了临界
态
的存在,生成的视频出现了不同稳恒
态
之间的跳跃。
文生视频
视频生成
sora
<
...
40
41
42
43
44
45
46
47
48
49
...
>
1
2
4
5
6
7
8
9
100