首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
· 高效选择:Ollama与LM Studio深度对比
· GPT-4o实时语音方案提供商Livekit开源voice agent:轻松处理音视频流
· 使用ChatGPT润色出高品质文章!
· 了解Kimi必看的26个问题 | Kimi系列文(二)
· LLM应用架构之检索增强(RAG)的缘起与架构介绍
· Stable Diffusion 加速/优化/升级 优化出图速度
· Stable Diffusion快速生图,LCM-Lora、sd_xl turbo寄养和亲生谁好?!
· 17岁高中生写了个神级Prompt,直接把Claude强化成了满血o1。
· 一个完整Prompt让ChatGPT自动生成短视频制作脚本
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
Stable Diffusion
【Stable Diffusion操作入门】Stable Diffusion 操作界面及基础参数介绍
采样方法(Sampler) 正如我们之前提到的,SD通过对起始噪
声
画布进行降噪来工作。
文生图
SD
数据库
百万token上下文窗口也杀不死向量数据库?CPU笑了
因为在此期间,与“RAG要消亡了”背道而驰的
声
音
也是越发坚定: 从各种评价和讨论来看,这派的观点可以概括为——你(长上下文窗口)强任你强,但缺点也是蛮明显的。
向量数据库
大模型
cpu
开源
Stability AI开源上新:3D生成引入视频扩散模型
§ 条件输入:输入图像通过VAE编码器嵌入到潜在空间中,会和噪
声
潜在状态合并,一起输入到UNet中;输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。
sv3d
建模
ComfyUI
ComfyUI官方使用手册【官网直译+关键补充】
提示:在混合扩散模型的多个噪
声
预测时,strength会被归一化。
文生图
图生图
comfyui
开源
精通百种语言的翻译AI来了!Meta推出,免费、开源!
这个模型可以实现近101种语言之间的文本、
音
频、视频等多种形式的翻译,而且只需要一个模型就可以完成所有任务。
大语言模型
大模型
全量免费的EMO模型上架通义APP,外媒称之为Sora之后最受期待的大模型之一
只需要一张人物肖像照片和一段任意时长的
音
频,EMO就可以让照片中的人物按照
音
频内容“张嘴”唱歌、说话,且口型基本保持一致,实现自然的面部表情和头部姿态。
EMO
阿里
全民演唱
Stable Diffusion
全网最全AI绘画Stable Diffusion关键技术解析
虽然在生成图像方面表现出色,但存在两个主要限制: · 一是它不能直接从文本提示(prompt)生成图像,而是从纯噪
声
开始
Stable
Diffusion
文生图
大模型
预训练对话大模型深度解读
是一家创业公司,不过创始人为Transformer和LaMDA的作者,估值超过10亿美元,是角色扮演类聊天机器人,主要功能包含: 与AI扮演的角色自由聊天 通过定义角色描述自由创建角色 通过
声
音
Fastwhisper + Pyannote 实现 ASR + 说话者识别
官方仓库:https://github.com/SYSTRAN/faster-whisper 二、pyannote.audio介绍 pyannote.audio是一个用Python编写的用于扬
声
器
faster-whisper
语者识别
ASR
LLM
2023年LLM如何入门?请看这篇综述!
· 高质量的语料库也很重要,低质量的语料库可能会引入噪
声
和错误,对LLM的性能产生负面影响。
大模型
大模型
大模型的研究新方向:混合专家模型(MoE)
随着不同应用场景的实际需求,大模型的参数会变得越来越大,复杂性和规模不断的增加,尤其是在多模态大模型的开发中,每个数据集可能完全不同,有来自文本的数据、图像的数据、语
音
的数据等,包含不同的模式,特征和标注之间的关系可能也大有不同
MoE
大模型
大模型
大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
感知模块扩展了代理的感知空间,从文本到多模态空间,包括
声
音
、视觉、触觉、嗅觉等多种感官模式。
大模型
大模型
国产编程大模型CodeGeex
声
明、描述、解答分别用红、绿、蓝色标注。
编程
换脸
Roop升级版FaceFusion换脸AI技术使用以及部署教程
免责
声
明 在使用他人面部图像前,用户必须得到相关人士的同意,并在发布内容时不得隐瞒它是深度伪造。
FaceFusion
教程
ChatGPT
麦肯锡专家都在用的方法:用ChatGPT速览用户研究领域的 50 个核心概念
用户研究 Think Aloud 出
声
思维
用户
工作
<
...
12
13
14
15
16
17
18
19
20
21
...
>
1
2
4
5
6
7
8
9
100