文章列表-AI魔法学院

文章列表

Stable Diffusion

【Stable Diffusion操作入门】Stable Diffusion 操作界面及基础参数介绍

采样方法（Sampler）正如我们之前提到的，SD通过对起始噪声画布进行降噪来工作。

文生图 SD

百万token上下文窗口也杀不死向量数据库？CPU笑了

因为在此期间，与“RAG要消亡了”背道而驰的声音也是越发坚定：从各种评价和讨论来看，这派的观点可以概括为——你（长上下文窗口）强任你强，但缺点也是蛮明显的。

向量数据库大模型 cpu

Stability AI开源上新：3D生成引入视频扩散模型

§ 条件输入：输入图像通过VAE编码器嵌入到潜在空间中，会和噪声潜在状态合并，一起输入到UNet中；输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。

sv3d 建模

ComfyUI官方使用手册【官网直译+关键补充】

提示：在混合扩散模型的多个噪声预测时，strength会被归一化。

文生图图生图 comfyui

精通百种语言的翻译AI来了！Meta推出，免费、开源！

这个模型可以实现近101种语言之间的文本、音频、视频等多种形式的翻译，而且只需要一个模型就可以完成所有任务。

大语言模型

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

只需要一张人物肖像照片和一段任意时长的音频，EMO就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本保持一致，实现自然的面部表情和头部姿态。

EMO 阿里全民演唱

Stable Diffusion

全网最全AI绘画Stable Diffusion关键技术解析

虽然在生成图像方面表现出色，但存在两个主要限制： · 一是它不能直接从文本提示（prompt）生成图像，而是从纯噪声开始

Stable Diffusion 文生图

预训练对话大模型深度解读

是一家创业公司，不过创始人为Transformer和LaMDA的作者，估值超过10亿美元，是角色扮演类聊天机器人，主要功能包含：与AI扮演的角色自由聊天通过定义角色描述自由创建角色通过声音

Fastwhisper + Pyannote 实现 ASR + 说话者识别

官方仓库：https://github.com/SYSTRAN/faster-whisper 二、pyannote.audio介绍 pyannote.audio是一个用Python编写的用于扬声器

faster-whisper 语者识别 ASR

2023年LLM如何入门？请看这篇综述！

· 高质量的语料库也很重要，低质量的语料库可能会引入噪声和错误，对LLM的性能产生负面影响。

大模型

大模型的研究新方向：混合专家模型（MoE）

随着不同应用场景的实际需求，大模型的参数会变得越来越大，复杂性和规模不断的增加，尤其是在多模态大模型的开发中，每个数据集可能完全不同，有来自文本的数据、图像的数据、语音的数据等，包含不同的模式，特征和标注之间的关系可能也大有不同

MoE 大模型

大模型应用发展的方向｜代理 Agent 的兴起及其未来（上）

感知模块扩展了代理的感知空间，从文本到多模态空间，包括声音、视觉、触觉、嗅觉等多种感官模式。

大模型

国产编程大模型CodeGeex

声明、描述、解答分别用红、绿、蓝色标注。

编程

Roop升级版FaceFusion换脸AI技术使用以及部署教程

免责声明在使用他人面部图像前，用户必须得到相关人士的同意，并在发布内容时不得隐瞒它是深度伪造。

FaceFusion 教程

麦肯锡专家都在用的方法：用ChatGPT速览用户研究领域的 50 个核心概念

用户研究 Think Aloud 出声思维

用户工作

<...12 13 14 151617 18 19 20 21 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1