文章列表-AI魔法学院

文章列表

生成式AI与大语言模型的区别

此外，转换器架构（由ChatGPT中的T表示）是这项技术的关键元素。

生成式AI 大语言模型区别

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

一个让GPT重复自问自答的Prompt

然后以下面的模式继续回答和提问。

prompt

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

多模态大模型综合评测 1 融合整体和局部的高清图像表示传统的多模态模型的图像表示只有整体，XVERSE-V 创新性地采用了融合整体和局部的策略，支持输入任意宽高比的图像

XVERSE-V 多模态大模型

阿里出品自动化视频剪辑工具FunClip！

FunClip的特色功能包括集成高精度的中文ASR模型、支持热词定制化、说话人识别，以及提供Gradio交互界面，大大简化了视频剪辑的复杂度。

FunClip 视频阿里

Google 模型解读 | MoveNet-SinglePose：自底向上做单人姿态估计

模型 Backbone MoveNet整体的结构如上所示，Backbone部分是比较经典的带三层deconv的MobileNetv2，并且使用了残差连接来获取浅层特征，这个结构我已经在各种工程和学术论文中都见到了

MoveNet-SinglePose Google 模型

为什么说AI现在还不行！

也正因此最近写了几篇文章都在提应该以一种更加理性的态度来看待AI的进展，甚至设想了一种测试智能程度的方式：图灵测试2.0。

大模型

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

如何最简单、通俗地理解Transformer？

由此，权重通过softmax函数计算得出：下图直观描述注意力如何作用在一系列单词上。

Transformer 大模型

Sora物理悖谬的几何解释

用这种方法，Sora可以为所有的训练视频数据添加高度描述性的字幕，从而提高了训练集的质量，进一步提升系统性能。

Sora 解释

Stable Diffusion

OpenAI救了Stable Diffusion！开源Dall·E3同款解码器，来自Ilya宋飏等

它能让图像生成质量更高、更稳定，比如多人脸、带文字图像以及线条控制方面。

SD 文生图 DALLE

Stable Diffusion

Stable diffusion又一个电商换装/换模特辅助插件

今天继续玩换装分享一款辅助插件 Inpaint anything 这个插件结合了 segment anything 进行蒙版提取在segment anything

Stable diffusion 文生图

全新换脸工具ReActor，比roop更强！

右边的选项的意思是自动识别画面中人物中的性别进行替换。

ReActor SD 文生图

如何拥有你的卡通形象？ComfyUI-workflow

CN-Openpose 使用Openpose传达角色的姿势，图片大小将按比例缩放至最大边长800像素，避免图片过大。

ComfyUI-workflow 文生图

Stable Diffusion

Stable Diffusion高精度换脸

二、实操案例 1.图生图示例（局部重绘）操作步骤一：初版换脸 Stable Diffusion 模型：BRA_V4_2.safetensors

Stable Diffusion 文生图

<...43 44 45 464748 49 50 51 52 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1