文章列表-AI魔法学院

文章列表

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

（ControlNet实现了根据提示词精准控制图像元素改变，如人物动作、图像结构等）根据给到的提示词，它仅改变视频的画风，而且是针对完整视频。

ControlNet

SD入门教程二：文生图基础用法（提示词）

精准表达你的意图才是最重要的，而不是堆积非常多无用的词语。

SD prompt 文生图提示词

SD入门教程五：后期处理图片高清放大

· R-ESRGAN_4X：通常用于需要高清晰度放大的场景，如摄影、视频增强、医学成像等领域。

SD 入门教程修复

让Cursor免费使用谷歌最新图像编辑模型#Nano Banana MCP

最近谷歌的新模型nano-banana非常火，速度快，一致性也不错，我把这个模型制作成了MCP，主要提供两个工具：生图和编辑图像。

Nano Banana MCP 文生图

Stable Diffusion

【Stable Diffusion】SD迎来动画革命，AnimateDiff快速出图

参数可以按照正常出图的思路设置，尺寸512x512，根据电脑配置量力而行。

文生图开源模型

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

我们利用了一种在视频和图像潜码的时空块上操作的变压器架构。

sora openai 视频生成

StableDiffusion

AI绘画由入门到精通：StableDiffusion精讲课程

这款软件以其独特的优势和无限的可能性，为艺术家、设计师乃至广大创意爱好者提供了前所未有的视觉表达工具。

SD 视频课程 AI绘画

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

背后原理目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。

OCR 手写文字识别

Ollama的本地化又一图形工具ChatOllama，让你轻松玩转ollama，ChatGPT

ChatOllama是一款ollama图形化管理工具，集成了ollama，OpenAI，可以实现ollama的模型管理，系统指令管理，知识库管理，AI聊天等功能，功能方面与Open WebUI类似，作者在不断改进优化功能

ChatOllama 安装

Stable Diffusion

AnimateDiff：一篇文章教你学会用Stable Diffusion制作GIF动图

这是一个AnimateDiff介绍教程，这个工具可让您使用Stable Diffusion创建令人惊叹的 GIF 动画，这是目前为止最好的文本生成视频（Text-to-video）人工智能工具之一。

AnimateDiff 视频训练

DALL-E 3 不只是文生图！10 个案例颠覆认知

你只需要告诉 DALL-E 3 你的想法，并让它把想法可视化即可。

DALL-E 3 文生图

图解大模型训练之：张量模型并行(TP)，Megatron-LM

则每次forward的过程如下：为画图方便，图中所绘是b=1时的情况。

开源模型

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

简介一次性音频驱动的说话头生成旨在通过音频作为输入信号来驱动任意面部图像，并具有广泛的应用场景，如虚拟化身、视觉配音和视频会议。

VividTalk 视频

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

以往，对口型视频往往存在一个通病，那就是看似嘴型对上了，但总感觉这个声音不是他发出来的，以至于大家看对口型视频的时候，会有一种割裂感。

Loopy 视频

如何免费打造自己的数字人主播：StableDiffusion插件SadTalker打造本地数字人主播

Stable Diffusion是一个能够根据文本描述生成高质量图片的深度学习模型，它使用了一种叫做潜在扩散模型的生成网络架构，可以在普通的GPU上运行，还可以加载各种出图模型以及动画模型。

数字人

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1