文章列表-AI魔法学院

文章列表

Stable Diffusion

Stable Diffusion生成图片参数查看与抹除

这篇文章就来专门分享如何查看和抹除图片的参数。

文生图 Stable Diffusion

目前最强图像编辑模型——Nano banana可以免费用了

kontext Pro更好，竞技场地址：https://lmarena.ai/竞技场是一个模型pk平台，发送同一个指令，会由两个模型一起生成，用户可以选择哪个模型生成的更好，选择之后会显示模型名字

Nano banana 文生图

TrOCR——基于transformer模型的OCR手写文字识别

第二步，我们将图像输入到 TrOCR 模型，该模型经过图像编码器，编码器主要包括多头注意力机制与feed forward 前馈神经网络第三步便是我们的解码器部分，解码器的输入是标准的文本

OCR 手写文字识别

手把手教你用 SD 生成文字形状的光线，用来做营销宣传图非常有效

昨天类似这种文字光效或者将文字合成在衣服上的图好像又火了，很多朋友在问怎么做，其实就是ControlNet的简单应用，比如模拟光线照射文字的，之前用来调整自然光线的角度和范围这次不过是将原来模拟光照的图变成了文字了

图像文字 ControlNet Stable Diffusion

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

OpenAI视频模型Sora的推理生成成本多高？

我们折中一下，假设为 20B 的模型大小。

Sora 推理算力

中文通用大模型最全汇总

，对比原版 LLaMA，该模型在中文理解能力和生成能力方面均获得较大提升，在众多下游任务中均取得了突出的成绩。

大模型开源模型

中文儿童情感陪伴大模型

中文儿童情感陪伴大模型-巧板 - 旨在构建一个面向儿童情感陪伴的大模型参考文献： [1]http://github.com/HIT-SCIR-SC/QiaoBan 出自：https://

大模型

Stability AI开源上新：3D生成引入视频扩散模型

也就是说，此番登场的SV3D首次将视频扩散模型应用到了3D生成领域。

sv3d 建模

让Cursor免费使用谷歌最新图像编辑模型#Nano Banana MCP

最近谷歌的新模型nano-banana非常火，速度快，一致性也不错，我把这个模型制作成了MCP，主要提供两个工具：生图和编辑图像。

Nano Banana MCP 文生图

九问中国大模型掌门人，万字长文详解大模型进度趋势

二是海外大模型的原生中文能力不佳，中国的大模型对中文理解能力一定是更强的。

大模型详解

万字长文-大语言模型指令调优综述

作者结合了两个大规模预训练模型的能力，一个语言模型 GPT-3 (Brown et al.，2020b)和一个文本到图像模型Stable Diffusion(Rombach et al.， 2022)，

大语言模型

Chinese-LLM开源中文大语言模型合集

、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。

大模型中文

分析过688篇大模型论文，这篇论文综述了LLM的当前挑战和应用

从毫无存在感到无人不谈，大型语言模型（LLM）的江湖地位在这几年发生了巨变。

开源模型

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1