文章列表-AI魔法学院

文章列表

让你每次都随机生成各种图片，开盲盒的感觉：SD插件之无限抽卡神器Dynamic Prompts

这些选项是可以展开的，展开到最里层，可以点击一个相关风格的提示词集合：点一下就能看见右边多了很多东西，用的时候，只要把右边的复制到提示词框里就可以，比如这样：再点生成

文生图

手把手！做Llama3的MoE专家混合模型！底层原理怎样的？做自己的MoE模型？需要多少算力？

专家混合是一种旨在提高效率和性能的架构！

MoE 专家混合模型

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

技术亮点 1、全非自回归架构：传统的文本到语音(TTS)系统多使用自回归模型，这种模型一次生成一个音频片段，处理速度较慢。

F5-TTS 音频克隆

RAG 2.0，终于把RAG做对了！

整个架构基于一个单一原则：有能力检索与请求或提示上下文语义相关、有意义的数据。

RAG 大语言模型

AI绘画：两组赛博咒语和ComfyUI使用方法！

然后就可以看到很多不同颜色的框，看起来有点复杂。

文生图

Stable Diffusion

造梦师手记：Stable Diffusion一键换脸插件

在文生图的提示词框，输入提示词： 1girl, (flowers=1.5), Issuing, plant,sunlight, outdoors, white dress, long hair,((Cinematic

AI换脸

世界上最流行（github排名高）的开源移动机器人的操作系统ROS开源了！！

· · 防止手指卡在框架之间。

ROS 机器人开源模型

大模型微调经验汇总---LLM finetuning 踩坑经验之谈

开源领域 ChatGLM, LLAMA, RWKV 主要就是这3种模型，中文好一点就是 ChatGLM , 潜力最好的就是LLAMA ，RNN架构决定RWKV有很好的推理效率（随输入长度内存占比线性自增

大模型人工智能

如何看待大型语言模型的Prompt

自注意力是Transformer架构中最重要的单一组件。

prompt 大语言模型

AI大模型LLM可以帮助企业做什么？

2020 年，OpenAI 在Google 研究团队提出的技术架构Transformer 和多头注意力机制的基础上，推出了 GPT-3 模型，其在文本生成任务上的能力令人印象深刻

大模型

GitHub本月榜单：一个数字人技术的“非官方”实现

训练原创 AnimateAnyone 架构（在小数据集上训练时很难控制姿势。）

AnimateAnyone 人工智能

最新最强开源模型Qwen3本地运行指南！Windows+ollama+chatwise轻松搞定

你可以直接在系统搜索框中输入“cmd”，然后回车打开即可。

Qwen3 开源模型

ComfyUI官方使用手册【官网直译+关键补充】

还可以设置是否对整个区域进行去噪，或将其限制在遮罩的边界框内（set_cond_area）。

文生图图生图 comfyui

完全指南——使用python提取PDF中的文本信息（包括表格和图片OCR）

此方法检索构成特定语料库框中单词的所有字符，并将输出存储在文本数据列表中。

大语言模型 python

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

例如，如图 5 所示，“指向”可以表示为数值空间坐标，如框坐标和图像裁剪，或者覆盖在图像像素上的视觉标记，如箭头 arrows、框 boxes、圆 circles&ensp

多模态大模型 GPT-4V 文生图

<...33 34 35 363738 39 40 41 42 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1