文章列表-AI魔法学院

文章列表

领域大模型-训练Trick&落地思考

个人感觉应该跟领域数据量有关，当数据量没有那多时，一般数据比例在1:5到1:10之间是比较合适的。

垂直训练大模型

ComfyUI学习笔记：插件安装

进一步丰富功能时，需要按需自主添加节点，例如加入LoRA：也可以使用节点搜索（双击空白处）：这与webui一上来就摆好盘的软件操作思路有所不同：所以之前有webui使用经验后，相对熟悉常用功能

comfyui 插件绘画

OpenAI视频模型Sora的推理生成成本多高？

根据 OpenAI 的技术报告： Video generation models as world simulators ，Sora 是一个 Diffusion Model，且应该使用的是

Sora 推理算力

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

每个编码器层都有多头自注意力机制和前馈神经网络，用于对输入序列进行多层次的特征提取和表示学习。

Bert-vits 语音

OCRmyPDF—可智能识别PDF文本和图片信息的工具

动机我在网上搜索了一个免费的命令行工具来对PDF文件进行OCR：我找到了很多，但没有一个真正令人满意： •要么它们生成的PDF文件中的文本放置错误（使得无法复制/粘贴)•

OCRmyPDF 工具

AI绘画：两组赛博咒语和ComfyUI使用方法！

当然这两组咒语并不是仅对动物而已。

文生图

Suno音乐新手指南（手把手完整版教程）

如果你认真看了前面我写的东西，那么你生成的歌曲音乐质量应该不会太差。

suno 歌曲教程

ChatGPT提示工程 - 总结

策略3：让模型检查是否满足条件策略4：少样本提示原则二：给予模型思考的时间策略1：明确说明完成任务所需的步骤策略2：提示模型不要匆忙得出结论，而是要找出自己的解决方案本篇介绍一下如何对内容进行总结

GPT

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

据统计，世界上有超过7000种语言，但是目前的语音识别系统只能覆盖其中的一小部分，而且对于一些低资源语言，由于缺乏足够的标注数据，训练高质量的语音识别模型非常困难。

Translatotron 语音识别

TrOCR——基于transformer模型的OCR手写文字识别

但是随着transformer模型attention注意力机制进入计算机视觉任务，我们同样可以使用transformer来进行计算机视觉方面的任务，比如对象检测，对象分类，对象分割等，这里毕竟著名的模型

OCR 手写文字识别

基于本地知识的问答机器人langchain-ChatGLM

在实际应用场景中，除闲聊机器人外，大多数机器人是为了完成特定任务的。

langchain

令人惊艳的开源图标生成AI模型：ChartLlama （南洋理&腾讯）

ChartLlama是一个专门针对图表的多模态语言模型，它可以从图表中提取信息，也可以根据数据和要求来创建图表。

ChartLlama 开源模型图标

Stable Diffusion

超详细的 Stable Diffusion ComfyUI 基础教程（二）：文生图基础流程

这时候我们是不是发现“Checkpoint 加载器”和“CLIP 文本编码器”上面都有一个同样名称、同样颜色的黄点“CLIP”，我们把它连起来（鼠标放在上面会有“十”字标识，我们左键按住住拖到另一个节点的对应位置就连上了

comfyui 文生图

自己电脑上跑大语言模型（LLM）要多少内存？

一般模型文件的实际尺寸要比简单计算的尺寸大 · · 即使是同样参数和精度的模型，实际尺寸也不一样 · · 降低模型精度的过程叫量化（Quantization)，不同模型对降低精度的敏感程度不一样

大语言模型运行

腾讯开源的数字人MuseTalk到底行不行？

08 还有其他的案例，我就不浪费笔墨上传了，大家感兴趣可以去这里看： https://github.com/TMElyralab/MuseTalk 对了

MuseTalk 数字人音频

<...77 78 79 808182 83 84 85 86 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1