文章列表-AI魔法学院

文章列表

如何提高RAG 的效果

下面笔者会根据实践的经验和收集到的信息进行汇总并记录下来。

RAG 大模型

SDXL模型lora训练参数详细设置，显存占用22G，不用修脸原图直出

很多人纠结lora训练用谁的脚本比较好，比如kohya_ss的、秋葉aaaki的、赛博炼丹炉的…… 昨天我看了下kohya_ss的，感觉界面还是有点复杂，所以我还是最推荐秋叶的，秋叶也是用的kohya的脚本集成的

SDXL 训练

来个优秀的开源人脸识别项目！

通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段的密切结合，将人体固有的生理特征或行为特征收集起来，进行取样、数字化处理和分析。

人脸识别开源项目

智源：70万预算，从头开发千亿参数大模型，挑战成功！

要知道，当GPT-3的训练成本可是高达460万美元，近一些的Llama2据估算也大概是这个数。

大模型

AI Agent的数字化革命：超越文本，走向自主决策与交互

自主代理，如Auto-GPT，它能够根据人们通过自然语言提出的需求，自动执行任务并实现预期结果。

生成式AI

Github上Star数最多的大模型应用基础服务：Dify 深度解读

，经过总结为每一个分段生成 Q&A 匹配对，当用户提问时，系统会找出与之最相似的问题，然后返回对应的分段作为答案，实际的流程如下所示：从上面的流程可以看到，Q&A 模式下会根据原始文档生成问答对

Dify 大模型知识库

【语音识别】OpenAI语音力作Whisper

在68万小时标注数据的加持下，预训练 Whisper 模型表现出了强大的泛化到多种数据集和领域的能力。

语音转文字 whisper

大模型能力评估体系

据中国科学技术信息研究所的数据，国内具有超过10亿参数规模的模型已达79个，标志着一场规模宏大的“百模大战”。

大模型评估

使用BELLE项目部署bloomz模型（专业程序员精简版）

中文对话大模型ELLE（BE Large Language Model Engine），基于BLOOM和LLAMA针对中文做了优化，模型调优仅使用由ChatGPT生成的数据，为中文指令提供更好的支持。

belle 训练大模型

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

动作控制：Fay控制器可以控制数字人的动作和表情，使数字人能够根据应用场景进行相应的表演和互动。

Fay 开源项目数字人

用ComfyUI整了一套照片转Q版手办的工作流

之所以要搞这个，主要是因为它跟我目前要做的很多内容都息息相关，比如2D图片转3D模型，blender的插件、图片生成视频等，而且据说生成速度很快，对设备的要求低。

comfyui 文生图

ComfyUI学习笔记2，一文看透Workflow

所谓Workflow工作流，在ComfyUI这里就是它的节点结构及数据流运转过程。

comfyui 文生图

零一万物API开放平台出场！通用Chat多模态通通开放，还有200K超长上下文版本

△开发者星云爱店CTO大董提供的测试资料，文图数据均脱敏总之，凭借强大的长文本和多模态处理能力，无论是在to B还是to C场景，Yi都能构建出高效的大模型应用。

零一万物 YI 李开复

令人惊艳的开源图标生成AI模型：ChartLlama （南洋理&腾讯）

然而，该模型通常缺乏对特定领域数据的理解能力，特别是在解释图表数据时。

ChartLlama 开源模型图标

完全指南——使用python提取PDF中的文本信息（包括表格和图片OCR）

，再到复杂的检索（如RAG），都需要我们首先从真实世界提取文本数据。

大语言模型 python

<...9 10 11 121314 15 16 17 18 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1