文章列表-AI魔法学院

文章列表

必读！RAG好用的3种Router

生成软标签：创建专家预测数据集后，选择收集的一个指标来生成软标签（第三步）。

RAG Router

如何提高RAG 的效果

这篇文章不分析具体的细节实现，旨在从解决思路上进行探讨，当前环境下如何提高RAG 的效果。

RAG 大模型

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

F5-TTS在公共的100K小时多语言数据集上进行训练，展现出高自然性和表现力的零样本能力、无缝代码切换能力和速度控制效率。

F5-TTS 音频克隆

LangChain Agent原理介绍

工具代码 from langchain.tools import BaseTool # 搜索工具 class SearchTool(BaseTool): name = "Search

langchain

Stable Diffusion

Stable Diffusion | 常见问题清点汇总

二、生成图片出现块状马赛克原因是版本不兼容，解决方案： SDXL1.0版本：所有的大模型，LoRA，ControlNet等，都要升级统一为带有XL版本的模型，有时候

Stable Diffusion 问题汇总

玩转大模型必备：milvus向量数据库私有化安装部署及使用介绍

3.停止milvus 停止Milvus独立运行: docker-compose down 4.使用 Milvus 提供cli 客户端工具来连接数据库，我可以在github下载该工具 https

向量数据库

ChatPDF | LLM文档对话 | pdf解析关键问题

我认为这确实是一个重要且有挑战性的工作，但是今天要讨论的文本是有一个前提条件的，那就是有标题（目录）存在。

大模型

领域大模型LLM训练Trick

问题二：领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？

垂直训练大模型

GGUF格式详解

Value：具体的元数据内容。

GGUF 大模型

一文彻底搞懂多模态 - 多模态推理

这些实体可以是具体的人、地点、事物，也可以是抽象的概念或思想。

多模态推理大模型

Stable Diffusion

AI绘画巅峰对决：Stable Diffusion 3与DALL·E 3原理深度比较

在原始的 U-Net 基础上，插入了交叉注意力模块，巧妙地引入了我们输入的 prompt 文本描述信息，从而帮助我们随心所欲地控制 AI 绘画的内容。

Stable Diffusion DALL·E

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

WebUI 工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和

数字人声音克隆 GPT-SoVITS

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

该模型的性能在一些公开的语音识别数据集上达到了与有监督学习相当甚至超越的水平，展示了无监督语音识别的巨大潜力。

Translatotron 语音识别

TrOCR——基于transformer模型的OCR手写文字识别

但是随着transformer模型attention注意力机制进入计算机视觉任务，我们同样可以使用transformer来进行计算机视觉方面的任务，比如对象检测，对象分类，对象分割等，这里毕竟著名的模型

OCR 手写文字识别

大模型的最大bug，回答正确率几乎为零，GPT到Llama无一幸免

经过了一系列实验，他们给出的初步证据证明：逆转诅咒会影响最先进模型中的泛化能力（图 1 和 B 部分）。

大模型

<...92 93 94 959697 98 99 100 101 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1