文章列表-AI魔法学院

文章列表

OpenAI 上线新功能力捧 RAG，开发者真的不需要向量数据库了？

近期， OpenAI 的开发者大会迅速成为各大媒体及开发者的热议焦点，有人甚至发出疑问“向量数据库是不是失宠了？”

RAG 检索向量库

【一步一步引导】从零详细地梳理一个完整的 LLM 训练流程

已经有许多优秀的仓库做过这件事情，比如：[Chinese-LLaMA-Alpaca]。

大模型训练

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

OpenAI 认为使用这样一个庞大而多样的数据集，可以提高模型对口音、背景噪音和技术术语的识别能力。

语音 HeyGen

不出所料，字节个把月就整出了自己的manus,不用积分，无需会员，快来体验coze空间吧

字数 1713，阅读大约需 9 分钟一两个月前manus开始爆火的时候，我写过下面的内容对manus的8个评价文兄赞一个，公众号：PeopleSoft探究内行看门道，

manus 阿里

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

其中，中文情感语音交互领域的发展备受关注，因为它能够使机器更好地理解人类情感，提供更加人性化的交互体验。

Westlake -Omni 语音

RVC和SVC声音模型难找？推荐这个网站

本篇文章介绍：1，声音数据集训练到模型的过程 2 ，SVC和RVC声音模型网站推荐一、声音数据集训练到模型的过程 AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频

声音克隆数字人

ComfyUI学习笔记2，一文看透Workflow

类比webui的使用体验： 1.调好参数 2.点击生成 3.等待结果除了观察命令行窗口能获得一些生成进度中的信息，在webui界面上，基本还是传统软件的使用思维

comfyui 文生图

垂直领域大模型的思考

混合数据如果想要领域的模型还具备一定的通用能力，即通用的能力不会退化（或者灾难性遗忘）这就需要在语言模型训练的时候混杂通用的数据。

垂直领域大模型

pdf2htmlEX：效果相当好的一个PDF转HTML程序，和原始PDF几乎一模一样。

其背后是利用的Chrome Headless，让Chrome渲染PDF，再导出成HTML，甚至图片都转成了 base64 字符，所以一个网页就可以包含完整的文本、字体和图片等内容这是我的

PDF转换

数学能力超ChatGPT，70B开源大模型火了：用AI微调AI，微软全华班出品

具体而言，Evol Instruction分为指令进化器和指令消除器。

开源模型

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

DALL-E 2的这种两阶段的方案的一个是优势是第二阶段只需要纯图像数据来训练图像生成模型，而且采用CLIP image embedding作为条件比直接用文本训练模型更容易一些。

Kandinsky-3 文生图开源模型

爆火！腾讯开源PhotoMaker：高效地定制化生成任意风格的逼真人类照片！

解决：提出一种高效的个性化文本图像生成方法PhotoMaker， · 它主要是将任意数量的输入ID图像编码到堆栈ID嵌入中以保留ID信息。

PhotoMaker 文生图

使用大模型自动回复小红书/抖音/快手评论：通过RAG 优化LLMs实现

另外，由于知识存储在外部数据库中，更新系统知识就像在表中添加或删除记录一样简单。

RAG 大模型自动回复

ComfyUI安装及生成第一张图

暂时无法在飞书文档外展示此内容您的电脑应该会努力工作一段时间。

ComfyUI 文生图

Stable Diffusion

SD入门教程一：Stable Diffusion 基础（技术篇）

各位同学可以简单将其理解为「将文本转化为机器能识别的多组数字信息」。

Stable Diffusion 文生图

<...12 13 14 151617 18 19 20 21 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1