文章列表-AI魔法学院

文章列表

AI拟声: 5秒内克隆您的声音

大牛开源了一个项目 mockingbird github 3万多星星！

声音克隆开源

把ChatGPT装进二次元手办，你来吗？AI桌面机器人众筹

正好最近在研究嵌入式开发和AI应用，就萌生了一个想法 - 开启一个众筹项目，和志同道合的玩家一起打造这款桌面机器人，后续加入更多好玩的特性！

ai小车 esp32 开源

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE 大模型。

Grok-1 开源模型

Stable Diffusion

Stable Diffusion | SD腾讯云3步部署，全程五分钟，附价格费用清单

等待几分钟后，部署完成，就会跳转到资源列表：三、操作应用 1、因为我没有云盘，没有启用自定义模型上传支持，不能上传模型，这里只显示了一个网址，就是SD操作界面的网址，点击应用地址

下载开源模型

我去，找到一个Github上非常优秀的AI项目，可控制鼠标、键盘，模拟人类操作，太丝滑，收藏～～～

Cradle 是由 BAAI‑Agents 团队开源的一款面向通用计算机控制（GCC）的多模态 AI Agent 框架，可以让大型多模态模型，通过截图输入和键鼠输出

AI Agent 开源项目

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

Vary 的训练方法和模型结构如下图：通过在公开数据集以及渲染生成的文档图表等数据上训练，Vary 极大增强了细粒度的视觉感知能力。

OCR 手写文字识别

多智能体开发框架怎么选型？京东 JoyAgent vs langchain LangGraph，两种Agent开发哲学的碰撞!

最近后台好多朋友问我，说现在AI多智能体（Multi-Agent）框架太火了，尤其是最近京东开源了的 Java 语言的 JoyAgent，评测分数非常高，效果到底怎么样

JoyAgent langchain LangGraph

OpenAI开源大模型调测工具Transformer Debugger：可以在训练大模型之前理解模型的运行情况并干预

自从OpenAI转向盈利化运营之后，很少再开源自己的技术。

大模型调试工具

Stable Diffusion

【Stable Diffusion】SD迎来动画革命，AnimateDiff快速出图

今天给大家介绍一个可以快速在sd中生成动画的方法，就是一个叫做AnimateDiff的免费开源项目。

文生图开源模型

基于 OpenAI Whisper 模型的实时语音转文字工具

今天给大家分享一款专注于音频处理和创作的开源软件【WhisperLive】什么是 WhisperLive？

WhisperLive 音频开源软件

再见了ComfyUI，WebUI也有了工作流

在AI绘画领域，Stable Diffsion是最受欢迎的，因为它是开源软件。

ComfyUI WebUI 文生图

ComfyUI，你开启XL钥匙打开了新世界

但在与大家一起努力学习，了解了ComfyUI后，我有点难以抑制的激动，我觉得之前称呼这个“开启XL大门的钥匙”有些欠妥，它应该是开启AIGC新世界大门的钥匙！

ComfyUI 大模型

搭建程序员自己的在线工具库 it-tools

虽然有一些开发工具也具有一些常用的格式化功能，有时候，我们可能也需要一些其它轻量级的工具。

开源项目工具类

中文通用大模型最全汇总

同时我们也考虑更为快速的中文适配方案：Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据，对LlaMA-2进行直接微调 (将于近期开源)。

大模型开源模型

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

Speech Enhancement）、语音分离（Speech Separation）和音视频扬声器提取（Audio-Video Speaker Extraction）功能，能够在嘈杂环境中清理音频、分离复杂声源并结合音频和视觉数据锁定目标发声者

ClearerVoice-Studio 语音

<...10 11 12 131415 16 17 18 19 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1