文章列表-AI魔法学院

文章列表

Stable Diffusion

张嘴就能生图？这已经不是科技，这是魔法！（Stable Diffusion进阶篇：SDXL-Turbo）

Turbo具备了最新的快速扩散蒸馏技术（Adversarial Diffusion Distillation），这个技术可以在保持图像生成质量的同时大幅度降低采样步数（生成速度）比较明显的比对就是

SDXL-Turbo 文生图

微软、OpenAI大佬暗示LLM应用开发范式迁移：从Prompt Engineering到Flow Engineering

从某种意义上讲，大模型应用开发变得更加务实，从一个模型算法问题转变成为一个工程问题，如何将复杂问题拆解为多个子任务或者子agent执行，如何编排协调，如何处理数据，如何选择合适工具，如何迭代优化

LLM 范式迁移

GitHub星数暴涨，AIPC的开源实现，用AI记录电脑一整天的使用太简单了，功能非常多！

ScreenPipe 在你的计算机上 7*24小时全天候记录你的电脑屏幕和麦克风，数据由用户自行掌控，确保隐私和安全，并且把记录的数据连接到大模型，这样就可以轻松的进行搜索、并且自动化的处理一些工作

AIPC ScreenPipe 开源

我去华强北走了一圈，发现这里正被另一种 AI 包围

所谓的 AI，大概是搭载了和翻译功能不相关的AI对话助手们，场景是 AI 讲故事、 AI 写作业、AI 角色扮演等等，有些边角料般的凑合感。

华强北 AI

RVC和SVC声音模型难找？推荐这个网站

以下是以自己方式制作的思维导图，供学习参考 AI声音模型训练总流程 AI数据集筛选流程二、SVC和RVC声音模型网站推荐声音模型工坊 http

声音克隆数字人

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

它可以精准地"指挥"虚拟形象的每一个细微动作，例如叹息等非语音动作、情绪驱动的眉毛和眼睛运动以及自然的头部运动。

Loopy 视频

来个优秀的开源人脸识别项目！

掌纹识别技术具有准确性高、速度快等优点。

人脸识别开源项目

性能超出预期！神秘的国产大模型 Kimi 开放 API

于是最近几天魔法哥一直在尝试他们的 API，这里聊聊感受，想到哪写到哪。

Kimi Chat 大模型 API

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

SenseVoice模型具有的功能特点：多语言语音识别：SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。

asr tts 声音

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

在Sora之前，业界已经有了很多视频生成工具和平台。

sora 视频生成

RLHF 在 Text2SQL 领域中的探索

01 定义 Text-to-SQL（简写为Text2SQL），顾名思义就是把文本转化为 SQL 语言，更学术一点的定义是：把数据库领域下的自然语言（Natural Language

Text2SQL RLHF

Stable Diffusion

小白设计师福音：Stable Diffusion 16款插件测评，好用不？推荐吗？

使用频率：⭐️⭐️⭐️⭐️ 能做什么：After Detailer 是一款强大的图像编辑工具

SD 插件文生图

完整ChatGLM3部署教程，支持手机和车载平台部署

同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。

ChatGLM3 大模型

QWen1.5: 卓越模型之路

我们相信多语言能力的提升，对于其整体通用能力也具有正向的作用。

Qwen1.5 开源模型

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

在EMO之前，Talking Head领域的工作都需针对人脸、人头或者身体部分做建模或者表征，耗时长且生成质量较低。

EMO 阿里全民演唱

<...75 76 77 787980 81 82 83 84 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1