文章列表-AI魔法学院

文章列表

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

waveform, rate=sample_rate, autoplay=True) 对应的原音频素材效果如下：声音克隆-原音频素材,z先生的备忘录,3秒编写代码进行推理

asr tts 声音

来个优秀的开源人脸识别项目！

虹膜识别技术通过全自动照相机寻找并聚焦虹膜，实现高精度识别。

人脸识别开源项目

Stable Diffusion

【Stable Diffusion操作升级】Stable Diffusion 常用模型下载与说明

现在比较火的Korean Doll Likeness、Taiwan Doll Likenes、Cute Girl mix都是真人美女LoRA模型，效果很惊艳。

文生图 SD

打造音乐传奇：Suno推出音乐生成模型Suno V3，让每个人都能成为作曲家

首先访问月之暗面的kimi， https://kimi.moonshot.cn/，输入提示词：帮我写一首歌，主题是抨击战争的残酷，钩子可以是描述一个战争的残酷场景来引入，押韵模式采用AABB方式。

suno 歌曲音乐

【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision

（PS：作者这里的发现直接motivate了之后的CoOp[2]，CoCoOp[3]之类learnable prompting的工作，后面有时间我会专门写一期关于这个的。）

OpenAI 自然语言监督

向量数据库简介和5个常用的开源项目介绍

要真正理解矢量数据库是如何工作的，以及它与传统的关系数据库(如SQL)有何不同，我们必须首先理解嵌入的概念。

开源模型

GGUF格式详解

例如，数据可能按照内存加载的需要进行组织，以减少加载时的处理。

GGUF 大模型

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

所有内容均按照重要性和独特性进行排序，并将链接附在下方。

Transformer

开源！数字人资源大集合！

数字人资源合集源代码 http://www.gitpp.com/digital/awesome-digital-human 包含大量论文、源代码，团队与人员 · 真正的虚拟人类

数字人开源

AIGC生成客服虚拟人

总不能大家都照着空姐那种样子来吧，那也不合适。

文生图

《特朗普爱上在白宫当保洁的我》拍好了，3个月赚了10个亿

这些人也许觉得自己在玩梗，但言者无心听者有意，短剧创作者真的看中了这个点子，然后真的去拍了。

短剧

ChatGPT提示工程5篇合集(二)：ChatGPT提示工程 - 总结

示例二简要的总结以下内容，最多2个句子： <请把待总结的内容放到这里> 这一次，ChatGPT按照我们的要求，输出了2个句子。

prompt 提示词

Fastwhisper + Pyannote 实现 ASR + 说话者识别

官方仓库：https://github.com/SYSTRAN/faster-whisper 二、pyannote.audio介绍 pyannote.audio是一个用Python编写的用于扬声器

faster-whisper 语者识别 ASR

揭秘数字人困境：代理商亏钱、直播屡被封、刘润也不用了

事实上，代理商们真的靠数字人赚到钱了吗？

数字人

图解检索增强式生成（RAG）技术 | 万字长文

§ 查询重写是指使用 LLM 重新构建初始查询以改善检索。

检索增强式生成 RAG

<...50 51 52 535455 56 57 58 59 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1