文章列表-AI魔法学院

文章列表

[中文开源震撼首发]33B QLoRA大语言模型Anima真的太强大了！QLoRA技术可能是AI转折点！

我们开源了第一个中文QLoRA 33B大语言模型——Anima。

开源模型

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

10种语言随便选，CPU就能实时合成，中英文混读丝滑得不像话。

MeloTTS 语音工具

国内厂商语音识别与Whisper评测：现状与概况对比

、微信、王者荣耀语音转文字 · 百度：AIl开放平台、智能云、语音搜索、地图、小度音响、语音输入法

语音识别 Faster-Whisper

【进阶】-文生图术语解释

念咒提示词组合 (prompts) 施法/吟唱/t2i 文本转图像 (txt2img) i2i

文生图

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

在当今数字化时代，文本转语音（TTS）技术的应用愈发广泛，从智能语音助手到有声读物，从无障碍服务到教育娱乐领域，都离不开高质量的语音合成。

OuteTTS-0.1-350M 音频

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

语音和音频处理领域正在经历一场重大变革，从专门的自动语音识别（ASR）系统，转向集成的、多模态的音频大语言模型（Audio LLM）。

音频对比

【万字长文】全球AI Agent大盘点，大语言模型创业一定要参考的60个AI智能体

PS：因本文盘点的Agent项目众多，故而字数也达到了1W+，建议大家先收藏再阅读。

大语言模型

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

将文本转化为3D动画：DeepMotion推出MotionGPT，开启动画新时代！

这是一款基于生成式AI的工具，可以将文本提示无缝转换为复杂的3D动画，简化了动画创作过程，同时也超越了物理障碍，使得更多不同类型的创作者和行业可以使用3D动画。

3D 动作捕捉

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

开源即巅峰！微软VibeVoice 7B模型：跨语言、多说话人、长文本一次到位

在当今数字化时代，文本转语音（TTS）技术的应用越来越广泛，从智能助手到有声读物，再到播客等多媒体内容创作。

VibeVoice 7B 语音

Stable Diffusion

Stable Diffusion图生图（真人转动漫）

一、简介今天给大家分享使用Stable Diffusion图生图进行真人转动漫，木木共使用了五种模型进行真人转动漫测试，重绘幅度在0.45~0.6之间，如果重绘幅度过大，会导致生成的图片偏离主体样貌

StableDiffusion 图生图

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

这个让数字人声音完美匹配画面还匹配表情和情绪的对口型项目已经正式在即梦上线了。

Loopy 视频

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

一款构建AI数字人项目开源了！自动实现音视频同步！

本周GitHub项目圈选: 主要包含音视频同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。

AI数字人音视频同步

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1