文章列表-AI魔法学院

文章列表

一款构建AI数字人项目开源了！自动实现音视频同步！

本周GitHub项目圈选: 主要包含音视频同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。

AI数字人音视频同步

Stable Diffusion

SD入门教程一：Stable Diffusion 基础（技术篇）

），顾名思义，它就是能预测出随机图里包含什么噪音的模型。

Stable Diffusion 文生图

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

最新的突破来自VividTalk项目，这是一个能够将单张照片和一段音频结合起来，创造出仿佛真人在说话的视频的技术。

VividTalk 视频

惊了，ChatGLM、Vicuna 等热门大模型丝滑 input，跟所有的下载上传说拜拜

public/datasets 公共教程「公共教程」模版汇聚超过 100 个经典及流行教程，用户只需点击「克隆

下载

Stable Diffusion

stable diffusion最全18种controlnet模型，详细教程讲解。

等到年底的时候做一个最全面的视频和文字讲解，现在还是在等等，目前AI领域热度确实是在持续降温，但是呢，深入了解AI的人都知道，AI的发展不是想人一样需要很长时间的积累，有时候可能就是一个算法的突破，就能应用到文字，图像声音等

Stable Diffusion 文生图 controlnet

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

数字人直播哪家强？中国数字人平台分析大全

这类软件被许多公司和个人所需，尤其是那些从事抖音、快手和视频号等平台的公司，它们需要高质量的数字人技术来提升内容创作和用户互动体验。

数字分身数字人

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

2023年人工智能行业总结

而变声模型vits和文本转语音TTS的发展，也让GPT有了耳朵和嘴巴。

人工智能 AGI 思考总结

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

音乐可能是最具挑战性的音频类型，因为它由局部和长程模式组成，从一系列音符到具有多种乐器的全局音乐结构。

开源模型

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

以前，智能玩具里只能播放预设的程序和声音，顶多就是进行一两轮简单提问，你可以理解成是“单向输出”，现在有了这个 openAI 的实时语音软件开发包，就变成了“双向交互”，能和你进行实时的语音对话。

OpenAI 嵌入式实时语音 SDK

DeepMusic发布“和弦派”2.0：重塑AI音乐创作范式，赋予创作者全方位掌控

4月29日，国内领先的人工智能音乐服务商DeepMusic，发布了自主研发的AI音乐工作站——“和弦派”2.0正式版。

和弦派 DeepMusic 音乐创作

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

Bert的加入让语音的韵律和情感表达更自然。

MeloTTS 语音工具

【AI科技大创意】2024年人工智能10大趋势

人工智能最终将在来年解锁语音优先的应用程序，特别是在伴侣和生产力类别中。

人工智能趋势

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1