文章列表-AI魔法学院

文章列表

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

Roop参数说明，ROOP->StyleGAN演示！

比如一件事情，两个人同时干，肯定比一个人干快。

视频 StyleGAN

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

用多模态模型给视频做标注，把不同格式的视频编码成统一的视觉块嵌入，然后用足够大的网络架构+足够大的训练批次（batch size）+ 足够强的算力，让模型对足够多的训练集做全局拟合（理解），在模型更好地还原细节的同时让模型出现智能涌现能力

sora openai 视频生成

在Win11上部署ChatGLM3详细步骤

评测显示，在44个中英文公开数据集测试中，到目前为止ChatGLM3在国内同尺寸模型中排名首位。

大模型 ChatGLM 智普

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

把这张由Stable Diffusion 生成的 AI 小姐姐照片，丢进EMO操作界面，我们得到了下面这段视频：，时长00:14 整体来说，视频的质量还是比较高的，不论是同步口型、人物眨眼、还是头部运动

EMO 阿里全民演唱

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。

minicpm 面壁

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

以往，对口型视频往往存在一个通病，那就是看似嘴型对上了，但总感觉这个声音不是他发出来的，以至于大家看对口型视频的时候，会有一种割裂感。

Loopy 视频

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

更灵活的应用场景：无论是多人会议记录中区分不同发言者，还是多声道音频编辑，它都能轻松胜任。

ClearerVoice-Studio 语音

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

与视频一同曝光的，是一款名为「可灵」全新国产视频生成大模型。

可灵快手文生视频

whisper-live：OpenAI Whisper模型的近实时实现

它可用于转录来自麦克风的实时音频输入和预先录制的音频文件。

OpenAI Whisper 大模型

【语音识别】OpenAI语音力作Whisper

与Wav2Vec 2.0等前作不同，以往的模型都是在未标注的音频数据上预训练的，而 Whisper 是在大量的已标注音频转录数据上预训练的。

语音转文字 whisper

Insanely Fast Whisper：超快的Whisper语音识别脚本

通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。

音频 Whisper

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用不同的情感和语气来表达你的想法，那该多有趣？

EmotiVoice 语音合成

AI音乐热潮下，“神曲工作室”率先失业

她觉得，AI音乐可能会对抖音等平台上批量产出的歌曲产生较大影响，甚至不排除视频平台自主引入AI作曲机制，影响由第三方负责的“神曲”创作的生存空间。

音乐音频

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1