文章列表-AI魔法学院

文章列表

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

ensp;Sora发布的潜在影响 ▎C端 / 对于普通人 •这或许是独立创作者最好的年代，Sora发布之后，文案、音效

sora openai 视频生成

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。

minicpm 面壁

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

在 X 和Reddit等网站上，一些知名人士的配音视频已经出现了数千次。

AI

了解Kimi必看的26个问题 | Kimi系列文（二）

了解到，目前的GenAI有文本类、视频类、绘图类、音频类、编程类、PPT、数字人、AI搜索等形式。

Kimi 大语言模型

Roop参数说明，ROOP->StyleGAN演示！

保持帧率，指的是原视频是多少帧率，合成后的视频就是多少帧率。

视频 StyleGAN

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

以前，智能玩具里只能播放预设的程序和声音，顶多就是进行一两轮简单提问，你可以理解成是“单向输出”，现在有了这个 openAI 的实时语音软件开发包，就变成了“双向交互”，能和你进行实时的语音对话。

OpenAI 嵌入式实时语音 SDK

DeepMusic发布“和弦派”2.0：重塑AI音乐创作范式，赋予创作者全方位掌控

4月29日，国内领先的人工智能音乐服务商DeepMusic，发布了自主研发的AI音乐工作站——“和弦派”2.0正式版。

和弦派 DeepMusic 音乐创作

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

与视频一同曝光的，是一款名为「可灵」全新国产视频生成大模型。

可灵快手文生视频

Stablediffusion3论文下载-确定了Stablediffusion3与Sora的架构是一致的

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向

SD 论文

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

呵呵，不是不支持就是发音像老外学中文多语言切换？

MeloTTS 语音工具

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

以往，对口型视频往往存在一个通病，那就是看似嘴型对上了，但总感觉这个声音不是他发出来的，以至于大家看对口型视频的时候，会有一种割裂感。

Loopy 视频

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

一个静态图片转视频的项目。

阿里大模型

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1