文章列表-AI魔法学院

文章列表

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

（ControlNet实现了根据提示词精准控制图像元素改变，如人物动作、图像结构等）根据给到的提示词，它仅改变视频的画风，而且是针对完整视频。

ControlNet

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.01 概述在日常生活和工作中，你是否常因嘈杂的环境、重叠的对话或音视频信号的混杂而感到沟通困难？

ClearerVoice-Studio 语音

独家！黄太吉创始人再创业：首次披露惨败内幕

作为网红餐饮的鼻祖，赫畅在社交媒体上消失了。

黄太吉创业

Roop参数说明，ROOP->StyleGAN演示！

因为这个视频刚好有很多张脸，然后又是多角度60帧4K的动态视频，所以我觉得非常适合拿来测试ROOP。

视频 StyleGAN

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

，并将其作为生成器的输入来合成最终的视频。

VividTalk 视频

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

但是从另一个角度将，创作门槛降低之后故事的竞争将异常激烈。

sora openai 视频生成

TTS，一个奇妙的AI工具

在自媒体盛行的今天，很多人尝试制作视频发到自媒体平台上，通过获得流量的方式实现直接或间接变现。

TTS 文本转语音

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

本次让我们基于Bert-vits2项目来克隆渣渣辉和刘青云的声音，打造一款时下热搜榜一的“青岛啤酒”鬼畜视频。

Bert-vits 语音

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。

minicpm 面壁

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

以往，对口型视频往往存在一个通病，那就是看似嘴型对上了，但总感觉这个声音不是他发出来的，以至于大家看对口型视频的时候，会有一种割裂感。

Loopy 视频

郭德纲讲英语相声详细教程

郭德纲用英文说相声的短视频火爆全网，同类型的AI短视频层出不穷，更有好莱坞明星说中文的短视频，不断地出爆款，那么现在我们就开始学习如何制作一个同类型的AI短视频吧！

数字人音视频

StreamingLLM 框架：利用最新标记让 AI 记住你的话、创作长篇小说，探索无限长度文本

同时研究发现，在预训练期间添加一个占位符令牌作为专用的注意力汇可以进一步提高流式部署的性能。

大模型 llm框架

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

在音频驱动的视频生成领域，制作普通话视频面临着许多挑战。

JoyHallo 数字人开源模型

ChatGPT：12个写作提示词帮你覆盖所有主流写作场景

公众号文章创作您将扮演一位公众号文章的创作大师。

写作创作提示词

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

它采用了Sora相似的技术路线，结合多项自研技术创新，生成的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。

可灵快手文生视频

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1