文章列表-AI魔法学院

文章列表

AI Comic Factory：AI(连环)漫画生成器

我还没有为它编写文档，但基本上它是其他现有 API 的“只是一个包装器™”： @hysts 的 hysts/SD-XL 空间以及其他用于制作视频、添加音频等的 API

生成式AI

数字人直播哪家强？中国数字人平台分析大全

另一类是应用广泛的数字人软件，主要用于直播和短视频等领域。

数字分身数字人

懒人福音！用AI生成会议纪要，让你的工作更高效！

会议音频一般有几种，手机或录音笔的音频，腾讯会议的音频等，那如何把音频转成文本呢？

会议纪要 AI工具

惊艳推荐！8款好用又免费的文本转语音TTS工具

在早期，TTS技术主要依赖于预录制的声音样本，通过组合这些样本来生成语音。

TTS Maker 语音

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

“视频版ControlNet”来了！

ControlNet

用AI做郭德纲说英文相声的爆款视频（详细教程）

郭德纲用英文说相声的短视频火爆全网，单条视频点赞破9.7万，转发量更是高达11.8万，AI的内容形式层出不穷，不断地出爆款，其实这个两周前有出过教程--用这个AI，把视频翻译成30+种语言，丝滑程度，随时能把生意做到全世界

视频翻译语言

ComfyUI初学者指南

ComfyUI 管理器要安装此自定义节点，请转到PowerShell (Windows) 或终端(Mac) 应用程序中的自定义节点文件夹： cd ComfyUI/custom_nodes 并将节点克隆到本地存储

文生图 comfyui

4K star！录屏好帮手，超酷的实时按键显示工具

两种情况下会很实用，比如电脑画面中颜色和显示风格接近，不容易区分，可以换一种风格或者颜色；又或者是要适配品牌风格，设置一个合适的样式，能让视频更专业。

Keyviz 录频

惊了，ChatGLM、Vicuna 等热门大模型丝滑 input，跟所有的下载上传说拜拜

public/datasets 公共教程「公共教程」模版汇聚超过 100 个经典及流行教程，用户只需点击「克隆

下载

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

ensp;Sora发布的潜在影响 ▎C端 / 对于普通人 •这或许是独立创作者最好的年代，Sora发布之后，文案、音效

sora openai 视频生成

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。

minicpm 面壁

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1