文章列表-AI魔法学院

文章列表

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

目前，视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来很好的性能。

ViTPose+Transformer 身体姿态

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

4K star！录屏好帮手，超酷的实时按键显示工具

今天我就帮你找到了一个好用的工具，它开源免费效果还超酷，帮你完成实时可视化键盘按键的效果，它就是：Keyviz。

Keyviz 录频

AI 换脸——Deepfacelab 下载与安装，新手教程

AI 换脸越来越火，换脸的视频到处都是，那种还是那种的都有。

Deepfacelab 换脸

剪映克隆声音功能详解：剪映上线5秒“AI克隆音色”，一堆AI公司又要进入慢性死亡了...

剪映的音色克隆，只能克隆自己声音的，而不能像一些现在市面上的开源项目一样，上传一段音频后，就能把那个人的声音克隆出来。

剪映声音克隆

懒人福音！用AI生成会议纪要，让你的工作更高效！

通义听悟主要聚焦于音视频内容，提供多种功能，包括实时语音转写、音视频文件转写、实时翻译、内容标记和智能全文概要等。

会议纪要 AI工具

惊艳推荐！8款好用又免费的文本转语音TTS工具

在早期，TTS技术主要依赖于预录制的声音样本，通过组合这些样本来生成语音。

TTS Maker 语音

动作识别模型有哪些

网络结构: 因为视频可以分为空间和时间两个部分。

动作识别模型

胎教级SO-VITS-SVC使用教程：人工智能生成歌曲

sd生成的话筒xswl 原始歌曲处理（人声和伴奏分离）如果想要使用孙燕姿的模型进行二次创作，首先需要一段已经准备好的声音范本，然后使用模型把原来的音色换成孙燕姿模型训练好的音色即可这里我们五月天的

音乐

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

背后原理目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。

OCR 手写文字识别

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

<...6 7 8 91011 12 13 14 15 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1