文章列表-AI魔法学院

文章列表

国内厂商语音识别与Whisper评测：现状与概况对比

同时，Whisper（飞思卡尔语音识别技术）作为一项国际上也备受关注的语音识别技术，在语音识别领域也有着广泛的应用。

语音识别 Faster-Whisper

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

接下面让我们看看这款国产语音库为何如何迅速的火遍大江南北的🔥！

EmotiVoice 语音库

借题发挥下最近几例声音克隆的应用案例

通过训练儿子过去的视频，可以让AI让儿子的形象再现。

声音克隆数字人

把ChatGPT装进二次元手办，你来吗？AI桌面机器人众筹

计算机视觉识别模块支持离线运行。

ai小车 esp32 开源

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

过去，许多企业需要聘请多个视频主持人用不同的语言表达同一个故事，而现在，他们可以通过生成式AI来实现同样的功能。

AI

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

8月25日消息，阿里云推出大规模视觉语言模型Qwen-VL，一步到位、直接开源。

大模型

Stable Diffusion

小白设计师福音：Stable Diffusion 16款插件测评，好用不？推荐吗？

：⭐️ 能做什么：Segment Anything 是一款强大的图像分割工具，可用于自动识别和分割图像中的不同对象。

SD 插件文生图

Stable Diffusion

Stable Diffusion｜儿童绘本全流程制作分享

上次分享了一个将小说转化为视频的全过程的教程。

StableDiffusion 绘本

懒人福音！用AI生成会议纪要，让你的工作更高效！

通义听悟主要聚焦于音视频内容，提供多种功能，包括实时语音转写、音视频文件转写、实时翻译、内容标记和智能全文概要等。

会议纪要 AI工具

惊艳推荐！8款好用又免费的文本转语音TTS工具

随着人工智能（AI）技术的进步，基于AI的TTS技术已经成为了新的标准。

TTS Maker 语音

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

今天介绍一个开源的完整的数字人项目：Fay Fay是一个完整的开源项目，包含Fay控制器及数字人模型，可灵活组合出不同的应用场景：虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、心理测评

Fay 开源项目数字人

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

ViTPose+进一步拓展到多种不同类型的身体姿态估计任务，涵盖动物、人体以及典型的身体骨骼、手、脚、脸部等关键点类型，在不增加推理阶段模型复杂度和计算复杂度的情况下，实现了多个数据集上的最佳性能。

ViTPose+Transformer 身体姿态

AI 换脸——Deepfacelab 下载与安装，新手教程

AI 换脸越来越火，换脸的视频到处都是，那种还是那种的都有。

Deepfacelab 换脸

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

据介绍，与目前市面上的主流视频生成算法不同，EMO的原理是用音频驱动图片的人像，使其做出与音频内容高度匹配的口型和表情。

EMO 阿里全民演唱

<...8 9 10 111213 14 15 16 17 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1