文章列表-AI魔法学院

文章列表

AI绘画：InstantID Win11本地安装记录！

Windows11+Conda+git 1.克隆代码打开CMD工具，通过CD命令进入到指定目录，然后克隆代码。

InstantID Win11 安装

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

动态表现力：通过上下文风格化的音频到运动模型（ICS-A2M），MimicTalk能够「捕捉和模仿目标人物的动态说话风格」，使生成的视频更加生动和富有表现力。

MimicTalk 开源模型

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

语音 HeyGen

惊艳推荐！8款好用又免费的文本转语音TTS工具

在早期，TTS技术主要依赖于预录制的声音样本，通过组合这些样本来生成语音。

TTS Maker 语音

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

、分离复杂声源并结合音频和视觉数据锁定目标发声者。

ClearerVoice-Studio 语音

用AI做郭德纲说英文相声的爆款视频（详细教程）

郭德纲用英文说相声的短视频火爆全网，单条视频点赞破9.7万，转发量更是高达11.8万，AI的内容形式层出不穷，不断地出爆款，其实这个两周前有出过教程--用这个AI，把视频翻译成30+种语言，丝滑程度，随时能把生意做到全世界

视频翻译语言

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

另外的一个要点是声音，选用一款适合的AI声音或用真人语音驱动，才能让嘴型准确度达到更好的水平。

数字人数字分身

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

等了7分多钟，刚从北京闪现闪离的马斯克，他终于夸我是个人才：，时长00:03 好了，别骂诈骗，我全都招！

音频阿里

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

它的竞争对手包括语音克隆翻译应用 HeyGen 和Verbalate，以及Spotify和视觉特效工作室Monsters Aliens Robots Zombies等公司推出的新工具

AI

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

Suno音乐新手指南（手把手完整版教程）

在标记歌曲部分时，尝试一个简短的风格描述和一个名词——应该被听到的乐器或声音。

suno 歌曲教程

ComfyUI初学者指南

ComfyUI 管理器要安装此自定义节点，请转到PowerShell (Windows) 或终端(Mac) 应用程序中的自定义节点文件夹： cd ComfyUI/custom_nodes 并将节点克隆到本地存储

文生图 comfyui

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1