文章列表-AI魔法学院

文章列表

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

惊艳推荐！8款好用又免费的文本转语音TTS工具

具有神经网络真人发音、支持在线体验和本地部署（通过Docker等方式）。

TTS Maker 语音

深入浅出：大语言模型中必不可少的技术——Embedding简介

简单来说，embedding就是一个N维的实值向量，它几乎可以用来表示任何事情，如文本、音乐、视频等。

embedding

一款构建AI数字人项目开源了！自动实现音视频同步！

1、Video-Tetalking Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。

AI数字人音视频同步

大语言模型定制化应用的三种方式：Prompt engineering、Fine tuning、Pre-trainning的区别

在实现大语言模型的定制化应用中，的确有几种常用的方式：Prompt Engineering（提示工程）、Fine-tuning（微调）和Pre-training（预训练）。

大模型

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

登录进入工作台后，使用语言识别功能，点击【新建项目】-【语音转写】。

生成式AI

ChatGPT 的对话框过时了？这款 AI 产品提供了一种很新的聊天方式

比如，问问广州今天的天气如何，Flowith 就会进行实时搜索。

ChatGPT 聊天

RAGFlow：开源的RAG引擎，专注于深入的文档理解，支持处理各种复杂格式的非结构化数据

该项目提供了一个简化的RAG工作流，适用于各种规模的企业，通过结合使用大型语言模型（LLM）来提供基于严谨引用的真实问答能力。

RAGFlow RAG 开源

免训练！单图秒级别生成AI写真，人像生成进入无需训练的单阶段时代

这一创新版本摒弃了传统的人物模型训练过程，能够直接生成 zero-shot 目标人像，引领 AI 人像生成进入了无需训练的单阶段时代。

FaceChain FACT 文生图

Ollama最新更新v0.1.33，实现了多并发可同时与多个模型聊天对话！

上周，Ollama进行了v0.1.33版本更新，为本地部署的开源大型语言模型（LLMs）带来了重大改进。

ollama 语言大模型聊天

剪映克隆声音功能详解：剪映上线5秒“AI克隆音色”，一堆AI公司又要进入慢性死亡了...

也是在那一天，N多AI初创公司宣布进入死亡倒计时。

剪映声音克隆

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

支持的模型 · · AudioCraft使用 · · AudioCraft开源地址 · AudioCraft简介产生高保真音频任何类型的音频都需要对不同尺度的复杂信号和模式进行建模

开源模型

SD入门教程六：ControlNet基础入门

从上图可以看到，我们在使用 ControlNet 的时候，会先将 text prompt 和图片一起输入到 ControlNet 的模型中，然后 ControlNet 的模型会生成一张 latent

ControlNet 文生图

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

它在支持5种语言的同时提供高速处理。

asr tts 声音

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

同时，作者还利用自动语音识别（ASR）数据来训练音频语言模型。

Baichuan-Omni 多模态大模型

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1