文章列表-AI魔法学院

文章列表

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

主要特征语音合成：轻松将文本转换为类似人类的语音。

AI语音克隆实时语音识别

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

【语音识别】OpenAI语音力作Whisper

这么多的标注数据使得我们可以直接在有监督语音识别任务上预训练Whisper，从标注音频转录数据中直接习得语音到文本的映射。

语音转文字 whisper

网易有道强力开源中英双语语音克隆

/ ckpt中 3.

语音开源

语音、视频转文字神器：开源whisper介绍

Whisper模型使用了一种称为“自注意力机制”的技术，它可以在处理不同的语音信号时，更好地捕捉到语音中的关键信息。

人工智能大模型 wisper

关于AI声音生成的一切（语音+音乐+嘴型）

其实声音生成也有很多革命性的工具，例如高质量的声音识别、文字转成人声、人声克隆、音乐生成，已经能组成完整工作流了，其中一些工具甚至已经打包好了，只要下载解压就能用！

声音

Chinese-LLM开源中文大语言模型合集

-6B 简介：一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁

大模型中文

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

它作为全球首个开源中文情感端到端语音交互大模型，为中文语音交互技术带来了新的活力和可能性。

Westlake -Omni 语音

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

BERT的核心思想是通过在大规模文本语料上进行无监督预训练，学习到通用的语言表示，然后将这些表示用于下游任务的微调。

Bert-vits 语音

大语言模型应用中的文本分块策略

分块的主要原因是确保我们向量化的内容的噪音尽可能少，并且具有语义相关性。

开源模型

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用自己喜欢的声音来朗读任何文本，那该多好？

EmotiVoice 语音合成

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

此外，通过在训练过程中使用多个讲话者的语音数据，并引入自动编码输入来帮助稳定注意力，进一步扩展了模型的规模，使其能够在所有训练过程中看到的语种中一致地合成可理解的语音，包括训练讲话者的本地口音或外国口音

coqui-ai TTS 语音

最新最全的开源中文大语言模型列表

在多语言翻译、交互翻译、通用任务、标准化考试的测评中，百聆在中文/英语中均展现出更好的表现。

大模型

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1