文章列表-AI魔法学院

文章列表

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

Chinese-LLM开源中文大语言模型合集

书生·浦语地址：https://github.com/InternLM/InternLM-techreport 简介：商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型

大模型中文

厉害了，匹诺曹Pinokio！所有AI工具，一键安装，全部免费！整合AI绘画、AI视频、AI语音...

涵盖了 AI 绘画、AI 视频、AI 音乐、AI 数字人等各个领域今天给大家推荐一款AI神器，匹诺曹Pinokio！

AI绘画 AI视频 AI音乐

语音克隆又又又又又升级了

，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求

Meta 语音生成

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

用户可以通过简单的文本提示进行创作，生成多种音乐风格的高质量音乐和语音。。

suno 音乐

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

与以往主要迎合单一类型的音频（如人声）的工作不同，或者专注于特定任务（如语音识别和字幕），或者将模型限制在单一语言上，我们扩大了训练规模，涵盖了超过30个任务、八种语言和各种音频类型，以推进通用音频理解能力的发展

大模型语音

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

BERT的出现对自然语言处理领域带来了重大影响，成为了许多最新研究和应用的基础。

Bert-vits 语音

苏秦(suqin) 语言大模型全工具链 WebUI 整合包

项目简介本项目目标是实现目前各大语言模型的全流程工具 WebUI 整合包。

大模型

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

惊艳推荐！8款好用又免费的文本转语音TTS工具

在早期，TTS技术主要依赖于预录制的声音样本，通过组合这些样本来生成语音。

TTS Maker 语音

打造音乐传奇：Suno推出音乐生成模型Suno V3，让每个人都能成为作曲家

用国内爆火的kimi生成歌词在歌曲作词过程中，有许多专业术语和词汇用于描述不同的元素和技巧。

suno 歌曲音乐

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1