文章列表-AI魔法学院

文章列表

生成式AI与大语言模型的区别

同样，音乐和文本生成模型分别在庞大的音乐或文本数据集上进行训练。

生成式AI 大语言模型区别

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用一句简单的提示来控制你的语音合成器，那该多方便？

EmotiVoice 语音合成

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

下面是一些基于ChatGLM衍生出来的大模型应用： langchain-ChatGLM：基于 langchain 的 ChatGLM 应用，实现基于可扩展知识库的问答。

大模型

来个优秀的开源人脸识别项目！

指纹识别技术具有实用性强、采集和使用方便等优点。

人脸识别开源项目

人脸识别的开源的项目有哪些？

OpenCV：OpenCV（Open Source Computer Vision Library）是一个广泛使用的计算机视觉库，提供了许多人脸识别算法和工具。

人脸识别开源项目

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

只是别被缅北拿去就好。

F5-TTS 音频克隆

几款开源的OCR识别项目，收藏备用

tesseract Tesseract，一款由HP实验室开发由Google维护的开源OCR引擎，开源，免费，支持多语言，多平台; https://github.com/tesseract-ocr

OCR

14.6K star！最好用的OCR文字识别项目，没有之一！

伙伴们，平时都会用到文字识别吧？

Umi-OCR 开源项目文字识别

把ChatGPT装进二次元手办，你来吗？AI桌面机器人众筹

接了语音模型模块，可以实现丝滑的大模型对话聊天功能。

ai小车 esp32 开源

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

整体项目的框架如下: 核心模型一: 语音识别模型SenseVoice介绍 SenseVoice 是一个全面的语音基础模型，旨在执行各种语音理解任务，包括自动语音识别（ASR）、语言识别

asr tts 声音

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1