文章列表-AI魔法学院

文章列表

语音克隆又又又又又升级了

，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求

Meta 语音生成

6个最佳开源TTS引擎

TTS引擎用于实现文本到语音的转换。

TTS引擎开源模型

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

而 OpenVoice 作为一款强大的多语言即时语音克隆AI工具，可以为用户提供高效、个性化的语音克隆服务，是一款值得推荐的项目。

tts 文本转语音

OCRmyPDF—可智能识别PDF文本和图片信息的工具

如果需要，可以在执行OCR之前对图像进行纠偏和/或清洁 •验证输入和输出文件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎识别超过

OCRmyPDF 工具

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

此外，我们还将语音识别与基于字级时间戳预测（SRWT）的任务结合起来进行训练，这在以前的多任务学习研究中通常被忽视。

大模型语音

掌握这10个AI 工具用1小时完成别人1周的工作

掌握这10个AI 工具，你用一小时就能完成99％的人一周还多的工作量！

AI 工具

OCR是什么以及推荐几款开源中文OCR识别软件

后期处理：根据特定的语言上下文的关系，对识别结果进行校正。

OCR

大模型应用实践：用LLaMA 2.0, FAISS and LangChain实现基于自由知识问答

在过去的几周里，我一直在试用几个大型语言模型(LLMs)并使用互联网上的各种方法探索它们的潜力，但现在是时候分享我到目前为止所学到的东西了！

开源模型

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

会“追问”的Agent，大模型知识库另类实践

在实际的生产环境中，此类知识库应用可能遇到两类问题：知识型和政策型（图1）。

大模型

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

· 可以实现高效率、低延迟的实时语音变化； · 跨平台兼容性强，适用于 Windows、Mac(M1)、Linux 等系统； espnet/espnet[3] Stars:

AudioCraft 音频

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

它的所有能力（录制、识别处理、存储回溯等）完全运行在本地，无需联网，不上传任何数据，只做应该做的事。

Windrecorder 录屏

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

实测15款AI大模型实时新闻搜索能力：金融业资讯获取哪家强？

在瞬息万变的金融市场，实时掌握行业动态是决策的关键。

AI 大模型

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1