首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· Kimi+扣子Coze,我零门槛制作了一个好用的智能体Agent | 智能体开发
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· 高效选择:Ollama与LM Studio深度对比
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
· 【Agent专题】Agent架构设计:智能体架构设计的9大核心技术全景深解析,附架构图
· 赛博牛马,智谱 AI,悄悄出了一个 AI PPT
· Embedding开源模型重磅玩家:北京智源人工智能研究院最新Embedding模型发布!登顶MTEB,免费商用授权!
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· 2024年傅盛开年AI大课演讲内容PPT
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
语
音
克隆又又又又又升级了
,
时
隔几个月Meta又推出了最新的
语
音
生成技术,不仅能可能声
音
,还能通过对声
音
的描述来生成独特的
音
色,同
时
还能通过描述来生成各种各样的
音
效,甚至能通过文字描述来编辑声
音
,整体来说,这项技术几乎囊括了现在人们对
语
音
生成技术的所有的需求
Meta
语音生成
开源
6个最佳开源TTS引擎
TTS引擎用于
实
现文本到
语
音
的转换。
TTS引擎
开源模型
工具
TTS它又来了!OpenVoice:一款借鉴于TTS
实
现的强大的AI
语
音
克隆工具!
而 OpenVoice 作为一款强大的多
语
言即
时
语
音
克隆AI工具,可以为用户提供高效、个性化的
语
音
克隆服务,是一款值得推荐的项目。
tts
文本转语音
工具
OCRmyPDF—可智能
识
别
PDF文本和图片信息的工具
如果需要,可以在执行OCR之前对图像进行纠偏和/或清洁 •验证输入和输出文件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎
识
别
超过
OCRmyPDF
工具
开源
开源
语
音
大
语
言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
此外,我们还将
语
音
识
别
与基于字级
时
间戳预测(SRWT)的任务结合起来进行训练,这在以前的多任务学习研究中通常被忽视。
大模型
语音
工具
掌握这10个AI 工具用1小
时
完成
别
人1周的工作
掌握这10个AI 工具,你用一小
时
就能完成99%的人一周还多的工作量!
AI
工具
开源
OCR是什么以及推荐几款开源中文OCR
识
别
软件
后期处理:根据特定的
语
言上下文的关系,对
识
别
结果进行校正。
OCR
大模型
大模型应用
实
践:用LLaMA 2.0, FAISS and LangChain
实
现基于自由知
识
问答
在过去的几周里,我一直在试用几个大型
语
言模型(LLMs)并使用互联网上的各种方法探索它们的潜力,但现在是
时
候分享我到目前为止所学到的东西了!
开源模型
解读wav2lip:探究
语
音
驱动唇部动作的技术原理!
本文将深入介绍一下wav2lip的技术原理和细节,了解它是如何
实
现
语
音
驱动唇部运动的!
wav2lip
语音
大模型
会“追问”的Agent,大模型知
识
库另类
实
践
在
实
际的生产环境中,此类知
识
库应用可能遇到两类问题:知
识
型和政策型(图1)。
大模型
开源
网易有道强力开源中英双
语
语
音
克隆
其中的
音
素(phonemes)可以这样得到: python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.
语音
开源
开源
从声纹模型到
语
音
合成:
音
频处理 AI 技术前沿 | 开源专题 No.45
· 可以
实
现高效率、低延迟的
实
时
语
音
变化; · 跨平台兼容性强,适用于 Windows、Mac(M1)、Linux 等系统; espnet/espnet[3] Stars: 
AudioCraft
音频
OCR
Windrecorder:连续记录屏幕内容,通过OCR技术
识
别
记录内容
它的所有能力(录制、
识
别
处理、存储回溯等)完全运行在本地,无需联网,不上传任何数据,只做应该做的事。
Windrecorder
录屏
开源
【开源项目】Flow Matching
语
音
合成
CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voicebox模型将CFM引入
语
音
合成领域,下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional
音视频
Flow
Matching
大模型
实
测15款AI大模型
实
时
新闻搜索能力:金融业资讯获取哪家强?
在瞬息万变的金融市场,
实
时
掌握行业动态是决策的关键。
AI
大模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100