文章列表-AI魔法学院

文章列表

AI助手App“腾讯元宝”已上线应用商店

腾讯混元文生图大模型支持中英文双语输入及理解，无论是中文的古诗词、民间俚语，还是英文的文学作品、科技文章，都能得到精准的理解和生动的呈现腾讯元宝还允许用户创建个人智能体，用户可以在创建过程中让AI自动生成智能体相关信息，并支持克隆声音

腾讯元宝

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

开源免费离线语音识别神器whisper如何安装

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。

wisper 翻译免费

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

打造音乐传奇：Suno推出音乐生成模型Suno V3，让每个人都能成为作曲家

，以下是歌词：在远方的天际线，火光划破宁静夜，硝烟弥漫，战鼓声，撕裂和平的幻灭。

suno 歌曲音乐

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

接下面让我们看看这款国产语音库为何如何迅速的火遍大江南北的🔥！

EmotiVoice 语音库

9.4k Star！MemGPT：伯克利大学最新开源、将LLM作为操作系统、无限上下文记忆、服务化部署自定义Agent

加州大学伯克利分校的研究人员发明了这个技术，灵感来自于电脑操作系统怎样管理内存的。

MemGPT 大语言模型

深度好文，Agent盛行前传

第六是模仿能力（imitation），它和概括能力相似的点是它们同属基础能力，好的模仿能力能够促进语言、知识和运动技能的提升，“元能力”（参考“元认知”，我来给它起了个名字），行为克隆和观察式学习是习得模仿能力的两种途径

Agent 大模型

开发语音产品时设计唤醒词和命令词的技巧

命令词中字的音节较长且相邻汉字的声韵母区分度越大越好； 3.

语音产品唤醒词命令词

Stable Diffusion

小白设计师福音：Stable Diffusion 16款插件测评，好用不？推荐吗？

#65039;⭐️⭐️ 能做什么：Ultimate SD Upscale 是一款强大的图像超分辨率工具，可用于将低分辨率图像提升到高分辨率、减少噪声和模糊

SD 插件文生图

被高估的Pika，被低估的多模态AI

例如，在医疗领域可以通过结合图像、录音和病历文本，提供更准确的诊断和治疗方案；在交通领域，结合图像和传感器数据，带来更智能、更安全的自动驾驶体验；在教育领域，将文本、声音、视频相结合，呈现更具互动性的教育内容

大模型多模态

大模型RAG检索增强问答如何评估：噪声、拒答、反事实、信息整合四大能力评测任务探索

为此，噪声鲁棒性测试根据所需的噪声比，将外部文档包含一定数量噪声文档的实例包含在内。

大模型 RAG检索增强

懒人福音！用AI生成会议纪要，让你的工作更高效！

**环境适应性**：AI系统可以在各种噪声环境下工作，不受会议室环境的影响。

会议纪要 AI工具

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1