文章列表-AI魔法学院

文章列表

生成式AI与大语言模型的区别

它利用机器学习算法分析音乐数据中的模式，并根据输入和风格偏好生成新颖的作品。

生成式AI 大语言模型区别

爆肝7天！AI艺术字终极攻略，光影、隐藏、嵌入、海报4种艺术字全拆解

ControlNet参数四大步骤你只需要一步一步跟着操作，也能做出同款的AI艺术字１.光影文字２.嵌入文字３.隐藏文字４.海报文字每种都有对应的使用场景和变现方式真正地帮助了生产者提高生产力以及拓宽了变现渠道

文生图

研究人员开源中文文本嵌入模型，填补中文向量文本检索领域的空白

中文开源文本嵌入模型中最被广泛使用的 text2vec 主要是在中文自然语言推理数据集上进行训练的。

GPT

初创企业必知的 30种商业模式（附实例）

虽说合适的商业模式是要在实践中摸索，但提前对各种商业模式有所了解总是有用的。

初创商业模式

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

• 音频语言标签：然后，我们引入了一个语言标签，用于指示音频中的口语语言。

大模型语音

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

网易有道强力开源中英双语语音克隆

推理输入文本格式是： <speaker>|<style_prompt/emotion_prompt/content>|<phoneme>|<content>

语音开源

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

· 可以实现高效率、低延迟的实时语音变化； · 跨平台兼容性强，适用于 Windows、Mac(M1)、Linux 等系统； espnet/espnet[3] Stars:

AudioCraft 音频

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

模拟ChatGPT流式数据——SSE最佳实践（附可运行案例）

在使用 ChatGPT 时，发现输入 prompt 后，是使用流式的效果返回的数据，起初以为使用了双工协议做的持久化连接，查看其网络请求，发现这个接口的通信方式并非传统的 http 接口或者 WebSockets

GPT

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。

chattts tts 文生语音

实测15款AI大模型实时新闻搜索能力：金融业资讯获取哪家强？

· 需“打假”：腾讯元宝混入7月15日数据；秘塔搜索同时出现2024和2025年内容；智普清言日期混乱。

AI 大模型

腾讯的 PhotoMaker - 更快更像更可控的 AI Avatar

它主要通过堆叠ID嵌入方式编码任意数量的输入ID图像，以保留ID信息。

PhotoMaker 文生图

开源免费离线语音识别神器whisper如何安装

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。

wisper 翻译免费

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1