文章列表-AI魔法学院

文章列表

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

它采用纯语言建模方式，打破了传统 TTS 模型依赖复杂架构和外部适配器的模式，为语音合成领域带来了新的思路。

OuteTTS-0.1-350M 音频

TypeChat 入门指南

传统模式下，创建自然语言模型界面是一项复杂的任务，通常依赖复杂的决策树来确定意图并收集行动所需的输入。

TypeChat

一文带你认识ELMo

训练了从左到右或从右到左的语言模型。

embedding

一旦参透「第一性原理」，便洞悉所有事的本质

建议您先大致浏览一遍并将其收藏，以便将来实际操作时能够参照查看，一旦学会，终身受用！

第一性原理大模型

Stable Diffusion

Stable Diffusion WebUI v1.9.0重大更新！

根据模型时间步长（Model timesteps）而不是采样步骤（Sampling steps）进行精炼器（Refiner）切换从原理上来讲精炼器（Refiner）会根据采样器和模型的训练方式

Stable Diffusion 文生图大模型

聊聊 AIGC 一些拧巴的现状

今天，整理一下我得到的一些碎片化信息和观点分享给大家，希望有用。

开源模型

开源打败闭源？Meta即将推出开源代码生成平台Code Llama，剑指OpenAI Codex

这套新的编码模型将与 OpenAI 打造的 Codex 正面抗衡，并基于 Meta 的 Llma 2 软件——这是一种能够理解并生成会话文本的大语言模型。

开源模型

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

它是在本来已经极其强大的Vits项目中融入了Bert大模型，基本上解决了VITS的语气韵律问题，在效果非常出色的情况下训练的成本开销普通人也完全可以接受。

Bert-vits 语音

开发语音产品时设计唤醒词和命令词的技巧

韵母选择大口型，开口音的韵母，比如 a、ai、an、ian、ao，避免 e、i、en、in 等； 9.

语音产品唤醒词命令词

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

首先，收集全面的普通话数据集非常困难；其次，普通话的复杂口型动作使得模型训练比英语更具挑战性。

JoyHallo 数字人开源模型

深度洞察：人工智能体(AI Agent)2024年重要发展趋势指南

随着大语言模型(LLM)驱动的人工智能体(AI Agent)的兴起，我们正处于一个新时代的边缘：人工智能体可能会形成自己的社会，与人类和谐共存。

AI Agent 人工智能

国内厂商语音识别与Whisper评测：现状与概况对比

一、语音识别现状二、评测意义与预期成果三、评测方案四、评测结果一、语音识别现状得益于近年来深度学习技术的快速发展，人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段

语音识别 Faster-Whisper

AI能赚到钱了么？

最近各种大模型密集发布，“赶上GPT4”“成为中国的OpenAI”等观点散见于各种文章。

大模型商业模式

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

LiveKit 不仅有一个开源的 voice agent 方案[1]，还能为你提供一个成熟且强大的实时多模态 AI 解决方案。

GPT-4o 语音交互

<...42 43 44 454647 48 49 50 51 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1