文章列表-AI魔法学院

文章列表

解读wav2lip：探究语音驱动唇部动作的技术原理！

此外，在人脸重建的训练过程中，只有在训练的中后期才开始优化口型，导致前期监督信息缺乏。

wav2lip 语音

图解大模型训练之：张量模型并行(TP)，Megatron-LM

则每次forward的过程如下：为画图方便，图中所绘是b=1时的情况。

开源模型

大模型高效微调：🤗 PEFT 使用案例

提示方法可以分为两类： · 硬提示（Hard Prompts）：手工制作的具有离散输入标记的文本提示；

大模型

通往AGI之路，提示词入门

设计提示基本上就是如何“编程” GPT 模型，通常是通过提供指令或一些如何成功完成任务的例子。

AGI 提示词

建议收藏：超详细ChatGPT(GPT 4.0)论文润色指南

二、润色程度在使用ChatGPT的过程中，有时候我们并不希望AI对文本进行大幅修改，这时候可以要求它对润色的程度和方向进行限制，以下是一些可以有助于控制润色程度的口令，请大家尝试加入自己的提示词中

论文润色写作

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

此外，通过在训练过程中使用多个讲话者的语音数据，并引入自动编码输入来帮助稳定注意力，进一步扩展了模型的规模，使其能够在所有训练过程中看到的语种中一致地合成可理解的语音，包括训练讲话者的本地口音或外国口音

coqui-ai TTS 语音

两个案例教你如何用BRTR原则优化Prompt

优化流程：从模糊到精准 BRTR 原则优化 Prompt 的过程可以分为四个步骤：添加背景（Background）、明确角色（Role）、具体任务（Task）和明确要求（Request）。

BRTR Prompt 写作

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

2、流匹配技术： F5-TTS中采用了先进的流匹配技术，这是一种基于最优传输路径的方法，用于改进生成模型的学习过程。

F5-TTS 音频克隆

最透彻的大模型PPO原理和源码解读

希望可以帮助大家更具象地感受RLHF的训练流程。

PPO 大模型源码解读

震撼！AI语言模型突破瓶颈，26个提示词原则引领GPT-4响应质量飙升57.7%！你的模型还在等什么？

不同的问法会引导AI生成不同风格、不同详细程度的答案。

语言模型提示词 GPT-4

FaceFusion参数详解

顾名思义用来跳过远程下载（必要的模型我们可以通过别的方式，提前下载好）用法: --skip-download （2.2.2）Headless ��

FaceFusion 文生图

LangChain Agent原理介绍

工具代码 from langchain.tools import BaseTool # 搜索工具 class SearchTool(BaseTool): name = "Search

langchain

无限逼近真人效果的“超真实人像大模型”，或许它才是你一直在寻找的真爱！

为了改进模型的性能，作者还引入了一种新的损失函数，用于在训练过程中对生成图像进行优化。

大模型文生图

实时语音克隆

该存储库是使用实时工作的声码器实现从说话者验证到多说话者文本到语音合成 (SV2TTS) 的迁移学习的实现。

语音克隆

新测试基准发布，最强开源Llama 3尴尬了

首先，挑选过程中确保多样性，也就是测试集应涵盖广泛的现实世界话题。

Llama 3 大模型开源

<...79 80 81 828384 85 86 87 88 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1