文章列表-AI魔法学院

文章列表

动作识别模型有哪些

考虑对一小段视频进行编码，假设起始帧为T，连续L帧(不包含T帧)。

动作识别模型

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

论文阅读 MagicPose:现实的人类姿势和面部表情重新定位与身份意识扩散摘要在这项工作中，我们提出了MagicPose，这是一种基于扩散的模型，用于在具有挑战性的人舞视频中进行2D

MagicPose 视频

使用思维链写Prompt

思维链有多种形式，其中最简单，最流行的一种就是在提示语中加入“让我们一步步来（Let's think step by step）”的说法。

思维链 prompt

网易有道强力开源中英双语语音克隆

PromptTTS）： https://github.com/netease-youdao/EmotiVoice EmotiVoice Docker镜像尝试EmotiVoice最简单的方法是运行docker

语音开源

从零开始学习大模型-第二章-大模型学习路线

预训练和微调：理解大模型的预训练和微调过程，学习如何使用预训练模型进行特定任务的微调。

大模型学习

如何下载及使用通义千问7B开源大模型

studios/qwen/Qwen-7B-Chat-Demo/summary 环境配置与安装本文在ModelScope的Notebook的环境（这里以PAI-DSW为例）配置下运行

通义千问

如何避免大语言模型绕过知识库乱答的情况？LlamaIndex 原理与应用简介

在查询期间，我们可以在调用 LLM 合成答案之前，使用 Embeddings 对节点进行最大相似度检索。

大语言模型

你是否发现ChatGPT甚至不能按字数要求回复问题？有人做了评测并讨论了可能的原因

该工作的主要贡献是对LLM在五个任务和十个生成基准上的可控性进行全面分析，其中包括受控故事生成、受控带有情感和主题的自由格式生成、受控改述生成和受控基本原理生成，见figure1。

大模型控制

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 具有跨平台支持的优点，可以在不同的操作系统上运行，包括 Windows、macOS 和 Linux。

WhisperLive 音频开源软件

8个超级GPTs Agent，每个浏览量超20w+（实用建议+攻防Prompt）

可能干货有点多，大家得准备好了~ 自己搭建的几个应用 1）Web Builder 之前搭建的一个网站开发助手V0.1 版本，目前还没对接一键部署平台，需要你自行去搭建环境，但是网站开发助手会给你零门槛操作的建议

GPTs Agent

Dynamic Prompts插件，魔法提示词由魔法帮你补全（插件篇）

启动动态提示词还记得我们在《嘛呢吽-咒语范式（关键词篇）》中提到过webui的一种语法，通过“|”让生成的图中出现进行组合排列吗？

文生图提示词

实时语音克隆

简要总结：这份内容介绍了实时语音克隆技术的实现，使用SV2TTS框架和波形神经网络进行多说话人的文本到语音合成。

语音克隆

Langchain的一些问题和替代选择

比如说这个，就是一个简单的分割函数：行为不一致并且隐藏细节 LangChain因隐藏重要细节和行为不一致而受到批评，这可能导致生产系统出现意想不到的问题。

大模型

Stable Diffusion

硬核解读Stable Diffusion（系列二）

generator = torch.Generator("cuda").manual_seed(42) # 定义随机seed，保证可重复性 # 执行推理

StableDiffusion 文生图

无限逼近真人效果的“超真实人像大模型”，或许它才是你一直在寻找的真爱！

作者提出了一种名为Sdxl的模型，通过在低分辨率图像上进行多步骤的潜在扩散操作，逐渐生成高分辨率图像。

大模型文生图

<...89 90 91 92 93 949596 97 98 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1