文章列表-AI魔法学院

文章列表

腾讯出品！开源AI数字人框架！号称可以不限时长

今天，介绍一个开源创新的虚拟人视频生成框架：MuseV MuseV是由腾讯音乐娱乐的天琴实验室开源，MuseV专注于生成高质量的虚拟人视频和口型同步，能够制作出具有高度一致性和自然表情的长视频内容

MuseV 视频数字人框架

AI落地里那些假的机会

（和上面的例子不同，这个是使用价值自身就有问题）这类产品的奇妙之处在于：假设技术成熟度够，那这种大品类会变成巨头激烈竞争的市场；如果技术不成熟，那就还是传统品类。

大模型

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

Transformer（DiT）的应用： F5-TTS利用了Diffusion Transformer，这是一种结合了扩散模型的Transformer结构，专门用于处理生成任务中的对齐和数据生成问题

F5-TTS 音频克隆

Stable Diffusion

耗时80小时！超详细的胎教级Stable Diffusion使用教程，看这一篇就够！

Diffusion（简称“SD”）在正式安装之前希望大家先一起查看一下自己的电脑配置，需要注意的是以下两点： 01.电脑系统是Win10或者Win11 为了避免一些奇怪的兼容性问题

文生图

通往AGI之路，提示词入门

在这里，我举一个简单的例子，现在我想知道天空为什么是蓝色的，应该怎么去向大模型提问呢。

AGI 提示词

AI出题，做不完，根本做不完

就是让大模型扮演一个角色，定义好这个角色的能力，然后给它提出一些相关的问题，让它按照某种格式输出。

大模型提示词试题

解读OpenAI Sora文生视频技术原理

输入潜变量被分解成几个patch并由几个DiT块处理。

sora

ComfyUI-DDetailer脸部修复

只要你乐意，可以串联七个八个，脸和手一起修都没问题。

ComfyUI 脸部修复

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

Translatotron 3解决了什么问题？

Translatotron 语音识别

如何使用 Megatron-LM 训练语言模型

为了构建索引，首先根据训练参数计算每个 epoch 的数量，并创建一个排序，然后对数据进行 shuffle 操作。

开源模型

图文生成短视频的方法

AI工具推荐：国内类ChatGPT平台 1、百度 —— 文心一言 2、阿里 —— 通义千问 3、科大讯飞——星火认知大模型 4、360 —— 360智脑具体的可以看这篇文章《1&

视频 ChatGPT

AI写作不如意？万字长文深度剖析背后原因

锯齿边界在《导航锯齿形技术前沿：AI对知识工作者生产力和质量影响的实地实验证据》一文中，Dell’Acqua等人描述了波士顿咨询集团的顾问如何在工作中使用像GPT-4这样的AI工具。

AI写作

中文通用大模型最全汇总

ChatGLM：地址：https://github.com/THUDM/ChatGLM-6B 简介：中文领域效果最好的开源底座模型之一，针对中文问答和对话进行了优化

大模型开源模型

解放AI生产力——为什么要使用ComfyUI

这样的生产方式面临两个问题： 1.有些东西你很难用文字表达清楚，比如坐着，脚放在前面。

文生图

Stable Diffusion

Stable Diffusion由入门到精通

当然你肯定会问哪里粘贴？

prompt 文生图

<...58 59 60 616263 64 65 66 67 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1