文章列表-AI魔法学院

文章列表

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

事实上，训练数据的规模和质量不足，也正是许多视频生成模型研发者所面临的棘手问题。

可灵快手文生视频

中文开源OCR框架对比及介绍

OCR性能（★★★）这里基于github上训练好的模型做测试，不进行二次训练，不过项目里有提供训练数据的百度网盘下载，有资源的同学可以自己跑跑看。

OCR

一个产品经理的大模型观察、反思与预测

：以GPT为例 State of GPT：OpenAI 联合创始人 Andrej Karpathy GPT模型技术原理和训练过程 GPT训练的四个主要阶段： 1.Pretrain 预训练

工作

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

此外，MagicPose模块可以被视为原始文本到图像模型的扩展/插件，而无需修改其预训练的权重。

MagicPose 视频

教你用StableDiffusion设计AI数字人

▲ 工具对比训练流程首先，为了达成“像”的目标，我们把模型训练分为两步，一是人脸，再是身材。

文生图

用so-vits-svc-4.1进行音色转换的极简教程！

主要是因为孙燕姿的音色独特，吐词清晰，网络上存在她的大量歌曲，非常便于训练。

so-vits-svc 音色转换教程

StableDiffusion

StableDiffusion模型推荐系列（全能型）

这些模型背后，可是有着大量时间和资源的投入，比如SD1.5版本，耗资高达60万美元进行训练，其中的训练时间更是以万来计算的！

stablediffusion sd 文生图

AI自动生成视频全流程干货

今天分享的是最近Get到的一个新技能，本来想给公司用AI制作视频的，然后参加了一个培训，学完了，但是我发现AI将文字生成视频的本质还是将现有的视频库的内容进行重组，并不能满足我们这个行业的要求，但是针对特定的一些

AI 视频

分析过688篇大模型论文，这篇论文综述了LLM的当前挑战和应用

此外，他们更关注基于文本数据训练的模型。

开源模型

最透彻的大模型PPO原理和源码解读

希望可以帮助大家更具象地感受RLHF的训练流程。

PPO 大模型源码解读

网易有道强力开源中英双语语音克隆

下载预训练模型, 然后运行: mkdir -p outputs/style_encoder/ckpt mkdir -p outputs/prompt_tts_open_source_joint/ckpt

语音开源

解读wav2lip：探究语音驱动唇部动作的技术原理！

此外，在人脸重建的训练过程中，只有在训练的中后期才开始优化口型，导致前期监督信息缺乏。

wav2lip 语音

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

6.训练定制：PaddleOCR支持用户根据自己的需求进行模型训练和定制，满足特定场景下的OCR需求。

PaddleOCR 文字识别

AI颠覆的第一个体育赛道，来了

在训练和比赛分析方面，AI技术也在发挥着重要作用。

体育 AI

Stable Diffusion

硬核解读Stable Diffusion（系列一）

比如谷歌的Imagen采用纯文本模型T5 encoder来提出文本特征，而SD则采用CLIP text encoder，预训练好的模型往往已经在大规模数据集上进行了训练，它们要比直接采用一个从零训练好的模型要好

StableDiffusion 文生图

<...12 13 14 151617 18 19 20 21 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1