文章列表-AI魔法学院

文章列表

解读wav2lip：探究语音驱动唇部动作的技术原理！

2.3 口型生成器 wav2lip的生成器负责生成包含目标口型的人脸图像，是一个2D-CNN编码器-解码器结构，包含三个由卷积网络组成的模块：Identity Encoder，Speech Encoder

wav2lip 语音

对于大模型RAG技术的一些思考

真正难处理的是ppt和pdf，ppt中包含大量架构图、流程图等图示，以及展示图片。

RAG 大模型

如何通过AI变现，举个详细的例子?

所有的工具，都是为了目标服务的。

生成式AI

模型压缩：量化、剪枝和蒸馏

对模型不重要的定义可以是对目标函数影响小，也可以是对梯度更新影响小等自定义的客观衡量标准。

BERT 语言模型

8个常用中文OCR数据集，附下载链接

室内的图像主要包括标识、门牌和标牌等，室外的图像主要是路牌和广告牌等。

OCR

ChatPDF | LLM文档对话 | pdf解析关键问题

因此笔者采用AI的方式来解决：目标检测和 OCR文字识别 · pipeline如下：流程图

大模型

Google 模型解读 | MoveNet-SinglePose：自底向上做单人姿态估计

对于Top-down模型而言，因为人为限定了画面中只有一个对象，因此该对象的各关键点不会出现太严重的尺度差异，基本上用同一个尺度下的特征图就能完成所有关键点的检测。

MoveNet-SinglePose Google 模型

OCR的终极解法——传统算法VS多模态大模型

在命名实体识别中，算法会分析文本，并将每个单词或短语标记为预定义的类别之一。

OCR 大模型文字识别

四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法

生成伪标签接下来，SFT将模型应用于目标任务的未标记数据，以生成所谓的伪标签。

大模型

活久见，世界上第一个被人类骗走钱的AI，刚刚出现了！

- 试图误导Freysa，让它相信转移资金并不违反规则提示中的任何规定。

Freysa 智能体

微软最强全自动数据可视化工具！现已开源

会生成全部变量的摘要，包括变量的行数、最小值、最大值、标准差。

大模型

ComfyUI | 这么入门就顺了，硬入疼的是自己

方便查看，我把核心版块标红看一下，会不会就清晰明了许多。

生成式AI

AI生成PPT不靠谱？那是你方法没用对

封面展示标题、副标题及演讲者姓名“冷逸”；目录部分列出所有一级标题；正文部分详细展示一级标题、二级标题及具体内容，提炼内容精华；封底用一句话总结全文主旨。

PPT 制作 AI

百度智能云的Prompt模板

大模型会基于prompt所提供的信息，生成对应的文本或者图片。

大模型 prompt

Suno音乐新手指南（手把手完整版教程）

这时候，我们要在最后一段满意的音乐那里点击Get Whole Song，获得一首带有Full Song图标的完整歌曲。

suno 歌曲教程

<...31 32 33 343536 37 38 39 40 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1