文章列表-AI魔法学院

文章列表

AI文档智能助理都是如何处理pdf的？

进行图片处理。

大模型

从零开始了解AI大模型 - 技术篇：万字深度好文人话说大模型技术

经过微调后，这些模型可用于各种任务，包括分类、序列标记、结构预测和序列生成，同时还可以构建文摘、机器翻译、图片检索、视频注释等应用。

大模型

国内厂商语音识别与Whisper评测：现状与概况对比

一、语音识别现状二、评测意义与预期成果三、评测方案四、评测结果一、语音识别现状得益于近年来深度学习技术的快速发展，人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段

语音识别 Faster-Whisper

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

此外，MagicPose模块可以被视为原始文本到图像模型的扩展/插件，而无需修改其预训练的权重。

MagicPose 视频

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

其一是没有标注信息的弱监督数据，来自于从网上挖掘得到的各种有语义关联的数据，并过滤掉其中低质量的内容。

BGE M3-Embedding 多语音检索

准备迎接超级人工智能系统，OpenAI宣布RLHF即将终结！超级对齐技术将接任RLHF，保证超级人工智能系统遵循人类的意志

为什么要做弱AI监督引导强AI 如前所述，此前的强化学习是人类比模型强的情况下推出的如下图所示，是一个示意图：在未来，我们面临的是人类需要监督和控制比自己更强大的AI系统。

OpenAI 人工智能

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

利用简单的 WER 启发式，他们只选择质量最高的伪标签进行训练。

语音 HeyGen

【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision

这种严格的监督训练方式限制了模型的泛化性和实用性，因为这样的模型通常还需要额外的标注数据来完成训练时未曾见过的视觉“概念”。

OpenAI 自然语言监督

你要牢记的四个常用AI提示词框架：ICIO、CRISPE、BROKE、RASCEF，有助于获取更加稳定和高质量的内容

数据处理与转换：当用户需要 AI 处理特定的数据并按照特定格式输出时，如数据清洗、文本翻译或图像转换。

大模型提示词

金融领域Prompt工程方法浅析

Prompt工程流程（Financial Prompt Engineering Process，FinPEP），其概述图如图1所示。

prompt 大模型

大模型能自己优化Prompt了，曾经那么火的提示工程要死了吗？

给定一些示例和定量的成功指标，这些工具可迭代式地找到输送给 LLM 的最优语句。

prompt 大模型提示

来自Microsoft Build 2023：大语言模型是如何被训练出来的

如下图所示：预训练阶段的输入和目标做了tokenzier之后就可以针对数据集利用transformer模型进行训练。

大模型

TrOCR——基于transformer模型的OCR手写文字识别

TrOCR是transformer OCR的简写，是microsoft发布的一个OCR识别模型，光看这个模型的名字就知道此模型基于transformer模型，其模型架构如下，完全采用了标准的transformer

OCR 手写文字识别

2023年LLM如何入门？请看这篇综述！

A：自从图灵测试在1950年代提出以来，人类一直在探索如何让机器掌握语言智能。

大模型

NEFTune：在Embedding中加入噪⾳提⾼指令微调效果！

图1：LLaMA2-7B模型在数据集微调时，使⽤和不使⽤NEFTune的AlpacaEval胜率百分比。

NEFTune 大语言模型

<...35 36 37 383940 41 42 43 44 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1