文章列表-AI魔法学院

文章列表

OCR的终极解法——传统算法VS多模态大模型

这个模型包含命名实体识别的功能。

OCR 大模型文字识别

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

MiniCPM-V是面向图文理解的端侧多模态大模型系列。

minicpm 面壁

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

一文彻底搞懂多模态 - 多模态推理

多模态推理多模态推理涉及至少两种不同的感知模态，最常见的是视觉和语言。

多模态推理大模型

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。

大模型

动作识别模型有哪些

动作识别模型主要有： · TWO-STREAM CNN:网络顾名思义分为两个部分，一部分处理RGB图像，一部分处理光流图像。

动作识别模型

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体，相比上一代的训练数据增加了 40%，在包括推理、编码、精通性和知识测试等许多外部基准测试中展示出了优越的表现，且支持多个语种

开源模型

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

论文摘要大型多模态模型（LMMs）通过多感官技能，如视觉理解，来扩展大型语言模型（LLMs），以实现更强的通用智能（注意 LMMs 与 LLMs的区别）。

多模态大模型 GPT-4V 文生图

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

终于又有时间更新文章了，今天继续总结最近一周的研究动态，梳理了10篇有关大模型(LLMs)的最新研究进展，其中涉及涉及多模态RAG、推理时对齐、多模态模型、大模型微调、大模型Agent等热门研究。

大模型研究

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

4.批量处理：PaddleOCR支持批量处理，用户可以一次性上传多个图片进行文字识别，极大提高工作效率。

PaddleOCR 文字识别

几款开源的OCR识别项目，收藏备用

tesseract Tesseract，一款由HP实验室开发由Google维护的开源OCR引擎，开源，免费，支持多语言，多平台; https://github.com/tesseract-ocr

OCR

OCR是什么以及推荐几款开源中文OCR识别软件

二值化：　　如今数码摄像头拍摄的图片大多是彩色图像，彩色图像所含信息量巨大，不适用于OCR技术。

OCR

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

14.6K star！最好用的OCR文字识别项目，没有之一！

最近，在Github上发现了一个厉害的开源OCR项目——Umi-OCR，真的很强大，而且还可以离线使用，现在已经有了14.6k+的星标。

Umi-OCR 开源项目文字识别

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1