首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· LLM Agent最常见的九种设计模式(图解+代码)
· 使用 Dify 和 Moonshot API 构建你的 AI 工作流(一):让不 AI 的应用 AI 化
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· Github上Star数最多的大模型应用基础服务:Dify 深度解读
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· 你的下一个浏览器,可以是豆包电脑版!
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· 大语言模型定制化应用的三种方式:Prompt engineering、Fine tuning、Pre-trainning的区别
· 第3期 SDXL和SD的10大区别!你知道几个?
· Stable Diffusion|背景替换只需要两分钟!
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
OCR
OCR
的终极解法——传统算法VS
多
模
态
大
模
型
这个
模
型
包
含命名实体
识
别
的功能。
OCR
大模型
文字识别
开源
最强国产开源
多
模
态
大
模
型
MiniCPM-V:可
识
别
图片、视频,还可在端侧部署
MiniCPM-V是面向图文理解的端侧
多
模
态
大
模
型
系列。
minicpm
面壁
Transformer
TrOCR——基于transformer
模
型
的
OCR
手写文字
识
别
前期我们使用
大
量的篇幅介绍了手写数字
识
别
与手写文字
识
别
,当然那里主要使用的是CNN卷积神经网络,利用CNN卷积神经网络来训练文字
识
别
的
模
型
。
OCR
手写
文字识别
开源
OCR
终结了?旷视提出可以文档级
OCR
的
多
模
态
大
模
型
框架Vary,支持中英文,已开源!
以往这一任务需要文本
识
别
、布局检测和排序、公式表格处理、文本清洗等
多
个步骤—— 这一次,只需一句话命令,
多
模
态
大
模
型
Vary 直接端到端输出结果: 无论是中英文的
大
段文字
OCR
手写
文字识别
一文彻底搞懂
多
模
态
-
多
模
态
推理
多
模
态
推理
多
模
态
推理涉及至少两种不同的感知
模
态
,最常见的是视觉和语言。
多模态推理
大模型
开源
阿里云开源通义千问
多
模
态
大
模
型
Qwen-VL,持续推动中国
大
模
型
生
态
建设
在主流的
多
模
态
任务评测和
多
模
态
聊天能力评测中,Qwen-VL取得了远超同等规
模
通用
模
型
的表现。
大模型
动作
识
别
模
型
有哪些
动作
识
别
模
型
主要有: · TWO-STREAM CNN:网络顾名思义分为两个部分,一部分处理RGB图像,一部分处理光流图像。
动作识别
模型
开源
中文版开源Llama 2同时有了语言、
多
模
态
大
模
型
,完全可商用
Llama 2
模
型
系列
包
含 70 亿、130 亿和 700 亿三种参数变体,相比上一代的训练数据增加了 40%,在
包
括推理、编码、精通性和知
识
测试等许
多
外部基准测试中展示出了优越的表现,且支持
多
个语种
开源模型
微软
【全文翻译】微软166页论文解读 GPT-4V:
多
模
态
大
模
型
的黎明
论文摘要
大
型
多
模
态
模
型
(LMMs)通过
多
感官技能,如视觉理解,来扩展
大
型
语言
模
型
(LLMs),以实现更强的通用智能(注意 LMMs 与 LLMs的区
别
)。
多模态大模型
GPT-4V
文生图
微调
LLM每周速递!
大
模
型
最前沿:
多
模
态
RAG、RAG加速、
大
模
型
Agent、
模
型
微调/对齐
终于又有时间更新文章了,今天继续总结最近一周的研究动
态
,梳理了10篇有关
大
模
型
(LLMs)的最新研究进展,其中涉及涉及
多
模
态
RAG、推理时对齐、
多
模
态
模
型
、
大
模
型
微调、
大
模
型
Agent等热门研究。
大模型
研究
OCR
【重磅推荐】PaddleOCR:超越人眼
识
别
率
的AI文字
识
别
神器!
4.批量处理:PaddleOCR支持批量处理,用户可以一次性上传
多
个图片进行文字
识
别
,极
大
提高工作效
率
。
PaddleOCR
文字识别
开源
几款开源的
OCR
识
别
项目,收藏备用
tesseract Tesseract,一款由HP实验室开发由Google维护的开源
OCR
引擎,开源,免费,支持
多
语言,
多
平台; https://github.com/tesseract-
ocr
OCR
开源
OCR
是什么以及推荐几款开源中文
OCR
识
别
软件
二值化: 如今数码摄像头拍摄的图片
大
多
是彩色图像,彩色图像所含信息量巨
大
,不适用于
OCR
技术。
OCR
教程
openpose原理及安装教程(姿
态
识
别
)
OpenPose是一个用于实时
多
人姿
态
估计的开源库,它可以检测图像或视频中的人体关键点,并且能够
识
别
不同的身体部位和动作。
行为识别
姿态识别
OCR
14.6K star!最好用的
OCR
文字
识
别
项目,没有之一!
最近,在Github上发现了一个厉害的开源
OCR
项目——Umi-
OCR
,真的很强
大
,而且还可以离线使用,现在已经有了14.6k+的星标。
Umi-OCR
开源项目
文字识别
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100