首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 13个神级Chatgpt指令,助你小说丝滑过审
· Suno音乐新手指南(手把手完整版教程)
· 《特朗普爱上在白宫当保洁的我》拍好了,3个月赚了10个亿
· 阿里云王坚:中国AI不惧R2迟发!靠「群体智能」破局:算力不是瓶颈,但AI应用层急需炸开OpenAI想象围墙!不看好硅谷抢人乱象
· 造梦师手记:C站最受欢迎的大模型推出了SFW版
· AI绘画巅峰对决:Stable Diffusion 3与DALL·E 3原理深度比较
· AI写作不如意?万字长文深度剖析背后原因
· 大模型的研究新方向:混合专家模型(MoE)
· 喂饭级 AI’MWISE 启动器安装教程
· 数字人直播哪家强?百度、硅基、风平与闪剪四大AI数字人横向评测!
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
大模型微调经验汇总---LLM finetuning 踩坑经验之谈
对于一些机器生成的文本或
OCR
识别错误的文本,质量不高,由没有什么逻辑性,虽然比较难以检测,但是还是会有一些工具能做这样的事情,比如ctrl-detector。
大模型
人工智能
大模型
大模型业务应用中数据准备的要求、难点及解决思路
简单来说,感知类场景就是“能听会看”,指的是有明确的规则,不需要理解复杂的逻辑即可完成任务的场景,比如
OCR
图片识别、语音转写、文本情绪判断等;而认知类场景要求的是“能思考、会创造”,需要在感知场景要素的基础上
大模型
【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision
ensp; Zero-shot CLIP在真正意义上的out-of-distribution data上性能不好,比如在
OCR
OpenAI
自然语言监督
大模型
大模型时代 AI 技术在金融行业的创新应用
随着场景复杂度的提升和多模态模型以及融合模型的出现,出现了更多
OCR
结构化数据与自然语言数据结合的场景,以及机器学习预测与运筹优化相匹配的场景。
大模型
金融
OpenAI
被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线
在 MiniCPM 2B 基础上,2024 年 4 月 11 日,面壁又推出了新一代端侧旗舰大模型系列:显著增强
OCR
能力、甚至部分能力比肩Gemini-Pro的2.8B多模态模型MiniCPM-V
Grok-1
开源模型
开源
接私活必看的11个开源项目
功能丰富:支持包括PDF批量合并、拆分、添加水印、加密/解密、提取、
OCR
识别在内的20余项功能
私活
开源项目
大模型
从零开始了解AI大模型 - 技术篇:万字深度好文人话说大模型技术
这个模型被广泛应用于各种任务,包括将一种语言翻译成另一种语言的翻译工作、将图片中的文字变成可读的文字的
OCR
(光学字符识别)任务等等。
大模型
大模型
从第一性原理看大模型Agent技术
引入多模态输入后,我们还要解决一个自上而下的机制问题,就是Projection启发的这个点,
OCR
嫁接术一定会在某类任务存在缺陷。
大模型
agent
万字长文-大语言模型指令调优综述
MultiModal-GPT 是通过对OpenFlamingo (9B)开放数据集上对各种创建的视觉指令数据进行微调来训练的,包括VQA、图像字幕、视觉推理、文本
OCR
和视觉对话。
大语言模型
Agent
AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理!
4、拓尔思:“拓天大模型”发布,AIGC业务加速进展及落地 公司深耕NLP、知识图谱、
OCR
、图像视频结构化等多模态内容处理底层技术,建立完整多模态人工智能产品体系,为客户提供文本、音视频、多模态等全栈服务
AI
Agents
大模型
Agent
AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理
4、拓尔思:“拓天大模型”发布,AIGC业务加速进展及落地 公司深耕NLP、知识图谱、
OCR
、图像视频结构化等多模态内容处理底层技术,建立完整多模态人工智能产品体系,为客户提供文本、音视频、多模态等全栈服务
AI
Agent
大模型
人工智能
大模型
【全文翻译】微软166页论文解读 GPT-4V:多模态大模型的黎明
利用其强大的光学字符识别(
OCR
)能力,GPT-4V 准确识别了生成图像中渲染的文本,例如“Azuz Research”、“ARAUIE”和“Azure Azure”,并将它们与文本提示要求“Azure
多模态大模型
GPT-4V
文生图
<
1
2
3
>
1
2
4
5
6
7
8
9
100