文章列表-AI魔法学院

文章列表

最佳开源文生图大模型可图：安装与批量出图的完整教程

Kolors可图是快手Kolors团队开发的基于潜在扩散的大规模文本到图像生成模型。

可图 kolors

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

【万字长文】全球AI Agent大盘点，大语言模型创业一定要参考的60个AI智能体

而大公司一边，面对大型科技公司和创业公司都有可能抓住这次Agent的机会，比尔盖茨也表示如果微软没有介入他会感到失望。

大语言模型

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

以前关于遵循指令的工作主要是通过继承大型（多模态）LLMs的能力，采用轻量级的监督微调来激活模型的能力以与用户意图对齐。

大模型语音

大语言模型LLM和知识图谱KG增强的企业搜索应用

微软有了 ChatGPT，他们把它放到了 Bing 中，这真是太神奇了。

开源模型

智谱AI静悄悄的上线了一大波新模型，过年了，真的

我挨个列一下：大语言模型GLM-4-Plus。

智谱AI 大模型

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构—— 提出Decoder-Decoder新型架构，名为YOCO（You Only Cache Once）。

Decoder-Decoder YOCO 架构

造梦师手记：C站最受欢迎的大模型推出了SFW版

很长一段时间，C站最受欢迎的大模型是DreamShaper，在SDXL推出后，作者Lykon第一时间推出了一个0.9版和1.0版。

DreamShaper 大模型文生图

大模型的最大bug，回答正确率几乎为零，GPT到Llama无一幸免

所以说，大模型的推理，其实并不存在？

大模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

作者提出了一种有效的多模态训练模式，从 7B 模型开始，经过两个阶段的多模态对齐和多任务微调，分别针对音频、图像、视频和文本模态。

Baichuan-Omni 多模态大模型

AI人工智能大模型通用办公提示词-献给像我一样的社畜们

强调急迫感: Refine the existing document by adding a sense of urgency and emphasizing the need for immediate

体验了几款AI工具&&最新出现的跟数字人相关的几款大模型

图生成3D模型 ImageDream: https://image-dream.github.io/ 可以从多个角度生成。

数字人大模型文生图

一文看懂RAG：大语言模型落地应用的未来

做大模型的人都知道微调成本是十分高的，而RAG检索能力会消耗更低的成本并且收获比微调更好的效果！

rag 检索增强

动作识别模型有哪些

动作识别模型主要有： · TWO-STREAM CNN:网络顾名思义分为两个部分，一部分处理RGB图像，一部分处理光流图像。

动作识别模型

全球最强长文本大模型，一次可读35万汉字：Baichuan2-192K上线

大模型看书，从来没有这么快过。

Baichuan2 百川开源

<...14 15 16 171819 20 21 22 23 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1