文章列表-AI魔法学院

文章列表

GLM4 开源了！！！还有多模态

长文本推理：支持最大 128K 的上下文，GLM-4-9B-Chat-1M 模型更是支持高达 1M 的上下文长度。

智普 ChatGLM 多模态

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。

XVERSE-V 多模态大模型

构建开源多模态RAG系统

在这个新的冒险中，我们将深入研究使用开源大型语言多模态（LLMM）构建检索增强型生成（RAG）系统的过程。

RAG 大模型

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

一、模型概述 OmniVision - 968M是一款由NexaAI研发的紧凑且高效的多模态模型，其参数规模小于10亿（968M），却具备强大的视觉和文本处理能力。

OmniVision -968M 多模态模型

生成式AI与大语言模型的区别

如果它们听起来像是可比的，可能更像是生成模型人工智能对大型模型人工智能，或者可能是生成式语言模型对大型语言模型。

生成式AI 大语言模型区别

大模型外挂知识库优化-大模型辅助向量召回

今天给大家带来一篇来自战士金大佬（@知乎战士金）的博文-大模型辅助向量召回。

大模型

被高估的Pika，被低估的多模态AI

“之前很多公司都在卷文本大模型，GPT-4V 的出现代表多模态大模型可落地，毫无疑问明年大家都会卷多模态 AI ，原因很简单，因为 OpenAI 说明这条路是能够走得通

大模型多模态

你的下一个浏览器，可以是豆包电脑版！

因为豆包电脑版自带的很多新功能着实是有点东西在身上的。

豆包浏览器

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

（webui）词云、时间轴、光箱、散点图的数据总结录制完片段后自动识别，闲时自动维护、清理与压缩视频多语言支持

Windrecorder 录屏

面向知识图谱的大模型应用

，实现面向知识图谱的大模型应用。

知识图谱大模型

达摩院SPACE对话大模型：知识注入与知识利用

②分角色多轮次，至少两个参与主体，轮次间存在省略、指代、状态继承、状态遗忘等。

大模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

作者提出了一种有效的多模态训练模式，从 7B 模型开始，经过两个阶段的多模态对齐和多任务微调，分别针对音频、图像、视频和文本模态。

Baichuan-Omni 多模态大模型

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

苏秦(suqin) 语言大模型全工具链 WebUI 整合包

项目简介本项目目标是实现目前各大语言模型的全流程工具 WebUI 整合包。

大模型

十大开源语音识别项目

Whisper Whisper 是一个通用的语音识别模型。

语音识别开源项目

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1