文章列表-AI魔法学院

文章列表

RAG 2.0来了，它能成为生产落地的福音吗？

在典型的RAG系统中，通常会采用现成的通用嵌入模型来实现数据的嵌入处理，利用向量数据库进行高效的信息检索，并结合大型的黑盒语言模型来完成内容的生成。

RAG 大模型

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

面壁智能此次发布了能跑在手机上的「最强端侧多模态大模型」MiniCPM-V 2.0，参数规模仅为 2.8B，但在与参数远超自己的竞品模型较量中实现越级胜出。

MiniCPM 大模型

MCP服务介绍及应用场景报告-来自Manus

模型如何选择工具在MCP架构中，一个关键问题是模型如何确定使用哪些工具。

MCP 大模型

你是否发现ChatGPT甚至不能按字数要求回复问题？有人做了评测并讨论了可能的原因

有人做了评测并讨论了可能的原因最近在群里和朋友圈看大家都提到让LLM写固定字数的回复时模型几乎都失效了，在网上看到这篇论文的时候就想怎么这么巧就有人针对这个事情发了论文，合着好像就是群友发的。

大模型控制

打磨 8 个月、功能全面升级，Milvus 2.3.0 文字发布会现在开始！

§ Cosine metrics § Cosine 距离在大模型领域有着广泛的应用，尤其是在大模型领域，Cosine Metrics 几乎是衡量向量近似度的事实标准

大语言模型

揭秘Baichuan 3超越GPT-4的中文实力！文心一言、GLM 4.0也甘拜下风？全方位对比测试大揭秘！

这也让Baichuan 3在诗词创作等创意领域领先其他大模型。

Baichuan 3 大模型

应用编排的未来是Pipeline，LlamaIndex开发预览版推出Query Pipeline，提升应用开发的灵活性

在大模型时代以前，比如推荐等大数据AI领域，其发展的趋势就是流程编排。

Query Pipeline 大模型

Stable Diffusion

如何保证每次画出的都同一张人脸：Stable Diffusion的Reference only教程

Seed值控制虽然可大体达到目的，但是画出的人物姿态也高度趋同，而且稍微改变描述就会画出另外一个人来，而训练「高质量」模型则更费时费力。

文生图

3 个令人惊艳的 AI 文档神器，开源了！

后来居上的 Claude，也在该特性上持续发力，将原有大模型的 Token 上限硬生生拉到了 100K（约 7.5 万个单词）。

大模型开源模型

将文本转化为3D动画：DeepMotion推出MotionGPT，开启动画新时代！

DeepMotion致力于通过物理模拟、计算机视觉和机器学习让数字角色栩栩如生，持续革新动画行业。

3D 动作捕捉

图片拖拽神器DragGAN介绍及官方安装文档说明

在第二阶段，称为“鉴别器”阶段，训练模型区分真实图像和生成图像。

开源

Stable Diffusion

硬核解读Stable Diffusion（系列三）

首先是模型结构方面，SD 1.x版本的text encoder采用的是OpenAI的CLIP ViT-L/14模型，其模型参数量为123.65M；而SD 2.0采用了更大的text encoder：基于

Stable Diffusion 文生图

开源版妙鸭相机来了，无限出个人写真图（阿里达摩院出品）

FaceChain的模型由ModelScope开源模型社区提供支持。

妙鸭相机

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

VividTalk生成的视频看起来非常自然，应用范围广泛，可以用于虚拟助手、在线教育、娱乐内容制作等多个领域。

VividTalk 视频

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

不需要复杂的设计如持续时间模型、文本编码器和音素对齐，能够快速训练并实现实时因素（RTF）0.15的推理速度，显著优于当前基于扩散的TTS模型。

F5-TTS 音频克隆

<...36 37 38 394041 42 43 44 45 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1