文章列表-AI魔法学院

文章列表

构建开源多模态RAG系统

本质上，多模态涉及有两个输入——音频和视觉——并产生一个单一的输出，从而实现更丰富和全面的理解。

RAG 大模型

AI换脸：FaceFusion 3.5.0更新，解决老版本无法使用问题！

ensp; · 改善唇同步效果

FaceFusion 文生图

前半年，我看到的有趣的 AI 产品

很简单，00 后、10 后用户在精神方面的需求，和 70、80、90 这几代人完全不同。

AI工具

深入浅出人工智能常用技术，让你轻松掌握AI应用核心！

计算机视觉计算机视觉是一种让计算机从数字图像或视频中获取信息，并进行解析和理解的技术。

人工智能

2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini nano

谷歌被逼急了，赶在年底之前仓促发布了超大模型Gemini，卷起了多模态，甚至不惜「视频造假」。

小语言模型

用ComfyUI整了一套照片转Q版手办的工作流

之所以要搞这个，主要是因为它跟我目前要做的很多内容都息息相关，比如2D图片转3D模型，blender的插件、图片生成视频等，而且据说生成速度很快，对设备的要求低。

comfyui 文生图

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。

XVERSE-V 多模态大模型

数字人直播哪家强？中国数字人平台分析大全

这类软件被许多公司和个人所需，尤其是那些从事抖音、快手和视频号等平台的公司，它们需要高质量的数字人技术来提升内容创作和用户互动体验。

数字分身数字人

使用大模型自动回复小红书/抖音/快手评论：通过RAG 优化LLMs实现

LLM 的基本用法包括输入Promt并获得回复/Response RAG 通过向这个基本过程添加一步来实现即，执行检索步骤，根据用户的提示，从外部知识库中提取相关信息，并将其注入到提示中

RAG 大模型自动回复

万字长文｜40万人学习过｜28个ChatGPT使用技巧，带你从入门到精通

技巧15:让ChatGPT帮你写视频脚本除了图文，你也完全可以把ChatGPT融入到你YouTube、B站或者抖音等视频平台的创作过程中来，让ChatGPT按照你的要求写出对应视频脚本。

ChatGPT 使用技巧教程

大模型落地“诸神之战”，场景玩家先杀出重围了

它包括自然语义大模型、视觉大模型、视频大模型，和通用大模型不同，它的训练数据中包含了大量成熟营销方法论、营销数据。

大模型文生图

入坑必看：comfyui界面与基础操作

让我们一步步揭开comfyui的神秘面纱！

comfyui 文生图

13个神级Chatgpt指令，助你小说丝滑过审

示例：原文“我喜欢听音乐。

ChatGPT 写作

微软对 Sora 进行了逆向工程分析，揭秘 Sora 的秘密

与空间片段压缩类似，使用空间-时间片段压缩并设定好的卷积核参数（例如，固定的核大小、步长和输出通道数量）会由于视频输入的特性差异，导致潜码空间维度的不同。

Sora 微软

大模型应用发展的方向｜代理 Agent 的兴起及其未来（上）

音频频谱图提供了音频信号频谱随时间变化的直观表示。

大模型

<...13 14 15 161718 19 20 21 22 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1