文章列表-AI魔法学院

文章列表

惊艳！2.77亿参数锻造出Agent+GPT-4V模型组合，领航AI领航机器人、游戏、医疗革新，通用智能时代你准备好了吗？

在这里插入图片描述注意：LangChain Agent主要增强基于语言的互动能力，而交互式代理基础模型寻求统一多模态输入，以实现更广泛的通用AI应用。

Agent+GPT-4V 大模型

向量数据库失宠了？OpenAI 力捧检索增强生成（RAG）技术，对行业来说意味着什么？

大语言模型尽管具有所有语言能力，但缺乏掌握“现在”的能力。

检索增强生成大语音模型

深度好文，Agent盛行前传

在这篇文章里我将借助引用量较高的论文“Reward is enough”并结合近期使用的MindOS（一款以GPT为大模型底层的agent应用

Agent 大模型

谈谈RAG存在的一些问题和避免方式

对于熟悉机器学习模型调优的人来说会对chunk_size和top_k非常敏感，为了确保RAG系统以最佳状态运行，需要对块大小和top_k进行调优，以确保它们是最合适的。

RAG 大模型

ComfyUI，你开启XL钥匙打开了新世界

设置模型搜索路径，可以复用设备上的其他路径里的模型文件。

ComfyUI 大模型

聊聊 AIGC 一些拧巴的现状

来，一起用老模型分析一下类似的项目： 1.

开源模型

开源打败闭源？Meta即将推出开源代码生成平台Code Llama，剑指OpenAI Codex

这套新的编码模型将与 OpenAI 打造的 Codex 正面抗衡，并基于 Meta 的 Llma 2 软件——这是一种能够理解并生成会话文本的大语言模型。

开源模型

清华&面壁开源新一代主动Agent交互范式！让AI从被命令到主动帮助

人类标注员在研究开发的标注平台上进行标注，对特定时间下，9 个不同的大语言模型生成的多样化预测进行判断，并通过多数投票的方式决定某个回合用户是否具有需求，以及用户倾向于接受什么类型的任务。

Agent 大模型

开发语音产品时设计唤醒词和命令词的技巧

一个模型仅允许一个唤醒词，如果需要多个唤醒词，请单独优化并使用多网络切换功能。

语音产品唤醒词命令词

企业数字化转型的“阿里阿德涅之线”在哪？

近几年，受到全球经济下行的压力，数字化转型成为中小型企业的破局点。

大模型用户

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

通过优化的声学模型和语言模型，确保语音的自然度和准确性，使其在多种场景下都能提供高质量的语音输出。

Fish Speech 本地搭建

国内厂商语音识别与Whisper评测：现状与概况对比

一、语音识别现状二、评测意义与预期成果三、评测方案四、评测结果一、语音识别现状得益于近年来深度学习技术的快速发展，人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段

语音识别 Faster-Whisper

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论~

大模型应用中一个非常重要的问题就是大模型的响应速度。

大模型

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

通过插件，LiveKit 可以与大型语言模型（如 GPT-4o）无缝对接，提供强大的智能对话和自然语言处理能力。

GPT-4o 语音交互

<...37 38 39 404142 43 44 45 46 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1