文章列表-AI魔法学院

文章列表

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。

开源模型

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

提供开源数据集、开源模型、模型工具等，用社区的方式免费开发给广大个人、企业用户使用。

开源

Stable Diffusion

Stable Diffusion高级教程 - 图生图(img2img)模式

这个模式下功能很多我们挨个说 img2img 图生图模式下的默认功能，我们先看一下主界面: 上面还是正面提示词和负面提示词，接着是一个上传图片的区域，写着「Drop Image Here -

Stable Diffusion 图生图

国内LLM陆续启动，你的Prompt库有这些模块吗

不管你写过多少提示词，对于任何一个大语言模型，主要的交互角色只有三种：用户（User）、助手（Assistant）和系统（System）。

prompt

Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

8B模型在MMLU、GPQA、HumanEval等多项基准上均胜过Gemma 7B和Mistral 7B Instruct。

meta llama3

3 个令人惊艳的 AI 文档神器，开源了！

于是，在 GPT-4 刚发布之初，其强大的内容总结能力，成为了被使用最多的功能之一。

大模型开源模型

完全指南——使用python提取PDF中的文本信息（包括表格和图片OCR）

编写提取图像中文本的函数编写提取表格的文本内容的函数最后的整合处理写在前面随着大型语言模型(LLM)的应用不断发展，从简单的文本摘要和翻译，到基于情绪和财务报告主题预测股票表现

大语言模型 python

StreamingLLM 框架：利用最新标记让 AI 记住你的话、创作长篇小说，探索无限长度文本

如果大模型能够像人一样长时间对话并记住之前的内容，那么我们将拥有更广泛的应用可能性，让AI能够做更多事情。

大模型 llm框架

长窗口大战要终结了？谷歌魔改Transformer，推出了“无限注意力”

谷歌的大模型Gemini 1.5 首先玩了一个百万token的，中国的月之暗面一个月后推出Kimi智能助手，支持200万字超长无损上下文，在中国的大模型应用中异军突起。

大模型上下文

如何微调Meta Llama-3 8B

Meta 推出了 Meta Llama 3 系列 LLM，包括 8 和 70B 大小的预训练和指令调整的生成文本模型。

Meta Llama 3 大模型

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

VividTalk技术简介 VividTalk的核心功能是使用一张静态照片和音频录音，生成一个动态的、看似真实的讲话视频。

VividTalk 视频

当ChatGLM3能用搜索引擎时

随着AIGC的发展，传统的网络搜索模式也在接受这前所未有的挑战，首当其冲的就是各大搜索引擎，比如bing在自家浏览器中搭载了chatgpt，能够根据搜索的内容进行整合，并生成逻辑清晰，而且相对准确的信息

大模型应用大模型 ChatGLM

模拟ChatGPT流式数据——SSE最佳实践（附可运行案例）

为什么要这样传输，从使用场景上来说，ChatGPT 是一个基于深度学习的大型语言模型，处理自然语言需要大量的计算资源和时间，响应速度肯定比普通的读数据库要慢接口等待时间过长，显然不合适。

GPT

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

LiveKit 不仅有一个开源的 voice agent 方案[1]，还能为你提供一个成熟且强大的实时多模态 AI 解决方案。

GPT-4o 语音交互

推荐一个自动生成复杂提示词的模版：思考链（CoT）如何通过分步推理提升AI任务准确性 | 示例详解

什么是思考链 (CoT) 思考链（Chain of Thought，简称 CoT）是一种推理策略，通过将复杂问题分解为多个简单步骤，从而提升大型语言模型（LLM）的推理能力。

思考链提示词

<...32 33 34 353637 38 39 40 41 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1