文章列表-AI魔法学院

文章列表

【提前体验GPT-5】吴恩达AI智能体工作流详细解读

首先，从示例图片中确定小男孩的姿势并通过特定的模型进行提取。

GPT-5 智能体

Stable Diffusion

Stable Diffusion基础：ControlNet之身份标识

原理先看左侧上部：Instant ID 通过 IP-Adapter 技术提取参考图片中的面部特征信息，然后通过交叉注意力（Cross Atttention）将面部特征信息传递给 UNet，用于在反向扩散过程中影响人脸的生成

ControlNet 文生图

大语言模型LLM和知识图谱KG增强的企业搜索应用

但是当我们进行搜索时，LLM可以通过获取结果并将其合成为易于阅读的摘要来增强搜索结果。

开源模型

阿里的AI一键换衣（AnyDoor）工具来了

2、修改配置文件以局域网访问如果在局域网中其他电脑访问，则需要将启动地址从127.0.0.1改为0.0.0.0，具体修改文件为： AnyDoor\glut\Lib\site-packages\gradio

AnyDoor 换装文生图

【语音识别】OpenAI语音力作Whisper

首先，通过特征提取器将原始音频输入变换为对数梅尔声谱图 (log-Mel spectrogram)。

语音转文字 whisper

中文对话大模型BELLE全面开源！（附：数据+模型+轻量化）

BELLE模型能力展示 BELLE技术方案介绍 ChatGPT、GPT-4的横空出世，让人们看到了一丝AGI（通用人工智能）的曙光。

belle 训练大模型

清华、面壁智能发布：主动式Agent 2.0

ensp; 环境监控与事件收集：开发基于Activity Watcher的监控软件，捕获用户与计算机系统的交互细节，包括键盘和鼠标操作、访问的网页和使用的开发工具

Agent 2.0 大模型

pdf2htmlEX：效果相当好的一个PDF转HTML程序，和原始PDF几乎一模一样。

如果您担心生成的 HTML 的文件大小，那么我建议修补 fontforge 以防止它将当前时间写入转储的字体中，然后对 pdf2htmlEX 数据进行后处理以删除重复的文件 - 通常会有许多重复的背景图像和字体

PDF转换

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

此外，AudioCraft 还包括深度学习研究中使用到的 PyTorch 组件以及开发出来各个模型所需训练流程管道等内容，并提供 API 文档、常见问题 FAQ 等信息。

AudioCraft 音频

大模型能自己优化Prompt了，曾经那么火的提示工程要死了吗？

举个例子，人们发现如果让模型自己一步步地解释自己的推理过程（即思维链技术），其在许多数学和逻辑问题上的性能都能得到提升。

prompt 大模型提示

用AI生成PPT、用AI优化PPT!

因为我发给百度文库是财新的专业文章，因此我相信是百度文库在理解时发生了重复问题，而不是财新的问题。

AI ppt

Stable Diffusion

张嘴就能生图？这已经不是科技，这是魔法！（Stable Diffusion进阶篇：SDXL-Turbo）

不过就我目前看来的大部分演示都是通过ComfyUI，当然WebUI也可以使用不过好像暂时没ComfyUI那么顺。

SDXL-Turbo 文生图

20 个提升您设计水平的DALLE-3提示词

可以通过 Edge 浏览器使用 Bing Chat 免费访问 DALLE-3。

提示词 DALLE

Ollama最新更新v0.1.33，实现了多并发可同时与多个模型聊天对话！

修复内容： · 修复了模型不会终止导致API挂起的问题

ollama 语言大模型聊天

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

此外，Buzz 还支持将识别结果导出为 TXT 格式的纯文本或通用的 SRT 字幕文件，非常便捷。

生成式AI

<...79 80 81 828384 85 86 87 88 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1