文章列表-AI魔法学院

文章列表

基于Ollama本地部署Llama3指南！

模型架构 Llama 3 是一个自回归语言模型（an auto-regressive language），它使用优化的 transformer 架构。

LLama3 ollama

GPTs使用指南 | 保姆级GPTs入门教程，0代码基础也能做AI产品

想知道全球已有多少GPTs？

GPTs 入门教程

Stable Diffusion

张嘴就能生图？这已经不是科技，这是魔法！（Stable Diffusion进阶篇：SDXL-Turbo）

原版的Turbo已经接近14GB大小，远超之前下载的所有Checkpoint模型，而下方带fp16的是所谓的精简版本，这里推荐下载精简版本试试（放在以往的Checkpoint模型地址就好）。

SDXL-Turbo 文生图

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

这样，模型就可以学习到语音信号中的结构和含义，而不是简单地复制输入。

Translatotron 语音识别

再见了ComfyUI，WebUI也有了工作流

如今，一个叫做LightDiffusionFlow插件的推出，可以完美复刻（甚至超越）ComfyUI的工作流功能，可以将当前AI绘画作品的参数导出工作流文件，其他用户导入即可复现，如果缺乏原作者的大模型

ComfyUI WebUI 文生图

国内厂商语音识别与Whisper评测：现状与概况对比

耗费更多的计算资源总是可以换取一定的准确率提升。

语音识别 Faster-Whisper

AI助手App“腾讯元宝”已上线应用商店

腾讯元宝已经上架应用宝、小米、华为、vivo、OPPO等应用商店，苹果App Store中尚未搜到该应用，还需要等一等~ 中文支持：腾讯元宝依托于腾讯混元大模型，该模型在中文理解与创作能力方面表现出色

腾讯元宝

中文开源OCR框架对比及介绍

具体到模型本身的收敛速度、训练指标和鲁棒性等指标，都可以从官方文档中获取，这里只观察测试性能：通过搜集来的几个不同OCR测试数据集（github上有很多现成的，包括生成数据集、现实数据集等

OCR

FFmpeg之父新作——音频压缩工具 TSAC

仔细观察频谱发现，压缩后的音频高频细节有一些丢失，导致了听起来有模糊的感觉。

TSAC 音频工具

Stable Diffusion

stable diffusion 远端跑图—— Api基础知识掌握

） /sdapi/v1/sd-models 获取所有的模型 GET /sdapi/v1/txt2img 常用输入如下 /sdapi/v1/txt2img{ "denoising_strength

文生图 api

基于秋叶整合包-StableDiffusionWebUI启动器快速安装ComfyUI

（14）再次运行启动器，我的安装了一些插件，启动时加载内容比较多。

秋叶整合包

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

这个开源的 SDK 能让小型硬件设备（比如 ESP32 这样的微控制器）轻松接入 OpenAI 的实时语音服务，同时还能通过 WiFi 与云端的 AI 模型即时交互。

OpenAI 嵌入式实时语音 SDK

ComfyUI-基础图生图&基础图片缩放

因为有图片作为目标了，之前建立的空latent就可以删掉，替换成一个VAE编码器，然后将VAE连接到模型的VAE中，如果有自己倾向的也可以单独连线一个VAE加载器。

ComfyUI 图生图

掌握Prompt的6心法

模型的输出结果本身也是结构化的,比如输出JSON格式数据。

prompt 写作

爆火！腾讯开源PhotoMaker：高效地定制化生成任意风格的逼真人类照片！

与基于dreambooth的方法相比，该方法输入多个图像来微调模型以进行个性化定制，方法本质上是同时向模型发送多个嵌入。

PhotoMaker 文生图

<...85 86 87 888990 91 92 93 94 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1