文章列表-AI魔法学院

文章列表

开源免费离线语音识别神器whisper如何安装

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。

wisper 翻译免费

鹅厂最新AI工具刷屏！杨幂寡姐多风格写真秒秒钟生成，LeCun点赞 | 可免费体验

大厂们在整活方面开始卷起来了！

PhotoMaker 图生图

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

去年一张“大语言模型进化树”动图在学术圈疯转，模型架构还只有三大类：Decoder-Only、Encoder-Only、Encoder-Decoder。

Decoder-Decoder YOCO 架构

【万字干货】掌握 Midjourney 提示词技巧成为 25 个流派的摄影大师

这种类型的摄影的本质是捕捉食物的颜色、质地和摆放。

文生图训练提示词 Midjourney

Stable Diffusion

Stable Diffusion | SD腾讯云3步部署，全程五分钟，附价格费用清单

：输入“AI”进行搜索，选择 Stable Diffusion AI 绘画自定义模型版。

下载开源模型

45个 DALL-E 3 使用案例 (附提示词)

借助于 Transformer 模型优秀的自然语言能力，它可以精准地理解你的设计需求，并近乎如实地反映在画面上。

DALL-E 提示词文生图

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

上海交大开源的F5-TTS实测下来确实是还不错了。

F5-TTS 音频克隆

Stable Diffusion

Stable Diffusion基础：ControlNet之图片高仿

今天继续给大家分享AI绘画中 ControlNet 的强大功能，本次的主角是 Reference，它可以参考一张图片生成另一张看起来差不多的图片，这句话说起来有点绕，如果换成高仿，大家应该就明白了吧。

文生图

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

此外，MagicPose模块可以被视为原始文本到图像模型的扩展/插件，而无需修改其预训练的权重。

MagicPose 视频

Stable Diffusion

Stable Diffusion教程：文生图

最近几天AI绘画没有什么大动作，正好有时间总结下Stable Diffusion的一些基础知识，今天就给大家再唠叨一下文生图这个功能，会详细说明其中的各个参数。

文生图 Stable Diffusion

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

Fastwhisper + Pyannote 实现 ASR + 说话者识别

前言最近在研究ASR相关的业务，也是调研了不少模型，踩了不少坑，ASR这块，目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了，英文的话，还是非whisper莫属了，而且

faster-whisper 语者识别 ASR

SD入门教程六：ControlNet基础入门

通俗的讲，就是输入一些额外的控制参数，然后通过所对应的辅助模型（ControlNet专用模型）去控制图片的生成结果，这些控制参数可以是线稿图，深度图，人体姿态图，法线图等。

ControlNet 文生图

PymuPDF4llm：PDF 提取的革命

随着人工智能和自然语言处理技术的发展，对能够与大型语言模型（LLMs）无缝配合的 PDF 提取工具的需求日益增长（利用LLM从非结构化PDF中提取结构化知识）。

PymuPDF4llm PDF

Stable Diffusion

Stable Diffusion 抽卡必备神器！Agent Scheduler

相信大家在玩 Stable Diffusion 的时候一直有一个痛点，每次出图抽卡时都只能等待上一次抽卡结束，才能继续下一次抽卡；特别是当我们想抽大量的卡来测试不同的模型，不同的参数的效果时，那么是非常奔溃的

Agent Scheduler Stable Diffusion

<...67 68 69 707172 73 74 75 76 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1