文章列表-AI魔法学院

文章列表

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

语音 HeyGen

Prompt全攻略(四):强力Prompt带来出色的AI应用

8.代码解释可以让AI以通俗语言解释编程代码,自动生成注释文档。

prompt

ComfyUI 基础教程（二）：文生图基础流程

CLIP 文本编码器它没有正面和负面关键词的区分，它们都使用一个名为“CLIP 文本编码器”的节点。

comfyui 文生图

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文来自ACM 2020：A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild 代码开源：https:/

wav2lip 语音

冲击传统模特，商汤发布高质量虚拟试衣Diffusion模型

最近，扩散模型已经成为在各种应用中生成高质量图像的有前途的替代方法。

文生图

M3E 可能是最强大的开源中文嵌入模型

嵌入有点像字典，可以把不同的词、图片或对象转换成独特的数字编码。

开源模型

最佳开源文生图大模型可图：安装与批量出图的完整教程

源码下载 git clone https://github.com/Kwai-Kolors/Kolors 2.

可图 kolors

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

仅仅 70 天以后，端侧大模型面壁 MiniCPM 小钢炮的第二弹乘胜追击，迎来多模态、长文本、MoE 等领域模型的迭代，主打的就是「小而强，小而全」。

MiniCPM 大模型

AI换脸：FaceFusion 3.5.0更新，解决老版本无法使用问题！

· 修正了 h264_nvenc 和 hevc_nvenc 预设的映射，确保准确的编码。

FaceFusion 文生图

Stable Diffusion

Stable Diffusion | SD阿里云3步部署，全程五分钟，免费试用三个月，电脑无需升级配置

注册好了登录图像变成这样 2、点击免费试用，选中函数计算FC，这一步是布置代码运行的算法云环境服务，对AIGC进行GPU推理计算。

下载

微软最强全自动数据可视化工具！现已开源

demo 里默认生成5个，可以在代码里改目标数量。

大模型

OpenAI开源大模型调测工具Transformer Debugger：可以在训练大模型之前理解模型的运行情况并干预

OpenAI对TDB的解释如下： TDB允许在编码之前快速地探索模型的工作原理，它能够介入模型的前向传播过程，让我们可以直观地看到某个特定操作如何影响模型的行为。

大模型调试工具

Stable Diffusion

Stable Diffusion 入门教程开篇

提示词（Prompt）输入，文本信息转换成语义向量传输给文本编码器（Text Encode）； 2.

Stable Diffusion 文生图入门教程

Stablediffusion3论文下载-确定了Stablediffusion3与Sora的架构是一致的

我们将稳定扩散 3 的输出图像与其他各种开放模型（包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α）以及封闭源代码系统（如 DALL-E

SD 论文

LangChain: LLM 应用聚焦的两大方向，RAG 和 Agents

当时的情况是 BERT 刚刚出来，Transformer 的魔法还没有蔓延到 CV 领域，所以这哥们提的问题相当于需要单独拎出来几个模型，分别把图像识别、意图识别、用于模拟用户行为的代码生成等等单独做一遍

大模型

<...23 24 25 262728 29 30 31 32 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1