文章列表-AI魔法学院

文章列表

SD 美颜修图神器

Noise alpha「噪点阿尔法」分别设置 0、0.1 和 0.5，官方推荐 0.1，值越大，图像噪点越多。

SD 文生图

模拟ChatGPT流式数据——SSE最佳实践（附可运行案例）

可以使用 addEventListener 方法在当前 EventSource 对象上监听任意类型的命名事件。

GPT

腾讯出品！开源AI数字人框架！号称可以不限时长

下面是模型结构示意图下面是并行去噪算法示意图 MuseTalk：实时高质量口型同步模型值得一提的是，MuseV团队最近发布了MuseTalk，这是一个实时高质量的口型同步模型，可以与MuseV

MuseV 视频数字人框架

ChatGLM3-6B：新一代开源双语对话语言模型，流畅对话与低部署门槛再升级

尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性，但由于 ChatGLM3-6B 模型规模较小，且模型受概率随机性因素影响，无法保证输出内容的准确。

ChatGLM3 语音模型开源模型

开源免费离线语音识别神器whisper如何安装

本文目的网络上有些教程只展示了whisper使用的效果，没有介绍怎么安装，为避免大家在安装上踩坑，同时也为了避免自己以后万一哪天电脑崩溃需要重装whisper的时候再踩坑，我在这里记录下安装方法。

wisper 翻译免费

Stable Diffusion

stable diffusion 远端跑图—— Api基础知识掌握

; "sd_model_checkpoint" :"wlop-any.ckpt [7331f3bc87]"}, // 一般用于修改本次的生成图片的stable diffusion 模型，用法需保持一致

文生图 api

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

无监督的嵌入映射（Unsupervised Embedding Mapping）：这是一种可以把不同语言的语音或文字的内部表示，映射到一个共同的空间的方法。

Translatotron 语音识别

AI赋能实验室：儿童绘本插图

--ar 16:9 --v 6.0 --s 250 --style raw 译文：这是一个充满奇妙想象的儿童插图，描绘了一个充满好奇的[动物]在一个充满活力和魔法的[地点]展开了一段愉快的冒险

插画文生图

LLM之RAG实战（五）| 高级RAG 01：使用小块检索，小块所属的大块喂给LLM，可以提高RAG性能

在这篇博客文章中，我们将深入研究这两种方法在LlamaIndex中的实现。

RAG 检索

GitHub工程师分享开发Copilot所采用的提示词工程

总的来说，他们建议的方法是基于一系列步骤的。

开源模型

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

2、流匹配技术： F5-TTS中采用了先进的流匹配技术，这是一种基于最优传输路径的方法，用于改进生成模型的学习过程。

F5-TTS 音频克隆

5个最佳开源RPA框架！

它提供了易用的操作界面，无需编码或使用最少的命令（无代码、低代码方法）即可实现自动化机器人的创建。

智能自动化大模型 RPA框架

5个最佳开源RPA框架

它提供了易用的操作界面，无需编码或使用最少的命令（无代码、低代码方法）即可实现自动化机器人的创建。

开源模型智能自动化

FaceFusion又更新咯，增强功能再增强！

; 依赖更新到最新包含了演示素材包含了各类模型界面和提示全部做了汉化解除了XX限制解决启动时需要魔法的问题

FaceFusion 文生图

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

不同于现有方法直接用现成的 CLIP 词表，Vary 分两个阶段：第一阶段先用一个很小的 Decoder-only 网络用自回归方式帮助产生一个强大的新视觉词表；然后在第二阶段融合新词表和 CLIP 词表

OCR 手写文字识别

<...69 70 71 727374 75 76 77 78 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1