文章列表-AI魔法学院

文章列表

Stable Diffusion

超详细的 Stable Diffusion ComfyUI 基础教程（二）：文生图基础流程

“右键——新建节点——加载器”我们会看到很多加载器，看名字是不是都挺熟悉的，没错这就是我们需要用到的“Checkpoint加载器（大模型加载器）、VAE加载器、Lora加载器等”我们先把大模型加载器添加进来

comfyui 文生图

模拟ChatGPT流式数据——SSE最佳实践

：字段名:字段值。

打字机 sse 大模型

RVC和SVC声音模型难找？推荐这个网站

AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频。这包括数据预处理、模型构建、训练、评估和优化。为了达到逼真、自然的声音效果，需要大量高质量音频数据和计算资源，并且需要精细调整和优化模型。

声音克隆数字人

Selenium+ddddocr | 再也不担心图片验证码

ddddocr库介绍 ddddocr（Deep Double-Digital Digits OCR）是一个基于深度学习的OCR（Optical Character Recognition，光学字符识别

Selenium ddddocr库

让AI记住你说的话、让AI给你生成几十万字的小说！StreamingLLM 让无限长token成为可能

比如写一个几十万字的小说！

StreamingLLM 写作

你是否发现ChatGPT甚至不能按字数要求回复问题？有人做了评测并讨论了可能的原因

Evaluating Large Language Models on Controlled Generation Tasks 你是否发现ChatGPT甚至不能按字数要求回复问题

大模型控制

一个充满多智能体的数字社会正在浮现，商业的底层逻辑已进入重构倒计时

未来已来，一个遍布智能体的数字社会正在浮现。

大模型

阿里云王坚：中国AI不惧R2迟发！靠「群体智能」破局：算力不是瓶颈，但AI应用层急需炸开OpenAI想象围墙！不看好硅谷抢人乱象

刚刚，阿里云创始人王坚的最新采访上线，聊透了中国 AI 的节奏、方向和人才观。

阿里云 AI

中文开源OCR框架对比及介绍

字符切割：由于拍照、书写条件的限制，经常造成字符粘连、断笔，直接使用此类图像进行OCR分析将会极大限制OCR性能。

OCR

OCR的终极解法——传统算法VS多模态大模型

传统算法一般情况 OCR 识别商务名片会分为两步： · OCR 算法识别出文字和坐标

OCR 大模型文字识别

借题发挥下最近几例声音克隆的应用案例

某父亲痛失爱子，因为儿子托梦告知人是可以复活的，于是这位父亲到处寻找让人复活的办法，于是他关注到了最新的人工智能技术，开始找人咨询和学习技术，通过摸索，他知道通过ChatGPT可以训练儿子的过去的说话，文字等语料

声音克隆数字人

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字：

OCR 手写文字识别

金融行业中 Fintech 的应用场景

本节课开始，咱们要花几节课的时间来学习一下 Fintech 的数据分析。

Fintech 金融

Stable Diffusion

Stable Diffusion ComfyUI 入门感受

Clip文字编码器节点，正面和负面分成两个节点 · Unet阶段：ksampler节点，负责在潜空间生成图片

文生图

全球最强大模型一夜易主，GPT-4时代终结！Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类

再举个例子，要求Claude 3 Opus将难以阅读的手写字迹的照片转换为文本。

claude 大模型

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1