文章列表-AI魔法学院

文章列表

腾讯出品！开源AI数字人框架！号称可以不限时长

多参考图像技术：支持IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID等多参考图像技术，提升了视频生成的质量和多样性1。

MuseV 视频数字人框架

LLMOps框架Dify发布Workflow功能，RAG进入自由编排时代（附产品负责人分享PPT ）

通过编排可以将开放域，复杂多步问题，分解为多个子问题分开解决，能用模型用模型，不能用模型的用流程，甚至采用“Human in Loop”的方式，将整个工作流程白盒化，把大模型能力限制在封闭的问题内，让大模型更可控，提升整个应用的可解释性和鲁棒性

RAG 自由编排 Workflow

AI生成卡通人物项目|VToonify

具体来说，VToonify 利用 StyleGAN 的中分辨率和高分辨率层来渲染高质量的艺术肖像，基于编码器提取的多尺度内容特征来更好地保留帧细节。

AI生成卡通人物 VToonify

TypeChat 入门指南

你可以在以下位置找到该项目的网站：microsoft.github.io/TypeChat/ 该项目的源代码（包括示例）托管在 GitHub 上：github.com/microsoft

TypeChat

字节，悄咪咪做了个 Liblib

如若扫码登录，会提示“尚未获得访问权限，平台开放后欢迎加入”。

Lumi 大模型

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

该模型旨在解决边缘设备在运行多模态模型时面临的资源受限问题，通过优化架构和训练方法，实现了在保证性能的前提下，降低计算成本和延迟，从而为边缘设备的智能化升级提供了可行的解决方案。

OmniVision -968M 多模态模型

必看！ComfyUI故障应对指南，让您轻松应对每一个挑战

如果在使用过程中遇到许多红色节点和提示，通常是缺少某些节点。

ComfyUI 故障应对

阿里的AI一键换衣（AnyDoor）工具来了

先看看官方演示图片：工具操作很简单，提供了两个上传照片的界面。

AnyDoor 换装文生图

为你推荐开源项目：Meridian——专属个人情报站！

它借助先进的AI技术，像勤劳的小蜜蜂一样，从数百个新闻源中采集、分析并提炼出关键信息，最后为你生成一份个性化、简洁明了的日报。

Meridian 开源项目

14.6K star！最好用的OCR文字识别项目，没有之一！

接下来给大家展示一下它的亮点功能：截图识别这个功能很适合在一些不能复制的网页上使用，速度很快，准确率也很高。

Umi-OCR 开源项目文字识别

WeChatpy：Python中优秀的微信开发库，与微信官方接口交互的工具

WeChatpy是一个功能强大且易于使用的Python微信开发库，它提供了与微信开放平台接口进行交互的方法和工具。

WeChatpy 开发库

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

项目提出了一种推理时的摇摆采样策略，显著提高了模型的性能和效率。

F5-TTS 音频克隆

Python状态机：优雅处理复杂业务逻辑的利器

扩展性好：易于添加新状态和转换规则 Python实现状态机示例下面是一个简单的订单状态机实现： from enum import Enum from

Python状态机设计模式

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

4.批量处理：PaddleOCR支持批量处理，用户可以一次性上传多个图片进行文字识别，极大提高工作效率。

PaddleOCR 文字识别

本地运行140亿参数，阿里千问玩起来！Qwen+Win11+3060

文档还提供了中，英，日的版本。

大模型

<...84 85 86 878889 90 91 92 93 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1