文章列表-AI魔法学院

文章列表

微软对 Sora 进行了逆向工程分析，揭秘 Sora 的秘密

Sora 的发展，标志着 AI 长期研究的一个里程碑：让 AI 系统（或 AI 智能体）不仅能理解复杂的用户指令，还能将这些理解应用于解决现实世界的问题，通过动态和情境丰富的模拟互动。

Sora 微软

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

把不同格式的视频编码成统一的视觉块嵌入，然后用足够大的网络架构+足够大的训练批次（batch size）+ 足够强的算力，让模型对足够多的训练集做全局拟合（理解），在模型更好地还原细节的同时让模型出现智能涌现能力

sora openai 视频生成

3.5k Star! 一分钟搭建一个属于你自己的开发工具箱！——It-tools

Web（网站）工具类，包含Url格式编码解码，用户代理解析器，网址解析器等15种不同的功能。

IT-TOOLS 开源模型

中学生能看懂：Sora 原理解读

为了让Sora能够像人类大脑那样理解和生成这么丰富的视觉内容，OpenAI开发了一套将这些不同类型视觉数据转换为统一表示形式的方法。

Sora 原理

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

介绍近年来，语音启用的人工智能取得了显著进展，使对话代理能够更好地理解和响应人类语言。

GLM-4-Voice 9B 语音安装

Stable Diffusion

Stable Diffusion ControlNet：Reference“垫图”功能，不炼丹也能保持同一人物

ControlNet推出Reference(参考)控制类型也有一段时间了，最近体验了一下，被他的强大的效果震惊到了，之前一直想生成同一主体系列图片，需要Lora炼丹，这个不仅需要电脑有一定的配置，还要处理大量素材图片耗时耗力

文生图

智谱AI大模型ChatGLM3-6B更新，快來部署体验

ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。

ChatGLM3-6B 开源模型

图解 Transformer——功能概览

使得类 GPT 系列这样的模型，不仅能理解和生成自然语言，还能在多种任务上表现出色，如文本摘要、问答、翻译等。

Transformer 大模型图解

「Agent」通俗易懂地聊聊AI Agent（附66个开源+44个闭源Agent项目）

想象一下人工智能模仿人类的日常任务来处理大量人类的复杂社会行为。

大模型

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

虽然其流式处理由FunASR工具包而非原生功能启用，但其一体化的特性简化了多任务音频分析应用的架构[5]。

音频对比

我去，找到一个Github上非常优秀的AI项目，可控制鼠标、键盘，模拟人类操作，太丝滑，收藏～～～

但它们依赖“API 文本输入输出”，迟迟无法控制本地界面，本地任务自动化仍然困难：操作 Office、可视化软件受限拆分复杂任务，难以形成闭环缺乏视觉能力，仅凭语言无法定位

AI Agent 开源项目

可能是国产最强AI，ChatGLM-4来了！

在使用ChatGLM进行财报分析的时候，我发现效果并不比ChatDoc差，尤其是更新到GLM-4后，对财报中的报表数字非常敏感，结合我比较专业的提问，能非常容易的回复出我想要的重要知识点。

ChatGLM 智普

FaceFusion又更新咯，增强功能再增强！

换脸模型添加了FP16高性能版。

FaceFusion 文生图

AI赋能实验室：儿童绘本插图

此外，“raw”（原始）风格则可能意味着此插图保持了手绘的质感和温度，增加了作品的原创性和情感表达。

插画文生图

Stable Diffusion

Stable Diffusion | SD的老舅ComfyUI来了，节点式工作流，分部控制出图

，用户可以精准的控制每个版块的设置，达到控制变量的目的，但节点式的工作流也提高了一部分使用门槛。

生成式AI

<...9 10 11 121314 15 16 17 18 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1