文章列表-AI魔法学院

文章列表

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

这款工具具有很高的速度，能够在批量处理中大幅提高生产效率。

生成式AI

目前有哪些比较成功的人工智能应用？

代码解释器: 可以生成表格和可视化图，让任何人都能成为初级数据分析师。

生成式AI

Stable Diffusion

Stable Diffusion | SD的老舅ComfyUI来了，节点式工作流，分部控制出图

ComfyUI 是一个基于节点流程式的stable diffusion AI 绘图工具WebUI，界面版块基本和stable diffusion一样，只是每个版块被拆分成节点，可以灵活控制连接，这样的工作流和完善的可复现性

生成式AI

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

生成式AI工作流#产品经理和创业者的秘密武器

如今，随着ChatGPT、Midjourney、StableDiffusion等生成模型带动起来的热潮，AI大模型正逐渐渗透到各种产品和服务中，越来越多的产品经理也在考虑将AIGC（AI生成内容）能力融入到自己的产品中

AIGC 工作流

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

为了进一步丰富作者的数据集，作者使用了GPT-4o为YouTube上收集的视频生成多样化的字幕。

Baichuan-Omni 多模态大模型

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

，完成动态的分割任务： “套上”Real-ESRGAN，则给视频做超分也是信手拈来…… 整个过程非常轻松，不需要对待操作视频进行任何调整或处理。

ControlNet

教小朋友学习AI绘画的同时避免生成不健康图片

有朋友咨询，为了避免输在起跑线上，想教小朋友学AI绘画，但又不想让孩子接触到不健康图片，有没有办法解决。

小朋友绘画

ComfyUI王牌！复合生成！必须揉在一起

上期我们讲了利用基于语言到图像的生成网络的GLIGEN模型可以做到指哪打哪的生成。

comfyui 文生图

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

最新的突破来自VividTalk项目，这是一个能够将单张照片和一段音频结合起来，创造出仿佛真人在说话的视频的技术。

VividTalk 视频

Roop参数说明，ROOP->StyleGAN演示！

首先，简单说一下，视频的原素材全部由AI生成！

视频 StyleGAN

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

在音频驱动的视频生成领域，制作普通话视频面临着许多挑战。

JoyHallo 数字人开源模型

LLM大模型推理输出生成方式总结

参数设置：do_sample = False, num_beams = 1 缺点： 1、生成文本重复 2、不支持生成多条结果。

大模型

Threejs: 数字人生成金色动态粒子效果

昨天的文章提到通过修改数字人的材质做全息投影仪的动态效果，今天分享一下生成金色动态粒子人的代码，效果图如下：效果中还包含多个粒子效果的动态转换，有了这个，再加上摄像头，就可以完全模拟亚运会的数字人效果了

Threejs 数字人

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

不管是唱歌视频，还是讲话视频，只要提供一张肖像照片，外加一段音频，算法就会自动生成一段口型完全能对上、画面生动的视频出来。

EMO 阿里全民演唱

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1