文章列表-AI魔法学院

文章列表

三个大模型（ChatGPT,文心一言,Baichuan-13B)，帮我生成中医《本草纲目》的训练数据

因此，只要把其中以数字（1，2，3等）序号里的文本摘出来，处理成JSON格式，然后把它们变成一个问-答对的形式，模仿病人和医生的对话，就可以放到大模型训练了。

大模型

AI绘画Stable-Diffusion风格化实战

在社交软件和短视频平台上，我们时常能看到各种特色鲜明的视觉效果，比如卡通化的图片和中国风的视频剪辑。

Stable-Diffusion 文生图

AI虚拟主播数字人技术实现Wav2Lip

第二部分：Wav2lip技术概述 Wav2Lip技术是一个基于GAN的唇形动作迁移算法，实现生成的视频人物口型与输入语音同步。

数字人视频

清华&面壁开源新一代主动Agent交互范式！让AI从被命令到主动帮助

左侧的被动式 Agent 只能被动接受用户指令并生成回复，而右侧的主动式 Agent 可以通过观测环境主动推断与提出任务。

Agent 大模型

教小朋友学习AI绘画的同时避免生成不健康图片

像Stable Diffsion这种开源软件，自己用的时候，经常会有意无意的生成NSFW（简单翻译是工作时间不宜点开，主要是涩涩图），但很多中小平台也在使用该软件，如果出现不健康图片，怕是要关停网站了，

小朋友绘画

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

然后，又生成了德州扑克，不仅可以玩，还是带了AI玩家的那种。。。

prompt 大模型

[Midjourney]人物镜头拍摄视角大全

掌握常用的10种拍摄视角，教你绘画出好的人像。

视图视角构图

5个最佳开源RPA框架

Robot Framework能够大大简化业务运营、改善了IT基础设施、减少了工作量与成本，同时还能提高企业的整体灵活性，具备良好的可扩展性，可以为企业建立虚拟员工、能够很容易地与其他自动化工具集成，使业务流程自动化

开源模型智能自动化

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

动作识别模型有哪些

其实在这之前也有人尝试用深度学习来处理动作识别，例如李飞飞团队通过叠加视频多帧输入到网络中进行学习，但不幸的是这种方法比手动提取特征更加糟糕。

动作识别模型

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

零一万物API开放平台出场！通用Chat多模态通通开放，还有200K超长上下文版本

3月，国内外模型公司动作频频。

零一万物 YI 李开复

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

研究人员手动策划了一个包含484个多样化的真实世界网页的测试案例，并开发了一套自动评估指标，以评估当前多模态LLMs在将截图作为输入的情况下，能够多么精确地生成直接渲染成给定参考网页的代码实现。

设计转代码大模型

体验完阿里的EMO模型，我emo了

简单来说，EMO（Emote Portrait Alive）是一个AI肖像视频生成系统，能够通过输入单一的参考图像，生成具有一定表现力的面部标签和各种头部姿态。

EMO 文生图

让你每次都随机生成各种图片，开盲盒的感觉：SD插件之无限抽卡神器Dynamic Prompts

到时候就直接把通配符“__Muggle时尚穿搭（带背景）__”复制过去，打开组合生成就可以了。

文生图

<...8 9 10 111213 14 15 16 17 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1