文章列表-AI魔法学院

文章列表

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

一些方法利用视频提供头部姿势或在说话时保持头部静止。

VividTalk 视频

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

v=VPJe6TyrT-Y 论文阅读 MagicPose:现实的人类姿势和面部表情重新定位与身份意识扩散摘要在这项工作中，我们提出了MagicPose，这是一种基于扩散的模型

MagicPose 视频

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步

2 月发布的 Chain of Hindsight Aligns Language Models with Feedback，它的核心思想是在上下文中呈现顺序改进输出的历史，并训练模型顺应趋势以产生更好的输出

agent

中国大模型融资暗战：罗曼蒂克的快速消亡

即便在硅谷，这波ai浪潮中，也有科技巨头挤走风投机构的趋势。

大模型暗战

职场及工作中常用的方法论总结

SWOT分析法　　SWOT分析将与研究对象相关的内部的优势（ Strength ）、劣势（ Weakness ）和外部的机会（ Opportunity ）、威胁（ Threats ）等通过调查的方式列举出来

工作

45个 DALL-E 3 使用案例 (附提示词) ，人人都是设计师

特定类型或主题，如 "时尚 "或 "技术"]设计具有视觉冲击力的杂志封面，以[特定主体，如 "身着夏季系列服装的模特 "或 "未来主义小工具"]为特色，辅以暗示[特定主要文章或专题，如 "本季最流行的趋势

文生图

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

DALL-E 2的这种两阶段的方案的一个是优势是第二阶段只需要纯图像数据来训练图像生成模型，而且采用CLIP image embedding作为条件比直接用文本训练模型更容易一些。

Kandinsky-3 文生图开源模型

开源新标杆，千问Qwen2系列模型发布，全面超越LLama3

模型基础信息 Qwen2系列所有尺寸的模型都使用了GQA，以便让大家体验到GQA带来的推理加速和显存占用降低的优势。

qwen 千问开源

我为什么不看好大模型行业

英伟达的竞争优势绝不仅仅是硬件的设计能力，也不是制造能力，而是生态锁定。

大模型

释放潜能：大模型与企业微信SCRM系统的完美结合

企业微信SCRM系统就是利用企业微信的平台优势，结合SCRM的理念和技术，为企业提供了一套完整的客户管理和运营方案，帮助企业实现客户的获取、维护、增值和转化。

SCRM 大模型

一张照片秒生不同风格图像！小红书InstantID来了！

# InstantID介绍 01 工具介绍 InstantID 是一个图像生成工具，旨在高效、准确地保持人物身份特征，同时生成具有不同风格和姿势的图像

InstantID 文生图

惊艳！2.77亿参数锻造出Agent+GPT-4V模型组合，领航AI领航机器人、游戏、医疗革新，通用智能时代你准备好了吗？

接下来我们看下这种模型优势在哪里？

Agent+GPT-4V 大模型

解读wav2lip：探究语音驱动唇部动作的技术原理！

其中，Identity Encoder用于编码身份特征，把随机参考帧与姿势先验帧按通道维度拼接起来作为输入。

wav2lip 语音

教你用StableDiffusion设计AI数字人

▲ 普通用户构建分身难点工具选择选用当下最成熟火热的AI生成工具Midjourney、StableDiffusion，对比了二者的优劣势后，选用StableDiffusion作为主要的生图工具，

文生图

Stable Diffusion

SD好复杂，是不是很糊，一文搞懂Stable Diffusion的各种模型及用户操作界面

它在古风游戏角色和场景生成方面具有优势。

Stable Diffusion 文生图

<...13 14 15 161718 19 20 21 22 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1