文章列表-AI魔法学院

文章列表

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

该模型在未见过的人类身份和复杂的运动序列上也具有良好的泛化能力，无需在具有不同人类属性的数据上进行任何微调，并利用图像扩散模型的先验知识。

MagicPose 视频

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

这种混合输入模式为广泛的应用提供了灵活性。

多模态大模型 GPT-4V 文生图

大模型时代 AI 技术在金融行业的创新应用

首先，大模型技术变革的核心对象是知识，它将降低知识的获取成本，提升知识的应用能力，并辐射到更广泛的专业领域。

大模型金融

DeepMusic发布“和弦派”2.0：重塑AI音乐创作范式，赋予创作者全方位掌控

2.0丰富了AI生成及创作方式，将AI生成与深度编辑融为一体，构筑起五大产品特色：一，多种AI生成及创作方式用户可通过输入歌词自动写歌、选择风格模板快速生成特定风格歌曲，也可以自定义参数创建个性化乐谱工程

和弦派 DeepMusic 音乐创作

AI生成卡通人物项目|VToonify

虽然基于强大的 StyleGAN 模型构建的一系列成功的肖像图像卡通化模型已经被提出，但这些面向图像的方法在应用于视频时存在明显的局限性，如固定帧大小、需要面部对齐、缺失非面部细节和时间不一致性等。

AI生成卡通人物 VToonify

国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害

任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。

大模型

AI声音克隆 | 最全最简教程（权威版）

一直没有写过关于声音克隆的文章，所以这次补上，毕竟这个用的还真是有点多，也为后面更多的个性化配音做好准备。

声音克隆教程

苹果一次性开源了8个大模型！包含模型权重、训练日志和设置，OpenELM全面开源

在优化过程中，他们使用了统计拒绝抽样方法或直接偏好优化方法。

OpenELM 大模型

WeChatpy：Python中优秀的微信开发库，与微信官方接口交互的工具

稳定可靠：WeChatpy是一个经过广泛使用和积极维护的开源项目，因此可以提供稳定可靠的性能和支持。

WeChatpy 开发库

如何从零开始训练专属 LoRA 模型？4600字总结送给你！

一、训练数据集准备这个过程主要做三件事：训练素材处理图像预处理打标优化 1.

训练

评论能力强于GPT-4，上交开源13B评估大模型Auto-J

功能使用方面 · 支持 50 + 种不同的真实场景的用户问询（query）（如常见的广告创作，起草邮件，作文润色，代码生成等）能够评估各类大模型在广泛场景下的对齐表现； · 它能够无缝切换两种最常见的评估范式

Auto-J 大模型

【揭秘】BELLE大模型：一个集合训练、数据、模型、APP的超级神器，让每个人都能拥有自己的“大模型”！

它基于斯坦福的 Alpaca 完成，但进行了中文优化，并对生成代码进行了一些修改，不仅如此，模型调优仅使用由 ChatGPT 生产的数据（不包含任何其他数据）。

训练大模型 belle

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

使其能够快速适应新的身份特征，从而实现个性化3D头像的快速生成。

MimicTalk 开源模型

2023检索增强生成技术（RAG）研究进展

通过将动态检索过程与生成过程结合，RAG允许模型在生成响应之前，先从一个更广泛、更新的知识源中获取信息。

RAG 检索增强

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

但是这些方法对于不在训练数据内的新图象，泛化性较差，或者需要输入多个图像，在近一个小时后，才能等到生成结果。

Anydoor 文生图

<...17 18 19 202122 23 24 25 26 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1