文章列表-AI魔法学院

文章列表

图解 transformer——逐层介绍

嵌入层再将每个数字序列射成一个嵌入向量，这是该词含义一个更丰富的表示。

Transformer 大模型图解

阿里推理模型来了！Marco-o1 发布即开源

它不再局限于数学、物理和编程等有标准答案的领域，而是勇敢地迈向了没有标准答案的开放性问题。

Marco-o1 推理模型

爆肝7天！AI艺术字终极攻略，光影、隐藏、嵌入、海报4种艺术字全拆解

越来越多有趣的玩法也被逐渐挖掘了出来像最近特别火的AI艺术字我花了一周的时间把所有的玩法研究了一遍整理出来一套完整的制作流程文章包含了从制作底图、选大模型、写关键词和ControlNet参数四大步骤

文生图

11个非常简短却十分神奇的 ChatGPT 指令，刷新你的认知

尽管 ChatGPT 的设计可以理解和响应各种查询，但如果你知道如何以正确的方式提出正确的问题，回答的质量就会大大提高。

提示词

Stable Diffusion

Stable Diffusion｜背景替换只需要两分钟！

这个过程往往需要花费大量的时间和精力。

SD 背景文生图

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

虽然音频技术日新月异，但许多现有方案在复杂场景中仍难以提供稳定且高质量的音频体验。

ClearerVoice-Studio 语音

爆火！腾讯开源PhotoMaker：高效地定制化生成任意风格的逼真人类照片！

· · 此外，为了驱动PhotoMaker的训练，提出了一个面向id的数据构建管道来组装训练数据。

PhotoMaker 文生图

阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

01.文生视频模型基于统计关系，不是世界模型首先，文生视频高速发展，大家讲发展基石的时候都会讲到数据、机器、人才。

通义文生视频

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

一、什么是clone-voice clone-voice是一款免费开源的声音克隆工具，它凭借先进的人工智能技术，能够分析和模拟人类声音的特征，从而实现高质量的声音克隆.

clone-voice 声音克隆

Stable Diffusion

免配置、免翻墙，Stable Diffusion平替来了！

整合模型：获取可用于制作图像的模型（包括由Leonardo团队和社区制作的模型） 4.训练和数据集：你可以训练模型，这次这个功能先不讲，感兴趣的同学可以去官网了解，据说是LeonardoAI

LeonardoAI 文生图

用ChatGPT快速完成论文全流程

这是向读者展示你的研究价值和吸引他们深入阅读全文的机会。

ChatGPT 写作

快消品企业怎么才能用上大语言模型？

就拿我们上面提到的“倒逼企业重塑数字底座”为例，过去互联网时代的“人工编写代码+数据库”的模式，正在遭受“模糊数据+神经网络模型”的挑战。

大模型

SD插件｜EasyPhoto｜妙鸭相机平替|美颜算法

其二就是需要收费，对于量大的用户来说也是一个痛点。

EasyPhoto 文生图

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

视觉编码器Siglip - 400m则专注于图像信息的处理，以384分辨率和14×14的块大小生成图像嵌入，将图像转换为模型可理解的向量表示。

OmniVision -968M 多模态模型

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

目前，官方模板库中有 22 首歌曲片段，42 个影视台词片段，27 个表情包素材。

EMO 阿里全民演唱

<...53 54 55 565758 59 60 61 62 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1