首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· Kimi+扣子Coze,我零门槛制作了一个好用的智能体Agent | 智能体开发
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· 高效选择:Ollama与LM Studio深度对比
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
· 【Agent专题】Agent架构设计:智能体架构设计的9大核心技术全景深解析,附架构图
· 赛博牛马,智谱 AI,悄悄出了一个 AI PPT
· Embedding开源模型重磅玩家:北京智源人工智能研究院最新Embedding模型发布!登顶MTEB,免费商用授权!
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· 2024年傅盛开年AI大课演讲内容PPT
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
Sora
Stablediffusion3论文下载-确定了Stablediffusion3与Sora的架构是一致的
Stablediffusion3,如果说一个是音视频方向,一个是图像生成方向,那么两者没有必然的联系,但Sora和Stablediffusion3的架构是出奇的一致,核心部分都是采用了Difusion
Transformer
SD
论文
提示词
45个 DALL-E 3 使用案例 (附提示词) ,人人都是设计师
借助于
Transformer
模型优秀的自然语言能力,它可以精准地理解你的设计需求,并近乎如实地反映在画面上。
文生图
开源
Giraffe:世界上第一个商业可用的32K长上下文开源LLM(基于Llama-2)
项目简介 选择如何对
Transformer
的位置信息进行编码一直是 LLM 架构的关键组成部分之一。
开源模型
大模型
Meta无限长文本大模型来了:参数仅7B,已开源
近日,谷歌提出的 Infini-
Transformer
引入有效方法,可以将基于
Transformer
的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求,吸引了人们的关注。
Meta
长文本
大模型
开源
SD3 正式开源 Sora同源架构
Stablediffusion3,如果说一个是音视频方向,一个是图像生成方向,那么两者没有必然的联系,但Sora和Stablediffusion3的架构是出奇的一致,核心部分都是采用了Difusion
Transformer
SD3
绘画
大模型
大模型实践总结
对于以
Transformer
、MOE结构为代表的大模型来说,传统的单机单卡训练模式肯定不能满足上千(万)亿级参数的模型训练,这时候我们就需要解决内存墙和通信墙等一系列问题,在单机多卡或者多机多卡进行模型训练
大模型
训练
大模型
图解大模型训练之:张量模型并行(TP),Megatron-LM
今天我们将要介绍最重要,也是目前基于
Transformer
做大模型预训练最基本的并行范式:来自NVIDIA的张量模型并行(TP)。
开源模型
语音
语音识别的未来已来:深入了解faster-whisper的突破性进展
faster-whisper简介 faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为
Transformer
模型设计的快速推理引擎。
语音识别
Faster-Whisper
混合专家模型 (MoE) 详解
作为一种基于
Transformer
架构的模型,混合专家模型主要由两个关键部分组成: · 稀疏 MoE 层: 这些层代替了传统
Transformer
模型中的前馈网络 (FFN) 层。
MoE大模型
LLM
从思维链(CoT),到思维树(ToT),再到思维图(GoT):用LLMs解决复杂问题!
arxiv.org/pdf/2308.09687v2.pdf Code:https://github.com/spcl/graph-of-thoughts 背景介绍 近年来,随着基于解码器
Transformer
大模型
微软
微软打破Decoder-Only架构!大幅降低GPU内存需求,网友:把Llama3 70B弄20GB GPU上运行
一张图来看YOCO和标准
Transformer
的比较。
Decoder-Decoder
YOCO
架构
什么是BERT?
而BERT利用MLM进行预训练并且采用深层的双向
Transformer
组件(单向的
Transformer
一般被称为
Transformer
decoder,其每一个token(符号)只会attend到目前往左的
embedding
提示词
45个 DALL-E 3 使用案例 (附提示词)
借助于
Transformer
模型优秀的自然语言能力,它可以精准地理解你的设计需求,并近乎如实地反映在画面上。
DALL-E
提示词
文生图
Stable Diffusion
AI绘画巅峰对决:Stable Diffusion 3与DALL·E 3原理深度比较
AI 绘画中用到的 U-Net 实际上是引入了
Transformer
思想的加强版 U-Net 模型。
Stable
Diffusion
DALL·E
人工智能
人工智能大语言模型微调技术:SFT 、LoRA 、Freeze 监督微调方法
对
Transformer
的每一层结构都采用 LoRA 微调的方式,最终可以使得模型微调参数量大大减少。
大模型
微调
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100