首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 剪映克隆声音功能详解:剪映上线5秒“AI克隆音色”,一堆AI公司又要进入慢性死亡了...
· 造梦师手记:C站最受欢迎的大模型推出了SFW版
· Suno音乐新手指南(手把手完整版教程)
· 性能超出预期!神秘的国产大模型 Kimi 开放 API
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
· 实现聊天机器人打字机形式输出内容:SSE原理介绍及Post实现方式
· WPS AI
· Stable Diffusion|儿童绘本全流程制作分享
· 【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
给定
成
对数据(a, x),其中a和x表示音
频
序列和
文
本
序列,训练目标是最大化下一个
文
本
标记的概率。
大模型
语音
教程
openpose原理及安装教程(姿态识别)
OpenPose是一个用于实时多人姿态估计的开源库,它可以检测图像或
视
频
中的人体关键点,并且能够识别不同的身体部位和动作。
行为识别
姿态识别
被高估的Pika,被低估的多模态AI
例如,在医疗领域可以通过结合图像、录音和病历
文
本
,提供更准确的诊断和治疗方案;在交通领域,结合图像和传感器数据,带来更智能、更安全的自动驾驶体验;在教育领域,将
文
本
、声音、
视
频
相结合,呈现更具互动性的教育内容
大模型
多模态
Transformer
ViTPose+:迈向通用身体姿态估计的
视
觉Transformer基础模型
身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点,除了典型的身体骨骼关键点,还可以包括手、脚、脸部等关键点,是计算机
视
觉领域的基
本
任务之一。
ViTPose+
Transformer
身体姿态
神奇的 OuteTTS - 0.1 - 350M:用几秒钟音
频
克隆声音的黑科技!
这一步骤确保了
文
本
与
生
成
的语音在时间和内容上的精准对应,提高了语音合
成
的准确性和连贯性。
OuteTTS-0.1-350M
音频
工具
4K star!录屏好帮手,超酷的实时按键显示工具
今天我就帮你找到了一个好用的工具,它开源免费效果还超酷,帮你完
成
实时可
视
化键盘按键的效果,它就是:Keyviz。
Keyviz
录频
数字人
揭秘数字人困境:代理商亏钱、直播屡被封、刘润也不用了
这是数字人底层技术的自然延伸,“从技术定位上看,数字人
本
质上是做
视
频
合
成
。
数字人
数字人
腾讯开源的数字人MuseTalk到底行不行?
MuseTaIk特别适用于256x256像素的面部区域,且支持中
文
、英
文
和日
文
等多种语言输入。
MuseTalk
数字人
音频
ChatGPT
11个非常简短却十分神奇的 ChatGPT 指令,刷新你的认知
本
文
将介绍 11 个短小精悍的提示词,让你很容易记忆并应用它们。
提示词
企业
为什么说数智化可以帮助中小企业降
本
增效 ?
数智化产品为「商铺门店、公寓酒店、楼宇园区」等场景提供智能设备组网链接、
视
频
监控、安全消防、智慧收银等集中一体化产品方案,实现「政务信息化」中在线办公、线上审批、信息公开等数字化应用的高效运转,为中小企业带来
大模型
换脸
AI换脸:FaceFusion 3.5.0更新,解决老版
本
无法使用问题!
这些模型利用深度学习技术
生
成
逼真且美观的着色效果。
FaceFusion
文生图
大模型
无限逼近真人效果的“超真实人像大模型”,或许它才是你一直在寻找的真爱!
DeepFloyd IF是一个由一个冻结
文
本
编码器和三个级联像素扩散模块组
成
的模块:一个基于
文
本
提示
生
成
64x64像素图像的基础模型和两个超分辨率模型,每个模型都设计用于
生
成
分辨率不断提高的图像:256x256
大模型
文生图
如何用大语言模型构建一个知识问答系统
领域知识入库 该过程的主要目的是:将原始知识库分拆为若干知识点,并
生
成
与之对应的字典: key 是知识点 Embedding 之后
生
成
的向量 value 是知识点的原始记录 该字典的作用是用户提问时
知识库
Stable Diffusion
stable diffusion如何确保每张图的面部一致?
:用于
文
本
到图像扩散模型的
文
本
兼容图像提示适配器,名字很长很拗口,我们只要记住四个字就行了:图像提示,如果还觉得长,那就两个字:垫图。
图生图
文生图
sd
RAG
你真的会写 Prompt ? 剖析 RAG 应用中的指代消解
,并将这些信息与 LLM 的
生
成
能力结合,从而提高
生
成
的准确性和可靠性。
Prompt
大语言模型
RAG
<
...
18
19
20
21
22
23
24
25
26
27
...
>
1
2
4
5
6
7
8
9
100