首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 国内厂商语音识别与Whisper评测:现状与概况对比
· 最新最强开源模型Qwen3本地运行指南!Windows+ollama+chatwise轻松搞定
· Stable Diffusion|提示词高阶用法(二)双人同图
· AI换脸工具:facefusion使用心得
· 阿里Outfit Anyone实现真人百变换装
· 变天了,AI可以一键生成中文海报了......
· API.box
· 为你推荐开源项目:Meridian——专属个人情报站!
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· 【重磅推荐】PaddleOCR:超越人眼识别率的AI文字识别神器!
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
人工智能
2023年人工智能行业总结(精简版)
年初的vits项目能完美模拟人的
声
音
特点,AI孙燕姿能唱周杰伦的歌。
人工智能
行业总结
教你打造属于自己的AI孙燕姿,AI歌手模型使用及训练保姆级课程 #1/2 使用模型
原始
声
音
处理 要使用模型进行推理的话你首先需要一段已经演唱好的
声
音
垫进去,然后使用模型把原来的
音
色换成你模型训练好的
音
色(类似AI画图的img2img垫图)。
生成式AI
13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
零样本 & 小样本 TTS:输入 10 到 30 秒的
声
音
样本即可生成高质量的 TTS 输出。
Fish
Speech
本地搭建
Stable Diffusion
SD入门教程一:Stable Diffusion 基础(技术篇)
),顾名思义,它就是能预测出随机图里包含什么噪
音
的模型。
Stable
Diffusion
文生图
LLM
基于LLM+向量库的文档对话痛点及解决方案
痛点:文档切分粒度不好把控,既担心噪
声
太多又担心语义信息丢失 笔者之前采用了Longchain的文档切分工具,发现不能问题。
开源模型
开源
ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略
多模态(Multi-Modal): 多模态主要是指让机器能够理解和处理自然界或人工定义的多种模态信息,如
声
音
、语言、视觉信息和表格、点云信息等。
开源
Prompt
硬核Prompt赏析:HuggingGPT告诉你Prompt可以有多“工程”
2303.17580.pdf HuggingGPT是近期非常火热的Agents方向的一个代表,它让ChatGPT这样的LLM能够使用HuggingFace社区的各种模型(包括但不仅限于文生图、图生文、语
音
转文字
提示词
prompt
Roop参数说明,ROOP->StyleGAN演示!
保留
音
轨(keep audio)
音
轨就是指视频的
声
音
,勾选这个参数就是保留原视频的
声
音
,大部分情况下,肯定是要选择启用。
视频
StyleGAN
开源
搞了一个Dify开源知识库
Workflow:打造你的智能工作流 · 初衷:也是在机缘巧合下,感谢MAX和众多大佬的呼
声
支持下
Dify
大模型
知识库
ChatGPT
把ChatGPT装进二次元手办,你来吗?AI桌面机器人众筹
蓝牙
音
箱,语
音
控制小度丝滑流畅。
ai小车
esp32
开源
开源
来个优秀的开源人脸识别项目!
通过计算机与光学、
声
学、生物传感器和生物统计学原理等高科技手段的密切结合,将人体固有的生理特征或行为特征收集起来,进行取样、数字化处理和分析。
人脸识别
开源项目
打磨 8 个月、功能全面升级,Milvus 2.3.0 文字发布会现在开始!
具体来看:Milvus 2.3.0 不仅包含大量的社区呼
声
很高的新功能,还带来了诸如 GPU 支持、Query 架构升级、更强的负载均衡调度能力、新的消息队列、Arm版本镜像、可观测性、
大语言模型
微软
BGE M3-Embedding:智源最新发布的text embedding模型,多语言检索效果超过微软跟openai
24年的第一个月,智源就发布了新一代text embedding模型BGE M3-Embedding,该模型支持超过100种语言,能够接受不同形式的文本输入,文本最大输入长度扩展到4192,并且支持包括稠密检索,稀疏检索,多向量检索三种不同检索手段。从实验结果上看,在多语言跟跨语种检索任务上,BGE M3-Embedding的效果超过之前提及的微软E5-mistral-7b微软E5-mistral-7b-instruct: 站在LLM肩膀上的text embedding以及openai去年底刚发布的第三代text embedding模型,对于长文本检 ...
BGE
M3-Embedding
多语音检索
Stable Diffusion
Stable Diffusion教程:采样器
后向扩散时,Stable Diffusion 先会生成一张完全的噪
音
图,然后根据提示词的语义,通过不断的采样来去除噪
音
图中不符合语义的噪
音
,而采样器就是去除噪
音
用的算法程序。
画图
SD
采样器
数字人
最强开源数字人对口型系统介绍
使用的时候在这里面输入密钥,然后再上传一个
音
频和一个视频。
数字人
开源模型
<
...
4
5
6
7
8
9
10
11
12
13
...
>
1
2
4
5
6
7
8
9
100