首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 全新换脸工具ReActor,比roop更强!
· ChatGLM智谱清言
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· 最新最强开源模型Qwen3本地运行指南!Windows+ollama+chatwise轻松搞定
· 为你推荐开源项目:Meridian——专属个人情报站!
· 阿里Qwen3系列模型惊艳亮相
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· Stable Diffusion | 常见问题清点汇总
· 从第一性原理看大模型Agent技术
· 请以“续航”为题目,写一篇议论文
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
全量免费的EMO模型上架通义APP,外媒称之为Sora之后最受期待的大模型之一
据介绍,与目前市面上的主流
视
频
生成算法不
同
,EMO的原理是用
音
频
驱动图片的人像,使其做出与
音
频
内容高度匹配的口型和表情。
EMO
阿里
全民演唱
Transformer
ViTPose+:迈向通用身体姿态估计的
视
觉Transformer基础模型
ViTPose+进一
步
拓展到多种不
同
类型的身体姿态估计任务,涵盖动物、人体以及典型的身体骨骼、手、脚、脸部等关键点类型,在不增加推理阶段模型复杂度和计算复杂度的情况下,实现了多个数据集上的最佳性能。
ViTPose+
Transformer
身体姿态
开源
【TTS语
音
克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
今天给大家
同
时展示5款(Fish、F5、GPT、CosyVoice、MaskGCT)爆火的语
音
克隆-文本合成的效果展示。
语音克隆
开源模型
动作识别模型有哪些
two-stream方法很大的一个弊端就是不能对长时间的
视
频
进行建模,只能对连续的几帧
视
频
提取temporal context。
动作识别
模型
剪映克隆声
音
功能详解:剪映上线5秒“AI克隆
音
色”,一堆AI公司又要进入慢性死亡了...
这
步
操作可能会跟大家想象的不太一样。
剪映
声音克隆
人工智能
2023年人工智能行业总结
年底谷歌发布了多模态大模型Gemini,可以理解文字、图片、代码和
音
视
频
。
人工智能
AGI
思考总结
数字人
数字人直播哪家强?百度、硅基、风平与闪剪四大AI数字人横向评测!
另外,数字人短
视
频
和直播的搭建页面和使用方法几乎是相
同
的,只需要选择数字人和AI语
音
,选择场景和贴图,拖拖拽拽布局好,点击生成就能出片,减少额外的学习成本。
数字人
数字分身
人工智能
胎教级SO-VITS-SVC使用教程:人工智能生成歌曲
本地环境搭建 python = 3.10 pip = 22.3.1 pytorch = 1.3.1 不
同
系统装python环境参考以下blog 一网成擒全端涵盖,在不
同
架构(Intel x86
音乐
Python
Whisper对于中文语
音
识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语
音
做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过
Whisper
语音优化
大模型
OCR终结了?旷
视
提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!
以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个
步
骤—— 这一次,只需一句话命令,多模态大模型 Vary 直接端到端输出结果: 无论是中英文的大段文字
OCR
手写
文字识别
开源
ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略
短
视
频
内容分类 解析短
视
频
语义进行场景分类 video-detecction
视
频
检测 对
视
频
信息进行内容解析
开源
开源
3 个令人惊艳的 GitHub 开源项目,诞生了!
各种 AI 工具层出不穷,无数网友惊叹技术进
步
之快。
开源模型
开源
OpenAI 开源语
音
识别 Whisper 的使用体验怎么样?
关于Buzz Buzz 是一款基于 OpenAI 开源 Whisper 自动语
音
识别模型的软件工具,能够将
音
频
或
视
频
中的语
音
自动识别为带有时间戳的文本字幕。
生成式AI
开源
网易有道强力开源中英双语语
音
克隆
其中的
音
素(phonemes)可以这样得到: python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.
语音
开源
开源
从 GPT-4o 到 LiveKit:实时语
音
交互的开源实现
LiveKit 支持语
音
、
视
频
和数据流处理,内置了自动语
音
识别(ASR)和文本转语
音
(TTS)功能,简化了语
音
到文本和文本到语
音
的转换过程。
GPT-4o
语音交互
<
...
9
10
11
12
13
14
15
16
17
18
...
>
1
2
4
5
6
7
8
9
100