首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· 通义千问
· 制作可爱的表情包
· 使用ChatGPT润色出高品质文章!
· 手把手教你用上SDXL——SDXL 1.0 模型资源/comfyUI中文一键包下载
· 开源即巅峰!微软VibeVoice 7B模型:跨语言、多说话人、长文本一次到位
· 打磨 8 个月、功能全面升级,Milvus 2.3.0 文字发布会现在开始!
· 为什么国产大模型都说超越ChatGPT而体验却很拉?警惕 Goodhart law 陷阱
· 一种通用的 Prompt 框架 - CRISPE
· 免费AI数字人制作详解
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
阿里
体验完阿里的EMO模型,我emo了
,这是一种让画面人物的口型与所配的语
音
或文字信息精确匹配的技术。
EMO
文生图
Google
AI“同声传译”新进展!Google发布,无监督,语
音
识别:Translatotron 3!
语
音
识别(ASR)是指将人类的语
音
转换为文本的技术,然而,目前的语
音
识别技术还面临着一些挑战,其中最大的一个就是如何支持更多的语言。
Translatotron
语音识别
人工智能
2023年人工智能行业总结
年底谷歌发布了多模态大模型Gemini,可以理解文字、图片、代码和
音
视
频
。
人工智能
AGI
思考总结
语
音
识别的未来已来:深入了解faster-whisper的突破性进展
这种实现不仅提高了语
音
识别的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
开源
精通百种语言的翻译AI来了!Meta推出,免费、开源!
这个模型可以实现近101种语言之间的文本、
音
频
、
视
频
等多种形式的翻译,而且只需要一个模型就可以完成所有任务。
大语言模型
开源
开源即巅峰!微软VibeVoice 7B模型:跨语言、多说话人、长文本一次到位
这一功能使得生成的
音
频
更加接近真实的对话场景,每个说话者的声
音
特征和语调都能被准确地捕捉和再现。
VibeVoice
7B
语音
详解 Diffusion (扩散) 模型
目前,它们主要用于图像和
音
频
生成。
Diffusion
开源模型
开源
3 个令人惊艳的 GitHub 开源项目,诞生了!
AI 实现
视
频
自动剪切 近几年,短
视
频
的风口一直在持续,各大社交网站也都针对短
视
频
流量进行大力扶持。
开源模型
「语
音
识别的未来已来」——探索Distil-Whisper,轻量级AI的强大力量
那么,这个被誉为“语
音
识别的未来”的AI工具到底有何过人之处?
Distil-Whisper
语音识别
数字人
揭秘数字人困境:代理商亏钱、直播屡被封、刘润也不用了
做短
视
频
是数字人最大用处吗?
数字人
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端语
音
交互大模型
例如,CNNs可以从语
音
频
谱图中提取出关键的声学特征,而Transformer模型则可以对长文本进行深入理解,从而实现准确的情感分析和语
音
合成。
Westlake
-
Omni
语音
数字人
划重点!全网最全AI数字人工具合集!
· 编辑
视
频
:添加各种特效、背景
音
乐、字幕,让
视
频
更富有看点。
AI
数字人
开源
46.6k星星!最强开源AI集合系统,一键部署全网AI工具都能直接用,UI简直是
视
觉盛宴!
用户可以上传各种类型的文件,包括文档、图片、
音
频
和
视
频
,同时还可以创建知识库,方便用户管理和搜索文件,还可以在对话中使用文件和知识库功能。
AI开源
集合
开源
只需四步就能构建自己的Agent!达摩院新开源框架小白也能用
写一篇关于Vision Pro VR眼镜的20字宣传文案,并用女声读出来,同时生成个
视
频
看看。
大模型
开源
ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略
短
视
频
内容分类 解析短
视
频
语义进行场景分类 video-detecction
视
频
检测 对
视
频
信息进行内容解析
开源
<
...
8
9
10
11
12
13
14
15
16
17
...
>
1
2
4
5
6
7
8
9
100