首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
· SD入门教程六:ControlNet基础入门
· 大模型评测新思路:弱智吧精华问题大全
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· AI换脸工具:facefusion使用心得
· 2024年值得关注的Agent框架
· 实测:本地跑llama3:70B需要什么配置
· 万物皆可替换!阿里【ReplaceAnything】,支持在线体验!
· Coze多智能体(Multi-Agents)模式体验!
· Midjourney AI绘画美女提示词分享三
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
视频魔法
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本
突出多模态能力和交互体验的 GPT-4o 强调了其在实际应用中的关键作用,然而它缺乏一个高性能的开源对应物。在本文中,作者介绍了Baichuan-Omni,这是第一款开源的 7B 多模态大语言模型(MLLM),能够同时处理和分析图像、视频、音频和文本的模态,同时提供先进的模态交互体验和强大性能。 作者提出了一种有效的多模态训练模式,从 7B 模型开始,经过两个阶段的多模态对齐和多任务微调,分别针对音频、图像、视频和文本模态。这种方法使语言模型能够有效地处理视觉和音频数据。 通过在各种全模态和多模态基准测试上展示强大的性能,作者旨在将此贡献作为开源社区在推进多模态理解和实时交互方面的竞争性 Baseline 。
Baichuan-Omni
多模态大模型
2024-10-16
2024-10-16
视频
超越Animate Anyone! 南加大&字节提出MagicPose,不需任何微调就可生成逼真的人类视频
南加州大学字节提出MagicPose,一种基于扩散的模型,能生成逼真的人类视频,实现运动和面部表情传输,保持身份一致,无需微调即可应用于新身份和复杂运动。MagicPose可作为Stable Diffusion等模型的插件,具备生成零样本2D动画的能力,并在实验中展现出优越性能。
MagicPose
视频
2024-09-29
2024-09-29
数字人
数字人起飞!字节Loopy对口型功能在即梦上线 可根据语境匹配表情和情绪
字节新项目Loopy在即梦上线,通过AI技术实现数字人声音、表情、情绪与画面完美匹配,解决传统对口型视频的割裂感,提供中文效果最佳的对口型服务,支持文本朗读和上传本地配音,让数字人更加真实自然。
Loopy
视频
2024-09-26
2024-09-26
RAG
RAG 修炼手册|一文讲透 RAG 背后的技术
本文详细介绍了从Embedding技术到Transformer、BERT、LLM(包括GPT系列和ChatGPT)等自然语言处理领域的发展历程及基本原理。Embedding将非结构化数据转为向量表示,Word2Vec是其早期代表,但存在多义词问题。Transformer通过自注意力机制捕捉上下文关系,推动了BERT等预训练模型的发展,实现了句子嵌入。GPT系列作为LLM的代表,通过不断迭代提升了文本生成能力,ChatGPT则进一步增强了响应指令、代码生成、推理等能力,但也存在数学能力弱、产生幻觉、知识不实时更新等不足。RAG技术作为解决方案之一,结合了向量数据库和LLM。整体而言,深度学习在自然语言处理领域的应用日益广泛,未来可期。
RAG
Embedding
2024-09-23
2024-09-23
数字人
腾讯出品!开源AI数字人框架!号称可以不限时长
MuseV是腾讯音乐娱乐天琴实验室开源的虚拟人视频生成框架,支持高质量视频、口型同步及无限长度视频生成,兼容多种生成方式和稳定扩散生态系统,提供多样化创作自由度,并发布了实时口型同步模型MuseTalk。MuseV将在娱乐、教育等领域发挥重要作用,引领虚拟人技术未来方向。项目地址在GitHub上。
MuseV
视频
数字人
框架
2024-09-14
2024-09-14
AI音乐热潮下,“神曲工作室”率先失业
五一假期演唱会门票难求,反映音乐行业向头部化、现场化转型。AI作曲工具快速发展,引发音乐行业裁员潮,音乐人共识现场音乐将成为主要收入来源。AI音乐质量受争议,但已对抖音等平台神曲构成冲击。音乐人强调线下演出重要性,通过增强临场感和感染力保持竞争力,呼吁音乐人提升线下经营能力应对AI挑战。
音乐
音频
2024-09-02
2024-09-02
数字人
腾讯开源的数字人MuseTalk到底行不行?
MuseTaIk是腾讯团队开发的音频驱动唇部同步模型,能实时调整数字人物面部图像以匹配音频内容,支持多语言。然而,其实时性和高质量受质疑,实测推理速度较慢且效果不理想。尽管存在不足,该团队致力于推动数字人技术发展,值得肯定。用户可根据需求选择是否使用,同时作者提供了改进建议及替代服务选项。
MuseTalk
数字人
音频
2024-08-30
2024-08-30
开源
从 GPT-4o 到 LiveKit:实时语音交互的开源实现
文章介绍了OpenAI发布会外的实时对话语音技术,特别是LiveKit作为GPT-4o背后的技术支持,提供了语音、视频、数据流处理及AI集成方案。通过案例探讨了LiveKit在潮玩模型、实时翻译耳机等场景的应用,并强调其作为开发者实现实时语音交互的便捷工具,展望未来应用前景广泛。
GPT-4o
语音交互
2024-08-27
2024-08-27
工具
FFmpeg之父新作——音频压缩工具 TSAC
FFmpeg作者Fabrice Bellard发布了音频压缩工具TSAC,利用深度学习中的Transformer结构提升性能,实现极低比特率下的高质量音频压缩。TSAC采用RVQGAN技术,通过级联VQ和GAN训练提升压缩效果,具备多速率编码能力和降噪功能。然而,压缩后音频存在高频细节丢失等问题。
TSAC
音频工具
2024-08-23
2024-08-23
工具
4K star!录屏好帮手,超酷的实时按键显示工具
Keyviz是一款免费开源的跨平台实时键鼠输入可视化软件,能显示按键和鼠标操作,支持自定义样式和过滤特定按键,但2.0版本尚在alpha阶段,存在点击飘逸、配置不生效等问题,整体显示效果优秀,适合录制教程或演示时使用。项目GitHub链接为https://github.com/mulaRahul/keyviz,已有4K Star。
Keyviz
录频
2024-08-01
2024-08-01
阿里
阿里通义实验室薄列峰:从兵马俑跳“科目三”到照片唱歌,四大框架让AI生成的人物活起来丨GenAICon 2024
阿里巴巴通义实验室XR团队在2024中国生成式AI大会上展示了人物视频生成新范式,包括人物动作、换装、替身、唱演四大框架,已应用于通义千问APP。这些框架分别通过Animate Anyone、Outfit Anyone、Motionshop和Emote Portrait Alive技术,实现了从单张图到复杂视频内容的生成,展现了行业领先地位和丰富的应用潜力。
通义
文生视频
2024-07-29
2024-07-29
阿里
阿里出品自动化视频剪辑工具FunClip!
FunClip是阿里达摩院开源的本地部署视频剪辑工具,依托FunASR模型实现语音自动识别,支持热词定制、说话人识别、视频裁剪与多段剪辑,自动生成SRT字幕,提供Gradio交互界面和命令行操作,简化视频剪辑流程。一键启动包避免复杂环境配置,适用于Windows10/11 64位系统,需8G以上英伟达显卡。
FunClip
视频
阿里
2024-07-26
2024-07-26
阿里
《嬛嬛朕emo啦》但马斯克!阿里这项技术开放试玩
文章概述:文章介绍了一个名为EMO的AI视频项目,该项目来自阿里通义实验室,允许用户通过上传人物正面大头照和选择音频片段,生成具有自然表情和头部运动的视频。该功能在通义App上受到欢迎,用户可以通过“全民舞台”功能体验。EMO采用弱控制设计,不强制建模整个面部,而是通过面部定位器和速度编码器等控制机制实现自然流畅的生成效果。项目负责人薄列峰表示,技术开源前需解决安全问题,并透露未来计划将EMO扩展到半身、全身,并可能引入新架构。同时,EMO背后团队专注于数字人研究,通过奶牛猫跳舞等动物主题激发用户兴趣,强调高质量AIGC内容的重要性。最后,文章推荐了EMO的一个私房玩法,即使用自己不同年龄段的照片进行合唱。
音频
阿里
2024-07-23
2024-07-23
开源
GPT-4o实时语音方案提供商Livekit开源voice agent:轻松处理音视频流
本文介绍了一个基于LiveKit WebRTC的代理框架,用于构建实时、可编程的服务器端参与者,能够处理或生成音频、视频和数据流。该框架包括多种插件,如语音转文本(STT)和文本转语音(TTS)等,与LiveKit服务器无缝集成,无需额外排队基础设施。当前处于开发者预览模式,API可能变动。代理通过pip安装,并可通过CLI接口运行,支持加入特定的聊天室。此外,提供了一个名为“playground”的Web前端用于简化代理的构建和测试。框架允许工作线程管理多个代理实例,并通过SIGTERM信号安全地终止工作线程。特定插件可能需要下载模型文件以使用。项目源码位于GitHub上。
voice
agent
开源
音视频
2024-07-22
2024-07-22
阿里
四木测评|让教父唱《野狼disco》、恶搞《甄嬛传》,火遍全网的阿里明星项目EMO正式开放
阿里推出的EMO项目可使静态人像照片与音频结合生成动态视频,实现了口型同步和人物自然动作。用户可通过通义千问免费体验,但当前版本限制多,如必须使用官方模板、不支持自定义音频、图片要求严格且生成时间长。尽管视频质量较高,但EMO的定制化有限,主要考虑因素包括视频质量、风控、版权和算力消耗。目前,EMO更多作为尝鲜产品,未来需改进才能应用于更广泛场景。
EMO
阿里
全民演唱
2024-07-17
2024-07-17
<
1
2
3
4
5
6
7
8
>
1
2
4
5
6
7
8
9
100