首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· AI Agent的数字化革命:超越文本,走向自主决策与交互
· 推荐一个自动生成复杂提示词的模版:思考链(CoT)如何通过分步推理提升AI任务准确性 | 示例详解
· 了解Kimi必看的26个问题 | Kimi系列文(二)
· MCI-GRU:在真实金融交易中验证有效的股票价格预测模型
· 不会PS也能做神图?豆包AI绘画全解析,让你的创意秒变艺术品!
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· 用so-vits-svc-4.1进行音色转换的极简教程!
· ChatGLM3在线搜索功能升级
· 巧用这13个原则!创作ChatGPT提示词Prompt时效率提高10倍!
· 50张图“毒倒”Stable Diffusion,汽车和牛都分不清了
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
视频魔法
开源
从 GPT-4o 到 LiveKit:实时语音交互的开源实现
文章介绍了OpenAI发布会外的实时对话语音技术,特别是LiveKit作为GPT-4o背后的技术支持,提供了语音、视频、数据流处理及AI集成方案。通过案例探讨了LiveKit在潮玩模型、实时翻译耳机等场景的应用,并强调其作为开发者实现实时语音交互的便捷工具,展望未来应用前景广泛。
GPT-4o
语音交互
2024-08-27
2024-08-27
工具
FFmpeg之父新作——音频压缩工具 TSAC
FFmpeg作者Fabrice Bellard发布了音频压缩工具TSAC,利用深度学习中的Transformer结构提升性能,实现极低比特率下的高质量音频压缩。TSAC采用RVQGAN技术,通过级联VQ和GAN训练提升压缩效果,具备多速率编码能力和降噪功能。然而,压缩后音频存在高频细节丢失等问题。
TSAC
音频工具
2024-08-23
2024-08-23
工具
4K star!录屏好帮手,超酷的实时按键显示工具
Keyviz是一款免费开源的跨平台实时键鼠输入可视化软件,能显示按键和鼠标操作,支持自定义样式和过滤特定按键,但2.0版本尚在alpha阶段,存在点击飘逸、配置不生效等问题,整体显示效果优秀,适合录制教程或演示时使用。项目GitHub链接为https://github.com/mulaRahul/keyviz,已有4K Star。
Keyviz
录频
2024-08-01
2024-08-01
阿里
阿里通义实验室薄列峰:从兵马俑跳“科目三”到照片唱歌,四大框架让AI生成的人物活起来丨GenAICon 2024
阿里巴巴通义实验室XR团队在2024中国生成式AI大会上展示了人物视频生成新范式,包括人物动作、换装、替身、唱演四大框架,已应用于通义千问APP。这些框架分别通过Animate Anyone、Outfit Anyone、Motionshop和Emote Portrait Alive技术,实现了从单张图到复杂视频内容的生成,展现了行业领先地位和丰富的应用潜力。
通义
文生视频
2024-07-29
2024-07-29
阿里
阿里出品自动化视频剪辑工具FunClip!
FunClip是阿里达摩院开源的本地部署视频剪辑工具,依托FunASR模型实现语音自动识别,支持热词定制、说话人识别、视频裁剪与多段剪辑,自动生成SRT字幕,提供Gradio交互界面和命令行操作,简化视频剪辑流程。一键启动包避免复杂环境配置,适用于Windows10/11 64位系统,需8G以上英伟达显卡。
FunClip
视频
阿里
2024-07-26
2024-07-26
阿里
《嬛嬛朕emo啦》但马斯克!阿里这项技术开放试玩
文章概述:文章介绍了一个名为EMO的AI视频项目,该项目来自阿里通义实验室,允许用户通过上传人物正面大头照和选择音频片段,生成具有自然表情和头部运动的视频。该功能在通义App上受到欢迎,用户可以通过“全民舞台”功能体验。EMO采用弱控制设计,不强制建模整个面部,而是通过面部定位器和速度编码器等控制机制实现自然流畅的生成效果。项目负责人薄列峰表示,技术开源前需解决安全问题,并透露未来计划将EMO扩展到半身、全身,并可能引入新架构。同时,EMO背后团队专注于数字人研究,通过奶牛猫跳舞等动物主题激发用户兴趣,强调高质量AIGC内容的重要性。最后,文章推荐了EMO的一个私房玩法,即使用自己不同年龄段的照片进行合唱。
音频
阿里
2024-07-23
2024-07-23
开源
GPT-4o实时语音方案提供商Livekit开源voice agent:轻松处理音视频流
本文介绍了一个基于LiveKit WebRTC的代理框架,用于构建实时、可编程的服务器端参与者,能够处理或生成音频、视频和数据流。该框架包括多种插件,如语音转文本(STT)和文本转语音(TTS)等,与LiveKit服务器无缝集成,无需额外排队基础设施。当前处于开发者预览模式,API可能变动。代理通过pip安装,并可通过CLI接口运行,支持加入特定的聊天室。此外,提供了一个名为“playground”的Web前端用于简化代理的构建和测试。框架允许工作线程管理多个代理实例,并通过SIGTERM信号安全地终止工作线程。特定插件可能需要下载模型文件以使用。项目源码位于GitHub上。
voice
agent
开源
音视频
2024-07-22
2024-07-22
阿里
四木测评|让教父唱《野狼disco》、恶搞《甄嬛传》,火遍全网的阿里明星项目EMO正式开放
阿里推出的EMO项目可使静态人像照片与音频结合生成动态视频,实现了口型同步和人物自然动作。用户可通过通义千问免费体验,但当前版本限制多,如必须使用官方模板、不支持自定义音频、图片要求严格且生成时间长。尽管视频质量较高,但EMO的定制化有限,主要考虑因素包括视频质量、风控、版权和算力消耗。目前,EMO更多作为尝鲜产品,未来需改进才能应用于更广泛场景。
EMO
阿里
全民演唱
2024-07-17
2024-07-17
开源
【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
文章介绍了阿里语音团队最新开源的FunAudioLLM项目,旨在提升人类与大型语言模型的自然语音交互体验。项目包含SenseVoice和CosyVoice两个核心模型:SenseVoice负责语音识别和音频处理,支持多语言识别、低延迟、高性能及情感识别;CosyVoice则专注于语音生成和控制,支持多语言、零样本学习、情感共鸣及语音克隆等功能。文章还详细阐述了这两个模型的特点、应用场景,并提供了在
asr
tts
声音
2024-07-11
2024-07-11
视频
国产视频制作之光-可灵:提示词大全整理
国产视频制作正蓬勃发展,而可灵无疑是其中的闪耀之光!我们为您精心整理了一份提示词大全,堪称国产视频制作的宝藏秘籍。在这个大全里,您能找到各类丰富、实用且极具创意的提示词,无论您想要制作何种风格、何种主题的视频,它都能为您提供灵感指引。可灵的这份提示词大全,将助您在国产视频制作的道路上更加轻松顺畅,让您的创作之旅充满惊喜与可能!
可灵
kling
视频
2024-07-09
2024-07-09
教程
【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声!!
ChatTTS 文本转语音项目在github爆火出圈,引来大家极大的关注。短短2周左右的时间,在 GitHub 上已经斩获了23.5k的Star量。本文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声!!
chattts
tts
文生语音
2024-06-21
2024-06-21
Sora
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
「可灵」全新国产视频生成大模型开始内测了。它采用了Sora相似的技术路线,结合多项自研技术创新,生成的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影APP中正式开启邀测。
可灵
快手
文生视频
2024-06-09
2024-06-09
开源
SD3 正式开源 Sora同源架构
本文介绍了stability_ai发布的最新模型Stablediffusion3,该模型与OpenAI的Sora在架构上相似,都采用了Diffusion Transformer方式。Stablediffusion3具有生成视频、3D内容的能力,模型参数量增加至8亿,提升了图像质量。同时,介绍了即将推出的SD3 Medium模型,具有照片级真实感、优秀的字体排印学表现、高效性能以及微调能力,适用于定制和创意工作。
SD3
绘画
2024-06-03
2024-06-03
开源
有感情的语音合成开源模型:ChatTTS安装使用详解
ChatTTS是专为对话场景设计的语音生成模型,支持中英文,效果出色。它可集成于大型语言模型助手,提供自然流畅的交互体验。用户可简单提供文本获取语音文件。项目提供安装指南,包括下载源码、安装依赖、编写执行代码、自动下载模型及通过webui运行等步骤。用户可通过界面添加笑声和停顿,提升语音效果。
ChatTTS
语音合成
2024-05-30
2024-05-30
换脸
一键AI换脸!小红书和北大合作的InstantID
本文介绍了作者在comfyUI上安装InstantID插件的过程,包括安装节点、相关模型,以及创建基础工作流和出图步骤。InstantID是小红书、北大等团队合作开发的AI绘画和视频插件,具有强大的面部识别和分析能力。作者还表达了对中国AI技术未来发展的信心,并介绍了InstantID的工作原理和模型下载地址。
InstantID
文生图
2024-05-17
2024-05-17
<
1
2
3
4
5
6
7
8
9
>
1
2
4
5
6
7
8
9
100