文章列表-AI魔法学院

文章列表

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

边缘设备，如智能手机、物联网设备等，对智能处理视觉和文本信息的需求也在急剧增长。

OmniVision -968M 多模态模型

SD3 正式开源 Sora同源架构

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向

SD3 绘画

揭秘数字人困境：代理商亏钱、直播屡被封、刘润也不用了

现在，俞天更多的是用数字人做短视频。

数字人

只需四步就能构建自己的Agent！达摩院新开源框架小白也能用

写一篇关于Vision Pro VR眼镜的20字宣传文案，并用女声读出来，同时生成个视频看看。

大模型

Stablediffusion3论文下载-确定了Stablediffusion3与Sora的架构是一致的

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向

SD 论文

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

用户可以上传各种类型的文件，包括文档、图片、音频和视频，同时还可以创建知识库，方便用户管理和搜索文件，还可以在对话中使用文件和知识库功能。

AI开源集合

【提前体验GPT-5】吴恩达AI智能体工作流详细解读

当时他只是文本简单介绍了一下，现在他在斯坦福大学对此内容的演讲视频已经发布。

GPT-5 智能体

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

热度一直没掉下去，关键是生成时间也跟热度一起高居不下，顺利的话几分钟生成的小视频，挤的时候排队能排出好几个小时开外，亏得是阿里云服务器没被挤爆（不是）。

音频阿里

AI音乐热潮下，“神曲工作室”率先失业

当前音乐传播主要通过短视频的背景音乐进行，这种方式并不如电视或专辑等传统渠道，能更好地展现乐曲的价值，音乐的意义在这个过程中被弱化。

音乐音频

盘点来自工业界的GPU共享方案

进年来工业界一直孜孜不倦地寻求提升GPU利用率的方案，能被更多用户理解和使用的GPU共享走进工程师的视野中。

大模型

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini nano

谷歌被逼急了，赶在年底之前仓促发布了超大模型Gemini，卷起了多模态，甚至不惜「视频造假」。

小语言模型

用ComfyUI整了一套照片转Q版手办的工作流

之所以要搞这个，主要是因为它跟我目前要做的很多内容都息息相关，比如2D图片转3D模型，blender的插件、图片生成视频等，而且据说生成速度很快，对设备的要求低。

comfyui 文生图

万字长文｜40万人学习过｜28个ChatGPT使用技巧，带你从入门到精通

GPT-4-turbo，有了更强的上下文理解能力，更长的文本记忆，能理解图片、生成图片，以及更会使用网页浏览、代码解释器等工具帮助用户完成任务，所以我预期会在2024年1月分别在我的Youtube与B站视频频道

ChatGPT 使用技巧教程

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

Captions：利用 AI 轻松实现视频翻译本地化 Captions以制作AI生成的字幕、语音纠正以及在后期制作中纠正视频创作者眼球位置的技术而闻名。

AI

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1