文章列表-AI魔法学院

文章列表

被高估的Pika，被低估的多模态AI

例如，在医疗领域可以通过结合图像、录音和病历文本，提供更准确的诊断和治疗方案；在交通领域，结合图像和传感器数据，带来更智能、更安全的自动驾驶体验；在教育领域，将文本、声音、视频相结合，呈现更具互动性的教育内容

大模型多模态

中国首个长时长、高一致性、高动态性视频大模型，Vidu 登场

今日，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——「Vidu」。

Vidu 大模型视频

Stable Diffusion

读取大脑重建高清视频，Stable Diffusion还能这么用

但以往的研究都主要聚焦在重建静态图像，而以高清视频形式来展现的工作还是较为有限。

stablediffusion

打造音乐传奇：Suno推出音乐生成模型Suno V3，让每个人都能成为作曲家

Suno AI全新音乐生成模型Suno V3来临，掀起音乐界"ChatGPT时刻"，人人皆可成为作曲家、歌手，瞬间超越自我，打造独一无二音乐专辑就在此刻！

suno 歌曲音乐

国内厂商语音识别与Whisper评测：现状与概况对比

语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域，还有望为残障人士提供更便捷的沟通工具。

语音识别 Faster-Whisper

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

接下面让我们看看这款国产语音库为何如何迅速的火遍大江南北的🔥！

EmotiVoice 语音库

Stable Diffusion

Stable Diffusion AnimateDiff | 最稳定的基于文本生成视频的方法

之前虽然小视频生成比较火，不过出的视频都不太稳定，目前来看 AnimateDiff 是相对比较稳定的，而且能同时支持和其他插件一起使用。

动画 animate sd

Stable Diffusion

Stable Diffusion AnimateDiff | 最稳定的基于文本生成视频的方法！

之前虽然小视频生成比较火，不过出的视频都不太稳定，目前来看 AnimateDiff 是相对比较稳定的，而且能同时支持和其他插件一起使用。

文本生成视频 AnimateDiff

再次重点介绍！！！这款国内的AI制作视频工具

之前介绍过一款图片生成视频的工具-Flow Photo，99%的人不知道的一款国内的AI制作视频工具。

Flow Photo 视频

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

南加州大学&字节提出MagicPose，一种新颖有效的方法，提供逼真的人类视频生成，实现生动的运动和面部表情传输，以及不需要任何微调的一致的野外零镜头生成。

MagicPose 视频

9.4k Star！MemGPT：伯克利大学最新开源、将LLM作为操作系统、无限上下文记忆、服务化部署自定义Agent

加州大学伯克利分校的研究人员发明了这个技术，灵感来自于电脑操作系统怎样管理内存的。

MemGPT 大语言模型

深度好文，Agent盛行前传

第六是模仿能力（imitation），它和概括能力相似的点是它们同属基础能力，好的模仿能力能够促进语言、知识和运动技能的提升，“元能力”（参考“元认知”，我来给它起了个名字），行为克隆和观察式学习是习得模仿能力的两种途径

Agent 大模型

Mixtral 7B 官宣免费，一大波 AI 模型也免费了，有网就能用！

没有精心编辑过的 Demo 视频，也没有长长的介绍博客，只有简单直接的磁力下载链接，背后是高达 87G 完整的模型文件。

开源大模型

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

Stable Diffusion

小白设计师福音：Stable Diffusion 16款插件测评，好用不？推荐吗？

因为这是以设计师日常应用的角度出发，从推荐指数、易上手程度、使用频率三个维度来测评。

SD 插件文生图

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1