文章列表-AI魔法学院

文章列表

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

背后原理目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。

OCR 手写文字识别

从零开始学习大模型-第二章-大模型学习路线

随着技术的进步，大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。

大模型学习

6个AI音乐软件推荐，让你学会人工智能AI作曲

在当下的应用中，AI已经可以影响音乐制作过程的各个方面，包括音乐生成、音频掌握等。

训练音乐

Insanely Fast Whisper：超快的Whisper语音识别脚本

通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。

音频 Whisper

Roop升级版FaceFusion换脸AI技术使用以及部署教程

SKIP AUDIO（跳过音频）: 对于视频处理，此标志可能用于决定是否处理或忽略视频的音轨。

FaceFusion 教程

阿里Outfit Anyone实现真人百变换装

之前我分享了阿里通义千问APP推出的 "全民舞王" ，只要一张照片就能生成一段舞蹈视频这几天相信有很多小伙伴都有在社交媒体和朋友圈刷到过这种其背后就是用的 Animate Anyone 算法

Outfit Anyone 阿里

LangChain - RAG：线上系统多文档要频繁更新，每次都要重新花钱做一次 embedding，老板不批预算，批我...

做为大模型落地的两大方向之一，RAG 有个很大的坑等着我们，设想一下，需要定时更新一匹 PDF 文件到 RAG chatbot 里面去，总量不算多也不算少大约 15,000～的样子，开发环境里面根本没考虑过重新 re-index、re-embedding 的事，事到临头要更新了才想起来要重新做 embedding 不仅耗时更要耗钱，结果老板不出所料的不批预算，批我解气... 怎么破？

大模型

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

「高质量视频生成」视觉质量：MimicTalk生成的3D头像在视觉质量上超越了以往的技术，能够生成「高度逼真的面部细节和表情」。

MimicTalk 开源模型

RVC和SVC声音模型难找？推荐这个网站

本篇文章介绍：1，声音数据集训练到模型的过程 2 ，SVC和RVC声音模型网站推荐一、声音数据集训练到模型的过程 AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频

声音克隆数字人

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

边缘设备，如智能手机、物联网设备等，对智能处理视觉和文本信息的需求也在急剧增长。

OmniVision -968M 多模态模型

用AI生成PPT、用AI优化PPT

我在前几天写过相关文章，当时我在文中引用的是百度AI对话的PPT生成插件，我对这个插件生成的PPT的评价不高，但是在体验了百度文库的智能PPT功能后，有种“识别三日，当刮目相看”百度的感觉。

ppt AI生成PPT

SD3 正式开源 Sora同源架构

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向

SD3 绘画

十篇高质量的AI-Agents相关论文，让AI教你认识AI-Agents

Agents是AGI领域接下来重要的发展方向，使得很多原本嘲笑Auto-GPT开发者，开始更多开始正视基于LLM驱动的AI-Agents系统。

开源模型

只需四步就能构建自己的Agent！达摩院新开源框架小白也能用

写一篇关于Vision Pro VR眼镜的20字宣传文案，并用女声读出来，同时生成个视频看看。

大模型

揭秘数字人困境：代理商亏钱、直播屡被封、刘润也不用了

做短视频是数字人最大用处吗？

数字人

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1