文章列表-AI魔法学院

文章列表

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

通过 LLM 极强的语言先验，这种架构还可以避免 OCR 中的易错字，比如“杠杆”和“杜杆”等，对于模糊文档，也有望在语言先验的帮助下实现更强的 OCR 效果。

OCR 手写文字识别

简单提升RAG的10种方法

RAG（检索增强）通过为LLM提供回答查询时使用的事实背景，使LLM变得更加实用。

RAG 大模型

RAG应用中数据处理过程需要注意的事项

随着检索增强生成(RAG)应用程序不断发展，这些应用程序通常将Langchain/LlamaIndex与Weaviate/Pinecone和foundation Models结合在一起，它们遇到了各种障碍

RAG 大模型

字节跳动最强AI工具 “豆包” ，近1000款应用！一句话自动生成图文，堪比ChatGPT？

前面分享了小悟空、即创等字节系列AI创作平台，今天又给大家分享另一个字节的创作平台叫做豆包，体验下来，功能在目前国内算是第一梯队，实用性很强。

AI工具文生图

最新最强开源模型Qwen3本地运行指南！Windows+ollama+chatwise轻松搞定

此外，它还支持119种语言，真正实现了全球语言的无障碍交流，并且特别增强了智能体能力，支持MCP，为用户带来更加智能、便捷的使用体验。

Qwen3 开源模型

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

而 OpenVoice 作为一款强大的多语言即时语音克隆AI工具，可以为用户提供高效、个性化的语音克隆服务，是一款值得推荐的项目。

tts 文本转语音

从零开始学习大模型-第二章-大模型学习路线

随着技术的进步，大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。

大模型学习

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码，可以产生高质量音频。

AudioCraft 音频

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

这次AI要革翻译的命了么？！（先别急着骂，我们先看看产品）你是否遇到过这样的情况：你想和一个说不同语言的人交流，但是你不会他的语言！你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！你想把一种语言的语音或文字直接转换成另一种语言的语音或文字，但是你需要用多个工具，而且效果不理想！如果你有这样的困扰，那么你一定会对meta的开源AI模型seamless-communication感兴趣。

大模型开源模型语音

最强开源大模型Llama 3，在扎克伯格设想中其实是这样的

与此同时，Meta也同步发出了一个长达80多分钟的播客访谈视频。

Llama 3 大语言模型

阿里Outfit Anyone实现真人百变换装

之前我分享了阿里通义千问APP推出的 "全民舞王" ，只要一张照片就能生成一段舞蹈视频这几天相信有很多小伙伴都有在社交媒体和朋友圈刷到过这种其背后就是用的 Animate Anyone 算法

Outfit Anyone 阿里

了解Kimi必看的26个问题 | Kimi系列文（二）

了解到，目前的GenAI有文本类、视频类、绘图类、音频类、编程类、PPT、数字人、AI搜索等形式。

Kimi 大语言模型

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

· I2VGen-XL，阿里推出的图像到视频生成模型，也就是图生成视频又新增了一个 AI 工具，之前常用的效果好的有

阿里大模型

AI资讯速递 - 快人一步！为你填平AI领域信息差及时揭示AI领域的最新动态

AI能够制作视频吗？

AI资讯 AI新闻

改进召回（Retrieval）和引入重排（Reranking）提升RAG架构下的LLM应用效果

如前文LLM应用架构之检索增强（RAG）的缘起与架构介绍，RAG架构很好的解决了当前大模型Prompt learning过程中context window限制等问题，整体架构简明清晰，易于实现，得到了广泛的应用

大模型

<...9 10 11 121314 15 16 17 18 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1