文章列表-AI魔法学院

文章列表

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

它提供了各种预训练的模型，包括文本生成、文本分类、命名实体识别等多种NLP任务的模型。

Whisper 语音优化

EduChat：教育行业垂直领域大模型

通过在教育语料库上进行预训练来学习领域特定的知识，并通过在设计的系统提示和指令上进行微调来刺激各种技能的使用。

教育大模型垂直领域

Stable Diffusion

全网最全AI绘画Stable Diffusion关键技术解析

ensp; · SD 1.2:引入大数据集LAION-2B进行训练

Stable Diffusion 文生图

Yann LeCun杨立昆最新观点：AGI不存在

LLM接受了大量文本数据的训练，但 LeCun 认为，感官输入，特别是在幼儿期，比单独的语言提供了更丰富的学习信息。

AGI 大语言模型观点

七问大模型幻觉｜LLM Hallucination

源与目标的差异：当我们在存在源与目标差异的数据上训练模型时，模型产生的文本可能与原始源内容产生偏差

大模型

OCR是什么以及推荐几款开源中文OCR识别软件

第一名：PaddleOCR PaddleOCR 是百度开源的中文识别的ocr开源软件，PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型，并应用落地。

OCR

RAG 2.0，终于把RAG做对了！

这意味着预训练是一次性的任务（不同于持续学习方法）。

RAG 大语言模型

本地运行140亿参数，阿里千问玩起来！Qwen+Win11+3060

Qwen-14B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。

大模型

Stability AI开源上新：3D生成引入视频扩散模型

研究人员还改进了3D优化技术：采用由粗到细的训练策略，优化NeRF和DMTet网格来生成3D对象。

sv3d 建模

图片生成速度最高提升10倍！可以做到“实时”生成！清华推出LCM/LCM-LoRA！

LCM的训练过程也很高效，只需要大约32个A100 GPU的训练时间，就可以完成对SD模型的蒸馏。

LCM/LCM-LoRA 文生图

Stable Diffusion

读取大脑重建高清视频，Stable Diffusion还能这么用

整体来看，这个方法主要包含两大模块，它们分别做训练，然后再在一起做微调。

stablediffusion

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

该模型旨在解决边缘设备在运行多模态模型时面临的资源受限问题，通过优化架构和训练方法，实现了在保证性能的前提下，降低计算成本和延迟，从而为边缘设备的智能化升级提供了可行的解决方案。

OmniVision -968M 多模态模型

Agent四大范式 | 综述：全面理解Agent工作原理

§ 而强化学习一般是构建策略网络或奖励模型，但是一般需要大量样本进行训练，但是收集数据往往成本很高，所以这种方法可行性不大，很难推广开来。

Agent 大语言模型

8月份最火的 5 个 GitHub 项目

Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。

下载

RAG检索增强技术在知识库智能检索场景下的应用实践

与传统的大模型训练相比，RAG（Retrieval-Augmented Generation）方法则不需要重新训练整个大模型，而是通过外挂知识库来完成特定任务。

知识库 RAG检索增强

<...21 22 23 242526 27 28 29 30 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1