文章列表-AI魔法学院

文章列表

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

语音识别的未来已来：深入了解faster-whisper的突破性进展

faster-whisper简介 faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。

语音识别 Faster-Whisper

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

【语音识别】OpenAI语音力作Whisper

模型结构（融入了多任务：多语种的语音识别，语音翻译，语音语言识别，声音活动检测）模型有5个版本，参数量、支持语言、显存和速度如下： &ensp

语音转文字 whisper

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

一、PaddleOCR基本原理 PaddleOCR基于百度自主研发的深度学习框架PaddlePaddle，采用卷积神经网络（CNN）和循环神经网络（RNN）等技术，实现对图像中文字的识别和转换。

PaddleOCR 文字识别

生成式AI与大语言模型的区别

同样，音乐和文本生成模型分别在庞大的音乐或文本数据集上进行训练。

生成式AI 大语言模型区别

基于中文金融知识的 LLaMA 系微调模型的智能问答系统：LLaMA大模型训练微调推理等详细教学

基于中文金融知识的 LLaMA 系微调模型的智能问答系统：LLaMA大模型训练微调推理等详细教学基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型

LLaMA

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

十大开源语音识别项目

它在大量多样化的音频数据集上进行训练，作为一个多任务模型，可以执行多语言语音识别、语音翻译和口语识别。

语音识别开源项目

OCRmyPDF—可智能识别PDF文本和图片信息的工具

;在可能的情况下，将OCR信息作为“无损”操作插入，不会干扰其他内容 •优化PDF图像，通常产生的文件比输入文件小 •如果需要，可以在执行OCR之前对图像进行纠偏和/或清洁

OCRmyPDF 工具

动作识别模型有哪些

· RNN：因为视频除了空间维度外，最大的痛点是时间序列问题，因此不少人希望使用RNN来解决问题除此之外，还有TRN模型，SlowFast模型，TSM模型等等...

动作识别模型

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

在AI技术的浪潮中，一款新型的语音识别模型Distil-Whisper以其独特的魅力和强大的性能脱颖而出。

Distil-Whisper 语音识别

大语言模型定制化应用的三种方式：Prompt engineering、Fine tuning、Pre-trainning的区别

在实现大语言模型的定制化应用中，的确有几种常用的方式：Prompt Engineering（提示工程）、Fine-tuning（微调）和Pre-training（预训练）。

大模型

14.6K star！最好用的OCR文字识别项目，没有之一！

伙伴们，平时都会用到文字识别吧？

Umi-OCR 开源项目文字识别

使用知识图谱提高RAG的能力，减少大模型幻觉

在使用大型语言模型(llm)时，幻觉是一个常见的问题。

RAG 大语言模型

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1