首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 你的下一个浏览器,可以是豆包电脑版!
· 我用AI写小说:「素材篇」4种大神写爽文技巧+找素材新思路+三翻四震举例说明
· 为你推荐开源项目:Meridian——专属个人情报站!
· 变天了,AI可以一键生成中文海报了......
· 最新最强开源模型Qwen3本地运行指南!Windows+ollama+chatwise轻松搞定
· 腾讯开源混元AI绘画大模型
· Stable Diffusion 30种采样器全解!
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 一文带你看懂OpenAI-Sora生成视频的原理
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
Transformer
TrOCR——
基
于
transformer
模
型
的
OCR手写
文
字
识
别
前期我们使用
大
量
的
篇幅介绍
了
手写数
字
识
别
与手写
文
字
识
别
,当然那里主要使用
的
是CNN卷积神经网络,利用CNN卷积神经网络来训练
文
字
识
别
的
模
型
。
OCR
手写
文字识别
语
音
识
别
的
未来已来:深
入
了
解faster-whisper
的
突破性
进
展
faster-whisper简介 faster-whisper是
基
于
OpenAI
的
Whisper
模
型
的
高效实现,它利用CTranslate2,一个专为Transformer
模
型
设计
的
快速推理
引
擎。
语音识别
Faster-Whisper
Python
Whisper对
于
中
文
语
音
识
别
与转写
中
文
文
本优化
的
实践(Python3.10)
阿里
的
FunAsr对Whisper
中
文
领域
的
转写
能
力
造成
了
一定
的
挑战,但实际上,Whisper
的
使用者完全可以针对
中
文
的
语
音做一些优化
的
措施,换句话说,Whisper
的
“默认”形态可
能
在
中
文
领域斗不过
Whisper
语音优化
OpenAI
【
语
音
识
别
】OpenAI
语
音
力
作Whisper
模
型
结构(融
入
了
多任务:多
语
种
的
语
音
识
别
,
语
音翻译,
语
音
语
言
识
别
,声音活动检测)
模
型
有5个版本,参数量、支持
语
言
、显存和速度如下: &ensp
语音转文字
whisper
OCR
【重磅推荐】PaddleOCR:超越人眼
识
别
率
的
AI
文
字
识
别
神器!
一、PaddleOCR
基
本原理 PaddleOCR
基
于
百度自主研发
的
深度学习框架PaddlePaddle,采用卷积神经网络(CNN)和循环神经网络(RNN)
等
技术,实现对
图
像
中
文
字
的
识
别
和转换。
PaddleOCR
文字识别
生成式AI与
大
语
言
模
型
的
区
别
同样,音乐和
文
本生成
模
型
分
别
在庞
大
的
音乐或
文
本数据集上
进
行训练。
生成式AI
大语言模型
区别
金融
基
于
中
文
金融知
识
的
LLaMA 系微调
模
型
的
智
能
问答系统:LLaMA
大
模
型
训练微调推理
等
详细教学
基
于
中
文
金融知
识
的
LLaMA 系微调
模
型
的
智
能
问答系统:LLaMA
大
模
型
训练微调推理
等
详细教学
基
于
LLaMA 系
基
模
型
经过
中
文
金融知
识
指令精调/指令微调(Instruct-tuning)
的
微调
模
型
LLaMA
OpenAI
OpenAI
大
动作:Whisper large-v3重塑
语
音
识
别
技术
这款最新
的
自动
语
音
识
别
模
型
不仅在多
语
言
识
别
方面取得
了
显著
进
步,而且还将很快在OpenAI
的
API
中
得到支持。
Whisper
语音识别
开源
十
大
开源
语
音
识
别
项目
它在
大
量多样化
的
音频数据集上
进
行训练,作为一个多任务
模
型
,可以执行多
语
言
语
音
识
别
、
语
音翻译和口
语
识
别
。
语音识别
开源项目
工具
OCRmyPDF—可智
能
识
别
PDF
文
本和
图
片信息
的
工具
;在可
能
的
情况下,将OCR信息作为“无损”操作插
入
,不会干扰其他内容 •优化PDF
图
像,通常产生
的
文
件比输
入
文
件小 •如果需要,可以在执行OCR之前对
图
像
进
行纠偏和/或清洁
OCRmyPDF
工具
动作
识
别
模
型
有哪些
· RNN:因为视频除
了
空间维度外,最
大
的
痛点是时间序列问题,因此不少人希望使用RNN来解决问题 除此之外,还有TRN
模
型
,SlowFast
模
型
,TSM
模
型
等
等
...
动作识别
模型
「
语
音
识
别
的
未来已来」——探索Distil-Whisper,轻量级AI
的
强
大
力
量
在AI技术
的
浪潮
中
,一款新
型
的
语
音
识
别
模
型
Distil-Whisper以其独特
的
魅
力
和强
大
的
性
能
脱颖而出。
Distil-Whisper
语音识别
Prompt
大
语
言
模
型
定
制
化应用
的
三种方式:Prompt engineering、Fine tuning、Pre-trainning
的
区
别
在实现
大
语
言
模
型
的
定
制
化应用
中
,
的
确有几种常用
的
方式:Prompt Engineering(提示工
程
)、Fine-tuning(微调)和Pre-training(预训练)。
大模型
OCR
14.6K star!最好用
的
OCR
文
字
识
别
项目,没有之一!
伙伴们,平时都会用到
文
字
识
别
吧?
Umi-OCR
开源项目
文字识别
RAG
使用知
识
图
谱提高RAG
的
能
力
,减少
大
模
型
幻觉
在使用
大
型
语
言
模
型
(llm)时,幻觉是一个常见
的
问题。
RAG
大语言模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100