文章列表-AI魔法学院

文章列表

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

二、PaddleOCR功能特点 1.高准确率：PaddleOCR的算法经过精心设计和优化，可准确识别不同字体、字号、字形的文字图像，实现超越人眼识别率的准确率。

PaddleOCR 文字识别

【语音识别】OpenAI语音力作Whisper

与人类相比，在语音识别和语音翻译（x→en）上，模型的准确性和稳健性接近人类。

语音转文字 whisper

十大开源语音识别项目

Whisper Whisper 是一个通用的语音识别模型。

语音识别开源项目

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

开源免费离线语音识别神器whisper如何安装

当然，我们知道一些商业公司提供语音识别服务，但是基本都是联网运行，个人隐私安全总是有隐患，而whisper完全不同，whisper完全在本地运行，无需联网，充分保障了个人隐私，且whisper识别准确率相当高

wisper 翻译免费

14.6K star！最好用的OCR文字识别项目，没有之一！

伙伴们，平时都会用到文字识别吧？

Umi-OCR 开源项目文字识别

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

人脸识别的开源的项目有哪些？

OpenCV：OpenCV（Open Source Computer Vision Library）是一个广泛使用的计算机视觉库，提供了许多人脸识别算法和工具。

人脸识别开源项目

Insanely Fast Whisper：超快的Whisper语音识别脚本

这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。作者提供了几种优化方式，包括批处理、半精度处理以及BetterTransformer，以提高转录速度。最终，作者以实际测试数据展示了不同优化方式的速度对比。同时，还提到了Whisper.cpp的性能测试、4位推断性能测试、以及一个CLI工具的社区展示。这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。

音频 Whisper

来个优秀的开源人脸识别项目！

虹膜识别技术通过全自动照相机寻找并聚焦虹膜，实现高精度识别。

人脸识别开源项目

几款开源的OCR识别项目，收藏备用

github.com/PaddlePaddle/PaddleOCR.git EasyOCR EasyOCR是用Python编写基于Tesseract的OCR识别库

OCR

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

Whisper 是 OpenAI 研发并开源的一个自动语音识别（ASR，Automatic Speech Recognition）模型，他们通过从网络上收集了 68 万小时的多语言（

语音 HeyGen

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1