文章列表-AI魔法学院

文章列表

万字长文震撼来袭！揭秘Transformer——吐血解读自注意力机制的革命性突破

自注意力（有时也称为内部注意力）是一种注意力机制，它关联单个序列中不同位置的信息，以计算序列的表示。

Transformer 大模型

AIGC沸腾200多天后，投资人达成三大共识

在AIGC不断发酵的200多天里，投资人们达成了哪些共识？

大模型

十大开源语音识别项目

这些项目不仅在语音技术领域具有重要意义，而且为语音识别应用的发展提供了有力的支持。

语音识别开源项目

语音识别的新拐点：OLMoASR 带来的机会

这就是为什么开源 ASR 的出现意义非凡：它让这些可能性变得更低成本、更普惠。

OLMoASR 语音识别

面向知识图谱的大模型应用

知识图谱的应用由来已久，如果企业已经投资了知识图谱系统，而且效果还不错，需要用LLM重新实现一遍么？

知识图谱大模型

LangChain + ChatGLM2-6B 搭建私域专属知识库

如果不满意调整训练的参数再次进行训练。

知识库

向量数据库失宠了？OpenAI 力捧检索增强生成（RAG）技术，对行业来说意味着什么？

虽然其中重要内容很多，但一条具有革命性意义的消息让人很难不注意到：OpenAI消除在某些用例中对纯向量数据库的需求。

检索增强生成大语音模型

人脸识别的开源的项目有哪些？

OpenCV：OpenCV（Open Source Computer Vision Library）是一个广泛使用的计算机视觉库，提供了许多人脸识别算法和工具。

人脸识别开源项目

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

几款开源的OCR识别项目，收藏备用

github.com/PaddlePaddle/PaddleOCR.git EasyOCR EasyOCR是用Python编写基于Tesseract的OCR识别库

OCR

基于本地知识的问答机器人langchain-ChatGLM

但是这些模型学到的知识是滞后的（比如ChatGPT的知识是截止到2021年），并且这些知识是通用领域的。

langchain

Stable Diffusion

stable diffusion 远端跑图—— Api基础知识掌握

应该输入的是127.0.0.1:7860/sdapi/v1/txt2img，具体端口可能不同然后直接复制我上边的请求内容放入body里面，记得先选择json模式点击send按钮，如果没有意外地话

文生图 api

Insanely Fast Whisper：超快的Whisper语音识别脚本

这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。作者提供了几种优化方式，包括批处理、半精度处理以及BetterTransformer，以提高转录速度。最终，作者以实际测试数据展示了不同优化方式的速度对比。同时，还提到了Whisper.cpp的性能测试、4位推断性能测试、以及一个CLI工具的社区展示。这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。

音频 Whisper

来个优秀的开源人脸识别项目！

虹膜识别技术通过全自动照相机寻找并聚焦虹膜，实现高精度识别。

人脸识别开源项目

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1