文章列表-AI魔法学院

文章列表

点评：六大向量数据库

AI研究院利用自主开发的MAP-GPT：源码-架构图智能生成系统，独家发布六大热门向量数据库的模块库架构图，包括： Milvus、Zilliz、Faiss、Qdrant、LlamaIndex和Chroma

向量数据库

理解 o3 及其技术分析

有经验的工程师都知道，即使是软件方案，面对跨越数量级的规模增长时，都是没那么容易的。

o3 技术分析

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

与OpenAI的Whisper相比，Distil-Whisper更适合运行在资源有限的设备上，如移动设备和嵌入式系统，同时其在长音频处理和噪声抑制上的表现，也显示了其独到的优势。

Distil-Whisper 语音识别

停用词(Stop Words)的价值、收集与使用

在构造特征的时候，我选择了词袋模型，并按照教材里提示的方法、将词汇表中一些不重要词语给过滤掉，最后得到了一个维度为数千(远小于中文词汇表的大小)的特征。

停用词

深度 | Meta AI助手大测评，市值蒸发万亿都因它？

关于我们的“审查”流程的快速提醒：这是对模型的非常非正式的评估，不是通过合成基准进行的，而只是询问普通人可能会问的问题。

Meta AI 测评

8个常用中文OCR数据集，附下载链接

室内的图像主要包括标识、门牌和标牌等，室外的图像主要是路牌和广告牌等。

OCR

AI Agent：大模型与场景间的价值之桥，但不适合当纯技术看

不管什么时候只要给个要求，它就给你一个特定输出，和时空内其它要素依赖不大，甚至地球毁不毁灭都和这个任务完成没啥关系，比如：编程、下围棋、内容生成等。

大模型

腾讯开源混元AI绘画大模型

一是中文原生，不需要经过转译的过程，大模型可以理解原生中文，这点很重要，要比Stable Diffusion加个翻译插件好得多，尤其是在古文直接生成图方面，有着强大的优势。

腾讯混元文生图

基于Ollama本地部署谷歌开源Gemma大模型！

论文内的性能如下图：好了，以上就是Gemma的简单介绍，有兴趣的小伙伴可以看下原文：传送门：https://blog.google/technology/developers

ollama gemma qwen

万字长文，大语言模型如何宣告心理学的死亡？

在心理学的历史长河中，我们一直在追求对人类心理的深入理解。

大语音模型

全球最强大模型一夜易主，GPT-4时代终结！Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类

对大多数任务而言，Sonnet的处理速度是Claude 2和Claude 2.1的2倍，而且智能程度更高。

claude 大模型

Midjourneyv6创作中国龙十大技巧

风水宝地叫龙穴，抽水的水车叫龙骨水车，大吊车叫龙门吊。

Midjourneyv6 文生图

SDXL模型lora训练参数详细设置，显存占用22G，不用修脸原图直出

其他就不用改了，一键开训就行，然后我的显存占用就变成了这样：今天只是教大家用神童优化器这个方法，用了它你会发现损失降了~但是！

SDXL 训练

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

Translatotron 3结合了三种技术：掩码自编码器、无监督的嵌入映射、和反向翻译，来实现这个目标。

Translatotron 语音识别

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步

子目标和分解：AI Agents 能够将大型任务分解为较小的、可管理的子目标，以便高效的处理复杂任务； • 反思和细化：Agents 可以对过去的行为进行自我批评和反省，从错误中吸取经验教训

agent

<...60 61 62 636465 66 67 68 69 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1