文章列表-AI魔法学院

文章列表

GitHub星数暴涨，AIPC的开源实现，用AI记录电脑一整天的使用太简单了，功能非常多！

项目简介 ScreenPipe 在你的计算机上 7*24小时全天候记录你的电脑屏幕和麦克风，数据由用户自行掌控，确保隐私和安全，并且把记录的数据连接到大模型

AIPC ScreenPipe 开源

谈谈RAG存在的一些问题和避免方式

那么我们的问题是：谁知道埃隆·马斯克？

RAG 大模型

智谱AI静悄悄的上线了一大波新模型，过年了，真的

原创数字生命卡兹克数字生命卡兹克 2024年08月29日 21:56 北京智谱今天下午在KDD 2024上面，悄咪咪的上线了一堆的超级更新。

智谱AI 大模型

无需编码，轻松提升图像品质：探索ComfyUI的图像增强功能

手动安装（Windows、Linux）： 1.使用Git克隆ComfyUI存储库。

文生图

LangChain - RAG：线上系统多文档要频繁更新，每次都要重新花钱做一次 embedding，老板不批预算，批我...

做为大模型落地的两大方向之一，RAG 有个很大的坑等着我们，设想一下，需要定时更新一匹 PDF 文件到 RAG chatbot 里面去，总量不算多也不算少大约 15,000～的样子，开发环境里面根本没考虑过重新 re-index、re-embedding 的事，事到临头要更新了才想起来要重新做 embedding 不仅耗时更要耗钱，结果老板不出所料的不批预算，批我解气... 怎么破？

大模型

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

一文彻底搞懂多模态 - 多模态推理

这两种模态的信息可以是图片和文本、视频和语音等。

多模态推理大模型

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

腾讯也活成了，马斯克心中，那个OpenAI的模样。

sora 视频生成

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

例如，CNNs可以从语音频谱图中提取出关键的声学特征，而Transformer模型则可以对长文本进行深入理解，从而实现准确的情感分析和语音合成。

Westlake -Omni 语音

ComfyUI安装及生成第一张图

/install.sh)" 2、安装一些需要的包打开一个新终端并运行以下命令 brew install cmake protobuf rust python@3.10 git wget 3、克隆

ComfyUI 文生图

低调的PDF，为什么成了数字文档“永远的神”？

尽管PostScript的页面描述效率已经非常高，但还是远远超出当时个人电脑的硬件能力范围，因此沃诺克和格施克最初将PostScript的服务对象定位在大型印刷工作站，直到乔布斯适时的出现

工作

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

详解 Diffusion (扩散) 模型

目前，它们主要用于图像和音频生成。

Diffusion 开源模型

Stable Diffusion

stable diffusion最全18种controlnet模型，详细教程讲解。

目前AIgc领域正在持续关注，等到年底的时候做一个最全面的视频和文字讲解，现在还是在等等，目前AI领域热度确实是在持续降温，但是呢，深入了解AI的人都知道，AI的发展不是想人一样需要很长时间的积累，有时候可能就是一个算法的突破

Stable Diffusion 文生图 controlnet

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1