文章列表-AI魔法学院

文章列表

用上这10条神指令（prompt)，让ChatGPT快速写出优质高分科研论文

二、总结论文要点：1、阅读并消化指定标题的研究论文内容，提供一个简洁明了的总结，包括主要发现、方法、结果和研究意义。

prompt ChatGPT 写作

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

那么对于现在基于 CLIP 视觉词表的多模大模型也是一样的，遇到 “foreign language image”，如一页论文密密麻麻的文字，很难高效地将图片 token 化，Vary 提出就是解决这一问题

OCR 手写文字识别

AA大佬新作：ComfyUI整合包，打造极简解决方案

ComfyUI整合包的介绍： AA发布的ComfyUI整合包是一个预装了大量节点的版本，它不仅简化了安装过程，还提供了一个启动器，用于完成节点的更新和安装。

comfyui 文生图工作流程

Nvidia发布Llama3-ChatQA-1.5: 提升对话问答和表格推理能力，平均性能超越GPT-4

相比之前的ChatQA 1.0版本，其训练方法和数据集都进行了优化，尤其增强了对表格数据和算术计算的理解能力。

Llama3-ChatQA-1.5 对话问答模型

Kimi+扣子Coze，我零门槛制作了一个好用的智能体Agent | 智能体开发

也就是说你按照他的配置，可以复制出一个一模一样的bot，也可以在他的基础上优化、借鉴。

Kimi 扣子Coze 大模型

RAG与Long-Context之争—没必要争

当然目前有一些优化方法，滑动窗口、Cache量化等等等（欢迎大家补充），但即使这样由于大模型参数规模较大，显存占用也是很可怕的。

RAG Long-Context 大模型

14.6K star！最好用的OCR文字识别项目，没有之一！

项目是基于PaddleOCR开发的，支持截图识别、批量导入识别、个性化识别等功能。

Umi-OCR 开源项目文字识别

链接大模型与外部知识，智源开源最强语义向量模型BGE

语义向量模型（Embedding Model）被广泛应用于搜索、推荐、数据挖掘等重要领域，将自然形式的数据样本（如语言、代码、图片、音视频）转化为向量（即连续的数字序列），并用向量间的“距离”衡量数据样本之间的

embedding 语义向量

Stable Diffusion

【Stable Diffusion操作升级】Stable Diffusion 常用模型下载与说明

VAE美化模型/变分自编码器 VAE，全名Variational autoenconder，中文叫变分自编码器。

文生图 SD

Stable Diffusion

stable diffusion最全18种controlnet模型，详细教程讲解。

这个是根据下面这张图转的真人风格，谁还不会过来打屁股聊会正题首先了解一下controlnet能干什么，就是控制，可以用调色来比喻，无论是图片调色还是视频调色都要用到很多工具，白平衡校准，色温，色相饱和度，亮度，蒙版降噪，锐化，

Stable Diffusion 文生图 controlnet

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

实践应用：Distil-Whisper的广阔天地 Distil-Whisper的轻量化和高效性能使其在多种实际应用场景中大放异彩。

Distil-Whisper 语音识别

SD 美颜修图神器

Sharpeness「锐化值」分别设置 -3、1 和 3，这里可能小伙伴们看不太出来哈，如果放大了看，是可以看到图片越往右越清晰的。

SD 文生图

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

LiveKit 支持语音、视频和数据流处理，内置了自动语音识别（ASR）和文本转语音（TTS）功能，简化了语音到文本和文本到语音的转换过程。

GPT-4o 语音交互

再也不用担心 AI 图片脸崩手崩了

MediaPipe 提供专门的人脸检测模型，并对性能和准确性进行了优化。

ADetailer 安装文生图

ChatGPT提示工程 - 总结

ChatGPT提示工程的两个关键原则 - 吴恩达和OpenAI合作编写Prompt的两个关键原则原则一：编写清晰、具体的说明策略1：使用分隔符清晰地标识出输入的各个部分策略2：提示模型以结构化格式输出结果

GPT

<...69 70 71 727374 75 76 77 78 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1