Dingo是一个开源数据质检工具,能为大模型数据生成“体检报告”,快速发现显眼问题及语义细节,支持预训练、SFT、RAG等多种场景,提供规则质检、模型评估、幻觉检测等功能,并生成可视化报告,适用于数据清洗、质量控制、安全合规检查等应用场景。
数据质量正在成为决定模型效果的生死线。预训练喂了脏数据,模型就会胡言乱语;RAG 检索出低质量内容,用户就会怀疑“AI 不靠谱”;即便是精心标注的指令微调数据,也可能暗藏重复、无效、甚至安全风险。
问题是——人工肉眼审数据既慢又贵,而传统脚本的“正则清洗”又往往过于粗糙。有没有一种办法,能同时做到:
- 几分钟扫完整个数据集;
- 既能发现显眼问题,又能捕捉语义层面的细节;
- 支持预训练、SFT、RAG、幻觉检测,多模态数据都能上?
答案就是今天要介绍的开源项目 Dingo ——一个能给大模型数据做“体检报告”的新工具。
🚀 立即体验:https://github.com/MigoXLab/dingo

Dingo功能亮点
Dingo 不是简单的清洗脚本,它更像一个数据质检一体机:
- 规则质检:内置二十多条常见规则(比如重复、空内容、奇怪符号),几分钟就能扫完整个数据集。
- 模型评估:接入大语言模型(OpenAI、Kimi、本地 Llama3 等),对数据做更细的语义评估,比如“回答是否完整”“是否文不对题”。
- 幻觉检测 / RAG 评测:内置本地模型 HHEM-2.1-Open,还能评测 RAG 的一致性、检索相关性,避免“编造答案”。
- 可视化报告:跑完之后直接产出前端页面 +
summary.json,清晰展示总体分数、问题比例,像给数据开了“体检报告”。
- 多模态 / 大规模:支持文本、图像;执行引擎可切换 Local / Spark,单机小数据和 TB 级大数据都能搞定。
- 生态接入:提供 CLI、SDK、Gradio Demo,还带了 MCP Server,能直接接入 IDE(比如 Cursor)或者 Agent 流程。
Dingo :数据质检
→ 模型评估 → 报告可视化 。
上手体验安装
pip install
dingo-python
可以直接在命令行跑规则评估:
python -m dingo.run.cli --input
config/rule_eval.json
也可以用 SDK 在 Python 里跑:
·
·
·
·
from dingo.executor.inputimport InputArgs from dingo.executor.executor import ExecutorExecutor.exec_map["local"](InputArgs(**your_config)).execute()
评测完成后,只要一句:
·
python -m dingo.run.vsl --input
./output
就能在浏览器里打开可视化报告,看见你的数据详情。
应用场景
- 预训练/指令微调前的数据清洗
用规则组快速筛掉重复、无效,再用 LLM 精检语义细节。
- RAG 管线质量控制
跑一遍幻觉检测和检索相关性,防止“答非所问”或“凭空捏造”。
- 上线前安全合规检查
接入 Google Perspective
API,对毒性/敏感/隐私风险做最后一道防线。
- 大规模数据治理
配合 Spark 引擎,TB 级数据也能高效评估。
- Agent/IDE 一体化
通过 MCP Server,直接在开发工具或多智能体工作流里接入,形成“生成—评估—修复”的闭环。
总结
在大模型开发的流程里,数据往往是被忽视的隐形风险。大家习惯盯着模型参数、算力和推理框架,却忘了垃圾数据会让一切努力付诸东流。
Dingo 提供了一种新的思路:
让数据像代码一样,有“lint”工具,有“测试报告”,有“合格/不合格”的门槛。
如果你正在做预训练、SFT、RAG 或者 Agent 系统,不妨试试 Dingo,让你的模型吃到干净、健康、靠谱的数据。
原文出自:https://mp.weixin.qq.com/s/-eZLHWCH_fi4mgtRVymEoQ
本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。
客服请加微信:skillupvip