AI魔法学院客服
数据脏乱差?一款开源神器让你的大模型更“干净”——Dingo 上手体验
Dingo是一个开源数据质检工具,能为大模型数据生成“体检报告”,快速发现显眼问题及语义细节,支持预训练、SFT、RAG等多种场景,提供规则质检、模型评估、幻觉检测等功能,并生成可视化报告,适用于数据清洗、质量控制、安全合规检查等应用场景。
 2025-09-01
收藏 复制地址分享海报


数据质量正在成为决定模型效果的生死线。预训练喂了脏数据,模型就会胡言乱语;RAG 检索出低质量内容,用户就会怀疑“AI 不靠谱”;即便是精心标注的指令微调数据,也可能暗藏重复、无效、甚至安全风险。

问题是——人工肉眼审数据既慢又贵,而传统脚本的“正则清洗”又往往过于粗糙。有没有一种办法,能同时做到:

  • 几分钟扫完整个数据集;
  • 既能发现显眼问题,又能捕捉语义层面的细节;
  • 支持预训练、SFTRAG、幻觉检测,多模态数据都能上?

答案就是今天要介绍的开源项目 Dingo ——一个能给大模型数据做“体检报告”的新工具。

🚀 立即体验:https://github.com/MigoXLab/dingo

Dingo功能亮点

Dingo 不是简单的清洗脚本,它更像一个数据质检一体机

  • 规则质检:内置二十多条常见规则(比如重复、空内容、奇怪符号),几分钟就能扫完整个数据集。
  • 模型评估:接入大语言模型(OpenAIKimi、本地 Llama3 等),对数据做更细的语义评估,比如“回答是否完整”“是否文不对题”。
  • 幻觉检测 / RAG 评测:内置本地模型 HHEM-2.1-Open,还能评测 RAG 的一致性、检索相关性,避免“编造答案”。
  • 可视化报告:跑完之后直接产出前端页面 + summary.json,清晰展示总体分数、问题比例,像给数据开了“体检报告”。
  • 多模态 / 大规模:支持文本、图像;执行引擎可切换 Local / Spark,单机小数据和 TB 级大数据都能搞定。
  • 生态接入:提供 CLISDKGradio Demo,还带了 MCP Server,能直接接入 IDE(比如 Cursor)或者 Agent 流程。

Dingo :数据质检 → 模型评估 → 报告可视化 。


上手体验安装

pip install dingo-python



可以直接在命令行跑规则评估:

python -m dingo.run.cli --input config/rule_eval.json

也可以用 SDK Python 里跑:

·     

·     

·     

·     

from dingo.executor.inputimport InputArgs from dingo.executor.executor import ExecutorExecutor.exec_map["local"](InputArgs(**your_config)).execute()

评测完成后,只要一句:

·     

python -m dingo.run.vsl --input ./output

就能在浏览器里打开可视化报告,看见你的数据详情。



应用场景

  • 预训练/指令微调前的数据清洗
    用规则组快速筛掉重复、无效,再用 LLM 精检语义细节。
  • RAG 管线质量控制
    跑一遍幻觉检测和检索相关性,防止“答非所问”或“凭空捏造”。
  • 上线前安全合规检查
    接入 Google Perspective API,对毒性/敏感/隐私风险做最后一道防线。
  • 大规模数据治理
    配合 Spark 引擎,TB 级数据也能高效评估。
  • Agent/IDE 一体化
    通过 MCP Server,直接在开发工具或多智能体工作流里接入,形成“生成—评估—修复”的闭环。



总结

在大模型开发的流程里,数据往往是被忽视的隐形风险。大家习惯盯着模型参数、算力和推理框架,却忘了垃圾数据会让一切努力付诸流。

Dingo 提供了一种新的思路:

让数据像代码一样,有“lint”工具,有“测试报告”,有“合格/不合格”的门槛。

如果你正在做预训练、SFTRAG 或者 Agent 系统,不妨试试 Dingo,让你的模型吃到干净、健康、靠谱的数据。

原文出自:https://mp.weixin.qq.com/s/-eZLHWCH_fi4mgtRVymEoQ

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
超级凶鸭2025/9/1 12:35:20
这Dingo工具简直神器啊!数据质检从未如此高效直观,支持场景还多,赞一个!
20秒读懂全文
伴读
### 1. 一句话总结文章摘要
Dingo是一个开源的数据质检工具,能够高效、全面地检测大模型数据的质量问题,并生成可视化报告。

### 2. 生成关键词和可能相关的关键词
**关键词**:Dingo、数据质量、模型效果、预训练、RAG、数据清洗、语义评估、幻觉检测、可视化报告、多模态数据

**可能相关的关键词**:大模型开发、数据治理、数据合规性、数据标注、
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群