环球最多下载中文开源数据集更新｜OpenCSG一连打造中文高质量数据集开源底座

发表于 2026-2-9 12:22:50

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

重磅更新

OpenCSG（开放传神）正式发布 Fineweb-Edu-Chinese V2.2 数据集，这是现在开源界少有的、覆盖从预练习（Pre-train）到监视微调（SFT）全流程的高质量中文教导数据集。
V2.2 版本标记着 Chinese Fineweb Edu 从单一的预练习语料库，进化为覆盖从知识注入到活动对齐备流程的完备数据办理方案。本次更新在 V2.1 海量预练习数据的底子上，利用 DeepSeek V3.2 强盛的文本明白本领，从全网最优质的 0.1% 语料中蒸馏出 143.7 万条高质量问答对，为社区提供了一套标准化的后练习（Post-training）数据集。
在预练习数据方面，V2.2 继续了 V2.1 的上风，提供约 1.5T tokens 的高质量教导语料，按照评分品级（4-5 分、3-4 分）举行质量分层存储，支持课程学习计谋。数据源整合了 CCI3、MAP-CC、OpenCSG-CC 等多个优质中文语料库，通过 OpenCSG csg-wukong-enterprise V2 评分模子举行严酷筛选。
在 SFT 数据方面，V2.2 版本采取“质量至上”计谋：只选取评分最高的 Top 0.1% 语料作为种子，利用 DeepSeek V3.2 的阅读明白本领，严酷基于原文 Context 天生问答对。差异于自由天生的谈天数据，V2.2 的每一条数据都有确凿的原文依据，有用制止了模子幻觉和毕竟错误。
版本演进与特性对比

V1.0 - 概念验证

规模：~90M 条目 (300GB)
关键特性与改进：
初代 BERT 打分模子
引入MinHash 去重
数据源：CCI2, SkyPile, Tele-AI
V2.0 - 规模化扩展

规模：~188M 条目 (420B Tokens)
关键特性与改进：
升级打分器： OpenCSG csg-wukong-enterprise V2
扩展数据源：Industry2, wanjuan1.0, wudao
V2.1 - 预练习精选

规模：~1.5T Tokens
关键特性与改进：
质量分层：按分数归档 (4-5分，3-4分）
新增源：map-cc, opencsg-cc
支持课程学习
V2.2 - SFT 与对齐

规模：143.7 万条问答对
关键特性与改进：
DeepSeek V3.2 合成：基于顶级语料天生
全流程覆盖：提供数据回溯源与纯净微调版
毕竟锚定：答复内容严酷老实于原文
Chinese Fineweb Edu Dataset

Chinese Fineweb Edu Dataset 是一个专为中文教导范畴大模子开发的高质量数据集系列。在当前的大模子研发中，高质量的中文教导语料依然是稀缺资源。通用语料如 Common Crawl 固然规模巨大，但包罗大量广告、碎片化信息和低质文本，直接用于教导模子练习会导致严峻的“幻觉”和逻辑杂乱。同时，业界开源的指令微调数据多会合于通用对话或代码本领，非常缺乏颠末严谨筛选、具备讲授逻辑的垂直范畴教导问答数据。这导致很多模子固然能语言，但无法像老师一样“传道授业”。
V2.2 的里程碑意义

为了办理上述痛点，OpenCSG团队在 V2.1 海量预练习数据的底子上，正式推出了 V2.2 SFT 增强版。不但提供“燃料”（预练习数据），现在更提供“引擎图纸”(SFT 数据）。通过引入 DeepSeek V3.2 的高阶推理本领，将静态的教科书级文本转化为动态的、具有多轮逻辑的问答对。这标记着 Chinese Fineweb Edu 从单一的语料库，进化为覆盖 Pre-train （知识注入）到 Post-train （活动对齐）全流程的完备数据办理方案。
为什么须要高质量的 SFT 数据？

后练习是赋予大模子“交互本领”和“范畴专精”的关键阶段。高质量的 SFT 数据能引发推理本领——仅靠预练习，模子拥有知识但不懂怎样运用。通过经心计划的问答对，模子学会根据上下文举行推导、归纳和演绎。在教导场景下，正确性是红线。通过“基于原文天生”的问答对，欺压模子学习“依据毕竟答复”，而非闭门造车。DeepSeek V3.2 天生的数据不但仅是简朴的毕竟核查，更包罗了“表明性”和“引导性”，模仿人类西席的头脑链条。
从 1.4TB 到 143 万的精粹之路

为了确保 DeepSeek 天生出最优质的问答OpenCSG团队对输入端的“种子数据”举行了极其严苛的筛选。
OpenCSG团队相沿了 V2 版本中练习的高精度教导嘉奖模子，该模子基于文本的知识密度、逻辑连贯性、学术严谨度举行 0-5 分的打分。在数亿条数据中，直接截取了 Score 排名最高的 0.1%-0.5%数据作为种子，这些数据告急由 STEM 范畴的原理详解、人文社科的深度剖析、百科知识的概念表明以及教导质料的知识点总布局成。
将以上“金牌种子”输入 DeepSeek V3.2，利用其强盛的指令遵照本领，深度阅读原始文本、辨认焦点考点、构建讲授对话。DeepSeek 被特别提示要天生“过细、有逻辑步调”的答复，而非简短的 Yes/No。
V2.2 SFT 数据集详情：重塑后练习流程

本部门数据专为指令微调场景打造。
SFT 数据规格

Pure QA SFT【微调首选】

数据量：143.7 万条 | 磁盘占用：3.4 GB
仅包罗 Instruction 和 Output，格式轻量，专注于让模子学习由 DeepSeek 提炼出的高质量答复范式。
用途：直接用于 LLaMA-Factory 等框架举行 SFT
特点：标准问答对格式，开箱即用
2. Full Context SFT【数据回溯与备份】
数据量：143.7 万条 | 磁盘占用：14.6 GB
包罗了原始种子文本 + Instruction + Output，保存完备上下文信息。
留意：不发起直接用于 SFT 练习（Token 长度过长且包罗非对话内容）
用途：仅作为数据溯源利用。当模子体现非常时，可回溯至该文件查抄原始知识点是否正确
数据样例与分析
以下是一个真实的数据样例，展示了 DeepSeek V3.2 天生的高质量问答对：

{
"instruction":"瑞士考古学家费迪南德·克勒是谁?他最闻名的考古发现是什么,这对我们明白古代汗青有什么资助?",
"input":"",
"output":"费迪南德·克勒(Ferdinand Keller, 1800-1881)是一位瑞士告急考古学家...他最闻名的考古发现是1853年在瑞士发现的湖居遗址(也称"干栏修建")...
这一发现对明白古代汗青的资助告急表现在:1. 生存方式重修:显现了公元前5000-500年左右阿尔卑斯地域史前人类的居住形态。2. 文化遗存:由于水下环境缺氧,大量有机物(如木柴、食品残渣)得以生存,为研究当时的技能水平提供了直接证据..."
}

数据质量分析：
DeepSeek V3.2 在处理处罚此类使命时，显现了极强的信息提取与总结本领。天生的答复不但包罗了毕竟，还包罗告终构化的表明，这是平常短文本 SFT 数据所不具备的。
利用发起：
SFT 微调：保举利用 sft_qa 分支，共同 LLaMA-Factory、Axolotl 等主流微调框架
预练习：发起采取课程学习计谋，先利用 Score 4-5 的高质量数据，再渐渐引入 Score 3-4 的数据扩大规模
数据溯源：当模子输出非常时，可通过 sft_context 分支回溯原始知识点，查抄数据质量
OpenCSG 环球开源 AI 生态

OpenCSG 以 Chinese FineWeb Edu 为代表的高质量中文数据团体系，已被环球高校、科研机构及科技企业广泛采取，是支持中文 NLP 研究与大模子产业落地的焦点数据底子，从顶尖高校 AI 实验室到企业级生产环境，它一连为大模子预练习、指令微调与范畴适配等关键环节提供可靠支持，推动研究结果向规模化应用高效转化；在学术范畴，该数据集已被 100 + 篇论文引用，多次入选 NeurIPS、ACL 等国际顶会及 Nature 子刊、JMLR 等权势巨子期刊，成为验证中文语言模子泛化本领、知识建模服从与跨语言迁移结果的代表性底子资源。
除了 Fineweb-Edu-Chinese 系列，OpenCSG 还发布了 Cosmopedia-Chinese（合成教科书风格数据）和 Smoltalk-Chinese（多样化对话格式数据）等多个高质量中文数据集，构成了完备的 OpenCSG Chinese Corpus 语料体系。这些数据集分别针对预练习、后练习和微调等差异阶段的需求举行了专门计划和优化，为中文大语言模子的全生命周期开发提供了全方位的数据支持。
OpenCSG 通过开源数据、评分模子及完备的数据处理处罚工具链，向社区输出可复用的数据管理方法论，一连低沉高质量数据的构建与评估门槛，推动中文 AI 生态从 “模子参数竞争” 转向更加理性、可一连的 “数据底子办法建立” 阶段。

高校与研究机构：斯坦福大学(Stanford)、清华大学(Tsinghua)、中国人民大学高瓴人工智能学院、上海人工智能实验室(Shanghai AI Lab)、北京智源研究院(BAAI)、鹏城实验室、西班牙国家级超算中央(BarcelonaSupercomputingCenter)、Mozilla Data Collective等。
企业应用：英伟达(NVIDIA)、面壁智能(ModelBest)、中国移动、中国联通等。

OpenCSG 对峙“开源即文化”的理念，通过透明、共创、共享的社区文化，与环球开发者、工程师和 AI 原生企业共同构建智能体生态。无论是数据集、模子照旧工具平台，OpenCSG 始终遵照 Apache 2.0 等开源协议，确保技能结果可以或许被广泛利用和自由创新。这种开放的态度和一连的贡献，使 OpenCSG 成为中文开源 AI 社区的告急推动者和引领者
数据所在数据所在

OpenCSG社区：https://opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.2
hf社区：https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.2
魔搭社区：https://modelscope.cn/datasets/opencsg/Fineweb-Edu-Chinese-V2.2
关于OpenCSG

OpenCSG是环球领先的开源大模子社区平台，致力于打造开放、协同、可一连生态，AgenticOps是人工智能范畴的一种AI原生方法论，由OpenCSG（开放传神）提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。焦点产物 CSGHub 提供模子、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模子资产管理本领，支持多脚色协同和高效复用。

免责声明：如果侵犯了您的权益，请联系站长及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金.

环球最多下载中文开源数据集更新｜OpenCSG一连打造中文高质量数据集开源底座

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

愛在花開的季節