马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
重磅更新
OpenCSG(开放传神)正式发布 Fineweb-Edu-Chinese V2.2 数据集,这是现在开源界少有的、覆盖从预练习(Pre-train)到监视微调(SFT)全流程的高质量中文教导数据集。
V2.2 版本标记着 Chinese Fineweb Edu 从单一的预练习语料库,进化为覆盖从知识注入到活动对齐备流程的完备数据办理方案。本次更新在 V2.1 海量预练习数据的底子上,利用 DeepSeek V3.2 强盛的文本明白本领,从全网最优质的 0.1% 语料中蒸馏出 143.7 万条高质量问答对,为社区提供了一套标准化的后练习(Post-training)数据集。
在预练习数据方面,V2.2 继续了 V2.1 的上风,提供约 1.5T tokens 的高质量教导语料,按照评分品级(4-5 分、3-4 分)举行质量分层存储,支持课程学习计谋。数据源整合了 CCI3、MAP-CC、OpenCSG-CC 等多个优质中文语料库,通过 OpenCSG csg-wukong-enterprise V2 评分模子举行严酷筛选。
在 SFT 数据方面,V2.2 版本采取“质量至上”计谋:只选取评分最高的 Top 0.1% 语料作为种子,利用 DeepSeek V3.2 的阅读明白本领,严酷基于原文 Context 天生问答对。差异于自由天生的谈天数据,V2.2 的每一条数据都有确凿的原文依据,有用制止了模子幻觉和毕竟错误。
版本演进与特性对比
V1.0 - 概念验证
规模:~90M 条目 (300GB)
关键特性与改进:
初代 BERT 打分模子
引入MinHash 去重
数据源:CCI2, SkyPile, Tele-AI
V2.0 - 规模化扩展
规模:~188M 条目 (420B Tokens)
关键特性与改进:
升级打分器: OpenCSG csg-wukong-enterprise V2
扩展数据源:Industry2, wanjuan1.0, wudao
V2.1 - 预练习精选
规模:~1.5T Tokens
关键特性与改进:
质量分层:按分数归档 (4-5分,3-4分)
新增源:map-cc, opencsg-cc
支持课程学习
V2.2 - SFT 与对齐
规模:143.7 万条问答对
关键特性与改进:
DeepSeek V3.2 合成:基于顶级语料天生
全流程覆盖:提供数据回溯源与纯净微调版
毕竟锚定:答复内容严酷老实于原文
Chinese Fineweb Edu Dataset
Chinese Fineweb Edu Dataset 是一个专为中文教导范畴大模子开发的高质量数据集系列。在当前的大模子研发中,高质量的中文教导语料依然是稀缺资源。通用语料如 Common Crawl 固然规模巨大,但包罗大量广告、碎片化信息和低质文本,直接用于教导模子练习会导致严峻的“幻觉”和逻辑杂乱。同时,业界开源的指令微调数据多会合于通用对话或代码本领,非常缺乏颠末严谨筛选、具备讲授逻辑的垂直范畴教导问答数据。这导致很多模子固然能语言,但无法像老师一样“传道授业”。
V2.2 的里程碑意义
为了办理上述痛点,OpenCSG团队在 V2.1 海量预练习数据的底子上,正式推出了 V2.2 SFT 增强版。不但提供“燃料”(预练习数据),现在更提供“引擎图纸”(SFT 数据)。通过引入 DeepSeek V3.2 的高阶推理本领,将静态的教科书级文本转化为动态的、具有多轮逻辑的问答对。这标记着 Chinese Fineweb Edu 从单一的语料库,进化为覆盖 Pre-train (知识注入) 到 Post-train (活动对齐) 全流程的完备数据办理方案。
为什么须要高质量的 SFT 数据?
后练习是赋予大模子“交互本领”和“范畴专精”的关键阶段。高质量的 SFT 数据能引发推理本领——仅靠预练习,模子拥有知识但不懂怎样运用。通过经心计划的问答对,模子学会根据上下文举行推导、归纳和演绎。在教导场景下,正确性是红线。通过“基于原文天生”的问答对,欺压模子学习“依据毕竟答复”,而非闭门造车。DeepSeek V3.2 天生的数据不但仅是简朴的毕竟核查,更包罗了“表明性”和“引导性”,模仿人类西席的头脑链条。
从 1.4TB 到 143 万的精粹之路
为了确保 DeepSeek 天生出最优质的问答OpenCSG团队对输入端的“种子数据”举行了极其严苛的筛选。
OpenCSG团队相沿了 V2 版本中练习的高精度教导嘉奖模子,该模子基于文本的知识密度、逻辑连贯性、学术严谨度举行 0-5 分的打分。在数亿条数据中,直接截取了 Score 排名最高的 0.1%-0.5%数据作为种子,这些数据告急由 STEM 范畴的原理详解、人文社科的深度剖析、百科知识的概念表明以及教导质料的知识点总布局成。
将以上“金牌种子”输入 DeepSeek V3.2,利用其强盛的指令遵照本领,深度阅读原始文本、辨认焦点考点、构建讲授对话。DeepSeek 被特别提示要天生“过细、有逻辑步调”的答复,而非简短的 Yes/No。
V2.2 SFT 数据集详情:重塑后练习流程
本部门数据专为指令微调场景打造。
SFT 数据规格
数据量:143.7 万条 | 磁盘占用:3.4 GB
仅包罗 Instruction 和 Output,格式轻量,专注于让模子学习由 DeepSeek 提炼出的高质量答复范式。
用途:直接用于 LLaMA-Factory 等框架举行 SFT
特点:标准问答对格式,开箱即用
2. Full Context SFT【数据回溯与备份】
数据量:143.7 万条 | 磁盘占用:14.6 GB
包罗了 原始种子文本 + Instruction + Output,保存完备上下文信息。
留意:不发起直接用于 SFT 练习(Token 长度过长且包罗非对话内容)
用途:仅作为数据溯源利用。当模子体现非常时,可回溯至该文件查抄原始知识点是否正确
数据样例与分析
以下是一个真实的数据样例,展示了 DeepSeek V3.2 天生的高质量问答对:
{
"instruction":"瑞士考古学家费迪南德·克勒是谁?他最闻名的考古发现是什么,这对我们明白古代汗青有什么资助?",
"input":"",
"output":"费迪南德·克勒(Ferdinand Keller, 1800-1881)是一位瑞士告急考古学家...他最闻名的考古发现是1853年在瑞士发现的湖居遗址(也称"干栏修建")...
这一发现对明白古代汗青的资助告急表现在:1. 生存方式重修:显现了公元前5000-500年左右阿尔卑斯地域史前人类的居住形态。2. 文化遗存:由于水下环境缺氧,大量有机物(如木柴、食品残渣)得以生存,为研究当时的技能水平提供了直接证据..."
}
数据质量分析:
DeepSeek V3.2 在处理处罚此类使命时,显现了极强的信息提取与总结本领。天生的答复不但包罗了毕竟,还包罗告终构化的表明,这是平常短文本 SFT 数据所不具备的。
利用发起:
SFT 微调:保举利用 sft_qa 分支,共同 LLaMA-Factory、Axolotl 等主流微调框架
预练习:发起采取课程学习计谋,先利用 Score 4-5 的高质量数据,再渐渐引入 Score 3-4 的数据扩大规模
数据溯源:当模子输出非常时,可通过 sft_context 分支回溯原始知识点,查抄数据质量
OpenCSG 环球开源 AI 生态
OpenCSG 以 Chinese FineWeb Edu 为代表的高质量中文数据团体系,已被环球高校、科研机构及科技企业广泛采取,是支持中文 NLP 研究与大模子产业落地的焦点数据底子,从顶尖高校 AI 实验室到企业级生产环境,它一连为大模子预练习、指令微调与范畴适配等关键环节提供可靠支持,推动研究结果向规模化应用高效转化;在学术范畴,该数据集已被 100 + 篇论文引用,多次入选 NeurIPS、ACL 等国际顶会及 Nature 子刊、JMLR 等权势巨子期刊,成为验证中文语言模子泛化本领、知识建模服从与跨语言迁移结果的代表性底子资源。
除了 Fineweb-Edu-Chinese 系列,OpenCSG 还发布了 Cosmopedia-Chinese(合成教科书风格数据)和 Smoltalk-Chinese(多样化对话格式数据)等多个高质量中文数据集,构成了完备的 OpenCSG Chinese Corpus 语料体系。这些数据集分别针对预练习、后练习和微调等差异阶段的需求举行了专门计划和优化,为中文大语言模子的全生命周期开发提供了全方位的数据支持。
OpenCSG 通过开源数据、评分模子及完备的数据处理处罚工具链,向社区输出可复用的数据管理方法论,一连低沉高质量数据的构建与评估门槛,推动中文 AI 生态从 “模子参数竞争” 转向更加理性、可一连的 “数据底子办法建立” 阶段。
- 高校与研究机构:斯坦福大学(Stanford)、清华大学(Tsinghua)、中国人民大学高瓴人工智能学院、上海人工智能实验室(Shanghai AI Lab)、北京智源研究院(BAAI)、鹏城实验室、西班牙国家级超算中央(BarcelonaSupercomputingCenter)、Mozilla Data Collective等。
- 企业应用:英伟达(NVIDIA)、面壁智能(ModelBest)、中国移动、中国联通等。
OpenCSG 对峙“开源即文化”的理念,通过透明、共创、共享的社区文化,与环球开发者、工程师和 AI 原生企业共同构建智能体生态。无论是数据集、模子照旧工具平台,OpenCSG 始终遵照 Apache 2.0 等开源协议,确保技能结果可以或许被广泛利用和自由创新。这种开放的态度和一连的贡献,使 OpenCSG 成为中文开源 AI 社区的告急推动者和引领者
数据所在数据所在
OpenCSG社区:https://opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.2
hf社区:https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.2
魔搭社区:https://modelscope.cn/datasets/opencsg/Fineweb-Edu-Chinese-V2.2
关于OpenCSG
OpenCSG是环球领先的开源大模子社区平台,致力于打造开放、协同、可一连生态,AgenticOps是人工智能范畴的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。焦点产物 CSGHub 提供模子、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模子资产管理本领,支持多脚色协同和高效复用。
免责声明:如果侵犯了您的权益,请联系站长及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金. |