Llama 3.1用了1.6万个英伟达H100 GPU，泯灭......

登录 · 发表于 2026-2-10 16:18:51

目次
Llama 3.1发布简介
Llama 3.1模子规模与训练
大模子企业发展面临的标题与逆境
算力和能耗算力方面
数据和资金方面
技能和人才方面

Llama 3.1发布简介

本地时间 2024年 7月 23号，Meta 公司发布了迄今为止最强大的开源 AI 模子 Llama 3.1。该模子不但规模巨大，性能也堪比最强大的闭源模子。这称得上是开源 AI 范畴的一个告急里程碑。
Llama 3.1 模子眷属统共有三个版本，规模最大的旗舰版本拥有 405B（4050 亿）参数，是比年来最大的开源 AI 模子。别的两个较小版本的参数量分别是 700 亿和 80 亿。
”模子评估“ 和 ”模子本领与应用“ 等具体先容可以参考官方文档。
总体而言，Llama 3.1 405B 模子在推理、数学等多项使命中的表现与 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 相当，在长文本、多语言等范畴乃至更胜一筹。不外在代码基准测试中，Llama 3.1 405B 模子的表现不如 Claude 3.5 Sonnet。

来自Meta
Llama 3.1模子规模与训练

Llama 3.1 405B 模子的训练规模令人赞叹。
Meta 利用了凌驾 1.6 万个英伟达 H100 GPU，在凌驾 15 万亿个 tokens（的数据集）上举行训练，相当于 7500 亿个单词。只管 Meta 没有透露具体的开辟本钱，但仅根据其利用的英伟达芯片代价估算，本钱就已高达数亿美元。
Meta 对其整个训练堆栈举行了庞大优化，以到达云云大规模的训练目标。
在模子架构方面，他们选择了标准的仅解码器 transformer 模子，而非肴杂专家模子，以最大化训练稳固性。
训练数据方面，Meta 通过改进处理处罚和数据筛选流程，进步了训练数据的质量。
别的，他们还选取了迭代式的后训练步伐，“每轮都利用监督微调和直接偏好优化，用高质量的合成数据不绝提升模子性能”。
参考：从国内某平台上看，一张H100 80G的GPU显卡售价25万元左右。
大模子企业发展面临的标题与逆境

算力和能耗算力方面

大模子必要大量盘算资源，导致环球算力需求指数级增长，对全社会信息底子办法和浩繁企业、科研机构的大模子研发带来巨大压力。

算力紧缺：大模子通常包罗数十亿至上万亿个参数，训练时必要处理处罚数万亿个Token，这对算力提出了极高的要求。随着大模子的快速发展，算力需求呈指数级增长，极大地推动了环球算力规模的扩展。大型预训练模子的训练和调优过程斲丧了海量的算力资源。比方，训练ChatGPT所需的算力相当于64台英伟达A100 GPU连续训练一年的时间。别的，大模子的一样寻常运营和优化也必要大量算力支持。预计到2030年，环球算力总规模将到达56ZFlops，此中智能算力成为重要驱动力。

能耗方面，大模子对能源的巨大需求导致人工智能能源斲丧占环球能源斲丧的3%左右，到2025年将斲丧环球15%的电能，给环球情况管理带来寻衅。我国大模子发展带来的高能耗大概增长碳达峰、碳中和压力。

  能耗巨大：大模子对算力的巨大需求带来了能源斲丧的激增。人工智能服务器的功率是平凡服务器的6至8倍，训练大模子的能耗是通例云盘算工作的3倍。据估计，当前人工智能的能源斲丧已占环球总能耗的约3％，预计到2025年，这一比例将上升至15％。人工智能的快速发展对能源斲丧和情况将产生深远的影响。
  据估算，GPT-4一次训练的耗电量相当于1200名中国人一年的用电量，且这仅占模子现实利用时能耗的40％，现实运行阶段的能源斲丧更为巨大。一些大型模子在运行时会产生大量碳排放，给环球情况管理带来严肃寻衅。我国大模子发展的高能耗大概进一步加剧碳达峰和碳中和的压力。
  数据和资金方面

大模子面临的寻衅包罗数据获取便利性、数据泉源合法性、数据质量可靠性、数据利用安全性、资金投入等方面的寻衅。

数据规模与质量待进步：

数据获取方面，专用类大模子必要专业数据，而这些数据通常属于企业、研究机构等实体，增长了训练难度。
数据泉源合法性方面，个人信息掩护意识的进步使得数据合法利用成为标题。
数据质量可靠性方面，开源数据集固然数量巨大，但质量良莠不齐，从中提取符合预训练要求的高质量数据面临很大寻衅。
数据利用安全性方面，怎样包管利用的数据不带私见，以及怎样包管人工智能制造的数据本身的安全性，都是必要办理的标题。

资金投入方面，大模子本钱高昂，包罗模子开辟本钱、训练本钱、算力本钱、数据本钱、运维本钱等，对平凡企业和科研机构而言，资金成为难以逾越的“门槛”。

资金紧缺：

大模子的训练与开辟本钱极为高昂，重要由模子开辟、训练、算力、数据和运维本钱等多方面构成。仅训练本钱就动辄到达数百万美元。以Meta的LLaMA大语言模子为例，在1.4万亿的数据集上，利用2000多个英伟达A100 GPU，举行了21天的训练，泯灭高达1000万美元。根据华为公布的信息，开辟和训练一次人工智能大模子的本钱高达1200万美元。
这种巨额的资金投入将许多小型研究机构和中小型企业清除在外，使得大模子的研发会集于少数头部企业和研究机构，进一步加剧了行业的差异等。

技能和人才方面

针对大模子技能，与国际开始进的程度存在肯定差距，重要体现在底层架构操持和硬件技能方面。在底层架构操持方面，国内尚无雷同的底层架构，大模子的预训练方面只能“在别人的地基上盖房子”；在硬件技能方面，存在“卡脖子”风险。（具体不能睁开，否则无法考核通过......）

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

Llama 3.1用了1.6万个英伟达H100 GPU，泯灭......

本帖子中包含更多资源

光之使者