DeepSeek几个关键参数,分别是参数量、激活参数 和 预训练 token 量。
这里用通俗的语言给大家解释一下~
首先要知道1B 是 Billion(十亿)的缩写
想象你在一个庞大的图书馆中,图书馆里有大量的书籍,每本书里有无数的文字和句子。这些书籍中的每个字、每个句子都代表着一些“信息”,这些信息是你理解世界、学习语言的基础。而模型的参数量就是图书馆中的书籍数量——越多的书籍意味着能学到的知识越丰富。
GPT-3 的参数量是 175B(1750 亿)。这是一个非常大的数字,意味着 GPT-3 能学到很多知识,进行各种复杂的推理和文本生成。
DeepSeek-V3 拥有 671B(6710 亿)参数,几乎是 GPT-3 的 4 倍。这意味着它拥有更多的“知识”储备,能够理解和生成更加复杂的语言,处理更多的上下文和细节信息。
更大的参数量通常意味着模型的表现更强大,它可以理解更复杂的语句和概念,推理能力更强,生成的文本也更自然、精确。
在一次会议中,所有的书(对应模型的参数)都会被提供给你参考,但是你每次开会时只能查阅部分书籍,其他书籍暂时不会被使用。激活参数就像是你在每次会议中实际翻阅的书籍数量。尽管图书馆中有大量的书籍,但每次开会时你只会用到一部分书籍。
DeepSeek-V3 拥有 671B(6700 亿)参数,但是每次推理时并不会使用所有这些参数,而是只激活 37B(370 亿)个参数,这些激活的参数才会参与实际计算和推理。
这意味着尽管 DeepSeek-V3 的模型非常庞大,但它的计算在实际应用中是有限的,通过精巧的优化,模型可以动态地选择哪些部分参数用于推理,而不需要每次都使用全部参数。
激活参数是指在实际使用时,模型根据输入的文本数据,选择需要的部分参数来进行计算。37B 的激活参数表明,虽然模型庞大,但每次推理时只会激活一部分参数,从而提高计算效率。
如果模型的学习过程是阅读书籍,那么token 就是书籍中的字词。模型通过大量的 token 来学习语言,就像一个学生通过阅读大量的书籍来学习知识。而预训练 token 量就是模型在训练过程中所阅读的所有字词的总量。
GPT-3 在训练时使用了约 5700 亿(570B)个 token,这意味着 GPT-3 阅读并学习了 5700 亿个字词来构建它的语言能力。
DeepSeek-V3 使用了 14.8 万亿(14.8 trillion)token 进行预训练,相当于它读了 14.8 万亿个字词,比 GPT-3 的训练数据多 近 3 倍。
更多的 token 意味着模型能接触到更广泛的语言样本,学习更多的语言模式和语法规则。这种“大量的阅读”让 DeepSeek-V3 能够理解更复杂的语言结构、语境和情感。它能够处理更多的输入内容,从而具备更强的泛化能力。
- 2025年3月 (1)
- 2024年6月 (2)
- 2024年5月 (2)
- 2024年4月 (4)
- 2024年3月 (30)
- 2024年1月 (4)
- 2023年12月 (2)
- 2023年11月 (4)
- 2023年10月 (4)
- 2023年9月 (6)
- 2023年3月 (2)
- 2023年2月 (1)
- 2023年1月 (1)
- 2022年12月 (1)
- 2022年9月 (21)
- 2022年8月 (10)
- 2022年7月 (3)
- 2022年4月 (1)
- 2022年3月 (13)
- 2021年8月 (1)
- 2021年3月 (1)
- 2020年12月 (42)
- 2020年11月 (7)
- 2020年10月 (5)
- 2020年8月 (1)
- 2020年6月 (1)
- 2020年3月 (2)
- 2019年12月 (8)
- 2019年11月 (3)
- 2019年9月 (1)
- 2019年4月 (1)
- 2019年3月 (6)
- 2019年2月 (1)
- 2018年7月 (7)
- 1.asp.net mvc内微信pc端、H5、JsApi支付方式总结(5702)
- 2.各大搜索网站网站收录提交入口地址(3201)
- 3.Windows 10休眠文件更改存储位置(3164)
- 4.ECharts仪表盘实例及参数使用详解(3095)
- 5.windows 10安装myeclipse 10破解补丁cracker.jar、run.bat闪退解决办法(2993)
- 6.HTML5 WebSocket与C#建立Socket连接实现代码(2866)
- 7.华为鸿蒙系统清除微信浏览器缓存方法(2787)
- 8.CERT_HAS_EXPIRED错误如何解决(2250)
- 9.Js异步async、await关键字详细介绍(lambda表达式中使用async和await关键字)(2189)
- 10.HBuilder编辑器格式化代码(2118)