大神卡帕西：纯C语言打造GPT-2，挑战核心深度学习装备

AI快讯 2年前 (2024) admin

3,937 0 4

神级大神卡帕西（Andrej Karpathy）再度亮相，一露面即惊艳全场：纯C语言打磨GPT-2，仅用1000行代码，跳出当前深度学习框架的禁锢。

在他的新作中，不假借成熟的深度学习工具，Karpathy亲自动手，展现了对于创新与挑战的执着。

这一项目推出仅数小时，便掀起众多瞩目。该项目不仅可即刻编译和运行，且与PyTorch完美兼容。

虽然Karpathy示例采用了GPT-2，但Llama 2和Gemma等同样适用。而他也在项目发布后，提供了从PyTorch迁移至C的详尽教程。

网友们纷纷感慨：连C++都不用？！

更令人惊叹的是，他甚至分享了让其它算力大放异彩的提示。如今，已有人开始利用Devin进行探索。

Karpathy的关键在于手动实现每个单独层的前向传播和反向传播，然后巧妙地将它们紧密组合。举例来说，加入层归一化（layernorm）的前向传播和反向传播。

一旦搞定所有层次，将它们有序连接。Karpathy坦言，这一过程枯燥乏味且痛苦，需细心梳理所有指针和张量排列的准确性。

而对此，仅仅是确保各项正向/反向传播成功，便是下一个有趣挑战。

现在，他正在逐渐将其迁移到CUDA，旨在增强其效率，或许能够与PyTorch匹敌，但又不会沦为烦人的底层依赖。

此后将还会有更多的优化拓展，甚至涉及精度缩减到fp16或更低级别，并引入更多层次（如RoFE）以支持更先进的架构。

据悉，Karpathy正着手制作更加详尽的视频解说，助大家更透彻领略项目的精妙所在。

关于更多的细节，详细代码展示可在GitHub项目页中找到。

网友疑惑：这与LLM操作系统有何牵连？

近段时间，曾一度隐退的Karpathy突然现身，调侃曰，自上次网戒软瘾过后，总体情绪好转。

回归网络世界的第四天，他便推出新项目，给众人带来一股新奇之感。

在一连串的“amazing”、“great”尚未散尽之际，热议的焦点主要涵盖三个方向。

首先，为何不选择Rust？

Karpathy表示，他当下也在钻研Rust语言，但更感深核心意C语言，认为其简捷、优雅、轻便、美观，俨然当代语言之王。

其次，是否对AI程序员施以激励？

值得一提的是Karpathy提供了挑战数，呼应着网友利用LLM Agent的可能性。

尽管当前所生成模型尚竞逊水平，但或许再过一两年，众人皆可瞩目。此举有象徵意义：或许AGI即将来临？

现如今，由 Devin 开始的探索已有不少迹象浮出水面。

盖Karpathy担心，Devin或已搜寻至此项目，随机应对。然而至目前为止，Devin仍未触碰此操作。

他更认为，不如对应其产品，未来1-2年里产生的潜在结果趋于不尽人意。故建议加强对数据的管理，谨慎处理信息传输。

最后，按前段时间大量围绕此提出的讨论，项目是否与LLM OS存在联系？

一时传闻 Karpathy 从 OpenAI 离职，疑备措和推进个人项目。

矢口直断其意图为实行LLM OS。

年末访谈时，他再度表达此结，自曰各方正热火朝天为 AGI 路线拼搏，各式操作合拢发展，总结下，每名为构册“大模型操作系统（LLM OS）”.

这即使作为一个操作系统，须做好适应各类外围设备之准备，把其连接至全新的 CPU 上。上述外围设备涵盖文本、图像、音频等多模样态。CPU 即为本身语言模型，还需和我们已构完备的所有 1.0 软件基架连接。

他相信，时至今日，各方已开始了建设，将该模型调整至适用于各经领域产品之地。

版权声明：admin 发表于 2024-04-09 16:22:35。
转载请注明：大神卡帕西：纯C语言打造GPT-2，挑战核心深度学习装备 | ai导航网

暂无评论

暂无评论...