大神卡帕西:纯C语言打造GPT-2,挑战核心深度学习装备

AI快讯 1年前 (2024) admin
2,914 0

神级大神卡帕西(Andrej Karpathy)再度亮相,一露面即惊艳全场:纯C语言打磨GPT-2,仅用1000行代码,跳出当前深度学习框架的禁锢。

在他的新作中,不假借成熟的深度学习工具,Karpathy亲自动手,展现了对于创新与挑战的执着。

大神卡帕西:纯C语言打造GPT-2,挑战核心深度学习装备

这一项目推出仅数小时,便掀起众多瞩目。该项目不仅可即刻编译和运行,且与PyTorch完美兼容。

虽然Karpathy示例采用了GPT-2,但Llama 2和Gemma等同样适用。而他也在项目发布后,提供了从PyTorch迁移至C的详尽教程。

网友们纷纷感慨:连C++都不用?!

更令人惊叹的是,他甚至分享了让其它算力大放异彩的提示。如今,已有人开始利用Devin进行探索。

Karpathy的关键在于手动实现每个单独层的前向传播和反向传播,然后巧妙地将它们紧密组合。举例来说,加入层归一化(layernorm)的前向传播和反向传播。

一旦搞定所有层次,将它们有序连接。Karpathy坦言,这一过程枯燥乏味且痛苦,需细心梳理所有指针和张量排列的准确性。

而对此,仅仅是确保各项正向/反向传播成功,便是下一个有趣挑战。

现在,他正在逐渐将其迁移到CUDA,旨在增强其效率,或许能够与PyTorch匹敌,但又不会沦为烦人的底层依赖。

此后将还会有更多的优化拓展,甚至涉及精度缩减到fp16或更低级别,并引入更多层次(如RoFE)以支持更先进的架构。

据悉,Karpathy正着手制作更加详尽的视频解说,助大家更透彻领略项目的精妙所在。

关于更多的细节,详细代码展示可在GitHub项目页中找到。

网友疑惑:这与LLM操作系统有何牵连?

近段时间,曾一度隐退的Karpathy突然现身,调侃曰,自上次网戒软瘾过后,总体情绪好转。

回归网络世界的第四天,他便推出新项目,给众人带来一股新奇之感。

在一连串的“amazing”、“great”尚未散尽之际,热议的焦点主要涵盖三个方向。

首先,为何不选择Rust?

Karpathy表示,他当下也在钻研Rust语言,但更感深核心意C语言,认为其简捷、优雅、轻便、美观,俨然当代语言之王。

其次,是否对AI程序员施以激励?

值得一提的是Karpathy提供了挑战数,呼应着网友利用LLM Agent的可能性。

尽管当前所生成模型尚竞逊水平,但或许再过一两年,众人皆可瞩目。此举有象徵意义:或许AGI即将来临?

现如今,由 Devin 开始的探索已有不少迹象浮出水面。

盖Karpathy担心,Devin或已搜寻至此项目,随机应对。然而至目前为止,Devin仍未触碰此操作。

他更认为,不如对应其产品,未来1-2年里产生的潜在结果趋于不尽人意。故建议加强对数据的管理,谨慎处理信息传输。

最后,按前段时间大量围绕此提出的讨论,项目是否与LLM OS存在联系?

一时传闻 Karpathy 从 OpenAI 离职,疑备措和推进个人项目。

矢口直断其意图为实行LLM OS。

年末访谈时,他再度表达此结,自曰各方正热火朝天为 AGI 路线拼搏,各式操作合拢发展,总结下,每名为构册“大模型操作系统(LLM OS)”.

这即使作为一个操作系统,须做好适应各类外围设备之准备,把其连接至全新的 CPU 上。上述外围设备涵盖文本、图像、音频等多模样态。CPU 即为本身语言模型,还需和我们已构完备的所有 1.0 软件基架连接。

他相信,时至今日,各方已开始了建设,将该模型调整至适用于各经领域产品之地。

版权声明:admin 发表于 2024-04-09 16:22:35。
转载请注明:大神卡帕西:纯C语言打造GPT-2,挑战核心深度学习装备 | ai导航网

暂无评论

暂无评论...