Meta公司承诺打造开源AI,马斯克起诉OpenAI,声称后者缺乏开源模型。与此同时,一批科技领袖和企业也纷纷呼吁支持开源AI概念。然而,科技界在界定“开源AI”的概念上存在着根本性的分歧。

从字面上理解,开源AI意味着任何人都可以参与科技开发,它可以加速创新、增加透明度,让用户对系统拥有更多的控制权。然而,迄今为止,还没有人对“开源AI”进行明确定义,科技巨头完全可以根据自己的需求扭曲概念,甚至可能利用开源AI来巩固自身的地位。
要解决“开源AI”概念的界定问题,不得不提到1998年成立的非盈利组织——开源软件倡议(Open Source Initiative, OSI)。OSI已经集结了研发人员、律师、议员和大型科技公司代表等约70人,试图明确“开源AI”的概念。
OSI高管Stefano Maffulli表示,对于开源AI原则,他们已经达成了广泛的共识,但在具体细节上存在很多分歧。要考虑到复杂的竞争利益,并找到一个让所有人满意的解决方案,让大企业积极参与其中,确实不容易。
在大企业中,Meta公司对开源AI持积极态度。去年7月,Meta开源了Llama 2模型。Meta AI与开源事务法律副总顾问Jonathan Torres表示:“为了全球开源社区的利益,我们支持OSI明确定义开源AI,并将积极参与这一定义工作。”相比之下,OpenAI的态度则显得不太积极。在过去几年中,OpenAI很少提及自己的研发进展,原因是无法保证安全性。OpenAI的新闻发言人表示:“只有在谨慎评估利益和风险,包括误用和加速等问题后,我们才会考虑开放强大的AI模型。”
除了Meta和OpenAI,Stability AI、Aleph Alpha和Hugging Face等公司也提供了一些开源模型。然而,谷歌的Gemini和PaLM 2模型并没有开源,但Gemma模型可以免费使用。谷歌所说的并非“开源”,而是“开放”。对于上述模型能否被称为“开源”,大家的意见并不统一。无论是Llama 2还是Gemma,都需要获得授权,并受到一定的限制。这些严苛的要求无疑与开源相矛盾,科技企业显然没有做到真正的开源。
Stefano Maffulli表示,开源的目的本来是确保开发者能够自由使用、研究、修改和分享软件,不施加任何限制。然而,AI的运行方式与软件有所不同,因此软件领域适用的开源理念无法顺利转移到AI领域。他解释称,AI模型涉及的组件非常复杂,与软件不同,修改AI模型涉及到训练模型、训练数据、数据处理代码、训练流程管理代码以及模型底层架构等多个方面。
在界定开源AI的概念时,我们还需要明确基本自由和基本权利。只有明确界定并得到大家的尊重和接受,才能降低合规成本、减少摩擦、分享知识。
目前,数据成为了开源AI面临的关键问题。所有大型科技企业仅仅发布了预训练模型,没有提供训练数据。如果想要给开源AI下一个更明确的定义,没有数据就很难修改和研究模型,因此这些模型并不能被称为开源模型。
一些人持不同观点,他们认为只要简单描述数据,研究人员就可以深入调查模型,没有必要通过重新训练来修改模型。预训练模型可以通过微调进行调整,即使用一小批特殊数据集来重新训练。例如,Meta提供的Llama 2模型,虽然是预训练模型,但已经有一批开发者下载、修改并分享了自己的修改结果。这些开发者使用它完成各种项目,形成了一个完整的生态系统。我们是否可以将其称之为半开放或者半开源呢?
非盈利组织Open Future的研发人员Zuzanna Warso认为,从技术角度来看,如果没有原始训练数据,研发人员无法修改模型。然而,这并不意味着没有训练数据就无法自由研究模型,这个争论点也值得商榷。Warso表示:“在整个流程中,训练数据是关键组成部分。如果我们真的关心开放,我们也应该关心数据的开放程度。”
开源AI的意义是什么?人们希望通过开源达成怎样的目标?对于这个问题,人们的意见也不一致。AI Now Institute联合执行董事Sarah Myers West在去年发表的一篇论文中指出,许多开源AI项目缺乏开放性,但她同时也指出,训练尖端AI需要大量的数据和计算资源,严苛的要求限制了小型参与者的机会,无论模型开源程度如何,都受到了限制。
通过开源,人们希望实现什么目标?是为了安全性?是为了学术研究?还是为了增强竞争力?我们必须对这些目标有更清晰的认识,并考虑到将系统开放到何种程度会对目标追求产生怎样的影响。
在OSI的定义草案中,开源被认为是有益的,其中自主和透明是关键收益。然而,文件中也提到了一些“超出范围的问题”,如伦理、信任和责任等。Maffulli解释称,从历史上看,开源社区的关注重点是如何减少软件分享方面的摩擦,不能陷入无休止的争论,比如如何使用软件。
然而,也有人对Maffulli的观点表示异议,他们认为技术本身是中性的,伦理问题是无法完全控制的。这些有争议的问题本来就很重要,避免讨论只会导致开源社区的分裂。
除了OSI,还有一些组织也希望为开源AI指明方向,例如在2022年成立的负责任人工智能授权(Responsible AI Licenses, RAIL),它通过开源授权的方式限制了模型的特殊使用。在获得授权后,开发者不能将AI模型用于不合适、不道德的情况。在Hugging Face的托管平台上,已有28%的模型使用了RAIL授权。
谷歌的Gemma模型授权也遵循类似的原则,获得授权的开发者不能将模型应用于有害场景。艾伦人工智能研究所也制定了自己的授权规则。
开源软件管理公司Tidelift的联合创始人Luis Villa认为,考虑到AI与常规软件的不同,探索不同程度的开放是难以避免的,并且这样做对整个行业可能是有益的。然而,各种开放授权之间的不兼容性可能会影响协作。只有通过协作,开源才能取得成功。但是,这也会带来一些负面影响,例如对AI创新的影响、透明度的降低以及小型参与者的难度增加。
社区应该围绕一个统一的标准进行授权合并,否则就会各行其是。对于OSI的政策和方针,Luis Villa也并不完全认同。他表示,当初OSI提出开源软件定义时,时间充裕,外部审查也很少。而如今的AI环境已经发生了很大变化,大企业和监管者也参与其中。因此,对于开源AI的定义和管理需要更加细致的考虑。