BLOOM语言模型:大型、多语种、开源
介绍
BLOOM 是由Hugging Face主导的BigScience项目推出的大型语言模型(LLM)。经过近1000名科学家耗时一年多的努力,BLOOM终于诞生。作为一款多语种模型,它支持59种语言,参数数量高达1760亿,与GPT-3相媲美。与其他大型私营科技公司垄断的模型不同,BLOOM以开源的形式面向全球开放,从代码到数据集,一切都可供所有人使用。

BLOOM的优势
BLOOM项目启动于去年5月,由Hugging Face领导,共募得700万美元的公共捐款。全球来自60个国家、250多个机构、以及1000多名研究人员参与其中,包括Meta、谷歌等大公司的员工。该模型在法国超级计算机Jean Zay上训练,耗费了384块A100 GPU,每块80 GB内存,训练吞吐量达150 TFLOP。
BLOOM的特点
经过117天的训练,BLOOM最终达到了以下特点:
- 参数数量达到1760亿,比GPT-3多10亿。
- 模型包含70层,每层有112个注意力头。
- Token序列长度为2048。
- 采用GeLU激活函数。
- 使用了总计3416亿条token(1.5TB文本数据)的数据集进行训练。
- 支持13种编程语言和46种自然语言。
值得一提的是,对于一些语言如法语、西班牙语和阿拉伯语等,BLOOM提供了首个开源模型(尽管目前尚不支持日语)。
使用要求和计划
为了获得最佳效果,建议配备8块80GB的A100显卡或16块40GB的A100显卡进行训练。这意味着只有规模稍大的团队才能承担这样的训练需求。当然,也可以选择在云平台上进行训练,每小时最高费用为40美元。
BLOOM表示将降低使用门槛,并计划开发一个分布式系统,允许实验室之间共享模型。这表明BLOOM将成为一个不断发展的模型家族,而非一劳永逸的项目。
BLOOM模型家族
BLOOM模型已通过BigScience Workshop提出了多个版本,包括“绽放-560m”、“绽放-1B1”、“布鲁姆-1B7”等。这些版本在46种不同的语言和13种编程语言上进行了训练。
资源和使用指南
在这个开放的时代,BLOOM为全球科学家、工程师和开发者提供了一个强大的工具,促进了语言模型领域的创新和共享。让我们共同期待BLOOM模型家族的未来发展!