AI训练模型
BLOOM

BLOOM官网,大型、多语种、开源语言模型

标签:

BLOOM语言模型:大型、多语种、开源

BLOOM官网 | BLOOM参考文档

介绍

BLOOM 是由Hugging Face主导的BigScience项目推出的大型语言模型(LLM)。经过近1000名科学家耗时一年多的努力,BLOOM终于诞生。作为一款多语种模型,它支持59种语言,参数数量高达1760亿,与GPT-3相媲美。与其他大型私营科技公司垄断的模型不同,BLOOM以开源的形式面向全球开放,从代码到数据集,一切都可供所有人使用。

BLOOM

BLOOM的优势

BLOOM项目启动于去年5月,由Hugging Face领导,共募得700万美元的公共捐款。全球来自60个国家、250多个机构、以及1000多名研究人员参与其中,包括Meta、谷歌等大公司的员工。该模型在法国超级计算机Jean Zay上训练,耗费了384块A100 GPU,每块80 GB内存,训练吞吐量达150 TFLOP。

BLOOM的特点

经过117天的训练,BLOOM最终达到了以下特点:

  • 参数数量达到1760亿,比GPT-3多10亿。
  • 模型包含70层,每层有112个注意力头。
  • Token序列长度为2048。
  • 采用GeLU激活函数。
  • 使用了总计3416亿条token(1.5TB文本数据)的数据集进行训练。
  • 支持13种编程语言和46种自然语言。

值得一提的是,对于一些语言如法语、西班牙语和阿拉伯语等,BLOOM提供了首个开源模型(尽管目前尚不支持日语)。

使用要求和计划

为了获得最佳效果,建议配备8块80GB的A100显卡或16块40GB的A100显卡进行训练。这意味着只有规模稍大的团队才能承担这样的训练需求。当然,也可以选择在云平台上进行训练,每小时最高费用为40美元。

BLOOM表示将降低使用门槛,并计划开发一个分布式系统,允许实验室之间共享模型。这表明BLOOM将成为一个不断发展的模型家族,而非一劳永逸的项目。

BLOOM模型家族

BLOOM模型已通过BigScience Workshop提出了多个版本,包括“绽放-560m”、“绽放-1B1”、“布鲁姆-1B7”等。这些版本在46种不同的语言和13种编程语言上进行了训练。

资源和使用指南

在这个开放的时代,BLOOM为全球科学家、工程师和开发者提供了一个强大的工具,促进了语言模型领域的创新和共享。让我们共同期待BLOOM模型家族的未来发展!

相关导航

暂无评论

暂无评论...