MosaicML 推出 300 亿参数模型,训练成本 70 万
时间:2023-06-24 11:23:57来源:OSCHINA


(资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

标签:

最新
  • MosaicML 推出 300 亿参数模型,训练成本 70 万

    AI创业公司MosaicML近日发布了其语言模型MPT-30B,单从参数来看,这个

  • 世界观天下!赣南医学院、九江学院主要负责同志调整

    6月20日、21日,赣南医学院、九江学院分别召开领导干部大会,省委组织

  • 【独家焦点】小鸡宝宝考考你高速公路上和“斑马线”类似的白色平行线,是干嘛用的

    小鸡宝宝考考你高速公路上和“斑马线”类似的白色平行线,是干嘛用的高

  • 鲜味蛤蜊汤_关于鲜味蛤蜊汤简述

    小伙伴们,你们好,今天小夏来聊聊一篇关于鲜味蛤蜊汤,关于鲜味蛤蜊汤

  • 世界讯息:北京经开区劳模工匠宣讲开讲

    原标题:北京经开区劳模工匠宣讲开讲工人日报-中工网记者赖志凯通讯员

  • 每日简讯:华夏银行信用卡额度 华夏银行信用卡额度提升快吗

    本文内容是由小编为大家搜集关于华夏银行信用卡额度,以及华夏银行信用

  • “95后”小夫妻返乡当瓜农 “甜蜜产业”赋能乡村振兴 今日精选

    题:“95后”小夫妻返乡当瓜农“甜蜜产业”赋能乡村振兴中新网记者张林

  • 影驰PCIe 5.0 SSD如约升级:最高速度达12.4GB/s|全球热头条

    6月21日消息,此前发布的第一批PCIe5 0SSD,因为各种限制,最高读写速

  • 当前热门:中原消费金融借款需要什么条件(中原消费金融借款需要什么条件才能借)

    中原消费金融有多款贷款产品,每款贷款产品的申请条件有所差异,但均需

  • 热门:不断做大做强帮扶产业

    近日举行的全国脱贫地区帮扶产业发展推进会强调,要深刻领会把握推动帮

  • Here we go!罗马诺:科瓦西奇加盟曼城,转会费3000万欧元!

    直播吧6月21日讯罗马诺以标志性的“herewego”宣布,科瓦西奇加盟曼城

  • 【短讯】涤纶产销回温 新凤鸣下半年再扩70万吨产能|直击业绩会 世界信息

    【短讯】涤纶产销回温新凤鸣下半年再扩70万吨产能|直击业绩会。新闻资

  • ChatGPT用户账号被黑客入侵,数据在暗网出售

    据埃及《金字塔报》网站6月20日报道,网络安全公司IB集团(Group-IB)

  • 天天快讯:粽叶飘香迎端阳 民族团结一家亲

    6月21日上午,郧阳区杨溪铺镇青龙泉社区统战人士联谊会举办“粽叶飘香

  • 讯息:理想,再“狂”一次?

    尤其是当MEGA踏足50万元以上的纯电市场后,原本构建的品牌与技术认知还

  • 物产中大: 公司经营情况正常,不存在应披露而未披露信息 世界实时

    物产中大(600704)06月21日在投资者关系平台上答复了投资者关心的问题。

  • 旅游
    • 腾达科技下周上会:招股书内容出现乌龙,专利含金量大打折扣_即时

    • 能链智电于翔:储能技术推动新能源充电服务升级转型

    • 表头在下一页显示(excel下一页显示表头)

    • 【快播报】湖南中方县:“双减”,让全县教育拥有好生态