深度 腾讯加码大模型开源押注合成数据_爱游戏最新版下载_爱游戏最新版下载观看-斯洛克在线直播
爱游戏最新版下载
  • 爱游戏最新版下载
  • 爱游戏app官网在线登录
  • 深度 腾讯加码大模型开源押注合成数据
    发布时间: 2024-12-21 作者: 爱游戏最新版下载

      腾讯大模型转变打法了。此前一直对开源缄口不言的腾讯在今年多次发布开源计划。

      11月5日,腾讯再次宣布开源两款最新的大模型产品,分别是MoE架构的大语言模型“Hunyuan-Large(混元Large)”,以及3D生成大模型“Hunyuan3D-1.0”,两者都支持企业开发者精调和部署,同时上线HuggingFace和Github等技术社区,供开发者免费商用。

      腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉表示,腾讯的大模型不会为了开源而开源,而是要把那些已在业务场景中得到历练和打磨的东西拿出来,所以腾讯开源的大模型都是企业内部在用的模型。

      据其透露,腾讯此次开源的是模型参数权重,不涉及数据和代码,下一步,腾讯计划把训练代码也进行开源。

      在此之前,百度一直是闭源战略,阿里则是布局了一系列开源生态,腾讯此次加码,也说明了在战略上的转变。腾讯表示,已经把开源作为混元大模型的一个战略选择,未来也将持续推出更多模态、更多尺寸的开源模型。

      今年4月份,创始人、CEO李彦宏在内部讲话中称,闭源模型的能力会持续领先开源模型,“模型开源的意义其实不是很大”,此后又公开宣称“开源模型会慢慢的落后”。

      没多久,阿里云首席技术官周靖人隔空回应称,开源对全球技术和生态的贡献毋庸置疑,已经没有再讨论的必要。

      这番针锋相对的言论引发了国内大模型行业关于开源和闭源孰优孰劣的激烈讨论。

      李彦宏看到的是,算力、工程能力的高门槛让一般开发者很难参与,目前全球大部分开源模型都是科技大厂主导;大模型研发的人才、算力成本更高,传统开源软件的商业模式很难支持;而闭源模型通过API调用,无需企业自建系统,部署成本较开源低。

      而开源的好处则在于自主可控。一名垂类模型初创公司创始人认为,一方面,基于平台开发,意味着将算法、数据暴露给它;另一方面,百度未必能对腰部开发者开放足够的接口,也注定其客户数据无法在百度平台上部署。

      与百度截然不同的是,阿里云则陆续将旗下的通义千问模型开源。阿里云CTO、达摩院副院长周靖人表示,“开源是最佳的也是惟一的路径。阿里云的初衷并不是把模型放在自己手里商业化,而是做一个开放生态。”

      同时,在基座模型格局尚未明朗时,头部厂商也不敢轻易押注单一闭源大模型。对于大部分应用厂商而言,通常会内置好几种开源模型。

      开闭源之争,看似是技术路线存在分歧,背后更重要的是对商业经济价值的考量。不论开源或闭源,科技大厂对外输出大模型的商业模式最终是落地在云服务。所称“模型即服务”(MaaS),本质是云计算SaaS(软件即平台服务)的一部分。在市场之间的竞争中,BAT三家都想提供足够多的便利吸引更多厂商进入自家生态。

      康战辉表示,“开源本身只是一种打法,最终应用还是取决于模型是否打磨好。一旦开源,就需要持续投入、负责到底。”

      随着大模型厂商各自选择了开闭源路径,此前关于开源和闭源哪条路径更好的争论已逐渐平息。

      不论是开源还是闭源模型,当前都面临算力和数据限制下能力提升的挑战,哪家厂商能更快突破大模型能力瓶颈,就能在竞争中更好地卡位。“大模型有三个重要要素算力、显存、通讯,现在模型已经很大,长文需求慢慢的变多,其实不光卡算力,还卡显存和通讯,大模型愈加变成一个系统工程。”康战辉表示。

      据腾讯介绍,混元Large模型总参数量为389B,激活参数量52B。它采用的MoE(Mixture of Experts)混合专家模型是目前国内外主流的大模型结构。

      腾讯对MoE的笃信,此前则并没太被外界意识到。事实上,这家从广告业务到推荐功能等,一直在生产环境里大规模使用着AI算法的公司,在技术上对MoE的笃信到了某种“信仰”的程度。

      MoE是一种相对于稠密(dense)模型架构的设计。简单理解,稠密模型是通过大力出奇迹训练出一个全知全能的神,来解决所有问题,它也是今天大模型火热背后,大家对大模型机制的朴素直觉的理解。而MoE放弃了造一个单独唯一的神,转而由多个各有所长分工明确的专家组来处理问题,也是所谓的专家们的混合(Mixture of Experts)。

      MoE架构的核心逻辑是将输入数据分配给最适合处理该数据的专家。所以,这种架构允许模型通过增加专家的数量来扩展,从而提供模型处理特定任务的能力。

      MoE的好处在于,它在拥有很大参数的同时,只需要很小的实际激活量就能够实现任务,进而明显降低训练和推理成本。康战辉表示,在相同成本下,MoE的效果会优于dnese模型。

      业界有种说法是,到2026年,自然数据将被大模型全部用完。而解决数据枯竭问题的重要方法,就是使用合成数据。

      Hunyuan-Large使用了一些合成数据训练,但未透露使用的比例。合成数据被认为有可能解决训练数据耗尽的问题,但关于能否用、如何用,业界仍有一定争议。今年早一点的时候,《自然》上一篇论文提出,用合成数据有可能导致模型崩溃。除混元外,支持使用合成数据的厂商则包括英伟达、Anthropic等。

      “我认为合成数据最重要的,是要有一套完整的数据获取、评估、清洗链路,进而保证合成数据的质量可控,这样合成数据就能发挥它的价值。”康战辉说。

    上一篇:浙江亿腾电气科技获得小型断路器专利可调整断路器的脱扣方法

    下一篇:年代之城-年代之城(上海)2024官方网站-户型价格容积率