AI芯片公司纷纷推广“大模式”|直击WAIC2023

日期：2023-07-12 14:26:54 / 人气：316

半导体公司参加世界人工智能大会(WAIC)已经成为惯例。然而今年，大部分观众冲到一家半导体公司的展台前，做的第一件事就是寻找“大模型”二字。
大型机型在中国爆发了半年多，计算能力一直是公司头疼的问题。大规模的模型训练需要高质量的数据和巨大的计算能力。由于种种原因，国内厂商很难买到NVIDIA A100和H100芯片。A800芯片价格比较高，容易买到。
据36Kr了解，国内拥有万卡储备规模的大型模型公司不到10家，大部分是百度、字节跳动、阿里、魔方量化等巨头。
可以说，计算能力正在成为禁锢大型模型公司的一大瓶颈。
国内半导体企业何时能支撑起中国模式的未来成为业界关注的话题。
在本次WAIC上，几乎所有的AI芯片公司都在展台上设立了“大模型”的展示页面，除了厚模智能、智存科技等存储和计算集成公司，介绍其产品对大模型和AIGC应用的支持能力。
从时间上看，一个芯片从研发、设计、流片、测试到量产，需要3到5年的时间。之前芯片厂商在芯片设计上并没有朝着大模型的训练功能去设计，目前展出的大部分都是过去推出的产品。
在国内大部分芯片厂商看来，行业样板公司才是他们更好的机会，能够同时满足训练和推理整合能力的芯片产品才有市场前途。
人工智能芯片公司拥抱“大模式”
在WAIC会议的展厅里，大型模型制造商占据了房间的一半，半导体公司占据了另一半。走到世博会H2馆，昆仑芯、登临、汉博、天之芯、随缘、摩芯、牧溪等AI芯片厂商的展台密密麻麻地聚集在一起。
芯片制造工艺和计算能力已经不是AI芯片最关心的话题了。是否支持大模型，是做训练还是做推理，适应什么模型，速度多快，精度多高，功耗多少，显存用什么芯片，内存达到多少，围绕大模型的一系列问题成为参展企业关注的焦点。
芯片具备支持大模型训练或推理的能力是一个分水岭。
推理比训练更容易实现。大模型的训练是把亿万亿的数据喂给算法，最终训练出一个模型的过程，对芯片的运算速度和稳定性要求非常高；推理就是在大模型的帮助下，通过喂给他一个数据，一个问题，生成一个答案的过程，大大降低了单个问题的计算量。
展会上，昆仑芯、天之信、随缘等少数公司表示有能力支持大规模的模型培训。
昆仑AI加速卡RG800峰值分别为256 TOPS@ INT8和128 TFLOPS@FP16。展台相关产品介绍表示，可用于常规模型训练和多服务并发的高性能推理。
田甜·炙心的产品可以支持大规模的模型训练和推理。据展台工作人员介绍，“上半年我们组建了40P计算能力、320张天籁100加速卡的计算集群，完成了致远研究院70亿参数大型模型训练。目前，天之信正在建设1600卡200P计算能力的计算集群，支持650亿个参数的大模型训练。”
随园科技展出的二代训练产品“云象T20/T21”已量产，并落地重点实验室和成都智能计算中心。据展台工作人员介绍，目前可以支持很多大型模型，现场演示了基于LLaMA、Vincent PPT和多媒体生成demo的聊天机器人。
对于大模型训练，数据精度需要达到FP16和FP32的水平。从官方公布的数据来看，天之芯的智能铠甲100、随缘基斯2.0、昆仑芯的第二代AI芯片、登麟科技的新一代Goldwasser最高可以支持FP32级别的数据。
大部分AI公司主要是将AI芯片的推理能力引入大型模型。穆、邓琳、、莫昕等。都带了自己的AI推理芯片和产品。
芯片的判断指标主要有计算能力、功耗、精度、内存等维度。计算能力越高，计算速度越快；功耗越低，功耗和运营成本越低；可支持数据的准确度越高，可训练和识别的粒度越高；内存容量越大，可以处理的数据量就越大，可以更好地支持大型模型所需的大量数据的计算过程。
在计算能力维度上，墨芯采用了稀疏技术路线，S30可以提供2832 TOPS(INT8)和1415.4 TFLOPS(BF16)的稀疏等效计算能力，功耗只有250W，但相对而言，其产品的通用性还有提升空间。
穆希希的N100单卡计算能力为160TOPS(INT8)和80TFLOPS(FP16)，而汉博推出了LLM型号AI加速卡VA1L，计算能力为200 TOPS INT8和72 TFLOPS FP16。
从显卡来看，海飞科的Compass C10通用GPU和登上新一代Goldwasser都有128GB显存。根据海飞客官方数据，可以支持单卡部署数百亿参数的大模型进行推理。汉博还表示，基于VA1L的大型号一体机拥有512GB显存，可支持1750亿参数的大型号部署。
AI芯片的硬件性能只是一方面，如果要用国产芯片，软件能力将是更重要的壁垒之一。计算能力的释放需要复杂的软硬件配合，才能将芯片的理论计算能力转化为有效的计算能力。
英伟达用3000多名工程师打造了强大的Cuda，成为了英伟达强大的生态屏障。这个框架集成了大量调用GPU计算能力所需的代码，工程师可以直接使用这些代码，不需要一个一个写。
一位关注基础软件的投资人曾对36Kr说:“没有CUDA，调用GPU的代码就永远写不完，不可能什么都自己写。”
国内公司的软件生态有两派。比如寒武纪和昆仑选择构建自己的软件生态，重建一个Cuda软件能力和工具栈。更多的公司选择与Cuda连接，如天心智信、摩尔线程、随缘、登麟等。，使其产品与Cuda兼容。
此外，国内AI芯片公司也在加强适应性，适应更大的型号和开源型号。
多家公司向36Kr表示，未来将推出可以同时做训练和推理的产品，产品预计分别在2023年第四季度至2024年之间推出。
训推集成芯片才是未来。
大型模型厂商处于百模大战阶段，有做L0级技术模型的大型工厂，有做L1级行业模型的应用企业，还有一些微调的场景模型。
目前国内AI行业公司大多认为国产芯片的第一个落地方向是行业模式。
第一，行业模型相比大模型，更容易培养和落地，需求更大。
一些垂直行业客户在市场部署时，希望以最小的计算成本实现模型的落地。相对于从零开始训练一个大模型，“微调”对于客户来说是更经济的方法。
多位受访者对36Kr表示，目前国内垂直行业的大模型相比千亿级参数的大模型更容易落地，这也是国内芯片公司最容易落地的场景。
行业内的垂直客户通常有微调训练推理的需求，有低成本快速采用大模型的能力。他们不想买两种不同的芯片，培训和推广的集成芯片就能很好的满足客户的需求。
推出兼具训练和推理功能的芯片已经成为一种趋势，而训练和推送一体化的芯片也是大部分国内AI芯片公司在大规模模型计算能力需求浪潮下的出发点。
第二，L0级别的技术模型厂商更倾向于选择头部供应商。在目前争分夺秒的大模型培养阶段，国内AI芯片公司很难成为其供应商。
对于阿里、百度、腾讯以及选择L0级别大型机型的公司来说，成本并不是首先考虑的因素。为了更好地实现大规模模型效果，他们会优先选择英伟达的产品，以保证在计算能力上不会拉大与国际同行的差距。
有业内人士曾对36Kr表示，大模型公司的算法和数据也存在一些问题，大模型的训练需要几个月不间断，国产芯片的稳定性也没有得到充分验证。一旦训练中断，很难界定是算法问题还是芯片问题。大模特公司不愿意冒这个风险。
国内公司也能满足千亿级模型的培训需求。在单卡训练计算能力不足的情况下，堆叠是一种方法。
针对这种需求，华为盛腾、昆仑芯等公司需要通过RDMA互联搭建数百台服务器、数百张卡的集群，通过集群堆叠计算能力，增加计算能力，再通过软件能力统一调度计算能力。
计算能力资源往往需要以池化的形式呈现。由于不同芯片在底层硬件和上层软件的调度方式和接口上的差异，为了更好地调度计算能力，通常不会在基础设施中使用几家公司的芯片硬件。数据中心通常倾向于使用同一芯片或同一公司的不同芯片，以降低计算能力池的难度。这意味着一个数字基础设施项目需要选择单一公司的产品。
国内AI芯片公司大多成立不到5年。芯片需要软硬件层面的积累，产品需要一步步迭代设计。抓住需求，在我们能力范围内，从成本和性能角度推出可以替代的产品。在如今资本相对冷淡的环境下，我们必须先生存下来，才能探索未来。"

作者：天富注册登录平台

AI芯片公司纷纷推广“大模式”|直击WAIC2023

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →