【NPU芯片】解决ChatGPT等人工智能应用推理加速最后一公里问题
关注我,持续带你们一起挖掘数字经济中人工智能赛道最新的技术!!!我这篇文章,是全网第一篇讨论ChatGPT可以利用NPU芯片推理加速,解决人工智能应用推理加速最后一公里问题,欢迎大家点赞,转发和交流!!!
=================================================================
相信现在许多人已经用上了ChatGPT, 同时,大家应该都能看到有时候进不去网站,提示【ChatGPT满负荷运转】因为很多用户都想体验这个软件,导致chatGPT满负荷运转,不少用户无法进入chatGPT页面,一般出现这个报错,就是因为同一时间进入的用户过多。
所以说,面对这种问题,最暴力的方法,大家都会想到就是加更多的服务器,用更多的GPU呗。对于计算机算法工程师来说,这可能是一个下策,而能够从原理端解决问题才是王道。于是,我给大家推荐NPU芯片这种从神经网络运算机理入手,从根源解决大规模神经网络运算的问题。
=================================================================
讲了这么多,不远说点实在的,现在市场上有无现成的解决方案,与单纯的GPU方案相比?
有的,比如$阿里巴巴-SW(09988)$ 之前在云溪大会上分布的含光800. 阿里含光NPU发布
云栖大会上,平头哥芯片公司横空出世,阿里也是从去年开始研发自己的 NPU 芯片。今年云栖大会上,NPU 有了重大突破:全球最高性能 AI 推理芯片含光 800 正式发布!在业界标准的 ResNet-50 测试中,含光 800 推理性能达到 78563 IPS,比目前业界最好的 AI 芯片性能高 4 倍;能效比 500 IPS/W,是第二名的 3.3 倍。
含光800性能的突破得益于软硬件的协同创新:硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。
=================================================================
那么,含光NPU背后的加速神经网络运算的机理是什么呢?,详细的内容,大家有兴趣可以查看阿里云社区的汇报解读【阿里达摩院:含光NPU的算法与架构-阿里云开发者社区 (aliyun.com)】
【总结一下就是:NPU为大型云端数据中心而生,通过软硬件一体化实现人工智能应用的神经网络推理加速!!!】
今天,深度学习真正实用要至少克服两大挑战(从计算的角度):第一是如何让复杂的模型更高效率和高效能运行;第二是模型需要吞吐大量数据,如何在大量数据量呑吐的情况下还能保持很好的实时性。例如,就深度语言模型而言,今天非常流行的BERT language model,几乎成为所有自然语言处理核心的模型,而今天实际上用的Bert模型还是平均的Bert模型,但它至少有几亿的参数,如果采用大型Bert的话,至少参数要翻一个数量级。
另外一个跟自然语言处理有关的就是机器翻译。今天机器翻译一般都是用Deep Transformer的结构,这是一个非常深的至少60多层的结构,它为了更好捕捉上下文信息,需要所谓的Multi-head Attention机制,这些都让模型极其复杂,使得运行模型的计算成本非常高。
【这里我提一下,ChatGPT 也是 Transformer的结构,和阿里这边的大模型机制差不多,大规模数据场景也非常契合】
今天作为阿里的AI核心团队,面对这样的计算挑战,面对大数据的问题,我们做了不少工作,包括大量的推理加速工作,一个主要努力是模型压缩,例如对Fully Connected Network(FCN)可以试着去掉一些连接等,从而减少计算量,提高计算的吞吐能力。
希望能够把上面最好的神经网络算法结构与底层最好的硬件支持结合起来,从而交付一个最强大的计算引擎。所以下面请焦阳介绍含光800芯片。
焦阳:我们团队在设计这款NPU的时候,能够在比较短的时间有比较大的进步,实际上在很大程度上是与阿里巴巴达摩院算法团队合作(金榕、华先胜、王刚等),团队在人工智能领域有多年的积累,如果没有这种积累就很难想象NPU会在很短的时间迅速找到方向,包括到底要怎样的设计、要解决什么样的问题、要设计什么样的架构才能突破传统的CPU和GPU优势,以及怎么样通过软硬件一体化的方法找到一条新的道路。
另外再就是第一颗芯片为什么要做一个推理(inference)芯片,而不是训练(training)芯片,我们当时跟算法团队一起讨论下来的结论是说无论从阿里巴巴还有整个业界来看,一个很强的趋势是当training到一定程度时,真正下一步实际上更多的是inference,尤其在云上的inference,我们认为是非常重要的一个开发领域。
这些算法牵扯到CNN算法以及DNN加速,我们通过业务上的了解之后,决定了CNN的加速可能对NPU是一个重点方向,同时要保证比较好的通用性,能把芯片扩展到将来新模型的适配。
含光NPU的板卡散热设计,将来在阿里云的部署上会采用被动散热的板卡,这样可以减少板卡的体积,进一步降低成本。在服务器里面,展区有插着8卡NPU的服务器已经跑起来了。含光NPU的整个版图,可以看到是4个核的设计,整个面积接近170亿晶体管,是TSMC12纳米的工艺,采用PCle 4.0。
=================================================================
同时,不止阿里入局了NPU加速深度神经网络推理哦,其他许多大公司也都在积极发展相关技术,比如华为AI训练集群, 特斯拉FSD自动驾驶等高级玩家。
=================================================================
主要推荐标的:
【推荐低位的芯原股份和全志科技,芯原股份非常正宗,全志科技与阿里平头哥合作紧密。】
$芯原股份-U(SH688521)$ :GPU/NPU等推动IP业务稳健增长, 2022 Q3 IP 授权次数为47 次,同比有所下降,但平均单次授权费用同比增长46.9%,公司单价较高的GPU/NPU 等IP 需求较好,收入占比提升。
$全志科技(SZ300458)$ : 7月22日,高新区企业全志科技和阿里旗下半导体公司平头哥达成战略合作,全志科技将基于平头哥玄铁处理器研发全新的计算芯片,该芯片将应用于工业控制、智能家居、消费电子等领域,预计3年出货5000万颗。全志科技最新发布了V853多目异构AI视觉芯片产品,采用三核异构设计,包括Arm Cortex-A7主核、RISC-V协处理核与AI NPU。
瑞芯微(SH:603893): RK3399Pro和RK1808是瑞芯微第一代内置有NPU的高性能人工智能处理器,算力3T,应用于各类对算力有较高要求的嵌入式智能产品。
寒武纪-U(SH:688256): 还记得去年在德国柏林的IFA展上,华为正式发布了麒麟970芯片,该芯片中首次内置了神经元网络单元(NPU)以完成人工智能计算。这也可以说是华为首次推出含有人工智能功能的芯片,不过其中的NPU却是采用寒武纪的IP来设计的,算不算是华为自己的芯片很难界定。
国科微(SZ:300672):2015年进入安防IPC领域,正逐步构建安防前后端全系列布局。基于新一代AI ISP引擎,国科微最新推出高端IPC SoC GK7608。面对夜间彩色成像难题,GK7608引入 “黑白彩色双光融合”技术,无需补充白光,在夜晚仍可获得光彩鲜艳的图像,为客户提供高质量的低噪全彩方案。GK7608搭载高算力双核NPU实现多个神经网络并行运算,可应用到200个人/车的高密度场景,消除高密度场景盲区。