28nm工艺可实现数倍于7nm芯片的能效比。
来源:猎云精选,文/王非
2023年,ChatGPT的爆火,就此开启了以百度为首的国内互联网大厂以及光年之外、衔远科技等众多创业公司在大模型领域的激烈竞技。
在数据、算法之外,大模型对于算力的巨大需求,也让以GPU为代表的底层芯片,继云计算数据中心、自动驾驶等东风后,再度在以ChatGPT为代表的AI2.0时代引爆行业关注。
然而当下摩尔定律逼近物理极限,ASIC(专用芯片)、FPGA以及GPGPU(通用GPU)架构能效比难以提升,存算一体(Computing in Memory)的价值开始在业界大放异彩。
与三星、阿里达摩院等大厂选择的近存计算(PNM)不同,亿铸科技基于存内计算(CIM)框架、ReRAM(忆阻器)存储介质研发的“全数字存算一体”大算力芯片,则为国内AI大算力芯片发展提供了新方向,也成为芯片产业“换道超车”的最新范本。
ASIC,被认为是中国AI大算力芯片落地的1.0时代所普遍采用的架构;GPGPU,则成为2.0时代的大算力芯片架构代表。前者在2015年左右,集中诞生了AI芯片四小龙——云天励飞、寒武纪、地平线、深鉴科技,后者则在2017-2020年间涌现了壁仞科技、摩尔线程、沐曦集成电路等诸多初创公司。
据亿铸科技创始人、董事长兼CEO熊大鹏博士介绍,ASIC与GPGPU,仍未跳出冯·诺依曼架构体系,而这也将无可避免地遭遇“三堵墙”的桎梏。
在传统的冯·诺依曼计算系统采用存储和运算分离的架构下,80%-90%的功耗发生在数据传输上,99%的时间消耗在存储器读写过程中,真正用于计算的能耗和时间占比很低,于是造成“能耗墙”和“存储墙”的出现。而存算分离的架构非常容易导致数据搬运过程中发生拥塞,尤其是在动态环境下,对数据进行调度和管理其实非常复杂,导致编译器无法在静态可预测的情况下对算子、函数、程序或者网络做整体的优化,只能手动、一个个或者一层层对程序进行优化,包括层与层之间的适配,耗费了大量时间,于是又出现了“编译墙”。在“三堵墙”的限制下,采用冯·诺依曼架构的计算系统将严重制约人工智能领域的算力和能效提升。
来源:亿铸科技
ASIC芯片的弱通用性难以应对下游算法的快速演化,GPGPU又难以破解高功耗与低算力利用率问题,两者均无法应对生成式AI及大模型对算力基础设施提出的新要求。
在2020年前后,伴随GPT-3、“悟道(北京智源人工智能研究院)”等AI大模型的问世,海量数据所引发了超大算力需求和高能效比的矛盾而开始受到重视,业界逐渐形成一个共识——存算一体架构可能是现阶段基于CMOS工艺能同时满足大算力、高精度、高能效比的最有效途径。
熊大鹏博士表示,AI大模型和AIGC最大的挑战不是算力不够,而是存储墙问题更加突出,导致片间通信和板间通信的带宽成百倍地增加,继而导致互联网络极其复杂和昂贵,网络和通信成本巨大(包含能耗)。相比传统架构,存算一体大算力芯片不仅仅是能效比有数量级的提升,更重要的是将大大缓解存储墙问题,简化AI服务器集群的互联网络及其管理和各类成本,包括高速互联、DPU和能耗等。
此前,三星、阿里达摩院、AMD已早早入局存算一体。阿里达摩院曾表示,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍。而在特斯拉2023 Investor Day预告片末尾,特斯拉的dojo超算中心和存算一体芯片也相继亮相。
熊大鹏博士表示:“存算一体大算力芯片已经从学术界走向工业落地,且逐步被业界主流认可。AMD和特斯拉等巨头也在规划存算一体或近存储计算的项目,进一步证实了存算一体将是一条现实的、天花板数量级升高的技术路线。”
于是,以亿铸科技为代表的新一批初创公司,开始尝试凭借“存算一体”这一新技术来超越“摩尔时代”。
技术层面,亿铸科技凭借“四新”——存算一体架构创新,ReRAM新型忆阻器的应用创新,全数字化技术路径创新,存算一体超异构系统级创新,在AI算力层实现突破。
亿铸科技以全数字化的方式将ReRAM应用于存算一体AI大算力芯片,这么做的优势在于:一,存算一体架构可以打破传统冯·诺依曼架构下的存算墙、能耗墙和编译墙;二,存储介质ReRAM在算力潜能、算力精度和算力效率等主要指标上有着数量级优势,是目前最适合做存算一体AI大算力芯片的忆阻器;三,全数字化的技术路径在满足大算力的同时还能做到支持高精度,使得存算一体架构真正在AI大算力方向落地。
因此,亿铸科技能够为业界带来大算力、超高能效比、低功耗、易部署的AI推理计算解决方案。
熊大鹏博士强调,ReRAM这一新型忆阻器具有非易失性、面积小、密度高、成本低、功耗低、读写速度快等一系列优点,随着ReRAM的产业配套逐步完善和成熟,该技术无疑已经到了“商业应用爆发前夜”。此外,ReRAM与CMOS工艺兼容,不管是本身密度的发展,还是通过工艺制程的演进以及3D堆叠的技术的使用,均能从多个维度持续推进ReRAM密度和能效比的提升。
在亿铸科技提出的技术畅想中,他们要把新型忆阻器技术(RRAM)、存算一体架构、芯粒技术(Chiplet)、3D封装等技术结合,以此实现更大的有效算力、放置更多的参数、实现更高的能效比、更好的软件兼容性,从而抬高AI大算力芯片的发展天花板。
来源:亿铸科技
得益于聚焦无需考虑先进制程技术的CIM,亿铸科技并不依赖先进半导体制造工艺,可以立足国内成熟的半导体制造工艺,为AI大算力提供坚实的基础。而这,也为我国芯片产业的“换道超车”提供了新思路。
据熊大鹏博士介绍,“亿铸初代产品可以基于28nm工艺,在同等功耗下提升数倍于传统架构芯片在7nm工艺上的性能,同时拥有更低的软件生态兼容和建设成本,而且选择的忆阻器未来有很大的成长空间。”
据悉,亿铸科技自研的存算一体AI大算力芯片,或将在75W-100W功耗范围内实现接近1P的算力,能效比优势非常显著。“我们的工程验证芯片已经按原计划于今年一季度完成投片,很快就会有工程样品回来点亮和测试。”
熊大鹏博士表示,“AI大模型和AIGC将带来许多新的应用场景,革新现有的应用场景。在新的应用场景,除了ChatGPT等显而易见的各自应用场景,还有许多以前没有太多关注的领域,比如,在游戏领域,游戏2D美术设计、游戏内3D内容渲染和生成、模仿声优和配音制作等。在现有应用场景,比如安防,大模型将取代几十个中小模型,对行为识别等应用场景的识别准确度将大大提升。这些都是亿铸存算一体大算力芯片的优势应用领域和机遇。”
找准了创业方向,团队的组建也至关重要。
熊大鹏博士在中美有近30年的芯片行业经验,曾任世界著名AI芯片公司Wave Computing中国区总经理;曾带领Apexone Micro的芯片产品线击败AWAGO夺得全球市场第二名;也曾作为ADC Telecomm最年轻的资深技术经理和大产品线经理,带领70多人的核心研发团队成为公司明星团队,贡献了数亿美元年度销售额。此外,熊博士也曾担任深创投中美基金的投委会成员和资深行业分析顾问,成功协助深创投投资多家半导体企业,如ASR翱捷科技和Innoviz早期投资等,并获得丰厚的投资回报。
亿铸科技核心研发团队成员均为来自国内芯片大厂的资深专家,毕业于斯坦福大学、哈佛大学、上海交通大学、复旦大学和中国科学技术大学等。团队研发能力覆盖存储器件、存算阵列、芯片架构、芯片设计、软件生态、AI算法和工程落地等全链条,研发团队发表顶会论文40余篇,工程团队成员平均拥有25年以上在高端集成电路设计领域的经验;还拥有20+颗SoC芯片的设计、量产及销售经验。
熊大鹏博士表示,“我们的团队都有多年成功的GPGPU领域复杂大芯片的开发经验,能够将存算一体技术作为异构的一部分,应用和设计在GPGPU中,也就是我们提出的‘存算一体超异构芯片’这样一个复杂和工程落地比较有挑战性的大芯片。”
苏州亿铸智能科技有限公司注册成立于2020年6月,经历前期的关键技术积累、核心团队组建,亿铸科技在2021年12月对外公布了其首轮融资。这一笔过亿元的天使轮融资,由中科创星、联想之星和汇芯投资(国家5G创新中心)联合领投。
据熊大鹏博士透露,“目前,亿铸科技融资总额已远超2亿元,达到了数亿。我们将按产品进度和市场开拓进度,有计划地适度融资。”
而除了亿铸科技,国内还有千芯科技、后摩智能、中科声龙、知存科技、九天睿芯、苹芯科技、闪易半导体等诸多存算一体芯片公司,同样获得了投资机构的认可。
来源:知乎-陈巍谈芯
谈及公司发展规划,熊大鹏博士表示,“将来,我们将充实架构、软件和芯片设计团队。同时,将加强公司市场、销售、应用方案SA及各个支持部门。我们希望在未来3~5年,能够有2~3代优秀的芯片系列产品,并实现盈利。”
据悉,亿铸科技基于存算一体超异构概念的下一代芯片设计工作已经开始推进。