首页天道酬勤芯片(ai怎么用)

芯片(ai怎么用)

admin 12-02 23:02 225次浏览

目前智村科技已经研发了两款智能语音芯片,正在研发智能视觉芯片。

编辑|页边距

GTIC 2020全球AI芯片创新峰会刚刚在北京圆满落幕!在这场全网直播观众超150万的全天爆满高标准AI芯片产业峰会上,来自业界和学术界的19位嘉宾从不同维度分享了对中国AI芯片自主创新和应用落地的观察和预测。

峰会下午环节,智村科技创始人CEOyjddcc以《基于存算一体架构的SoC芯片》为题发表演讲。

智村科技创始人兼首席执行官

智村科技成立于2017年10月,专注于基于Flash的存储与计算一体化AI芯片的研发与设计。其创始团队已经在内存计算集成领域深耕八年。早在2014年就实现了内存计算一体化芯片的流式化,完成了全球首个内存计算一体化深度学习芯片的验证。智村科技成立三年来,已完成由科大讯飞、SMIC聚源、SDIC创业、启明星等产业资本牵头的多轮融资。累计融资近2亿元。

讲座中,yjddcc系统讲解了存储计算一体化技术的价值、具体实现路径和适用落地场景。目前智村科技已经研发了两款智能语音芯片,正在研发一款智能视觉芯片,主要应用于对功耗要求严格的电池设备、可穿戴设备等终端端产品。据悉,基于Flash的存储计算一体化AI芯片可以采用成熟的技术,实现超越先进技术的计算能力和效率。

以下是yjddcc的发言记录:

01.

解决AI的“记忆墙”问题

其实做整合并不容易。智村科技创始人兼创始人CEOyjddcc透露,智村科技的创始团队已经工作了8年,流媒体电影数量接近20倍,涉及的问题很多。

内存集成技术主要用于解决内存墙的问题。随着工艺逐渐向5nm、3nm、1nm等先进技术发展,“内存墙”问题越来越严重。计算本身的功耗并不多,但将数据从内存移动到芯片操作将消耗近1000倍的计算功耗,从缓存到计算单元的功耗是计算功耗的几十倍。

当芯片工艺降低到7nm和5nm时,很难提高缓存密度,减小线长和线宽,内存墙将成为日益严重的问题。

将内存和计算结合起来解决这个问题的方法是计算和存储相结合,这将涉及如何直接用内存计算。智村科技选择的技术是Flash。

选择闪存有几个原因。

首先,Flash是一个成熟的工艺,从第一次大规模生产并用于设备到现在已经有几十年了。

-height: 1.75;margin: 12px 8px 24px;">其次,Flash的存储密度很大。就拿40nm来讲,存储密度不是非常大的情况下,用Flash存算一体技术的存储密度,比用5nm的SRAM还要高出几倍左右。如果采用更先进的其它Flash存储技术,存储密度还能再提高几十倍。

Flash的另一个好处是,它采用的浮栅晶体管是一个三端的MOS存储器,相比双端的MRAM、RRAM等其他存储器,浮栅晶体管更类似于MOS晶体管,但比MOS晶体管多了一个浮栅。这个浮栅可以存储阈值电压。

02.

基于Flash的存算一体芯片技术

MOS晶体管可以做逻辑运算,也可以做模拟运算,所以Flash也有同样的能力。NOR Flash存储器使用了浮栅晶体管的逻辑特性,用来存储1和0两个值。存算一体利用了浮栅晶体管的模拟特性,完成模拟的乘加法运算。

一个小Flash存储器中有几十亿个Flash晶体管,如果每个Flash晶体管的模拟特性都利用起来,则可以达到几十亿个乘加法器的并行运算单元。

这里Flash利用的是模拟放大缩小的特性和存储特性,可以将放大缩小的倍数存储下来,用存储数据进行乘法和加法,相当于把每个小的Flash晶体管变成8bit的存储器。

存储密度变得比原来高了,比如原本一个Flash最多存储3bit,采用存算一体的方法后,每个Flash可以调成存储8bit的数据。

这也是Flash本身的特性,无需调整它的工艺,因为Flash电流的变化高低范围有1000多万倍,让它中间存多少比特,只看编程够不够准,做8bit是完全可以实现的。

每个单元用Flash做乘法和加法,一个Flash阵列可以做一个矩阵的乘法,简单来说就是向量×矩阵的运算,可以完美映射到存储器阵列中做向量运算。

向量X可以转化成输入的模拟信号,加到存储器上,这是并行的,目前芯片最多支持1024个输入的X数据,可以转化模拟信号同时加到存储器当中。

这样一来,存储器中存的矩阵自动完成向量×矩阵的运算,从Y方向读到的数据就是向量x矩阵的运算,最多可以读1024个数据,这样相当于做一次存储器的读操作,可以完成一百万个乘法和一百万个加法的运算。

这是一次的存储器操作,正常有100万个加法和乘法。如果用冯·诺依曼架构来做,则需对存储器读取几万次左右,再做百万次的乘法和加法运算。在存算一体中只需要一次读操作,就可以完成并行操作,运算效率理论上可以提高非常多。

对深度学习网络的映射也不复杂,我们可以把深度学习网络拆成不同的运算矩阵,按照矩阵的方式存到Flash存储阵列中,调取不同范围的矩阵相当于可以调取不同的运算。

如果一层有一个大的卷积核或者一个全连接网络矩阵,每层网络只需一次操作,就可以完成一个运算,最大可以支持100万个并行乘加法计算。简单的五层网络只需五次操作,编译和执行过程非常简单,中间不涉及到大规模数据并行的读取和写入,不涉及到并行运算的分配,只需要几次存储器的读取操作。

03.

适用于音频类、健康类

及低功耗视觉端侧应用

存算一体有很多不同的应用场景,因为其运算效率很高,如果用在现有的设备中,可以做很多创新的应用。假如用它做原先一样的应用,实际上有些大材小用。

如果低功耗的场景当中,存算一体芯片在0.1mW左右功耗下可以完成更多的运算。比如做音频当中的一个4M存储器阵列,里面能存储400万个参数,可以针对不同的应用场景将其分块存储不同的算法。同样在0.1-0.5mW低功耗的场景下,存算一体芯片处理智能语音算法的算力比现在算力大几十倍,不只能做语音唤醒功能,还能实现通话降噪、声纹识别等更多功能,并支持识别更多的命令词。

除了语音识别外,存算一体还能用于许多新的领域,比如健康类应用。

针对越来越多的健康设备,健康类算法也可以用存算一体完成,由于健康类算法的运算量比语音类更小,芯片功耗相应更低。因为这相当于一个Flash器件能同时存储算法和完成运算,不需要更多的计算设备。yjddcc说,很多健康类算法目前受限制于芯片算力并没有采用大算力的算法,精确度及实时分析都尚未达到很好的标准,这也是一个很新兴的领域。

端侧消费电子产品是存算一体的主要应用场景,尤其包括可穿戴设备的智能化。

在可穿戴设备受功耗限制、面积限制、成本限制的情况下,存算一体技术可以将比现在大出几十倍到一百倍的算法放到可穿戴设备、边缘计算设备中。除了可穿戴设备,通过存算一体技术,大型视觉设备的ISP、AI识别等功能的功耗均能降低,从而减少对设备电源的依赖。

04.

已研发三款低功耗芯片,

覆盖智能语音处理和视觉识别

知存科技已经做过多款芯片。

据yjddcc介绍,其第一款芯片WTM1001是国际上第一个存算一体芯片产品,也是第一个进入到小批量生产的存算一体芯片产品。它采用20多年前的旧工艺,但运行效率非常高,高于市场上主流产品。它非常适合智能语音场景,在小算力情况下,其它的市场芯片效率只有它的百分之一左右的效率。

第二个芯片WTM2101预计明年Q1进行正式的小批量试产。该芯片采用当前最先进的存算一体工艺,在可穿戴设备上可加速运行智能语音、智能健康算法,算法复杂度和功能均比上一代强很多。

第一款芯片并不是SoC芯片,Flash存储器区域存有算法,没有其它运算单元可以做2M大小的深度学习网络的运算执行。

第二款芯片是存算一体SoC,支持多路麦克风,内置有MCU及存算一体模块,存算一体模块将算法存在里面,直接可以完成大批量运算,算力达100Gops。后面预计在同样大小的芯片上,算力可达200Gops左右。

在很多场景下,存算一体相较现有芯片降低功耗几十倍。存算一体可以帮助更多以往芯片没法承受的算法,应用到端侧设备当中,开发更多新的应用。

第三个芯片WTM3213是面向视觉应用的中量级存算一体芯片,采用大算力的存算一体核,采用更为先进的存算一体设计方案,运算的效率更高、速度更快,运行功耗预计不到500mW,待机功耗不到100mW。

至于存算一体未来的发展,将随着工艺节点的演进。yjddcc认为,目前其存算一体芯片所采用的Flash存储工艺发展已经停滞,最先进的Flash工艺在28nm左右,此前大部分Flash工艺在55nm、65nm工艺左右。

这也是因为Flash在28nm以下,有很多新型存储器替代。但28nm工艺的Flash的运算效率、存储密度要比5nm等先进工艺的逻辑电路和SRAM好出很多。从运算效率包括成本角度来讲,存算一体芯片始终拥有非常大的优势。

在未来会有Chiplet的集成方式,让多芯片之间有高带宽的互通,这使得存算一体能以更方便的形式与其他工艺芯片实现集成。

yjddcc说,希望能够跟上游算法公司、芯片公司和下游客户一起开发存算一体技术,形成优势互补,共同推动存算一体技术的发展。

以上是yjddcc演讲内容的完整整理。除yjddcc外,在本届GTIC 2020 AI芯片创新峰会期间 ,清华大学微纳电子系健壮的过客教授,比特大陆、地平线、黑芝麻智能、燧原科技、壁仞科技、光子算数、亿智电子、豪微科技等芯片创企,全球FPGA领先玩家赛灵思,Imagination、安谋中国等知名IP供应商,全球EDA巨头Cadence,以及北极光创投、中芯聚源等知名投资机构,分别分享了对AI芯片产业的观察与思考。如感兴趣更多嘉宾演讲的核心干货,欢迎关注芯东西后续推送内容。

云手机哪家好UPhoneSSM框架的优缺点是什么主要概念 文件存储 UFSjavascript如何实现加减乘除运算UCloud优刻得直播云ULive产品优势功能及架构示例将数据添加到FlatList总是显示第一个孩子session使用的方法是什么
二建报名时间(全国计算机等级考试报名时间) 计算机组成原理基础题(计算机组成原理蒋本珊)
相关内容