兆易创新,高性能的xSPI真正实现AI功能

在日前深圳举行的第八届年度中国电子ICT媒体论坛暨2019产业核技术展望研讨会上,来自兆易创新存储事业部资深产品市场总监陈晖,为大家详细讲述了高性能SPI NOR Flash在多领域的应用以及如何实现AI功能。

SPI NOR Flash是存储器大行业里面的一类产品,SPI中文叫做串行闪存,闪存还有一个很长的学名——非易挥发性存储器。兆易创新在这个行业已经耕耘了十几年,对各种应用、各种新兴的一些市场需求,对产品定义做出一些新的发展。

大家知道电子产品命名喜欢在后面多加个“X”,手机方面大家都喜欢用X,海外有些品牌同样把X放在首位,这个X到底有什么样的含义呢?它有高性能、高品质的含义在里面,大家都习惯加一个X。我们把SPI和X加在一起,组成一个新的词叫xSPI,这个是我们新一代超高速SPI接口的规范。这个规范是在去年8月由国际规范组织JEDEC通过的在SPI NOR Flash领域的协议。虽然SPI NOR Flash发展了很长时间,但还在不停地更新换代,要把产品的性能再次提升上去,所以才会有这样一个由JEDEC组织制订的新的国际规范。

为什么SPI NOR Flash还是一个大的行业?半导体芯片的制程基本分为两大类:逻辑制程和Flash制程,存储器制程永远落后在逻辑制程后面。最新的逻辑制程大家都知道,10nm、5nm、7nm都有,左边的Flash还在用十几二十几年前发明的FinFet,才能代表0和1,这样就限制了我们进一步缩小晶体管的尺寸,所以在上面这条红线上,制程从2004年的130nm发展到90nm、65nm、55nm、45nm几个主要的节点,再往下也很难到30nm以下。

逻辑制程和Flash制程不能混合放在一颗芯片上,非常高深的这些制程或是很高级的逻辑芯片,很遗憾它不能同时附属一个Flash,这时候需要一个外面的Flash支持它的代码存储。

这是SPI NOR Flash在全球的出货量,可以看到大概从2004年开始,它基本是从无到有,2004年大家刚刚开始推广SPI NOR Flash,达到60亿颗以上,平均地球上每人可以分到一颗。所以NOR Flash是高可靠性的系统代码存储媒介,优点是指令协议简单、信号引脚少、体积小,符合这些新的电子设备对体积的要求。

可以看到现在SPI NOR Flash的应用领域非常广泛,成百上千种应用,每一个新兴的电子设备里面,都是用数码设备,都需要有一颗Flash来存储代码,就是这一颗小小的代码,兆易创新去年出货量大概达到了20亿颗,而且只是一年的时间。如果累计来看,我们在八九年的时间里累计出货量超过了100亿颗!全球有一百亿颗电子设备都是靠着兆易创新的Flash来存储其启动代码。

回顾SPI接口的发展,SPI接口的发明在80年代,这个商业用途始于2000年前后,那时大概有一个产品,2000年的时候,频率大概跑到20Mhz,数据吞吐率2.5MB/s,所以它是一个单通道,数据只能往外送,每八个时钟才能读出一个data,可想而知数据吞吐量非常低,如果用交通工具来比喻那就是牛车。到2004年,单通道已经满足不了市场需求了,我们作为SPI领域的研发人员,希望加大数据吞吐量,从一根数据线变成两根数据线,而且把频率也加高到50MHz,这时能达到12.5MB。不过以现在的标准看顶多也就是电单车的水平。

在一个标准的四通道SPI接口,可以看到四根红线,四个数据通道,底下写了2009年104MHz,这就是十年前SPI行业达到的标准,直到十年后的今天,还有很多设计工程师,在用这个标准来进行他们的SPI的应用。这个时候数据吞吐量可以看到达到52MB/s,这时候两个时钟,通过四口可以得到一个数据data,所以这个时候基本上已经从两轮变到四轮了,开始开汽车了。

后来在四口的基础上又进行了一些改进,在这边有DDR的概念,在四口的基础上又加入了一个DTR的概念,在上升和下降沿都可以采集数据,这样的话数据吞吐量可以达到80MB/s,这大概是从2015、2016年开始逐渐实现的。当然它还是一部汽车,只是比刚才那辆会跑得更快一些。

从刚才的四个IO变到了八个IO,而且它也是DTR,频率一下子跳到了200MHz,数据吞吐率达到了400MB/s,这就是我刚才提到的2018年通过的新规范。这时已经不是汽车了,而是属于SPI里面战斗机的级别了。这是前几代产品一个非常革命性的改革。但这时工程师同事又有些问题了:我已经习惯开车了,还没有飞行员的驾照怎么办?我说你可以去学,但是学这个飞行执照还是需要一些时间。基于这种考量,在今年我们基于四口的通道协议把频率加到了200MHz,这时数据吞吐量达到200MB/s。我们基本上认为这个产品定义是属于赛车的级别,是为了照顾一些老司机怀旧的情绪,也是为了他们更容易上手。所以你可能暂时不需要去考飞行员执照,如果你会开车,至少还可以驰骋在赛场上。

自80年代发明SPI这个协议,经过了大概四五代到第六代产品,基本上是这样一个顺序:数据吞吐量从最初的2.5MB发展到今天的200或400MB,我们这样做的目的是什么?因为有客户的需求,有市场上系统的要求,要求我们把这个数据吞吐量加到这么快。这几个交通工具暂时先用到这儿,飞行员执照你可以慢慢考,当然考上了最好,你的系统如果能够用到八口,能够用到200MHz,就可以最大程度上发挥Flash的读取性能。

在应用端如何让新的SPI Flash使你的应用能够受益呢?现在主要从车载、AI和IoT热点应用来讲。不管是AI、5G或是车载、IoT,都希望产品性能越来越好、越来越快,这其实跟人的本质有关系,我们用什么东西总希望它反应越快越好。

这是一个很新的车,可以看到这是超大的显示屏,为什么把这个显示屏拿出来?因为它直接涉及到我们SPI NOR Flash的应用。设想一下,如果用前一代的104MHz四口来存储所有显示屏的数据,把显示屏里面的数据从Flash里面读出来,需要超过五秒钟,让你用五秒钟时间等待这么一个画面,可能你会有点不耐烦。如果用最新的八口协议,用200MHzDTR来读,不到一秒钟时间这么大的屏幕就会点亮,这个速度才能满足人的需求,谁也不希望按了一下按钮半天才反应,那就没有什么意义了。

在汽车里面MCU是核心,会有一个外挂的Flash,Flash是存储代码,Flash上线以后要有一个启动的过程,黄色的箭头就是要把显示屏的数据从Flash全部存到DRAM里面去,然后通过图形控制器把图点亮,现在的仪表盘也是分辨率越来越高,有2K甚至4K的显示屏都在研发当中。这边就是一个很简单的Flash的分区,里面有一大部分是要放图像的数据。

再直观地看一下,汽车现在按钮一按,显示屏有动画、有导航,各种各样的信息都要显示出来。用前一代产品来做,需要等待超过五秒钟,用新一代八口的产品来处理就可以达到一个人能接受的速度,非常快的速度,能够把这个汽车启动的工作完成。

Flash会和各种应用打交道,今天我们要谈到一些AI领域涉及到Flash的应用。同样的道理,用前一代产品,在调用算法、AI数据库时,速度会受到限制,只有用了新一代八口的高速率的传输,才能够保证这颗AI芯片真正地动起来,能够达到一个接近人脑的水平。

这是一些AI方面的框图,可以看到AI非常复杂,一个MPU的功能图,其实在AI应用里面,会经常要调用不同的算法,从你的数据库里进行各种的比对。上午赛灵思的专家也说了,要通过对人、车、物的识别,背后其实就是对一些算法、数据库的及时调用。所以作为Flash我们会支持它的操作,这样看它不光是有存储的系统代码,同样也会存储算法和一个大的数据库。但这并不需要一上电就把所有的算法或数据库都加载到系统里面,在需要的时候才会从flash临时来调用,所以就要求flash提供一个高的数据吞吐率。

同样的对比,8口高性能的xSPI能让系统响应非常迅速,真正实现AI功能。

在IoT这个应用,2016、2017年时,突然一下全球性缺货,为什么呢?我们觉得IoT是主要的原因,因为它太分散,每一家出货量都不是很大,但大家都在做,有各种各样的IoT应用,累计起来量非常地大,我们可能无法预测到每一家对IoT应用的理解,也不可能覆盖到每一个IoT的客户。昨天大家朋友圈里都在传黑洞的照片,我这张图还没有用到那张照片,但也想用一个黑洞的概念,IoT这些设备如果反应得慢,有任何的迟缓,都会被吸到这个黑洞里面,实际上IoT就等于是瘫痪了。当然也是借助于我们新一代产品,高性能flash的数据吞吐率,才能保证每个终端设备的及时响应,才能保证欣欣向荣的生态系统。

IoT的系框图跟前两个框图不太一样,你看到有Flash、有DRAM,但DRAM是用虚线画的,另外SoC和Sensor是必不可少的部分,DRAM为什么画成虚线呢?因为DRAM,IoT应用受到系统成本的约束非常大,因为它非常多、非常小,不希望把DRAM作为一个负担,所以这时主芯片会从flash里直接调用系统代码,直接进行本地执行,这就是一个XiP的概念,就是把flash里面存储的系统代码按指令把它读到指定的Cache里面去执行。这样,在flash这个分区里的系统代码部分,就可以看到它有不同的指令,在不同的地址,是可以支持随机读取指令的器件。

再对比一下xSPI,用传统的四通道器件来做的话,在正常的时间内,需要从Flash里面读第一个指令,绿色这段时间是SOC要执行这个指令,同样的第二条指令要花蓝色的这段时间来读,绿色的时间是执行,如果用了八口的新一代的高速Flash,你可以看到在同样的时间之内,原来两次执行指令变成了三次执行指令,蓝色部分虽然同样是读32Byte可以读三次,因为它的时间非常短,所以新一代产品可以帮助IoT的本地代码执行,更高效地提高SoC的运行效率,这样IoT器件反应非常快,还有穿戴式的产品,同样也会得到很多好处。

我们看到有一个运动型手表,需要按钮过了足足十秒钟,屏幕上才会有一些变化,才会显示一些新的功能。这里面肯定没有一个好的Xip,因为SoC一直在等Flash里的数据,把这些指令传到SoC里面,SoC再往下跑,这样一步步非常慢。



文章来源:http://www.ci800.com
中通网微信
本文标签:兆易创新xSPI
流行热度:20
生产日期:2019/4/17
相关文章
上一篇 <:
下一篇 <:
返回顶部