当前位置:首页 > 燃气灶 > 文章正文

一款革命性的Arm处理器

编辑:[db:作者] 时间:2024-08-25 01:08:21

来源:内容由半导体行业不雅观察(ID:icbank)编译自「nature」,感激。

专注不雅观察环球半导体最新资讯、技能前沿、发展趋势。
《摩尔精英》《中国集成电路》共同出品,欢迎订阅摩尔旗下"大众号:摩尔精英MooreElite、摩尔芯闻、摩尔芯球\公众 data-from=\"大众0\"大众>
择要
大约50年前,英特尔创造了天下上第一个商业生产的微处理器,一个普通的4位CPU(中心处理器),2300个晶体管,利用10m工艺技能在硅中制造,只能进行大略的算术打算。
自这项打破性的造诣以来,技能不断发展,越来越繁芜,目前最前辈的64位硅微处理器已经拥有300亿个晶体管(例如,AWS Graviton2微处理器,利用7纳米工艺技能制造)。
微处理器现在已经深入到我们的文化中,已经成为一项元发明——也便是说,它是一种可以让其他发明得以实现的工具,最近的一项发明使COVID-19疫苗在创记录的韶光内开拓所需的大数据剖析成为可能。
本文宣布了一种32位Arm架构的微处理器,采取金属氧化物薄膜晶体管技能在柔性衬底(PlasticARM)上开拓。
与主流半导体行业不同,柔性电子产品通过超薄的形状、整合性、极低的本钱和大规模生产的潜力,与日常用品无缝集成。
PlasticARM是将数十亿个低本钱超薄微处理器嵌入日常用品的先驱。

与传统半导体器件不同,柔性电子器件建立在诸如纸张、塑料或金属箔等基底上,并利用有机或金属氧化物或非晶硅等活性薄膜半导体材料。
与晶体硅比较,它们有许多优点,包括薄、同等性和低制造本钱。
在柔性衬底上制备薄膜晶体管(TFTs)比在晶硅薄片上制备金属-氧化物-半导体场效应晶体管(mosfet)的加工本钱低得多。
TFT技能的目的不是要取代硅。
随着这两种技能的不断发展,硅很可能在性能、密度和功率效率方面保持上风。
然而,TFTs使电子产品具有新颖的形状成分和硅无法达到的本钱点,从而极大地扩大了潜在运用的范围。
微处理器是每一个电子设备的核心,包括智好手机、平板电脑、条记本电脑、路由器、做事器、汽车,以及最近组成物联网的智能物品。
虽然传统的芯片技能已经在地球上的每一个“智能”设备中嵌入了至少一个微处理器,但它面临着让日常物品更智能的关键寻衅,比如瓶子、食品包装、服装、可穿着贴片、绷带等等。
本钱是阻碍传统硅技能在这些日常用品中可行的最主要成分。
虽然芯片制造的规模经济有助于大幅降落单位本钱,但微处理器的单位本钱仍旧高得令人望而生畏。
此外,硅芯片并不是天然的薄、柔韧性和同等性,而这些都是这些日常用品中嵌入电子产品的非常空想的特性。
另一方面,柔性电子产品确实供应了这些令人满意的特性。
在过去的20年里,柔性电子产品已经发展到供应成熟的低本钱、薄的、柔性和兼容的设备,包括传感器、存储器、电池、发光二极管、能量采集器、近场通信/射频识别和打印电路,如天线。
这些是构建任何智能集成电子设备的基本电子元件。
缺失落的部分是柔性微处理器,目前还不存在可行的柔性微处理器的紧张缘故原由是,为了实行故意义的打算,须要将相对大量的TFT集成在柔性衬底上,这在以前的TFT技能中是不可能的。
在这种技能中,在进行大规模集成之前须要一定程度的技能成熟度。
中间方法是将基于硅的微处理器芯片集成到柔性衬底上,也称为稠浊集成,个中硅片变薄,芯片集成到柔性衬底上。
虽然薄硅芯片集成供应了一个短期的办理方案,但该方法仍旧依赖于传统的高本钱制造过程。
因此,要在未来10年乃至更长的韶光内生产数十亿日常智能物品,这不是一个可行的长期办理方案。
我们的方法是利用柔性电子制造技能开拓微处理器,也称为柔性加工引擎。
我们用柔性电子技能在聚酰亚胺基板上构建本机柔性微处理器。
金属氧化物薄膜晶体管本钱低,而且可以缩小到大规模集成所需的较小几何尺寸。
早期的原生灵巧处理器事情是基于利用低温多晶硅TFT技能开拓8位CPU,这具有较高的制造本钱和较差的横向可伸缩性。
最近,二维材料晶体管被用于开拓处理器,如利用二硫化钼(MoS 2)晶体管的1位CPU 13和利用互补碳纳米管晶体管构建的16位RISC-V CPU。
然而,这两项事情都是在传统的硅片而不是柔性衬底上进行的。
第一次考试测验构建基于金属氧化物TFT的处理元件是一个8位算术逻辑单元,它是CPU的一部分,与在聚酰亚胺上制造的打印可编程ROM相结合。
最近,Ozer等人在金属氧化物TFTs中提出了天生灵巧的专用机器学习硬件。
只管机器学习硬件拥有最繁芜的柔性集成电路(FlexIC),它由1400个门的金属氧化物TFT组成,但FlexIC不是一个微处理器。
可编程处理器方法比机器学习硬件更通用,并支持丰富的指令集,可用于对从掌握代码到数据密集型运用程序(包括机器学习算法)的各种运用程序进行编程。
原生柔性微处理器有三个紧张部件:(1)32位CPU,(2)包含CPU和CPU外设的32位处理器,(3)包含处理器、存储器和总线接口的片上系统(SoC),所有这些部件都是用金属氧化物TFT在柔性基板上制造的。
本机灵活的32位处理器源自支持Armv6-M架构的Arm Cortex-M0+处理器(一组80多条指令)和现有的软件开拓工具链(例如,编译器、调试器、连接器、集成开拓环境等)。
全体灵巧的SoC被称为PlasticARM,能够从其内部内存运行程序。
PlasticARM包含18334个NAND2等效栅极,这使其成为迄今为止在柔性基片上利用金属氧化物tft制造的最繁芜的FlexIC(至少比以前的集成电路繁芜12倍)。

PlasticARM系统架构

PlasticARM的芯片架构如下图所示。
它是一种SoC,包括源自32位Arm Cortex-M0+处理器产品的32位处理器、存储器、系统互贯串衔接构和接口块以及外部总线接口。
PlasticARM架构和特性

a,SoC架构,显示了内部构造、处理器和系统外设。
处理器包含一个32位的Arm Cortex-M CPU和一个嵌套向量中断掌握器(NVIC),并通过互贯串衔接构(AHB-LITE)连接到它的内存。
末了,外部总线接供词给了通用输入输出(GPIO)接口,用于芯片外与测试框架通信。

b,与Arm Cortex-M0+CPU比较,PlasticARM利用的CPU的特点。
这两个cpu都完备支持Armv6-M架构,32位地址和数据能力,以及来自全体16位Thumb和32位Thumb指令集架构的一个子集的86条指令。
CPU微架构具有两级流水线。
寄存器在Cortex-M0+的CPU中,但在PlasticARM中,寄存器被移动到SoC中的基于锁存的RAM中,以节省Cortex-M的CPU区域。
末了,两个CPU之间以及与同一体系构造家族中的其他CPU之间都是二进制兼容的。

c,PlasticARM的模具布局,,表示Cortex-M处理器、ROM和RAM等白框中的关键块。

d,PlasticARM的模具显微图,显示模具和核心区域的尺寸。

该处理器完备支持Armv6-M指令集架构,这意味着为Cortex-M0+处理器天生的代码也将在其派生的处理器上运行。
处理器包括CPU和一个与CPU紧密耦合的嵌套向量中断掌握器(NVIC),处理来自外部设备的中断。
SoC的别的部分包括存储器(ROM/RAM)、AHB-LITE互贯串衔接构(高等高性能总线(AHB)规范的一个子集)和将存储器连接到处理器的接口逻辑,以及用于掌握两个通用输入输出(GPIO)引脚进行片外通信的外部总线接口。
ROM包含456字节的系统代码和测试程序,并已实现为组合逻辑。
128字节的RAM已经实现为一个基于锁存的寄存器文件,紧张用作堆栈。
上图b显示了PlasticARM中利用的Cortex-M与Arm Cortex-M0+的比较。
虽然PlasticARM中的Cortex-M处理器不是一个标准产品,但它实现了支持16位Thumb和32位Thumb指令集架构的一个子集的Armv6-M架构,因此它与同一架构家族中的所有Cortex-M类处理器(包括Cortex-M0+)都是二进制兼容的。
PlasticARM中的Cortex-M和Cortex-M0+之间的关键差异在于,我们将SoC中RAM的特定部分分配给CPU寄存器(约64字节),并将它们从CPU移动到PlasticARM中Cortex-M中的RAM,而Cortex-M0+中的寄存器仍保留在其CPU中。
通过肃清CPU中的寄存器,并利用现有RAM作为寄存器空间,以较慢的寄存器访问为代价,实现了CPU面积的大幅缩减(约3倍)。

结果

PlasticARM采取PragmatIC的0.8m工艺,采取工业标准芯片实现工具。
为了实现PlasticARM FlexIC,我们开拓了工艺设计工具包、标准单元库和器件/电路仿照。
上图c显示了FlexIC布局,个中划分了Cortex-M处理器、RAM和ROM。
实现方法的细节可以在Methods中找到。
PlasticARM是利用商业的“fab-in-a-box”生产线FlexLogIC制作的,其芯片显微照片如上图d所示。
该工艺利用基于IGZO的n型金属氧化物TFT技能,并在直径为200 mm的聚酰亚胺晶圆上天生FlexIC设计。
IGZO TFT电路是利用传统的半导体加工设备制成的,该设备适用于在厚度小于30m的柔性(聚酰亚胺)衬底上生产器件。
其通道长度为0.8m,最小供电电压为3v。
n型金属氧化物薄膜技能的设计面临着许多相同的寻衅,这些寻衅影响了20世纪70年代和80年代初第一代硅(负沟道金属氧化物半导体,NMOS)技能的繁芜性和产量,特殊是低噪声容限、高功耗和大的工艺变革。
制造方法的细节可以在“方法”中找到。
我们宣布了一种功能完好的弹性塑料臂这已经通过在制造之前运行预编程(硬连线)到ROM中的三个测试程序来证明。
只管测试程序是从ROM实行的,但这不是系统的哀求;它简化了PlasticARM的测试设置。
当前的ROM实现不许可在制造之后改变或更新程序代码,只管这在将来的实现中是可能的(例如,通过可编程ROM)。
测试程序的编写办法使得指令实行CPU内部的所有功能单元,如算术逻辑单元、加载/存储单元和分支单元,并利用设置为“cortex-m0plus”的CPU标志,利用armcc编译器进行编译。
测试程序的流程图和详细描述如图2所示。
当每个测试程序完成其实行时,测试程序的结果通过输出GPIO pin-off芯片传输到测试框架。
测试程序

a,一个大略的累加程序从ROM中读取值并将它们相加。
如果总和与预期值匹配,则会向测试仪读取的GPIO输出引脚发送确认旗子暗记。
该测试利用加载、添加、比较和分支指令。

b,一组32位整数值被即时写入RAM并在检讨读取值与预期值的同时将它们读回。
如果所有写入的值都被精确读取,则会向GPIO输出引脚发送确认旗子暗记。
该测试利用加载、存储、添加、移位、逻辑、比较和分支指令。

c,从测试仪通过GPIO输入引脚连续读取一个值。
该值被一个常量值屏蔽。
如果屏蔽结果为1,则计数器递增。
如果为0,则计数器复位。
如果计数器值即是预期值,则会向GPIO输出引脚发送确认旗子暗记。
该测试利用加载、存储、添加、逻辑、比较和分支指令。
斜体字表示测试程序中的变量;粗体和大写的术语是引脚和存储。

众所周知,IGZO TFT可以波折到3毫米的曲率半径而不会破坏,PragmatIC还通过将其自己的电路反复波折到这个曲率半径来验证这一点。
然而,所有PlasticARM丈量都是在柔性晶圆保留在其玻璃载体上的情形下进行的,利用位于Arm Ltd的标准晶圆测试设备,在室温下进行。
PlasticARM的丈量结果与其仿照结果进行了验证。
丈量设置、结果及其对仿照的验证的详细信息可以在方法中找到。
表1显示了PlasticARM的实现和丈量的电路特性,并与以前利用金属氧化物TFTs构建的最佳天然柔性集成电路进行了比较。
PlasticARM的面积为59.2 mm 2(无焊盘),并包含56340个器件(n型TFT加电阻)或18334个NAND2等效门,至少比之前最好的集成电路(即二进制神经网络(BNN)FlexIC)赶过12倍。
微处理器的时钟频率最高可达29 kHz,功耗仅为21 mW,紧张是(>99%)静态功耗,个中处理器占45%,存储器占33%,外设占22%。
SoC利用28个引脚,包括时钟、复位、GPIO、电源和其他调试引脚。
此设计中没有利用专门的静电放电缓解技能。
相反,所有输入都包含140pF电容器,而所有输出都由带有有源上拉晶体管的输出驱动器驱动。
表1:用金属氧化物TFT构建的柔性集成电路的优点
任何电阻负载技能的一个关键寻衅是功耗。
我们估量正在开拓的低功耗单元库将支持更高的繁芜性,高达约100000个门。
迁移到超过1000000个门可能须要互补金属氧化物半导体(CMOS)技能。

结论

我们宣布了一种柔性32位微处理器PlasticARM,采取0.8m金属氧化物TFT技能制作。
我们已经演示了一个SoC的功能,它有一个32位Arm处理器制作在一个灵巧的衬底上。
它可以利用现有的软件/工具支持(比如编译器),由于它与Armv6-M架构中的Arm Cortex-M类处理器兼容,以是不须要开拓软件工具链。
末了,据我们所知,它是目前为止用金属氧化物tft制作的最繁芜的柔性集成电路,包含超过18000个栅极,至少比以前最好的集成电路高12倍。
我们设想,PlasticARM将率先开拓低本钱、完备灵巧的智能集成系统,使“万物互联”成为可能,包括在未来10年将超过一万亿无生命物体集成到数字天下中。
为日常用品供应超薄、兼容、低本钱、天生灵巧的微处理器将带来创新,从而带来各种研究和商业机会。

方法

实行

为了充分利用当代集成电路设计流程供应的高度自动化、快速周转实现和验证,我们开拓了一个小型标准单元库。
标准单元库是一些小的预先验证构建块的凑集,利用繁芜的电子设计自动化工具,如合成、放置和布线,可以快速而轻松地构建更大更繁芜的设计。
在开始履行标准单元库之前,前辈行了一些初步调查,以便在目标技能的限定下确定最适宜该库的标准单元架构。
单元架构是库中每个单元共有的一组特色,例如单元高度、电源带尺寸、布线网格等,它们许可单元以标准办法咬合在一起以形成更大的构造。
这些共同特色紧张受制造过程的设计规则支配,但也受终极设计的性能和面积哀求的影响。
一旦建立了单元架构,下一步便是确定单元库的内容,不仅要考虑各种逻辑功能,还要确定每个逻辑功能的驱动强度变体的数量。
由于设计、履行和表征每个标准单元所涉及的事情量很大,因此决定利用小型原型库进行一些试验,然后根据须要扩展库。
为了评估这个小型原型标准单元库的性能,履行、制造和测试了一些大略的代表性电路(例如环形振荡器、计数器和移位阵列)。
我们从1.0-m设计规则迁移到新的FlexIC 0.8-m设计规则以减少面积,从而提高产量。
由于这意味着用更小的晶体管重新绘制库中的每个单元,我们也借此机会变动了标准单元架构,以包括MT1(金属跟踪1)引脚,以便路由器更随意马虎连接单元。
电阻材料的改进(更高的薄层电阻,R s)也使电阻器的尺寸减小了3倍。
晶体管和电阻器尺寸的显著减小使大多数单元的面积减少了约50%(拜会扩展数据图1),这反过来又通过降落设计的整体尺寸提高了制造良率。
但是,由于仍旧存在制造良率问题,我们可以通过变动标准单元架构来进一步缓解这些问题,因此再次重新绘制了该库。
这一次,我们专注于可以提高终极设计整体良率的事情,例如包含冗余过孔和触点、减少源极-漏极多边形中的顶点数量(如果可能)以及将堆叠晶体管的尺寸保持在最低限度。
此外,我们规复到较低的薄层电阻以改进工艺扩展,但我们能够通过利用更窄的电阻器来保持面积节省。
为了提高逻辑综合的整体质量,库中添加了许多繁芜的AND-OR-INVERT和OR-AND-INVERT逻辑门以及一些高驱动强度的大略逻辑门,例如NAND2_X2和NOR2_X2。
FlexLogIC工艺是NMOS工艺,因此依赖电阻负载将单元输出拉向电源以驱动逻辑1。
因此,单元输出上升韶光比低落韶光慢得多,而且这种不对称性会影响性能,尤其是对付重载网络。
为了改进关键网络(例如时钟)的时序,我们添加了带有有源晶体管上拉的缓冲器。
虽然这些有源上拉增加了少量的面积,但它们确实具有降落静态功耗的额外好处。
具有上拉电阻和有源晶体管上拉的缓冲器的布局和仿照传输特性如图2所示。
这个大略的标准单元库随后被成功用作目标技能,利用基于行业标准电子设计自动化工具的范例集成电路设计流程来实现PlasticARM SoC。
扩展数据表1显示了标准单元库内容和单元利用信息。
由于我们还没有专用的静态随机存取存储器FlexIC,我们通过将一些修正过的标准单元小心地放置在一个平铺的阵列中,通过毗邻连接形成一个3232位的存储器(这个块可以在图1c中的芯片布局)。
FlexLogIC技能(见扩展数据表2)有四个可路由的金属层,个中只有较低的两层在标准单元内利用。
这使得最上面的两层金属层可以用于标准电池之间的互连,然后可以在相邻电池的顶部进行路由,从而大大提高了总体栅极密度,约为每平方毫米300个栅极。

制造

扩展数据表2中总结了工艺参数和TFT参数的统计变革.FlexLogIC是一种专有的200毫米晶圆半导系统编制造工艺,可创建金属氧化物薄膜晶体管和电阻器的图案层,根据FlexIC设计将四个可布线(无金)金属层沉积在柔性聚酰亚胺基板上。
FlexIC设计的重复实例是通过运行多个薄膜材料沉积、图案化和蚀刻序列来实现的。
为了便于操作并许可利用行业标准工艺工具并实现亚微米图案化特色(低至0.8m),柔性聚酰亚胺基板在生产开始时旋涂到玻璃上。
该工艺已经由优化,以确保在20毫米的横向间隔内厚度变革基本上小于3%。
薄膜材料沉积是通过物理气相沉积、原子层沉积和溶液处理(例如旋涂)的组合实现的。
基板处理条件已经由精心优化,以最大限度地减少薄膜应力和基板波折。
利用光刻5倍步进器工具实现特色图案化,该工具对在200毫米直径晶圆上的多个实例重复的镜头进行成像。
每个镜头都是单独聚焦的,这进一步补偿了旋铸薄膜内的任何厚度变革。
技能丈量是利用过程掌握监控构造进行的。
利用光刻5倍步进器工具实现特色图案化,该工具对在200毫米直径晶圆上的多个实例重复的镜头进行成像。
每个镜头都是单独聚焦的,这进一步补偿了旋铸薄膜内的任何厚度变革。
技能丈量是利用过程掌握监控构造进行的。
利用光刻5倍步进器工具实现特色图案化,该工具对在200毫米直径晶圆上的多个实例重复的镜头进行成像。
每个镜头都是单独聚焦的,这进一步补偿了旋铸薄膜内的任何厚度变革。
技能丈量是利用过程掌握监控构造进行的。

仿照、测试和验证

我们利用测试丈量设置捕获了功能性PlasticARM FlexIC的时序特性,并将丈量结果与其寄存器传输级(RTL)仿真的结果进行比较,以验证功能。
RTL仿真如图3所示。
它首先将RESET输入设置为“0”,将PlasticARM重置为已知状态。
然后RESET设为'1',处理器从重置状态开释,开始从ROM实行代码。
首先,GPIO[0]输出引脚被切换一次,然后实行如图2所示的三个测试。
在第一个测试中,从ROM中读取数据并将其添加到累加器中,并与期望值进行比较(见图2a)。
如果值匹配,将两个脉冲的短脉冲发送到GPIO[0],如图3a扩展数据所示。
如果值不同,扩展数据图3b中GPIO[0]上脉冲的周期和占空比会增加。
在第二个测试中(图2b),将数据写入RAM,读回并进行比较。
如果数据在从RAM中写入或读取时没有破坏,则3个脉冲的短脉冲发送到GPIO[0],如图3a中的扩展数据所示。
如果数据被毁坏,GPIO[0]上脉冲的周期和占空比会像以前一样增加。
在末了的测试中(图2c),处理器进入一个无限循环并丈量GPIO输入引脚[1]上运用'1'的韶光。
如果GPIO[1]保持在'1'而没有任何故障,GPIO[0]从'0'变为'1'。
PlasticARM的时钟频率为20khz。
由于它不该用任何计时器,软件中选择了一个值来表示GPIO[1]旗子暗记在20khz事情时保持在'1'约1秒。
在扩展数据图3a的仿照中,该值对应于20,459个时钟周期,在20 kHz时产生1.02295 s。
制造完成后,PlasticARM在晶圆探针台上进行测试,同时仍连接到玻璃载体上。
包括时钟旗子暗记在内的输入旗子暗记是利用Xilinx的ZC702 FPGA评估板在外部天生的。
输入和输出旗子暗记都是利用Saleae Logic Pro 16逻辑剖析仪捕获的。
丈量在3 V和4.5 V下进行,具有不同的时钟频率。
扩展数据图4显示了电源设置为3 V和时钟频率为20 kHz的实验。
ZC702 I/O电压将输入和输出限定为2.5 V。
丈量数据波形显示在扩展数据图4a中,与扩展数据图3a中所有三个测试的RTL仿真中的波形相匹配.PlasticARM在3 V时最高可达29 kHz,在4.5 V时最高可达40 kHz。
数据可用性
在测试和验证中天生波形的数据可根据哀求从相应的作者处得到。
代码可用性
三个验证PlasticARM的测试程序的代码可向相应作者索取。

★ 点击文末【阅读原文】,可查看本文原文链接!

与30万半导体精英一起,订阅您的私家芯闻秘书!
欢迎订阅摩尔精英旗下更多公众年夜众号:摩尔精英、半导体行业不雅观察、摩尔App\公众 data-from=\公众0\"大众>

免责声明:本文由作者原创。
文章内容系作者个人不雅观点,半导体行业不雅观察转载仅为了传达一种不同的不雅观点,不代表半导体行业不雅观察对该不雅观点赞许或支持,如果有任何异议,欢迎联系半导体行业不雅观察。

本日是《半导体行业不雅观察》为您分享的第2744内容,欢迎关注。

晶圆|集成电路|设备|汽车芯片|存储|MLCC|英伟达|仿照芯片

原文链接!

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rqz/56379.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com