主持人:下面有请英特尔公司数字企业事业部首席技术官兼架构与规划总经理庞思立先生,英特尔移动事业部院士,移动计算微处理架构总监魏康乐先生。
庞思立:谢谢!大家早晨好!我们今天搞点新鲜的玩意,就金山的发言当中,我们做了一点,我们讲了几点,讲了技术。重点讲了技术,是涉及到平台,我们所做的决策。讲一下处理器,平台的设计的情况。魏康乐先生是英特尔的院士,移动事业部的,会介绍架构对于新的核心的架构改善的情况,并且我会最后结束发言的时候,会介绍一下我们的平台设计方面,做一下取舍,特别是如何选择,如何做存储的配置等等方面的信息。
上次峰会上,以及这次峰会上我们都讲到的核心的介绍的过渡。移动、服务器,都是基于这个方面的架构上,能效上得到很大的提高,效率得到提高。这个概念上,过一会儿,会向大家介绍微型架构功能会得到提高,同时又节能加以重视。得到改善,以前我们总是说,不惜成本,提高它的性能。基本上来说,这个体现是有一个比较平的,而且一下子有上去曲线,用电一下子增加了很多。我们重点是减少这种延迟,使这个频率尽快做到最大,性能做到最好。
现在稍微往回走一点,使晶体管尽量很快运行,但是能做很多工作,使节能方面做到最佳化,使这些设计处理器,晶体管方面,这方面利用很好的性能,从这个图开始,可以看到开始能效方面用了服务器加以应用,得到改善。历史上,在我们讲一下,82年我在英特尔工作,当时第一个设计是8兆,当时是最新的东西了,从图上可以看到,在90年代初的时候,我们有486的架构推出,这有486指令集,性能得到提高,在过去这些年当中,大概差不多两到四年,我们加了更多非架构的提高和性能,然而,性能改善,我们看到大多数并且是微架构,是基于我们的处理器,和摩尔定律每两年我们可以翻一番,在一个片上的晶体管数量。然而还有一个好处,晶体管越小,耗电越小,这个不是说永远可以继续下去的,你达到这个时刻,供电,晶体管相当于一定程度的时候,运行就不是很快乐,我们可以看到,同样的性能会像以前一样继续得到改善。我们可以得到好处,这给我们客户提供好处,从微架构的角度来说,我们如何执行更多的指令,如何执行指令更加有效呢?而且不见得一定是处理器运行更快,才能实现这种过渡。我们会给大家介绍的。
历史上的推动力,我讲到了摩尔定律,大家的左手边的屏幕可以看到,频率造成性能提高,而且一直发展很快,我们可以看到这个趋势性能得到极大改善,这是运算规模所造成的,但是频率如果我们继续画下去的话,应该是达到了20、30G,等等多少个G,不是这样的趋势,因为越来越多这样高的频率,是需要频率更高,这样电用得更多。同时也看到摩尔定律是每个处理器是有70%的减少,空间也是说减少了,我们将会继续进行下去。
英特尔有很多的物理学家,他们已经跟我说,在未来十年当中,我们继续有这样的规模的发展,在一个片上,会继续增加很多的晶体管。昨天有一个分析人士跟我开会的时候,问的一个问题,就是新的一些技术,通常每个公司都要搞新的革新,但是仍然看到,在微芯片上的技术,未来会有很大的发展。我们作为微架构的设计师,最有效的方式,利用这些晶体管,用于真正的计算,并不是浪费他们,做一些工作,不能造成计算实现的工作。
下面谈一下挑战。就是用电了,我们进了能效的问题,大家可以从左边图看到,用电是用的很多的,性能提高,想让它推上去,将更多的晶体管,这个时候装置的耗电也是增加了很多。也是需要越来越多的钱,越来越多的技术,实际上可以把这个热驱散,但是很贵的,要提供冷却的技术,热量减少也要花很多钱,这个出现了一定的限度。比如150、100瓦,这是服务器方面,然后桌面移动笔记本方面少一些,性能得到提高,电是很大的限制。不能说电就不限制。这个电我们要考虑到,我们建立新的装置的时候,还是尽量减少耗电。因此未来我们这些年当中,我们所做的工作,就是改善处理器的规模,增加了电,但是造成的影响,因为标准在电子设计当中的公式,电=频率×能力×电压的平方。右边图可以看到,并不能像以前减少了电视,希望产生的效果,有一些事情,有一些技术可以帮助我们注意到,基本上这个趋势不可扭转的。因此我们进入全新时代。
性能是很高的,不管什么样的成本,电越来越多,可以加它的频率,这个时候就要增加电压,达到一个水平,就是作为我们设计师来说,我们要做更多的工作,更有效的来实施现有的警惕管而且将来多核的架构上的开发。讲到双核,我们给大家展示了四核的一些装置,是我们路径图上有的东西,我认为这个趋势继续下去,唯一限制就是软件要能跟得上,如何利用这个芯片上的一些核心的东西,能耗总是一个关键的问题,而且在微架构性能提高方面,做了很多的工作,我们也利用的不仅仅是现在在实验室进行合作和产品合作,所进行研究的工作,并且和学术界有紧密的关系,来寻找新的能够对于微架构上进行改善,请研究人员到我们这来,帮助我们工作,推出新的下一代处理器和平台上的芯片。
因此,微架构这个问题,我们已经讲了两天,大家会听到。还有节能性能,用的是共同的。寄存大小不同,但是基本核心是一样的,也是基于我们65纳米英特尔的技术,我们最新的技术,目前就是这样的技术,而且已经有了生产。我不再多花时间,我下面介绍我一个同事,也是我非常好的朋友,魏康乐先生。他是英特尔公司移动计算微处理器架构总监,英特尔院士,移动事业部的。他是微处理方面的领导者。
魏康乐:谢谢你!我很高兴参加这个会议,给大家介绍令人兴奋得微架构。大家知道性能得到提高,电耗减少,因此我想给大家介绍一下,我们所遇到的一些因素,告诉大家如何我们能够得到一些非常好的结果。现在可以看一下,我们的宽位短线,这是14阶段的短线,而且我们设计非常认真,用于提高性能减少耗电,我们要做的一个事情,在短线当中要做的事情,就是把几个关键的功能放在我们的产品当中,一个重要的例子就是64位的架构,EM640,这是有一个很有意义的在短线上的一个影响的。因此要非常认真的把这些扩展的东西,放进去,以及其他的有关的内容产品的特点都放到这个管线当中去,同时又不影响用电,以及性能这方面的提高。包括以前和新的编码上,都要能够保证做到这一点,但是对于性能来说,为了能够提高,传统上做的事情就是增加它的频率,我们觉得这样不可行,增加频率,就会造成很大的电量,在管线上,频率提高,对硬件都会造成很大的影响,造成很大用电使用,我们不希望这一点。正像庞思立所说的,我们希望指令集平行做法,更好地处理这些指令。
当然书面材料上有不少这方面的介绍,大家可以看到具体的研究,包括6个,4个等等这方面的机器越来越宽,加更多的机器,这样它的平行处理得能力,也是要很耗电的运行,因此我们不想怎么机器的宽度,这样太天真。因此我们要把整个管线重新进行设计,包括有很宽的这样一个机器,同时又能相对的来说,又有较窄机器的经济效应,它的耗电实际上相当于三个,更多的性能,可以在同样的预算当中得到实现,也就是性能更高,更省电。
我介绍一下我们使用的机制,通过这个机制得到更好的效率提高,我们这个东西叫做微指令的Fusion,把两个机器的运作融合在一起,在指令集,每个指令都是要通过这样完整的管线阶段。加以实施。因为要经过管线,正常是这样发生的情况。我们所注意到的一些指令,实际上是平行出现的,他们在很多情况下都是同时出现的。我们注意到这一点,其中一个这样的例子也是比较有意思的一个例子,就是比较和跳跃,在程序这一级,写一些具体的条件,问一下程序是往左还是往右,在机器语言当中,会转换成什么呢?一种一系列的条件,在这种条件下,根据这种比较结果,是往左还是往右调,在机器当中比较跳跃的,这是两个不同东西的指令,但是很多情况下是共同出现,作为一组来出现的,来试试软件层的条件的,我们注意到这一点,就把我们微处理得融合,从标准化,给做成复杂的微融合。这样可以把这个东西,一开始在管线当中出现的东西,融合到一起,从这一点,我们作为单独的实体处理,这样减少管线的暂用,因此我们在这方面少用了一些电,性能也得到了很大的提高。现在管线很多空间用于其他的指令了,同时我们设计了一个特别的硬件,并且能够执行,在一个单独的时钟周期来执行一对的指令,可以做比较和条件的跳跃,在这个例子当中,我们可以用特别的设计软件来做到这一点,这个指令执行,从而我们可以看到,有说指令的数量可以减少15%,在正常软件的应用方面,这方面是很好的,有更多的效率,而且降低了很多的能源。这种机制是我们实施的一个例子,使效率得到了提高,管线上得到了很大的提高。还有更多的机制来帮助我们执行,总的结果来说,性能得到提高,使耗电得到降低。
但是耗电的问题确是一个大的问题,非常有效的管线机制,仍然需要处理电的问题,在整个设计过程,各个阶段完整的处理,这正是我们要做的事情,我们从处理器的技术开始,64纳米是专门省电的技术,这样的处理器几个方面,在省电方面,在提高性能方面,都用于不同的产品方面,包括手机,移动、桌面等等,这都是使用了两种不同的一些特点变化。这样使每个方面,都做到最佳化。
在架构一级上看,我们也讲到了推出双核机制加以扩展。这种机制可以使我们以智能方式来控制,我们来运作双核和多核的方式,把他们开关的方式进行处理,每个频率是多少,和相应的工作量来比,这个频率实际做了相应的调整。在微架构这个层次上,我们有一个非常细微的控制电路的网络,这样每一个单独的子单位,都是单独键控制的。也有非常详细的控制的机制,来使这个子单元知道,什么时候需要开或者什么时候需要关,使他的工作保持关和开的状态,因此大多数子单元正常状态,就是真正需要的时候才打开。
在文件中,大家可以看到,有一些具体的说法,但是我们这里有一个网络。这种安排使我们能够取得更好的性能。在有些情况中,我们可以降低瓦数,来实现目标。这是一个动态的机制。所以,这个机制安排的非常好,可以对不同单位的用电进行很好的控制,在晶体管的水平上,我们取得了很好的平衡。我们这些年,一直在使用比较慢的晶体管,我们需要提高他们的速度,但是这里要耗很多的功耗非常大,而且我们有小的设备,尽可能多的使用,这样就能取得更好的功耗的情况,这个新的架构我们看到了,可以很好的产生非常优良的功耗的情况,这是整体的安排的做法,这是我们的一个主导思想。
大家今天早晨和昨天也听到了,高级智能高速缓存的主题。我现在想讲一下这个问题。为什么说非常好?这里有几个关键性的好处。第一个很显而易见,就是共享。那么一个可以让核心来使用,但是也可以让旁边的单元来使用,所以这样大大的减少了对总线带宽的需要,还有一些情况,我们可以看到40%到50%总线的使用,这对功耗有好处,对性能有很大的好处,这是共享。还有两个线程,这里讲到关系,一个线程,产生的数据会被旁边的核心来使用,一般来说,要经过不同的缓冲,但是我们用智能高速缓存,这样可以两个很直接的来传递。这样产生方和消费方创造了一个非常好的关系。
这里也会减少总线的数据的需要和数量。整个的延迟也会减少,在很多的情况,一般的情况,可以数据直接从芯片当中拿出来,速度更快,所以会减少延迟,而且会减少总线带宽的需要。还有一个非常重要的一点,动态的分配。这个基本上来说,线长在很多情况中,在它的脚印和缓存之间的要求是不对称的。比如说,缓存使用的情况不一样,有的用了很多,有的不怎么用,所以这个架构在其他的设计中,要求必须非常严格的来分驱。比如说,如果把两兆的分开,一边只能有一兆,但是在我们的架构中,我们是动态的分析,动态的处理。可以动态的共享,一方面比如说缓存效率比较高,另一方面比较低,这方面来说,来共享大大提高了总线的能力。所以说动态的分配,共享的缓存大大的减少了错误率,能够更好地提供外部的存储和总线的能力,这是非常重要的一个特点。
还有一个数据的缓存这么一个问题,这里有一个非常重要的特点,对高性能的计算非常重要,数据的延迟是非常复杂的问题,作为内存本身或者说它的界面都是弥散型的。这要取决于不同的特点和它的位置,要确保它的延迟性。作为附载的指令,这个问题尽管处理器出现问题,我们选择了最好的指令,作为附载来说还是最重要的,这是非常复杂的问题,因为必须要确保你载入的数据,应该是最新的数据。我们这里的问题就是只有在执行的时候才能发现,其中的如果有一个附载进来的话,前面的这个指令还没有执行,这里就潜在有一个冲突要解决。所以在这里,我们就要等候前一个指令的执行。这样就造成了使用的问题。就大大提高数据延迟时间。我们注意到我们做的事情,我们实施了新的方法,就是解决了数据的保护性,这样使我们预测一下附载会不会和前一批产生冲突。我们现在可以让附载绕过去,大多数的情况,没有真正的冲突,但是这并不是好的东西,但是我们没有这个机制,允许它出现这个情况。
我们看到95%的情况,我们都是正确的,我们就可以减少延迟的情况,如果有真正的冲突的话,我们有这个机制,来对附载进行执行。所以整体的减少数据延迟性,以及整个管道利用程度提高这是通过我们的设计安排来实现。
最后,还有一个更多的近年的情况。就是视频的解压缩,还有视频的编辑有一些最受欢迎的软件,如果仔细看这个问题,大家会注意到非常重要的特点,在很多情况下,大家会看到数据的并行性,也就是说可以做很多并行的计算,因为不同的计算之间,没有依赖性。所以可以说,每一部分来执行的时候,不受其他影响,也就是可以进行并行的计算。这个也就是大家十多年已经熟悉的实施了。SSE,架构的指令集,在这方面有全面的支持。我比如举个例子来说,确保128位的数据格式,这是SSE指令集的组成部分,微处理器一般来说这是64位的,他们有128位的执行都是按照两个指令的周期来执行的。所以我们注意到这个问题,这就有了很大的差距。我们仔细落实了两个128位的引擎,来在一个单一的周期来执行。要把它放到我们管道中,不要影响管道的效率。但是我们取得了成功,我们找到了一种方法,把它放在我们的管道中,我们现在有128位的GC的引擎。这使我们计算的密度得到很好的效果,如果单一的指令的计算,这是非常简单的一个概念。非常有效的落实产生的效果也是非常强有力的。
我现在要给大家看一下微架构主要的情况,有很多的情况。庞思立也讲到了一些情况。大家会了解更多的情况,因为我们软硬件开发人员都愿意回答你们的问题,我们有很多的文献可以帮助你们,我现在在把现场交给庞思立,给大家讲一下系统的平台的应用。谢谢!
庞思立:我们这有一个金元,这是Memory的情况,关键的方面,我们怎么设计系统,不仅仅是处理器的问题,他们做了很多,比如说能耗方面,提高性能方面做了很多,作为我们来说,必须要确保,不要挡住别人的发展。我们希望能够达到最高的效能。我的时间不多我给大家讲一下情况。很多情况下,也许不需要太多内存,可靠性不是问题,并不是24小时七天的运行,不需要很大的可靠性,桌面性,是需要多一点的内存,服务器方面需要重点看一下高能量,高可靠性。大家可以看一下,新的技术,不引进是提高每个信道的能力,每个信道有更多的DM,每个信道可以提高到8个DM,比如出现内存的问题,这些DM它会潜在出来。所以说,很多的我们的这个服务,都是维护都要把DM复位,所以我们现在可以看看,是不是DM,从这个插槽里出来,有不同的要求。我们必须要把它放在我们开发的不同的平台上。
这里有很多的讨论讲到控制器的问题,是放在芯片组里,还是放哪?比如我们的处理器,我们15年前开发了一个总线,这个很简单,因为线令的电压,还有它的协议,我们可以让这个总线工作15年还是没有问题。总线的界面,还有内存的界面,是带宽的宽带组成部分,如果其中一部分,出现了瓶颈的情况,不能够大量的通过信息,处理器就不会得到很高的一个效率。所以我们设计平台的时候,我们看问题,是很多的应用,要求有很多的数据,很多的标准,我们在不同的架构中来做。我们可以说,是一个反S的形状,就是成百上千的应用,针对一个特别的应用,是不是在这个方面,有一个内存的控制器,还是在芯片组成有一个控制器。
英特尔的技术,高速缓存做的非常好,我们在世界上高速缓存是最大的提供厂商。我们的密度比竞争对手都是要有两倍的优势。相对来说,如果有一个高速缓存的控制,你把这个控制器放在哪就无所谓了,因为基本来说 ,不管这个控制器是在芯片组还是在哪无所谓,我们充分利用高速缓存的技术,同时我们有15年的知识,设计总线的知识和经验,我们培训工程人员、技术人员,他们大学毕业以后,告诉他们如何来设计,如何来使这个总线进行论证。我们在设计的时候,我们觉得没有必要走向一个不同的架构,这是因为我们的高速缓存,因为我们可以把这个界面升级,永远会持续吗?也许不会,也需要在架构进行调整,我们还在评估这个事情,但是现在我们的系统目前来设计,可以在移动平台上使用,有不同内存技术,我也可以在服务器的平台上来使用,不会改变。
所以我们说,投资回报是很高的。每个平台,我们必须要经过审慎得这么一个观察,我们往前发展的时候,我们要落实多核的技术,我们要把这个架构,现在是双核的,我们准备把它放在一个套件中,来充分利用我们平台中的能力。下一步,在桌面服务器,昨天你们也听了报告,我们有这样一个做法,还有高能效的水平会持续下去,而且要搞平台,来充分最大发挥处理器的能力。这是一个新的实验,我们在美国做过这个实验,结果非常好,人们非常喜欢我们的产品,他们不断讨论我们的架构。这是我们在开发我们平台的时候的一些想法,如何从微处理器的设计,到平台,一直到软件,然后到整个生态系统,从全面的角度考虑,以便为客户提供完整得最高价值,最高性能的最有效的一个产品。使得他们能够尽快的向客户发货。 我们有一系列很多的信息来源,我们希望大家来进一步的探索,请看我们的网站,也请参观我们的一些课程,昨天我们就搞了一些内部的小规模会议。你可以与你们的销售人员进行讨论,从他们那里获得更多的信息。我们这个团体有来自全球的人员,我们可以回答一些技术方面的问题,请你们充分利用我们的资源,我们愿意就你们的问题,帮助你们做出决策,五分钟以后,会开始一个小组讨论,我也会参加这个小组讨论,另外其他人也会参加这个小组讨论,你们尽可能的参加这个会,感谢大家来到这里。 (责任编辑:刘伟) |