内存接口与分散

内存接口与分散

如果你回忆 ATI 发表 R520 (X1900) 时,应该会记得该公司导入了环圈 (ring) 形式的新式内存总线。大多数芯片设计与甚至 ATI 的前几代产品都采用集中化交叉开关 (crossbar),这先天就是不错的设计。但是当设计往上延展到其可服务的客户端数时 (确切而言是 n^2 ) 就会出现严重缺点。要服务这些客户端就需要多上许多的引线,使核心失去了核心的作用。城市人口增加时的高速公路数目愈多,客户端愈可以到处游走。ATI 从 R520 开始转变为部分分布式方法,这可以在环圈外围读取,透过交叉开关写入。「2900 是个完全分布式设计,也就是说在客户端数目增加的同时,也可避开 n^2 延展陷阱。」

一如先前提到,ATI 从 256 位宽度总线移转为具有 8 信道的 512 位宽度。设计中共有 4 个环圈停止点。

ATI 针对双向总线,采用堆栈式 I/O 设计,共有 4 组引线给资料读取,4 组给资料写入之用。

环圈上有读取与写入用途的资料流。上图总共有 4 组双引线满这可容许双向 1024 位宽度,每个方向有 4 个引线。芯片四周共有逾 2,000 条引线,而资料是以全速运作。内部可使用的频宽比外部还多,这种设计概念在于确保所有内部客户端拥有尽量多的频宽存取。如我们先前提到,产品的内部频宽约为 6 TB/s。

有一个值得思考的问题是 ATI 为什么不在前几代产品就这么做?答案是这种设计需要许多空间,在新设计中,ATI 可以将 I/O 路径缩小到只有前一代产品的一半,但这些路径都是模拟装置,无法像晶体管一般随着技术进展缩小,这是牵涉到电容、电感与金属电阻的模拟装置设计。况且它们也不易缩小,新的 512 位路径所占的空间和前一代的 256 位路径差不多。

这牵涉到许多设计逻辑才能支撑所有技术的实现,这造成芯片内部占用空间的成长,但在搭配现有内存的情况下,这是增加频宽所必要。ATI 大可使用 GDDR4,而频宽即得以增加。然而 GDDR4 仍是供应量有限的零件,消费者也必须因此付出较大价差,并承受供应断货的风险。虽然 ATI 的确也供应 GDDR4 版本给系统整合厂商 (boutique; 专精领域厂商),但主流市场仍会推出具备 512 位总线的 GDDR3 内存版本。ATI 原可以享受 256 位 GDDR4 设计的优势,但在 GDDR3 搭配 512 位宽总线的情况下,目前并不需要最尖端科技的内存来大幅提升频宽。就成本/频宽比而言,这已是一大胜利,就像以前 256 位之于 9700。就频宽而言,GDDR3 卡标榜 105 GB/s 频宽,而 GDDR4 卡拥有 160 GB/s 频宽。

另外还有一个不成文的规则就是:提高内存的时脉频率,反而会变得更没有效率。DRAM 内的分页存取仍由物理与化学法则所决定,即使你可以提高时脉频率,但物理法则仍不会变。

滞后 (hysteresis) 是指材料在回到其自然低能量态之前的激发状态时,在较高时脉速度时的延迟较长的一种现象。在达成较高时脉速度时,返回低能量态的延后现象会提高较长延迟的必要性,较长的等待时间是为确保回复到低能量态。

让内存跑慢一点,可以提升内存的效率,同时也可享受较低耗能与其它好处。环圈与内存的配合可让频宽容许约 70 个写入客户端与 80 个读取客户端。


Google 广告
广告
显示卡的文章和评比
Recherches populaires