ROP、内存控制器
ROP
ROP 是 AMD 前一世代的另一弱项:启用反锯齿功能时效能表现差劲。至于纹理单元,工程师则是从无到有设计,目标同样是最大化相同裸晶区域上单元的效率。
首先要提的改良就是 Z 渲染 (rendering)。ATI 先前架构带来了 depth pass 充填率加倍的可能性,但仍落后 Nvidia,后者的充填率可在这些情况下提供八倍速度。到了 RV770 世代,AMD 仍然落后,只将充填率提升为四倍-成为每个周期 64 个像素。让我们用可靠的充填率测试程序来核对:

再次并无意外,如我们所见的纯充填率数字。在另一方面,Z 渲染就有点令人失望。数字的确有所改善,但在 RV670 接近其理论值 (x1.89,而非 x2) 的地方,RV770 则有很大落差 (x2.41 而非 x4)。这仍不足以与 G92 竞争,后者也远远偏离其理论值 (x5.2 而非 x8),但仍远远领先对手。
不过这并非 ROP 的主要改良。ATI 工程师专注于修正前一代的反锯齿效能-当时较之竞争对手可谓「悲惨」。RV670 在 MSAA 2X 或 4X 模式时每个周期只能写入 8 个像素-充填率除以二-但 RV770 却没有效能损失,此时每周期仍能写入 16 个像素。以相同方式,一个 FP16 画面缓冲 (frame buffer) 的渲染已经优化,现在可以全速进行,相同情况下以前 RV670 的充填率也被除以二。
内存控制器
从 R520 导入环圈总线 (ring bus) 的设计后,AMD 一直改良其内存控制器。新架构的最新特色之一是分隔开「频宽耗用高」(如 L2 纹理快取或 ROP) 的客户端与可容许频宽较少的客户端 (如 PCI Express 控制器、显示控制器等)。频宽较低的客户端共享相同的集线器 (hub),而内存控制器分布在接近高频宽「消费者」的芯片上。