区域与全域数据共享

在 RV770 上,AMD 工程师不仅优化架构以小幅增加裸晶上的空间-同时也借用了竞争者的几个不错概念。G80 为每个多处理器 (multiprocessor) 导入一个 16-KB 的小内存区域可供程序设计师完全控制-不同于快取。可在 CUDA 应用程序中取用的这个内存区域,可在执行绪之间共享数据。AMD 也以 RV770 导入自身版本的这个概念,它称为 Local Data Share (区域数据共享),大小与竞争者的 Shared Memory 一模一样。它也可让 GPGPU 应用程序在数个执行绪之间共享数据,扮演类似的角色。RV770 则更进一步,提供称为 Global Data Share (全域数据共享) 的内存区域 (也是 16 KB) 以利 SIMD 数组之间的沟通。

纹理单元

虽然 ALU 并未经历重大修改,纹理单元则是完全重新设计。这样做的目的很明显-就像 GPU 的其它部分,用意在于大幅提升效能的同时,又能尽可能维持裸晶的体积。AMD 工程师设定了野心勃勃的目标,以类似的裸晶体积增加 70% 的效能。为此,他们将心力着重在纹理快取上。L1 纹理快取的频宽已增加到 480 GB/s。

但还不仅止于此,由所有 SIMD 数组共享的 L1 快取拆解成 10 个高速缓存,每个 SIMD 数组分到一个,每一个内存区只储存对应 SIMD 数组的数据。现在共享数据储存于于一 L2 快取内,这个完全重新设计的区域和 L1 快取之间是以 384 GB/s 频宽沟通。为了降低延迟,这个 L2 快取置于接近内存控制器的地方,让我们看看这些改良点在实际上的表现:

较之其直接竞争对手 9800 GTX,Radeon HD 4850 在单与双纹理处理上显现第一流的效能,同时也未牺牲原始填充率的效能-由于 16 ROP 拥有 40 个纹理单元,这是可以预期的 (简而言之,过去他们称之为「每个像素 2.5 个纹理单元」)。在另一方面,在三倍与四倍纹理处理上,RV770 很合理地无法与 G92 的 64 个纹理单元竞争 (等于「每个像素 4 个纹理单元」),但在所有层面上,RV770 证明比竞争对手更接近其理论效能值。


Google 广告
广告
显示卡的文章和评比