现代处理器设计:超标量处理器基础 张承义等译 PDF下载

转载至:  https://download.csdn.net/download/hychieftain/9483300

下载链接: 

下载声明:  本资料仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版。

本书是一部有关超标量处理器设计的教科书,是卡内基·梅隆大学超标量处理器设计课程的教材。本书的特点是:突出关键的概念和基本的原理,隐藏复杂的技术细节;论述深入浅出,易于理解;内容全面并且新颖。

QQ20200119-175959.jpg

第1章 处理器设计 15 阅读

1.1 微处理器的发展史 15 阅读

1.2 指令集处理器设计 16 阅读

1.2.1 数字系统设计 16 阅读

1.2.2 体系结构、逻辑实现和物理实现 17 阅读

1.2.3 指令集体系结构 18 阅读

1.2.4 动态静态界面 19 阅读

1.3 处理器性能法则 20 阅读

1.3.1 处理器性能公式 21 阅读

1.3.2 处理器性能优化 21 阅读

1.3.3 性能评价方法 22 阅读

1.4 指令级并行处理 24 阅读

1.4.1 从标量到超标量 24 阅读

1.4.2 指令级并行的极限 29 阅读

1.4.3 指令级并行的机器 31 阅读

1.5 小结 35 阅读

1.6 习题 36 阅读

第2章 流水线处理器 38 阅读

2.1 流水线基础 38 阅读

2.1.1 流水线设计 38 阅读

2.1.2 算术流水线的实例 41 阅读

2.1.3 流水线理想假设 44 阅读

2.1.4 指令流水线 46 阅读

2.2 流水线处理器设计 48 阅读

2.2.1 保持流水段均衡 48 阅读

2.2.2 统一指令类型 52 阅读

2.2.3 减少流水线停顿 58 阅读

2.2.4 产品化的流水线处理器 68 阅读

2.3 深流水线处理器 73 阅读

2.4 小结 75 阅读

2.5 习题 75 阅读

第3章 超标量结构 77 阅读

3.1 标量流水线的局限性 77 阅读

3.1.1 标量流水线吞吐率的上限 77 阅读

3.1.2 低效的统一流水线 78 阅读

3.1.3 严格流水线导致的性能损失 78 阅读

3.2 从标量流水线到超标量流水线 79 阅读

3.2.1 并行流水线 79 阅读

3.2.2 多配置流水线 81 阅读

3.2.3 动态流水线 83 阅读

3.3 超标量流水线综述 85 阅读

3.3.1 取指 86 阅读

3.3.2 指令译码 88 阅读

3.3.3 指令分派 90 阅读

3.3.4 指令执行 93 阅读

3.3.5 指令的完成和提交 95 阅读

3.4 小结 96 阅读

3.5 习题 97 阅读

第4章 超标量技术 99 阅读

4.1 指令流技术 99 阅读

4.1.1 程序控制流和控制相关 99 阅读

4.1.2 分支造成的性能损失 100 阅读

4.1.3 分支预测技术 102 阅读

4.1.4 分支预测失败的恢复 105 阅读

4.1.5 先进的分支预测技术 107 阅读

4.1.6 其他指令流技术 110 阅读

4.2 寄存器数据流技术 111 阅读

4.2.1 寄存器重用和假数据相关 111 阅读

4.2.2 寄存器重命名技术 112 阅读

4.2.3 数据相关和数据流极限 115 阅读

4.2.4 经典的Tomasulo算法 116 阅读

4.2.5 动态执行内核 121 阅读

4.2.6 保留站和再定序缓冲 123 阅读

4.2.7 动态指令调度器 125 阅读

4.2.8 其他寄存器数据流技术 125 阅读

4.3 存储器数据流技术 126 阅读

4.3.1 存储器访问指令 127 阅读

4.3.2 存储器层次结构 128 阅读

4.3.3 存储器访问的排序 134 阅读

4.3.4 载入旁路和载入定向 135 阅读

4.3.5 其他存储器数据流技术 138 阅读

4.4 小结 141 阅读

4.5 习题 142 阅读

第5章 PowerPC 620 150 阅读

5.1 简介 150 阅读

5.2 实验框架 152 阅读

5.3 取指 153 阅读

5.3.1 分支预测 154 阅读

5.3.2 取指和推测 155 阅读

5.4 指令分派 156 阅读

5.4.1 指令缓冲 156 阅读

5.4.2 分派停顿 156 阅读

5.4.3 分派效率 158 阅读

5.5 指令执行 159 阅读

5.5.1 发射停顿 159 阅读

5.5.2 并行执行 159 阅读

5.5.3 执行延迟 160 阅读

5.6 指令完成 160 阅读

5.6.1 完成并行度 160 阅读

5.6.2 cache的影响 161 阅读

5.7 结论和评价 162 阅读

5.8 IBM POWER3和POWER4 163 阅读

5.9 小结 165 阅读

5.10 习题 165 阅读

第6章 Intel P6微体系结构 167 阅读

6.1 简介 167 阅读

6.1.1 P6微体系结构基础 169 阅读

6.2 流水线 170 阅读

6.2.1 按序执行的前端流水线 171 阅读

6.2.2 乱序执行的内核流水线 171 阅读

6.2.3 指令提交流水线 172 阅读

6.3 按序执行的前端 173 阅读

6.3.1 指令缓存与ITLB 173 阅读

6.3.2 分支预测 175 阅读

6.3.3 指令译码器(ID) 177 阅读

6.3.4 寄存器别名表 179 阅读

6.3.5 分配器 184 阅读

6.4 乱序执行的内核 185 阅读

6.4.1 保留站 185 阅读

6.5 指令提交 186 阅读

6.5.1 再定序缓冲 186 阅读

6.6 存储子系统 189 阅读

6.6.1 存储器访问顺序 190 阅读

6.6.2 存储器load操作 190 阅读

6.6.3 基本存储器存储操作 191 阅读

6.6.4 延期存储器操作 191 阅读

6.6.5 页故障 191 阅读

6.7 小结 192 阅读

6.8 习题 192 阅读

第7章 超标量处理器概览 194 阅读

7.1 超标量微处理器的发展 194 阅读

7.1.1 单处理器并行的早期发展:IBM Stretch 194 阅读

7.1.2 第一个超标量设计:IBM高级计算机系统 196 阅读

7.1.3 指令级并行研究 200 阅读

7.1.4 DAE的副产品:第一个多指令译码的实现 200 阅读

7.1.5 IBM的Cheetah,Panther和America 201 阅读

7.1.6 分离的微体系结构 202 阅读

7.1.7 20世纪80年代其他的设计方案 202 阅读

7.1.8 超标量被广泛接受 203 阅读

7.2 对目前设计的分类 204 阅读

7.2.1 对RISC和CISC的翻新 204 阅读

7.2.2 Alpha:一种侧重于时钟周期的体系结构 206 阅读

7.2.3 POWER系列:侧重于增强指令的体系结构 206 阅读

7.2.4 体系结构修订 207 阅读

7.3 处理器介绍 207 阅读

7.3.1 Compaq/DEC Alpha 208 阅读

7.3.2 HP的PA-RISC 1.0版本 211 阅读

7.3.3 HP的PA RISC 2.0版本 214 阅读

7.3.4 Intel i960 215 阅读

7.3.5 Intel IA32 217 阅读

7.3.6 MIPS 224 阅读

7.3.7 Motorola 68060/1993 227 阅读

7.3.8 Motorola 88110/1991 228 阅读

7.3.9 IBM POWER 229 阅读

7.3.10 PowerPC 233 阅读

7.3.11 SPARC第8版 236 阅读

7.3.12 SPARC第9版本 238 阅读

7.3.13 其他超标量处理器 240 阅读

第8章 高级寄存器数据流技术 249 阅读

8.1 简介 249 阅读

8.2 值局部性和冗余执行 251 阅读

8.2.1 值局部性的缘由 251 阅读

8.2.2 量化值局部性 252 阅读

8.3 非预测的值局部性利用 253 阅读

8.3.1 记忆法 254 阅读

8.3.2 指令重用 255 阅读

8.3.3 基本块和trace重用 258 阅读

8.3.4 数据流区域重用 258 阅读

8.3.5 结论 258 阅读

8.4 带预测的值局部性利用 259 阅读

8.4.1 弱相关模型 259 阅读

8.4.2 值预测 259 阅读

8.4.3 值预测单元 260 阅读

8.4.4 使用预测值的推断执行 263 阅读

8.4.5 值预测的性能 269 阅读

8.4.6 结论 270 阅读

8.5 小结 271 阅读

8.6 习题 271 阅读

第9章 执行多线程 273 阅读

9.1 介绍 273 阅读

9.2 共享存储器线程的同步 275 阅读

9.3 多处理机系统介绍 277 阅读

9.3.1 完全共享存储器,单位延迟以及无竞争 277 阅读

9.3.2 写操作的瞬时传播 278 阅读

9.3.3 一致的共享存储器 278 阅读

9.3.4 实现cache一致性 280 阅读

9.3.5 多级cache、包含以及虚拟存储器 283 阅读

9.3.6 存储一致性 284 阅读

9.3.7 一致性存储器接口 287 阅读

9.3.8 结论 289 阅读

9.4 显式多线程处理器 289 阅读

9.4.1 单芯片多处理器 290 阅读

9.4.2 细粒度多线程 292 阅读

9.4.3 粗粒度多线程 292 阅读

9.4.4 同时多线程 294 阅读

9.5 隐式多线程处理器 299 阅读

9.5.1 化解控制相关 299 阅读

9.5.2 寄存器数据相关化解 302 阅读

9.5.3 存储器数据相关化解 303 阅读

9.5.4 结论 305 阅读

9.6 执行相同的线程 305 阅读

9.6.1 错误发现 306 阅读

9.6.2 预取 307 阅读

9.6.3 分支化解 308 阅读

9.6.4 结论 308 阅读

9.7 小结 308 阅读

9.8 习题 309 阅读

打赏 支付宝打赏 微信打赏

如果文章对您有帮助,欢迎移至上方打赏按钮...

随手一点
  • 打酱油

    6人

  • 14人

  • 呵呵

    0人

  • 草泥马

    1人

文章评论 抢沙发