并行算法设计与性能优化

更新时间：2018-12-31 19:33:13

最新章节：A.3 IEEE-754浮点格式

封面

版权信息

前言

第1章绪论

1.1 并行和向量化的作用

1.2 为什么要并行或向量化

1.3 为什么向量化或并行难

1.4 并行的替代方法

1.5 进程、线程与处理器

1.6 并行硬件平台

1.7 向量化和多核技术不是万能的

1.8 本章小结

第2章现代处理器特性

2.1 指令级并行

2.1.1 指令流水线

2.1.2 乱序执行

2.1.3 指令多发射

2.1.4 分支预测

2.1.5 VLIW

2.2 向量化并行

2.2.1 SIMD

2.2.2 SIMT

2.3 线程级并行

2.3.1 内核线程和用户线程

2.3.2 多线程编程库

2.3.3 多核上多线程并行要注意的问题

2.3.4 多线程程序在多核和单核上运行的不同

2.4 缓存

2.4.1 缓存层次结构

2.4.2 缓存一致性

2.4.3 缓冲不命中

2.4.4 写缓存

2.4.5 越过缓存

2.4.6 硬件预取

2.4.7 缓存结构

2.4.8 映射策略

2.5 虚拟存储器和TLB

2.6 NUMA技术

2.7 本章小结

第3章算法性能和程序性能的度量与分析

3.1 算法分析的性能度量标准

3.1.1 时间复杂度与空间复杂度

3.1.2 实现复杂度

3.2 程序和指令的性能度量标准

3.3 程序性能优化的度量标准

3.3.1 加速比与并行效率

3.3.2 Amdahl定律和Gustafson定律

3.4 程序性能分析实用工具

3.5 本章小结

第4章串行代码性能优化

4.1 系统级别

4.2 应用级别

4.3 算法级别

4.4 函数级别

4.4.1 函数调用参数

4.4.2 内联小函数

4.5 循环级别

4.5.1 循环展开

4.5.2 循环累积

4.5.3 循环合并

4.5.4 循环拆分

4.6 语句级别

4.6.1 减少内存读写

4.6.2 选用尽量小的数据类型

4.6.3 结构体对齐

4.6.4 表达式移除

4.6.5 分支优化

4.6.6 优化交换性能

4.7 指令级别

4.8 本章小结

第5章依赖分析

5.1 指令级依赖

5.1.1 结构化依赖

5.1.2 数据依赖

5.1.3 控制依赖

5.2 循环级依赖

5.2.1 循环数据依赖

5.2.2 循环控制依赖

5.3 寄存器重命名

5.4 本章小结

第6章并行编程模型及环境

6.1 并行编程模型

6.1.1 指令级并行

6.1.2 向量化并行

6.1.3 易并行

6.1.4 任务并行

6.1.5 数据并行

6.1.6 循环并行化

6.1.7 流水线并行

6.1.8 区域分解并行

6.1.9 隐式和显式并行化

6.1.10 SPMD

6.1.11 共享存储器并行

6.1.12 分布式存储器并行

6.2 常见并行编程环境

6.2.1 MPI

6.2.2 OpenMP

6.2.3 fork/pthread

6.2.4 CUDA

6.2.5 OpenCL