Skip to content

Latest commit

 

History

History
 
 

02Hardware

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

二、AI芯片体系结构

AI硬件体系结构主要是指AI芯片,这里就很硬核了,从芯片的基础到AI芯片的范围都会涉及,芯片设计需要考虑上面AI框架的前端、后端编译,而不是停留在天天喊着吊打英伟达,被现实打趴。

欢迎大家使用的过程中发现bug或者勘误直接提交PR到开源社区哦!

请大家尊重开源和ZOMI的努力,引用PPT的内容请规范转载标明出处哦!

课程简介

  • 《AI 计算体系》:深入深度学习计算模式,从而理解“计算”需要什么。通过AI芯片关键指标,了解AI芯片要更好的支持“计算”,需要关注那些重点工作。最后通过深度学习的计算核心“矩阵乘”来看对“计算”的实际需求和情况,为了提升计算性能、降低功耗和满足训练推理不同场景应用,对“计算”引入 TF32/BF16 等复杂多样的比特位宽。

  • 《AI 芯片基础》:简单从CPU开始看通用逻辑架构(冯诺依曼架构)开始,通过打开计算的本质(数据与时延)从而引出对于并行计算GPU作用和解决的业务场景,到目前最火的AI芯片NPU。最后迈入超异构并行CPU、GPU、NPU并存的计算系统架构黄金十年。

  • 《图形处理器 GPU》:主要是深入地讲解GPU的工作原理,其最重要的指标是计算吞吐和存储和传输带宽,并对英伟达的GPU的十年5代架构进行梳理。此外,《NVIDIA GPU详解》英伟达架构里面专门为AI而生的 Tensor Core 和 NVLink 对AI加速尤为重要,因此重点对 Tensor Core 和 NVLink 进行深入剖析其发展、演进和架构。

  • 《英伟达 GPU 详解》: 英伟达架构里面专门为AI而生的 Tensor Core 和 NVLink 对AI加速尤为重要,因此重点对 Tensor Core 和 NVLink 进行深入剖析其发展、演进和架构。

  • 《国外 AI 芯片》:深入地剖析国外 Google TPU 和特斯拉 DOJO 相关 AI 芯片的架构,以TPU为主主要使用了数据流(Data FLow)的方式的脉动阵列来加速矩阵的运算,而特斯拉则使用了近存计算(Near Memory)两种不同的产品形态。

  • 《国内 AI 芯片》:深入地解读国内 AI 初创芯片厂商如国内第一AI芯片上市公司寒武纪、国内造GPU声势最大的壁仞科技、腾讯重头的燧原科技等科技公司的 AI 芯片架构。

  • 《AI 芯片黄金十年》:基于 AI 芯片的 SIMD 硬件结构和 SIMT 的硬件结构原理,分析其上层的编程模型 SPMD 与 CUDA 之间的关系,去了解做好 AI 芯片其实跟软件的关联性也有着密切的关系,并对 AI 芯片近10年的发展进行一个总结和思考。

希望这个系列能够给朋友们带来一些帮助,也希望ZOMI能够继续坚持完成所有内容哈!欢迎您也参与到这个开源项目的贡献!

课程细节

PPT字幕需要到 Github 下载,网页课程版链接会失效哦~

建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~

大纲 小节 链接
AI 计算体系 01 课程内容 slide, video
AI 计算体系 02 AI计算模式(上) slide, video
AI 计算体系 03 AI计算模式(下) slide, video
AI 计算体系 04 关键设计指标 slide, video
AI 计算体系 05 核心计算:矩阵乘 slide, video
AI 计算体系 06 数据单位:比特位 slide, video
AI 计算体系 07 AI计算体系总结 slide, video
大纲 小节 链接
AI 芯片基础 01 CPU 基础 slide, video
AI 芯片基础 02 CPU 指令集架构 slide, video
AI 芯片基础 03 CPU 计算本质 slide, video
AI 芯片基础 04 CPU 计算时延 slide, video
AI 芯片基础 05 GPU 基础 slide, video
AI 芯片基础 06 NPU 基础 slide, video
AI 芯片基础 07 超异构计算 slide, video
大纲 小节 链接
图形处理器 GPU 01 GPU工作原理 slide, video
图形处理器 GPU 02 GPU适用于AI slide, video
图形处理器 GPU 03 GPU架构与CUDA关系 slide, video
图形处理器 GPU 04 GPU架构回顾第一篇 slide, video
图形处理器 GPU 05 GPU架构回顾第二篇 slide, video
大纲 小节 链接
GPU 原理详解 01 TensorCore原理(上) slide, video
GPU 原理详解 02 TensorCore架构(中) slide, video
GPU 原理详解 03 TensorCore剖析(下) slide, video
GPU 原理详解 04 分布式通信与NVLink slide, video
GPU 原理详解 05 NVLink原理剖析 slide, video
GPU 原理详解 05 NVSwitch原理剖析 slide, video
大纲 小节 链接
国外 AI 芯片 01 特斯拉 DOJO 架构 slide, video
国外 AI 芯片 02 特斯拉 DOJO 细节 slide, video
国外 AI 芯片 03 特斯拉 DOJO 存算系统 slide, video
国外 AI 芯片 04 谷歌 TPU 芯片发展 slide, video
国外 AI 芯片 05 谷歌 TPU1 脉动阵列 slide, video
国外 AI 芯片 06 谷歌 TPU2 推理到训练 slide, video
国外 AI 芯片 07 谷歌 TPU3 POD超节点 slide, video
国外 AI 芯片 08 谷歌 TPU4 AI集群 slide, video
国外 AI 芯片 08 谷歌 OCS 光交换机 slide, video
大纲 小节 链接
国外 AI 芯片 01 壁仞BR100产品介绍 slide, video
国外 AI 芯片 02 壁仞BR100芯片架构 slide, video
国外 AI 芯片 03 燧原科技AI芯片 slide, video
国外 AI 芯片 04 寒武纪AI芯片第一股 slide, video
国外 AI 芯片 05 寒武纪AI芯片架构剖析(上) slide, video
国外 AI 芯片 06 寒武纪AI芯片架构剖析(下) slide, video
大纲 小节 链接
AI 芯片黄金十年 01 芯片的编程体系 slide, video
AI 芯片黄金十年 02 SIMD和SIMT跟AI芯片关系 slide, video
AI 芯片黄金十年 03 CUDA/SIMD/SIMT/DSA关系 slide, video
AI 芯片黄金十年 04 CUDA跟SIMT硬件关系 slide, video

备注

文字课程内容正在一节节补充更新,每晚会抽空继续更新正在 AISys ,希望您多多鼓励和参与进来!!!

文字课程开源在 AISys,系列视频托管B站油管,PPT开源在github,欢迎取用!!!

非常希望您也参与到这个开源项目中,B站给ZOMI留言哦!

欢迎大家使用的过程中发现bug或者勘误直接提交代码PR到开源社区哦!

希望这个系列能够给大家、朋友们带来一些些帮助,也希望自己能够继续坚持完成所有内容哈!