Releases: chenzomi12/AISystem
Releases · chenzomi12/AISystem
AISystem V0.2
AI系统基础知识,涉及概述、AI芯片硬件、AI编译器、AI框架和推理引擎5大部分内容的Slide and/or PPT都在这里release出来,欢迎取阅,声明来源即可。
AI_Inference V0.1
Release第二部分AI推理引擎相关 Slide。
|
|
|
编号 |
名称 |
具体内容 |
1 |
推理系统 |
推理系统整体介绍,推理引擎架构梳理 |
2 |
轻量网络 |
轻量化主干网络,MobileNet等SOTA模型介绍 |
3 |
模型压缩 |
模型压缩4件套,量化、蒸馏、剪枝和二值化 |
4 |
模型转换&优化 |
AI框架训练后模型进行转换,并对计算图优化 |
5 |
Kernel优化 |
Kernel层、算子层优化,对算子、内存、调度优化 |
AI_Compiler V0.1
Release第二部分AI编译器原理相关Slide。
将站在系统设计的角度,思考在设计现代机器学习系统中需要考虑的编译器问题,特别是中间表达乃至后端优化。
二. 底层编译技术
|
|
|
编号 |
名称 |
具体内容 |
1 |
传统编译器 |
传统编译器GCC与LLVM,LLVM详细架构 |
2 |
AI 编译器 |
AI编译器发展与架构定义,未来挑战与思考 |
3 |
前端优化 |
AI编译器的前端优化(算子融合、内存优化等) |
4 |
后端优化 |
AI编译器的后端优化(Kernel优化、AutoTuning) |
6 |
PyTorch2.0 |
PyTorch2.0最重要的新特性:编译技术栈 |
|
|
|
AI_Framework_V0.1
提供第一部分基础篇介绍AI框架的AI框架核心技术相关的Slide。
首先介绍任何一个AI框架都离不开的自动微分,通过自动微分功能后就会产生表示神经网络的图和算子,然后介绍AI框架前端的优化,还有最近很火的大模型分布式训练在AI框架中的关键技术。
一. AI框架核心技术
编号 |
名称 |
具体内容 |
1 |
AI框架基础 |
AI框架的作用、发展、编程范式 |
2 |
自动微分 |
自动微分的实现方式和原理 |
3 |
计算图 |
计算图的概念,图优化、图执行、控制流表达 |
4 |
分布式集群 |
AI集群服务器架构、软硬件通信方式 |
5 |
分布式算法 |
大模型挑战,Transformer和MOE结构的大模型 |
6 |
分布式并行 |
数据并行、模型并行、混合并行的原理和策略 |
|
|
|