机器学习进阶指南：310+核心算法/模型，从入门到商用

Source

综述

机器学习到深度学习，看这篇就够了。我系统梳理了从机器学习到深度学习的完整技术体系，共汇总310+个核心算法/模型，构建了完整的计算机视觉与机器学习知识图谱，从入门到商用均涵盖。学完它offer拿到手软。

===> 持续更新，欢迎评论区留言。

模式识别

降维与特征提取
- PCA（主成分分析）
- LDA（线性判别分析）
- ICA（独立成分分析）
- 流形学习（t - SNE, UMAP）
分类算法
- SVM（支持向量机）
- AdaBoost（自适应增强）
- 随机森林（Random Forest）
- 隐马尔可夫模型（HMM）
- KNN（K近邻算法）
- 决策树（Decision Tree）
- 贝叶斯分类器（Naive Bayes）
- 核方法（Kernel Methods）
聚类算法
- 模糊聚类（Fuzzy C - Means）
- 谱聚类（Spectral Clustering）
其他方法
- 遗传算法（Genetic Algorithm）
- 模板匹配（动态时间规整，DTW）
- 形状上下文（Shape Context）
- 方向梯度直方图（HOG + SVM分类）
- 局部二值模式（LBP + SVM分类）
- 稀疏表示分类（SRC）

深度学习与神经网络

经典卷积网络
- LeNet
- AlexNet
- VGGNet
- ResNet（残差网络）
- Inception（GoogLeNet）
- MobileNet
- EfficientNet
- DenseNet
Transformer架构
- Transformer（ViT, Vision Transformer）
- Swin Transformer
- ViT - Adapter（适配视觉Transformer）
目标检测网络
- YOLO系列（v1 - v8, YOLOX）
- Faster R - CNN
- Fast R - CNN
- R - CNN
- Cascade R - CNN
- CenterNet
- EfficientDet
- SSD（单次检测器）
- RetinaNet
- FCOS（全卷积单阶段检测）
- TridentNet（多分支检测）
- Dynamic R - CNN
- DETR（Detection Transformer）
- Deformable DETR, DAB - DETR（DETR的变体）
实例与语义分割网络
- Mask R - CNN
- FCN（全卷积网络）
- U - Net
- SegNet
- DeepLab系列（v1 - v3+）
- PSPNet（金字塔场景解析网络）
- OCRNet（物体上下文网络）
- SETR（基于Transformer的图像分割）
- SegFormer（轻量级Transformer分割）
- HRNet（高分辨率特征保持）
- BiSeNet（双边分割网络）
- FastFCN（快速全卷积网络）
- Gated - SCNN（门控形状CNN）
- PointRend（精细化分割，迭代点渲染分割）
- MaskFormer（掩码分类分割）
- SOLO（实例分割）
- SOLOv2
- Panoptic - DeepLab
- CondInst（条件卷积实例分割）
- Mask2Former
生成对抗网络
- GAN（生成对抗网络）
- DCGAN
- CycleGAN
- StyleGAN系列（StyleGAN, StyleGAN - ADA）
- ProGAN（渐进式生成对抗网络）
- BigGAN（大规模生成）
自编码器与扩散模型
- VAE（变分自编码器）
- VQ - VAE（矢量量化变分自编码器）
- VQGAN（结合Transformer的生成）
- Diffusion Models（扩散模型）
- Palette（图像到图像扩散模型）
- GLIDE（文本引导图像生成）
- Imagen（文本到图像扩散模型）
其他网络
- CLIP（对比语言 - 图像预训练）
- MoCo（动量对比学习）
- MoCo系列（v2, v3）
- SimCLR
- BYOL（Bootstrap Your Own Latent）
- SwAV（交换分配向量，在线聚类自监督）
- BEiT（图像BERT预训练）
- BEiT v2（双掩码图像建模）
- SimSiam（孪生网络自监督）
- DINO（自蒸馏视觉模型）
- Barlow Twins（冗余减少自监督）
- MAE（掩码自编码器）
- PIRL（图像旋转预测）
- DeepCluster（聚类自监督）
- ReLIC（基于不变性的自监督）

目标检测与跟踪

基于区域的检测
- R - CNN
- Fast R - CNN
- Faster R - CNN
- Cascade R - CNN
单阶段检测
- YOLO系列（v1 - v8, YOLOX）
- SSD（单次检测器）
- RetinaNet
- CenterNet
- EfficientDet
- FCOS（全卷积单阶段检测）
跟踪算法
- SiamFC（全卷积孪生网络）
- SiamRPN
- DeepSORT（多目标跟踪）
- KCF（核相关滤波）
- TLD（Tracking - Learning - Detection）

三维视觉与SLAM

SLAM算法
- ORB - SLAM系列
- LSD - SLAM
- KinectFusion
- DTAM（密集跟踪与建图）
三维重建与处理
- 结构光三维重建
- 立体匹配（Stereo Matching）
- 3D - SIFT
- ICP（迭代最近点）
- Bundle Adjustment
- PV - RCNN（点云检测）
- VoteNet（3D目标检测）
- PointPillars（高效点云处理）
- 3D - SIS（三维语义场景补全）
- KPConv（点云卷积）
- Minkowski Engine（稀疏卷积）
- DGCNN（动态图卷积网络）
- 3D - GAN（三维生成）
- Atlas（神经隐式表面重建）
- COLMAP（运动恢复结构）
点云库
- PCL（点云库）算法

视频分析与动作识别

网络架构
- Two - Stream Networks
- C3D（3D卷积网络）
- TSN（时序分段网络）
- SlowFast网络
- I3D（膨胀3D卷积）
- X3D（扩展高效视频网络）
- TimeSformer（视频Transformer）
- Video Swin Transformer
姿态估计
- OpenPose（姿态估计）
- AlphaPose
时空建模
- ST - GCN（时空图卷积网络）
- ConvLSTM
- PredRNN
- TSM（时序移位模块）
光流估计
- PWC - Net（光流估计网络）
- RAFT（递归全对场变换）

图像生成与增强

超分辨率
- SRCNN（超分辨率）
- ESRGAN
- SRGAN, Real - ESRGAN
图像合成
- Pix2Pix
- SPADE（语义图像合成）
- DeOldify（图像着色）
- DeepDream（特征可视化生成）
- Make - A - Scene（场景生成）
数据增强
- CutMix数据增强
- MixUp数据增强
- AutoAugment
风格迁移
- Neural Style Transfer

多模态与自监督学习

多模态学习
- ALIGN（图文对比学习）
- Florence（通用视觉模型）
- MDETR（多模态检测）
- VL - BERT（视觉语言预训练）
- CLIP - ViL（多语言适配）
- X - CLIP（跨模态对比学习）
- LXMERT（视觉语言推理）
- ViLBERT（双流视觉语言模型）
- UniT（多任务统一模型）
- OFA（统一多模态架构）
自监督学习
- SimCLR
- MoCo（动量对比学习）
- BYOL（Bootstrap Your Own Latent）
- SwAV（交换分配向量）
- BEiT（图像BERT预训练）
- SimSiam（孪生网络自监督）
- DINO（自蒸馏视觉模型）
- Barlow Twins（冗余减少自监督）
- MAE（掩码自编码器）
- BEiT v2（双掩码图像建模）
- PIRL（图像旋转预测）
- DeepCluster（聚类自监督）
- ReLIC（基于不变性的自监督）

模型优化与部署

模型压缩
- 知识蒸馏（Knowledge Distillation）
- 模型剪枝（Pruning）
- 量化（Quantization）
推理优化
- TensorRT优化
- ONNX格式转换
- TVM编译器
轻量化模型
- SqueezeNet（轻量化模型）
- ShuffleNet系列
- GhostNet
- PeleeNet
- Tiny - YOLO
- NanoDet
推理框架
- NCNN（移动端推理框架）
- MNN（轻量推理引擎）
- OpenVINO（英特尔优化工具）
- CoreML（苹果端侧部署）
- TF Lite（TensorFlow轻量化）

医学影像与特殊领域

医学图像分割
- nnUNet（医学图像分割框架）
- 3D U - Net（三维医学分割）
- V - Net（医学体积分割）
- Attention U - Net
- TransUNet（医学图像Transformer）
医学目标检测
- DeepLesion（病灶检测）
- CheXNet（胸部X光分析）
- YOLO - Med（医学目标检测）
- DenseNet for OCT（眼科图像）
医学AI框架
- MONAI（医学AI开源框架）

图像分割（补充）

传统分割方法
- 区域生长算法
- 水平集方法（Level Set）
- GraphCut（图割算法）
- Otsu阈值分割
- 超像素分割（Felzenszwalb算法）
- 马尔可夫随机场（MRF）
- CRF（条件随机场）/ CRFasRNN
深度学习分割网络
- PSPNet（金字塔场景解析网络）
- DeepLabv3+（改进的空洞卷积）
- OCRNet（物体上下文网络）
- SETR（基于Transformer的图像分割）
- SegFormer（轻量级Transformer分割）
- HRNet（高分辨率特征保持）
- BiSeNet（双边分割网络）
- FastFCN（快速全卷积网络）
- Gated - SCNN（门控形状CNN）
- PointRend（迭代点渲染分割）
- MaskFormer（掩码分类分割）
- DAVIS（视频对象分割基准）
- MaskProp（视频实例分割）
- PolyTransform（多边形优化分割）
- 实例分割的SOLOv2
- BoxInst（弱监督实例分割）
- COCO - Text（文本分割数据集）
- Semantic Soft Segmentation（语义软分割）

OCR（光学字符识别）

经典引擎
- Tesseract OCR（经典开源引擎）
文本检测
- 投影分析（文本行分割）
- 连通区域分析（字符分割）
- MSER（最大稳定极值区域）
- EAST（高效场景文本检测）
- CRAFT（字符区域感知检测）
- TextSnake（弯曲文本检测）
- ABCNet（自适应贝塞尔曲线网络）
- PSENet（渐进式尺度扩展网络）
- Mask TextSpotter（掩码文本检测）
- FOTS（端到端文本检测与识别）
文本识别
- CRNN（卷积循环神经网络）
- CTC（连接时序分类）
- Attention OCR（基于注意力机制）
- SAR（递归注意力文字识别）
- TrOCR（Transformer OCR）
- PP - OCR（百度飞桨OCR工具）
- Rosetta（Facebook OCR系统）
- STN - OCR（空间变换网络）
- DAN（解耦注意力网络）
- TextFuseNet（多模态文本融合）
- CharNet（端到端字符级识别）
- SRN（语义推理网络）
- ParseNet（文本解析网络）
- MORAN（多方向文本识别）