机器学习进阶指南:310+核心算法/模型,从入门到商用

Source

综述

机器学习到深度学习,看这篇就够了。我系统梳理了从机器学习到深度学习的完整技术体系,共汇总310+个核心算法/模型,构建了完整的计算机视觉与机器学习知识图谱,从入门到商用均涵盖。学完它offer拿到手软。

===> 持续更新,欢迎评论区留言。

模式识别

  1. 降维与特征提取
    • PCA(主成分分析)
    • LDA(线性判别分析)
    • ICA(独立成分分析)
    • 流形学习(t - SNE, UMAP)
  2. 分类算法
    • SVM(支持向量机)
    • AdaBoost(自适应增强)
    • 随机森林(Random Forest)
    • 隐马尔可夫模型(HMM)
    • KNN(K近邻算法)
    • 决策树(Decision Tree)
    • 贝叶斯分类器(Naive Bayes)
    • 核方法(Kernel Methods)
  3. 聚类算法
    • 模糊聚类(Fuzzy C - Means)
    • 谱聚类(Spectral Clustering)
  4. 其他方法
    • 遗传算法(Genetic Algorithm)
    • 模板匹配(动态时间规整,DTW)
    • 形状上下文(Shape Context)
    • 方向梯度直方图(HOG + SVM分类)
    • 局部二值模式(LBP + SVM分类)
    • 稀疏表示分类(SRC)

深度学习与神经网络

  1. 经典卷积网络
    • LeNet
    • AlexNet
    • VGGNet
    • ResNet(残差网络)
    • Inception(GoogLeNet)
    • MobileNet
    • EfficientNet
    • DenseNet
  2. Transformer架构
    • Transformer(ViT, Vision Transformer)
    • Swin Transformer
    • ViT - Adapter(适配视觉Transformer)
  3. 目标检测网络
    • YOLO系列(v1 - v8, YOLOX)
    • Faster R - CNN
    • Fast R - CNN
    • R - CNN
    • Cascade R - CNN
    • CenterNet
    • EfficientDet
    • SSD(单次检测器)
    • RetinaNet
    • FCOS(全卷积单阶段检测)
    • TridentNet(多分支检测)
    • Dynamic R - CNN
    • DETR(Detection Transformer)
    • Deformable DETR, DAB - DETR(DETR的变体)
  4. 实例与语义分割网络
    • Mask R - CNN
    • FCN(全卷积网络)
    • U - Net
    • SegNet
    • DeepLab系列(v1 - v3+)
    • PSPNet(金字塔场景解析网络)
    • OCRNet(物体上下文网络)
    • SETR(基于Transformer的图像分割)
    • SegFormer(轻量级Transformer分割)
    • HRNet(高分辨率特征保持)
    • BiSeNet(双边分割网络)
    • FastFCN(快速全卷积网络)
    • Gated - SCNN(门控形状CNN)
    • PointRend(精细化分割,迭代点渲染分割)
    • MaskFormer(掩码分类分割)
    • SOLO(实例分割)
    • SOLOv2
    • Panoptic - DeepLab
    • CondInst(条件卷积实例分割)
    • Mask2Former
  5. 生成对抗网络
    • GAN(生成对抗网络)
    • DCGAN
    • CycleGAN
    • StyleGAN系列(StyleGAN, StyleGAN - ADA)
    • ProGAN(渐进式生成对抗网络)
    • BigGAN(大规模生成)
  6. 自编码器与扩散模型
    • VAE(变分自编码器)
    • VQ - VAE(矢量量化变分自编码器)
    • VQGAN(结合Transformer的生成)
    • Diffusion Models(扩散模型)
    • Palette(图像到图像扩散模型)
    • GLIDE(文本引导图像生成)
    • Imagen(文本到图像扩散模型)
  7. 其他网络
    • CLIP(对比语言 - 图像预训练)
    • MoCo(动量对比学习)
    • MoCo系列(v2, v3)
    • SimCLR
    • BYOL(Bootstrap Your Own Latent)
    • SwAV(交换分配向量,在线聚类自监督)
    • BEiT(图像BERT预训练)
    • BEiT v2(双掩码图像建模)
    • SimSiam(孪生网络自监督)
    • DINO(自蒸馏视觉模型)
    • Barlow Twins(冗余减少自监督)
    • MAE(掩码自编码器)
    • PIRL(图像旋转预测)
    • DeepCluster(聚类自监督)
    • ReLIC(基于不变性的自监督)

目标检测与跟踪

  1. 基于区域的检测
    • R - CNN
    • Fast R - CNN
    • Faster R - CNN
    • Cascade R - CNN
  2. 单阶段检测
    • YOLO系列(v1 - v8, YOLOX)
    • SSD(单次检测器)
    • RetinaNet
    • CenterNet
    • EfficientDet
    • FCOS(全卷积单阶段检测)
  3. 跟踪算法
    • SiamFC(全卷积孪生网络)
    • SiamRPN
    • DeepSORT(多目标跟踪)
    • KCF(核相关滤波)
    • TLD(Tracking - Learning - Detection)

三维视觉与SLAM

  1. SLAM算法
    • ORB - SLAM系列
    • LSD - SLAM
    • KinectFusion
    • DTAM(密集跟踪与建图)
  2. 三维重建与处理
    • 结构光三维重建
    • 立体匹配(Stereo Matching)
    • 3D - SIFT
    • ICP(迭代最近点)
    • Bundle Adjustment
    • PV - RCNN(点云检测)
    • VoteNet(3D目标检测)
    • PointPillars(高效点云处理)
    • 3D - SIS(三维语义场景补全)
    • KPConv(点云卷积)
    • Minkowski Engine(稀疏卷积)
    • DGCNN(动态图卷积网络)
    • 3D - GAN(三维生成)
    • Atlas(神经隐式表面重建)
    • COLMAP(运动恢复结构)
  3. 点云库
    • PCL(点云库)算法

视频分析与动作识别

  1. 网络架构
    • Two - Stream Networks
    • C3D(3D卷积网络)
    • TSN(时序分段网络)
    • SlowFast网络
    • I3D(膨胀3D卷积)
    • X3D(扩展高效视频网络)
    • TimeSformer(视频Transformer)
    • Video Swin Transformer
  2. 姿态估计
    • OpenPose(姿态估计)
    • AlphaPose
  3. 时空建模
    • ST - GCN(时空图卷积网络)
    • ConvLSTM
    • PredRNN
    • TSM(时序移位模块)
  4. 光流估计
    • PWC - Net(光流估计网络)
    • RAFT(递归全对场变换)

图像生成与增强

  1. 超分辨率
    • SRCNN(超分辨率)
    • ESRGAN
    • SRGAN, Real - ESRGAN
  2. 图像合成
    • Pix2Pix
    • SPADE(语义图像合成)
    • DeOldify(图像着色)
    • DeepDream(特征可视化生成)
    • Make - A - Scene(场景生成)
  3. 数据增强
    • CutMix数据增强
    • MixUp数据增强
    • AutoAugment
  4. 风格迁移
    • Neural Style Transfer

多模态与自监督学习

  1. 多模态学习
    • ALIGN(图文对比学习)
    • Florence(通用视觉模型)
    • MDETR(多模态检测)
    • VL - BERT(视觉语言预训练)
    • CLIP - ViL(多语言适配)
    • X - CLIP(跨模态对比学习)
    • LXMERT(视觉语言推理)
    • ViLBERT(双流视觉语言模型)
    • UniT(多任务统一模型)
    • OFA(统一多模态架构)
  2. 自监督学习
    • SimCLR
    • MoCo(动量对比学习)
    • BYOL(Bootstrap Your Own Latent)
    • SwAV(交换分配向量)
    • BEiT(图像BERT预训练)
    • SimSiam(孪生网络自监督)
    • DINO(自蒸馏视觉模型)
    • Barlow Twins(冗余减少自监督)
    • MAE(掩码自编码器)
    • BEiT v2(双掩码图像建模)
    • PIRL(图像旋转预测)
    • DeepCluster(聚类自监督)
    • ReLIC(基于不变性的自监督)

模型优化与部署

  1. 模型压缩
    • 知识蒸馏(Knowledge Distillation)
    • 模型剪枝(Pruning)
    • 量化(Quantization)
  2. 推理优化
    • TensorRT优化
    • ONNX格式转换
    • TVM编译器
  3. 轻量化模型
    • SqueezeNet(轻量化模型)
    • ShuffleNet系列
    • GhostNet
    • PeleeNet
    • Tiny - YOLO
    • NanoDet
  4. 推理框架
    • NCNN(移动端推理框架)
    • MNN(轻量推理引擎)
    • OpenVINO(英特尔优化工具)
    • CoreML(苹果端侧部署)
    • TF Lite(TensorFlow轻量化)

医学影像与特殊领域

  1. 医学图像分割
    • nnUNet(医学图像分割框架)
    • 3D U - Net(三维医学分割)
    • V - Net(医学体积分割)
    • Attention U - Net
    • TransUNet(医学图像Transformer)
  2. 医学目标检测
    • DeepLesion(病灶检测)
    • CheXNet(胸部X光分析)
    • YOLO - Med(医学目标检测)
    • DenseNet for OCT(眼科图像)
  3. 医学AI框架
    • MONAI(医学AI开源框架)

图像分割(补充)

  1. 传统分割方法
    • 区域生长算法
    • 水平集方法(Level Set)
    • GraphCut(图割算法)
    • Otsu阈值分割
    • 超像素分割(Felzenszwalb算法)
    • 马尔可夫随机场(MRF)
    • CRF(条件随机场)/ CRFasRNN
  2. 深度学习分割网络
    • PSPNet(金字塔场景解析网络)
    • DeepLabv3+(改进的空洞卷积)
    • OCRNet(物体上下文网络)
    • SETR(基于Transformer的图像分割)
    • SegFormer(轻量级Transformer分割)
    • HRNet(高分辨率特征保持)
    • BiSeNet(双边分割网络)
    • FastFCN(快速全卷积网络)
    • Gated - SCNN(门控形状CNN)
    • PointRend(迭代点渲染分割)
    • MaskFormer(掩码分类分割)
    • DAVIS(视频对象分割基准)
    • MaskProp(视频实例分割)
    • PolyTransform(多边形优化分割)
    • 实例分割的SOLOv2
    • BoxInst(弱监督实例分割)
    • COCO - Text(文本分割数据集)
    • Semantic Soft Segmentation(语义软分割)

OCR(光学字符识别)

  1. 经典引擎
    • Tesseract OCR(经典开源引擎)
  2. 文本检测
    • 投影分析(文本行分割)
    • 连通区域分析(字符分割)
    • MSER(最大稳定极值区域)
    • EAST(高效场景文本检测)
    • CRAFT(字符区域感知检测)
    • TextSnake(弯曲文本检测)
    • ABCNet(自适应贝塞尔曲线网络)
    • PSENet(渐进式尺度扩展网络)
    • Mask TextSpotter(掩码文本检测)
    • FOTS(端到端文本检测与识别)
  3. 文本识别
    • CRNN(卷积循环神经网络)
    • CTC(连接时序分类)
    • Attention OCR(基于注意力机制)
    • SAR(递归注意力文字识别)
    • TrOCR(Transformer OCR)
    • PP - OCR(百度飞桨OCR工具)
    • Rosetta(Facebook OCR系统)
    • STN - OCR(空间变换网络)
    • DAN(解耦注意力网络)
    • TextFuseNet(多模态文本融合)
    • CharNet(端到端字符级识别)
    • SRN(语义推理网络)
    • ParseNet(文本解析网络)
    • MORAN(多方向文本识别)