综述
机器学习到深度学习,看这篇就够了。我系统梳理了从机器学习到深度学习的完整技术体系,共汇总310+个核心算法/模型,构建了完整的计算机视觉与机器学习知识图谱,从入门到商用均涵盖。学完它offer拿到手软。
===> 持续更新,欢迎评论区留言。
模式识别
- 降维与特征提取
- PCA(主成分分析)
- LDA(线性判别分析)
- ICA(独立成分分析)
- 流形学习(t - SNE, UMAP)
- 分类算法
- SVM(支持向量机)
- AdaBoost(自适应增强)
- 随机森林(Random Forest)
- 隐马尔可夫模型(HMM)
- KNN(K近邻算法)
- 决策树(Decision Tree)
- 贝叶斯分类器(Naive Bayes)
- 核方法(Kernel Methods)
- 聚类算法
- 模糊聚类(Fuzzy C - Means)
- 谱聚类(Spectral Clustering)
- 其他方法
- 遗传算法(Genetic Algorithm)
- 模板匹配(动态时间规整,DTW)
- 形状上下文(Shape Context)
- 方向梯度直方图(HOG + SVM分类)
- 局部二值模式(LBP + SVM分类)
- 稀疏表示分类(SRC)
深度学习与神经网络
- 经典卷积网络
- LeNet
- AlexNet
- VGGNet
- ResNet(残差网络)
- Inception(GoogLeNet)
- MobileNet
- EfficientNet
- DenseNet
- Transformer架构
- Transformer(ViT, Vision Transformer)
- Swin Transformer
- ViT - Adapter(适配视觉Transformer)
- 目标检测网络
- YOLO系列(v1 - v8, YOLOX)
- Faster R - CNN
- Fast R - CNN
- R - CNN
- Cascade R - CNN
- CenterNet
- EfficientDet
- SSD(单次检测器)
- RetinaNet
- FCOS(全卷积单阶段检测)
- TridentNet(多分支检测)
- Dynamic R - CNN
- DETR(Detection Transformer)
- Deformable DETR, DAB - DETR(DETR的变体)
- 实例与语义分割网络
- Mask R - CNN
- FCN(全卷积网络)
- U - Net
- SegNet
- DeepLab系列(v1 - v3+)
- PSPNet(金字塔场景解析网络)
- OCRNet(物体上下文网络)
- SETR(基于Transformer的图像分割)
- SegFormer(轻量级Transformer分割)
- HRNet(高分辨率特征保持)
- BiSeNet(双边分割网络)
- FastFCN(快速全卷积网络)
- Gated - SCNN(门控形状CNN)
- PointRend(精细化分割,迭代点渲染分割)
- MaskFormer(掩码分类分割)
- SOLO(实例分割)
- SOLOv2
- Panoptic - DeepLab
- CondInst(条件卷积实例分割)
- Mask2Former
- 生成对抗网络
- GAN(生成对抗网络)
- DCGAN
- CycleGAN
- StyleGAN系列(StyleGAN, StyleGAN - ADA)
- ProGAN(渐进式生成对抗网络)
- BigGAN(大规模生成)
- 自编码器与扩散模型
- VAE(变分自编码器)
- VQ - VAE(矢量量化变分自编码器)
- VQGAN(结合Transformer的生成)
- Diffusion Models(扩散模型)
- Palette(图像到图像扩散模型)
- GLIDE(文本引导图像生成)
- Imagen(文本到图像扩散模型)
- 其他网络
- CLIP(对比语言 - 图像预训练)
- MoCo(动量对比学习)
- MoCo系列(v2, v3)
- SimCLR
- BYOL(Bootstrap Your Own Latent)
- SwAV(交换分配向量,在线聚类自监督)
- BEiT(图像BERT预训练)
- BEiT v2(双掩码图像建模)
- SimSiam(孪生网络自监督)
- DINO(自蒸馏视觉模型)
- Barlow Twins(冗余减少自监督)
- MAE(掩码自编码器)
- PIRL(图像旋转预测)
- DeepCluster(聚类自监督)
- ReLIC(基于不变性的自监督)
目标检测与跟踪
- 基于区域的检测
- R - CNN
- Fast R - CNN
- Faster R - CNN
- Cascade R - CNN
- 单阶段检测
- YOLO系列(v1 - v8, YOLOX)
- SSD(单次检测器)
- RetinaNet
- CenterNet
- EfficientDet
- FCOS(全卷积单阶段检测)
- 跟踪算法
- SiamFC(全卷积孪生网络)
- SiamRPN
- DeepSORT(多目标跟踪)
- KCF(核相关滤波)
- TLD(Tracking - Learning - Detection)
三维视觉与SLAM
- SLAM算法
- ORB - SLAM系列
- LSD - SLAM
- KinectFusion
- DTAM(密集跟踪与建图)
- 三维重建与处理
- 结构光三维重建
- 立体匹配(Stereo Matching)
- 3D - SIFT
- ICP(迭代最近点)
- Bundle Adjustment
- PV - RCNN(点云检测)
- VoteNet(3D目标检测)
- PointPillars(高效点云处理)
- 3D - SIS(三维语义场景补全)
- KPConv(点云卷积)
- Minkowski Engine(稀疏卷积)
- DGCNN(动态图卷积网络)
- 3D - GAN(三维生成)
- Atlas(神经隐式表面重建)
- COLMAP(运动恢复结构)
- 点云库
- PCL(点云库)算法
视频分析与动作识别
- 网络架构
- Two - Stream Networks
- C3D(3D卷积网络)
- TSN(时序分段网络)
- SlowFast网络
- I3D(膨胀3D卷积)
- X3D(扩展高效视频网络)
- TimeSformer(视频Transformer)
- Video Swin Transformer
- 姿态估计
- OpenPose(姿态估计)
- AlphaPose
- 时空建模
- ST - GCN(时空图卷积网络)
- ConvLSTM
- PredRNN
- TSM(时序移位模块)
- 光流估计
- PWC - Net(光流估计网络)
- RAFT(递归全对场变换)
图像生成与增强
- 超分辨率
- SRCNN(超分辨率)
- ESRGAN
- SRGAN, Real - ESRGAN
- 图像合成
- Pix2Pix
- SPADE(语义图像合成)
- DeOldify(图像着色)
- DeepDream(特征可视化生成)
- Make - A - Scene(场景生成)
- 数据增强
- CutMix数据增强
- MixUp数据增强
- AutoAugment
- 风格迁移
- Neural Style Transfer
多模态与自监督学习
- 多模态学习
- ALIGN(图文对比学习)
- Florence(通用视觉模型)
- MDETR(多模态检测)
- VL - BERT(视觉语言预训练)
- CLIP - ViL(多语言适配)
- X - CLIP(跨模态对比学习)
- LXMERT(视觉语言推理)
- ViLBERT(双流视觉语言模型)
- UniT(多任务统一模型)
- OFA(统一多模态架构)
- 自监督学习
- SimCLR
- MoCo(动量对比学习)
- BYOL(Bootstrap Your Own Latent)
- SwAV(交换分配向量)
- BEiT(图像BERT预训练)
- SimSiam(孪生网络自监督)
- DINO(自蒸馏视觉模型)
- Barlow Twins(冗余减少自监督)
- MAE(掩码自编码器)
- BEiT v2(双掩码图像建模)
- PIRL(图像旋转预测)
- DeepCluster(聚类自监督)
- ReLIC(基于不变性的自监督)
模型优化与部署
- 模型压缩
- 知识蒸馏(Knowledge Distillation)
- 模型剪枝(Pruning)
- 量化(Quantization)
- 推理优化
- TensorRT优化
- ONNX格式转换
- TVM编译器
- 轻量化模型
- SqueezeNet(轻量化模型)
- ShuffleNet系列
- GhostNet
- PeleeNet
- Tiny - YOLO
- NanoDet
- 推理框架
- NCNN(移动端推理框架)
- MNN(轻量推理引擎)
- OpenVINO(英特尔优化工具)
- CoreML(苹果端侧部署)
- TF Lite(TensorFlow轻量化)
医学影像与特殊领域
- 医学图像分割
- nnUNet(医学图像分割框架)
- 3D U - Net(三维医学分割)
- V - Net(医学体积分割)
- Attention U - Net
- TransUNet(医学图像Transformer)
- 医学目标检测
- DeepLesion(病灶检测)
- CheXNet(胸部X光分析)
- YOLO - Med(医学目标检测)
- DenseNet for OCT(眼科图像)
- 医学AI框架
- MONAI(医学AI开源框架)
图像分割(补充)
- 传统分割方法
- 区域生长算法
- 水平集方法(Level Set)
- GraphCut(图割算法)
- Otsu阈值分割
- 超像素分割(Felzenszwalb算法)
- 马尔可夫随机场(MRF)
- CRF(条件随机场)/ CRFasRNN
- 深度学习分割网络
- PSPNet(金字塔场景解析网络)
- DeepLabv3+(改进的空洞卷积)
- OCRNet(物体上下文网络)
- SETR(基于Transformer的图像分割)
- SegFormer(轻量级Transformer分割)
- HRNet(高分辨率特征保持)
- BiSeNet(双边分割网络)
- FastFCN(快速全卷积网络)
- Gated - SCNN(门控形状CNN)
- PointRend(迭代点渲染分割)
- MaskFormer(掩码分类分割)
- DAVIS(视频对象分割基准)
- MaskProp(视频实例分割)
- PolyTransform(多边形优化分割)
- 实例分割的SOLOv2
- BoxInst(弱监督实例分割)
- COCO - Text(文本分割数据集)
- Semantic Soft Segmentation(语义软分割)
OCR(光学字符识别)
- 经典引擎
- Tesseract OCR(经典开源引擎)
- 文本检测
- 投影分析(文本行分割)
- 连通区域分析(字符分割)
- MSER(最大稳定极值区域)
- EAST(高效场景文本检测)
- CRAFT(字符区域感知检测)
- TextSnake(弯曲文本检测)
- ABCNet(自适应贝塞尔曲线网络)
- PSENet(渐进式尺度扩展网络)
- Mask TextSpotter(掩码文本检测)
- FOTS(端到端文本检测与识别)
- 文本识别
- CRNN(卷积循环神经网络)
- CTC(连接时序分类)
- Attention OCR(基于注意力机制)
- SAR(递归注意力文字识别)
- TrOCR(Transformer OCR)
- PP - OCR(百度飞桨OCR工具)
- Rosetta(Facebook OCR系统)
- STN - OCR(空间变换网络)
- DAN(解耦注意力网络)
- TextFuseNet(多模态文本融合)
- CharNet(端到端字符级识别)
- SRN(语义推理网络)
- ParseNet(文本解析网络)
- MORAN(多方向文本识别)