semantic_segmentation/configs/setr/SETR_Naive_Large_512x512_160k_ade20k_bs_16.yaml

DATA:
    BATCH_SIZE: 2  # per GPU [total bs is set to 8 or 16]
    BATCH_SIZE_VAL: 1  # per GPU
    DATASET: 'ADE20K' # dataset name
    DATA_PATH: '/home/ssd3/wutianyi/datasets/ADEChallengeData2016'
    CROP_SIZE: (512,512)  # input_size (training)
    NUM_CLASSES: 150
MODEL:
    NAME: 'SETR_Naive'
    ENCODER:
        TYPE: 'ViT'
        OUT_INDICES: [9, 14, 19, 23]   
    PRETRAINED: './pretrain_models/backbones/vit_large_patch16_224.pdparams'
    DECODER_TYPE: 'Naive_VisionTransformerUpHead'
    PUP:
       INPUT_CHANNEL: 1024
       NUM_CONV: 2
       NUM_UPSAMPLE_LAYER: 1
       CONV3x3_CONV1x1: False
       ALIGN_CORNERS: False
    TRANS:
        PATCH_SIZE: 16
        HIDDEN_SIZE: 1024 # 768(Base), 1024(Large), 1280(Huge)
        MLP_RATIO: 4     # same as mlp_ratio = 4.0
        NUM_HEADS: 16    # 12(Base), 16(Large), 16(Huge)
        NUM_LAYERS: 24   # 12(Base), 24(Large), 32(Huge)
        QKV_BIAS: True
    AUXPUP:
       INPUT_CHANNEL: 1024
       NUM_CONV: 2
       NUM_UPSAMPLE_LAYER: 1
       CONV3x3_CONV1x1: False
       ALIGN_CORNERS: False
    AUX:
       AUXIHEAD: True
TRAIN:
    BASE_LR: 0.01
    END_LR: 1e-4
    DECODER_LR_COEF: 10.0
    ITERS: 160000
    POWER: 0.9
    DECAY_STEPS: 160000
    LR_SCHEDULER:
        NAME: 'PolynomialDecay'
    OPTIMIZER:
        GRAD_CLIP: 1.0
        WEIGHT_DECAY: 0.0
        NAME: 'SGD'
        MOMENTUM: 0.9
VAL:
    MULTI_SCALES_VAL: False
    SCALE_RATIOS: [0.5, 0.75, 1.0]                                                                                                                                                                                                            
    IMAGE_BASE_SIZE: 576
    CROP_SIZE: [512,512]
    STRIDE_SIZE: [341,341]
SAVE_DIR: "./output/SETR_Naive_Large_512x512_160k_ade20k_bs_16"