CUDA_VISIBLE_DEVICES=4,5,6,7,3,1 NPROC_PER_NODE=6 xtuner train \
  configs/slidechat/experiments_token_compressor/stage2_token_compressor_lgg.py \
  --deepspeed configs/deepspeed/deepspeed_zero2.json \
  --work-dir /data/qingq/PathVLM/baselines/github/SlideChat/models/outputs/lgg_orignal_2048maxlength_train_token_compressor \
  --local_rank 0

CUDA_VISIBLE_DEVICES=4,5,6,7,3,1 NPROC_PER_NODE=6 xtuner train \
  configs/slidechat/experiments_attn/stage2_reducer_attn_lgg.py \
  --deepspeed configs/deepspeed/deepspeed_zero2.json \
  --work-dir /data/qingq/PathVLM/baselines/github/SlideChat/models/outputs/lgg_original_2048maxlength_train_token_reducer_attn \
  --local_rank 0

CUDA_VISIBLE_DEVICES=4,5,6,7,3,1 NPROC_PER_NODE=6 xtuner train \
  configs/slidechat/experiments_attn/stage2_reducer_attn_luad.py \
  --deepspeed configs/deepspeed/deepspeed_zero2.json \
  --work-dir /data/qingq/PathVLM/baselines/github/SlideChat/models/outputs/luad_original_2048maxlength_train_token_reducer_attn \
  --local_rank 0