pure_model_weights / code /xtuner /model /llava_no_longnet_simple_sampler.py

Upload folder xtuner to code/xtuner

e5e24c9 verified 3 months ago

52.9 kB

	# Copyright (c) OpenMMLab. All rights reserved.
	import math
	import os
	import os.path as osp
	import warnings
	from collections import OrderedDict
	from functools import partial

	import numpy as np
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from accelerate import init_empty_weights
	from mmengine import print_log
	from mmengine.config import Config, ConfigDict
	from mmengine.model import BaseModel
	from peft import PeftModel, get_peft_model, prepare_model_for_kbit_training
	from peft.tuners.lora.layer import LoraLayer
	from safetensors.torch import load_file, save_file
	from torch.nn.init import trunc_normal_
	from torch.utils.checkpoint import checkpoint
	from transformers import (AddedToken, AutoConfig, CLIPImageProcessor,
	CLIPVisionModel, LlamaForCausalLM,
	LlamaTokenizerFast, LlavaConfig,
	LlavaForConditionalGeneration, LlavaProcessor)
	from transformers.integrations import is_deepspeed_zero3_enabled

	from xtuner.model.torchscale.component.multihead_attention import MultiheadAttention
	from xtuner.model.torchscale.architecture.config import EncoderConfig

	from xtuner.model.torchscale.model.pos_embed import get_2d_sincos_pos_embed
	from xtuner.registry import BUILDER
	from xtuner.utils import DEFAULT_IMAGE_TOKEN

	from .modules import ProjectorConfig, ProjectorModel, dispatch_modules
	from .modules.dispatch import SUPPORT_FLASH1, SUPPORT_FLASH2
	from .sparse_token_merge import SparsePatchMerging
	from .utils import (LoadWoInit, find_all_linear_names,
	get_peft_model_state_dict, guess_load_checkpoint,
	make_inputs_require_grad,
	prepare_inputs_labels_for_multimodal, traverse_dict)


	# --- 辅助函数 (来自您的代码，保持不变) ---
	def get_2d_sincos_pos_embed(embed_dim, grid_size, cls_token=False):
	grid_h = np.arange(grid_size, dtype=np.float32)
	grid_w = np.arange(grid_size, dtype=np.float32)
	grid = np.meshgrid(grid_w, grid_h)
	grid = np.stack(grid, axis=0)
	grid = grid.reshape([2, 1, grid_size, grid_size])
	pos_embed = get_2d_sincos_pos_embed_from_grid(embed_dim, grid)
	if cls_token:
	pos_embed = np.concatenate([np.zeros([1, embed_dim]), pos_embed], axis=0)
	return pos_embed

	def get_2d_sincos_pos_embed_from_grid(embed_dim, grid):
	assert embed_dim % 2 == 0
	emb_h = get_1d_sincos_pos_embed_from_grid(embed_dim // 2, grid[0])
	emb_w = get_1d_sincos_pos_embed_from_grid(embed_dim // 2, grid[1])
	emb = np.concatenate([emb_h, emb_w], axis=1)
	return emb

	def get_1d_sincos_pos_embed_from_grid(embed_dim, pos):
	assert embed_dim % 2 == 0
	omega = np.arange(embed_dim // 2, dtype=np.float32)
	omega /= embed_dim / 2.
	omega = 1. / 10000**omega
	pos = pos.reshape(-1)
	out = np.einsum('m,d->md', pos, omega)
	emb_sin = np.sin(out)
	emb_cos = np.cos(out)
	emb = np.concatenate([emb_sin, emb_cos], axis=1)
	return emb

	# --- 修正后的 Resampler 类 ---
	class Resampler(nn.Module):
	"""
	修正后的 Resampler 版本：
	1. 区分 query_pos_embed 和 input_pos_embed，解决变量冲突。
	2. 解除对外部 llm 模块的依赖，提高封装性。
	3. 修正 forward 方法中的位置编码应用逻辑和维度匹配。
	4. 集成梯度检查点（gradient_checkpointing）功能以节省显存。
	"""
	def __init__(
	self,
	grid_size,
	embed_dim,
	num_heads,
	slide_ngrids=1000, # 从外部传入网格大小
	kv_dim=None,
	norm_layer=partial(nn.LayerNorm, eps=1e-6),
	gradient_checkpointing=False # 控制是否启用梯度检查点
	):
	super().__init__()
	self.num_queries = grid_size ** 2
	self.embed_dim = embed_dim
	self.num_heads = num_heads
	self.slide_ngrids = slide_ngrids
	self.gradient_checkpointing = gradient_checkpointing

	# 1. 用于 Query 的位置编码 (固定，不参与训练)
	self.query_pos_embed = nn.Parameter(
	torch.from_numpy(get_2d_sincos_pos_embed(embed_dim, grid_size)).float(),
	requires_grad=False
	)

	# 2. 用于输入视觉特征的位置编码 (大 buffer，在 GPU 上生成)
	num_patches = slide_ngrids ** 2
	self.register_buffer(
	'input_pos_embed',
	torch.zeros(1, num_patches, embed_dim),
	persistent=False
	)

	# 可学习的 Query 向量
	self.query = nn.Parameter(torch.zeros(self.num_queries, embed_dim))
	trunc_normal_(self.query, std=.02)

	# KV 投影层
	if kv_dim is not None and kv_dim != embed_dim:
	self.kv_proj = nn.Linear(kv_dim, embed_dim, bias=False)
	else:
	self.kv_proj = nn.Identity()

	# 核心模块
	self.attn = nn.MultiheadAttention(embed_dim, num_heads, batch_first=True)
	# args = EncoderConfig()
	# self.attn = MultiheadAttention(args =args,
	# embed_dim= embed_dim,
	# num_heads=num_heads,
	# self_attention=False,
	# encoder_decoder_attention=True,
	# )

	self.ln_q = norm_layer(embed_dim)
	self.ln_kv = norm_layer(embed_dim)
	self.ln_post = norm_layer(embed_dim)
	self.proj = nn.Parameter((embed_dim ** -0.5) * torch.randn(embed_dim, embed_dim))

	# 初始化权重和输入位置编码
	self.apply(self._init_weights)
	self.initialize_input_pe_weights()

	def _init_weights(self, m):
	if isinstance(m, nn.Linear):
	trunc_normal_(m.weight, std=.02)
	if m.bias is not None:
	nn.init.constant_(m.bias, 0)
	elif isinstance(m, nn.LayerNorm):
	nn.init.constant_(m.bias, 0)
	nn.init.constant_(m.weight, 1.0)

	@torch.no_grad()
	def initialize_input_pe_weights(self, chunk_rows: int = 64, chunk_cols: int = 64):
	H = W = self.slide_ngrids
	D = self.embed_dim
	assert D % 4 == 0, "embed_dim 必须是 4 的倍数，才能和 numpy 实现严格对应。"

	device = self.input_pos_embed.device
	dtype64 = torch.float64

	if self.input_pos_embed.shape != (1, H * W, D):
	self.input_pos_embed.resize_(1, H * W, D)

	pos4d = self.input_pos_embed.view(1, H, W, D)

	k = D // 4
	inv = 1.0 / (10000 ** (torch.arange(k, device=device, dtype=dtype64) / k))

	y_lin = torch.arange(H, device=device, dtype=dtype64)
	x_lin = torch.arange(W, device=device, dtype=dtype64)

	y_phase = y_lin.unsqueeze(1) * inv.unsqueeze(0)
	x_phase = x_lin.unsqueeze(1) * inv.unsqueeze(0)
	y_enc = torch.cat([torch.sin(y_phase), torch.cos(y_phase)], dim=1)
	x_enc = torch.cat([torch.sin(x_phase), torch.cos(x_phase)], dim=1)

	for r0 in range(0, H, chunk_rows):
	r1 = min(r0 + chunk_rows, H)
	R = r1 - r0
	y_chunk = y_enc[r0:r1].unsqueeze(1)

	for c0 in range(0, W, chunk_cols):
	c1 = min(c0 + chunk_cols, W)
	C = c1 - c0
	x_chunk = x_enc[c0:c1].unsqueeze(0)
	emb_rc = torch.cat([
	x_chunk.expand(R, C, 2 * k),
	y_chunk.expand(R, C, 2 * k)
	], dim=2)
	pos4d[0, r0:r1, c0:c1, :].copy_(emb_rc.to(pos4d.dtype))

	def _checkpointed_forward(self, q_embed, kv_embed):
	# 封装 attention 和后续层，用于梯度检查点
	# q_embed: [num_queries, N, C], kv_embed: [L, N, C]
	# print(f"_checkpointed_forward q_embed shape: {q_embed.shape}, kv_embed shape: {kv_embed.shape}")
	attn_out = self.attn(q_embed, kv_embed, kv_embed)[0]
	permuted_out = attn_out
	ln_out = self.ln_post(permuted_out)
	proj_out = ln_out @ self.proj
	return proj_out

	def forward(self, x, coords_rc, attn_mask=None):
	# x shape: [N, L, C], coords_rc: [L, 2] (row, col indices)

	# 1. 从 buffer 中根据坐标索引，为输入 tokens 获取位置编码
	# .squeeze(0) 移除批次维度，然后进行索引
	# print(f"Resampler input x shape: {x.shape}, coords_rc shape: {coords_rc.shape}")
	pos_indices = (coords_rc[..., 0] * self.slide_ngrids + coords_rc[..., 1]).long()
	# print(f"Resampler input pos_indices shape: {pos_indices.shape}, values: {pos_indices}")
	input_pos = self.input_pos_embed[:, pos_indices, :].squeeze(0) # Shape: [L, C]
	# print(f"Resampler input_pos shape: {input_pos.shape}")

	# [MODIFIED] 直接在 (N, L, C) 格式上操作，不再需要 permute
	x = self.kv_proj(x)
	kv_embed = self.ln_kv(x)

	N = x.shape[0]
	q = self.ln_q(self.query) # Shape: [num_queries, C]

	# [MODIFIED] 调整维度扩展方式以适应 batch-first
	# 将 query 从 [num_queries, C] 扩展到 [N, num_queries, C]
	q_embed = q.unsqueeze(0).expand(N, -1, -1) + self.query_pos_embed.unsqueeze(0)

	# [MODIFIED] 将 input_pos 从 [L, C] 扩展到 [1, L, C] 以便与 kv_embed [N, L, C] 相加
	kv_embed = kv_embed + input_pos

	if self.training and self.gradient_checkpointing:
	q_embed.requires_grad_(True)
	kv_embed.requires_grad_(True)
	out = checkpoint(self._checkpointed_forward, q_embed, kv_embed, use_reentrant=False)
	else:
	out = self._checkpointed_forward(q_embed, kv_embed)

	return out

	def enable_input_require_grads(self):
	print_log("enable input required grads for projector", 'current')

	def make_inputs_require_grad(module, input, output):
	output.requires_grad_(True)

	self.model.register_forward_hook(make_inputs_require_grad)

	def gradient_checkpointing_enable(self):
	self.gradient_checkpointing = True

	def gradient_checkpointing_disable(self):
	self.gradient_checkpointing = False

	def _repeat(self, query, N: int):
	return query.unsqueeze(1).repeat(1, N, 1)
	# =================================================================================================
	# End of Resampler code
	# =================================================================================================


	def convert_state_dict_to_hf(state_dict, mapping):
	new_state_dict = {}
	for key, value in state_dict.items():
	if key.endswith('.inv_freq'):
	continue
	for key_to_modify, new_key in mapping.items():
	if key_to_modify in key:
	key = key.replace(key_to_modify, new_key)
	new_state_dict[key] = value
	return new_state_dict

	class AdaptiveAvgPool1dLayer(nn.Module):
	def __init__(self, output_size):
	super(AdaptiveAvgPool1dLayer, self).__init__()
	self.output_size = output_size

	def forward(self, x):
	return F.adaptive_avg_pool1d(x, self.output_size)


	class LLaVAModel(BaseModel):

	def __init__(self,
	llm,
	freeze_llm=True,
	visual_select_layer=-2,
	pretrained_pth=None,
	projector_depth=2,
	llm_lora=None,
	visual_encoder_lora=None,
	use_activation_checkpointing=True,
	max_position_embeddings=None,
	hidden_size=512,
	train_stage='2',

	# slide/pos-embed 参数
	slide_ngrids=1000,
	tile_size=224,

	# 各子模块权重路径
	projector_pth=None,
	resampler_pth=None,
	token_merge_pth=None,

	# Token Merge
	enable_token_merge=True,

	# Resampler 配置
	use_resampler=True,
	resampler_num_latents=256,
	resampler_heads = 16,

	# === 新增：Stage-2 冻结选项 ===
	freeze_mm_in_stage2=False, # 总开关：在 stage-2 冻结 projector / resampler / token_merge
	freeze_projector_stage2=None, # 子开关（None 表示跟随总开关）
	freeze_resampler_stage2=None, # 子开关（None 表示跟随总开关）
	freeze_token_merge_stage2=None # 子开关（None 表示跟随总开关）
	):
	super().__init__()

	self.freeze_llm = freeze_llm
	self.freeze_visual_encoder = True
	self.tile_size = tile_size

	# 训练阶段控制
	if train_stage == '0':
	print_log('train_stage == 0', 'current')
	self.freeze_llm = True
	if train_stage == '1':
	print_log('train_stage == 1', 'current')
	self.freeze_llm = True
	elif train_stage == '2':
	print_log('train_stage == 2', 'current')
	self.freeze_llm = False

	# 解析 stage-2 的冻结意图
	def _resolve(flag):
	return freeze_mm_in_stage2 if flag is None else bool(flag)
	self._freeze_projector_in_s2 = _resolve(freeze_projector_stage2)
	self._freeze_resampler_in_s2 = _resolve(freeze_resampler_stage2)
	self._freeze_token_merge_in_s2 = _resolve(freeze_token_merge_stage2)

	# 构建 / 派发 LLM
	with LoadWoInit():
	if isinstance(llm, dict):
	llm = self._dispatch_lm_model_cfg(llm, max_position_embeddings)
	self.llm = self._build_from_cfg_or_module(llm)

	self.llm.config.use_cache = False
	dispatch_modules(self.llm)

	# Token Merge
	self.enable_token_merge = enable_token_merge
	if self.enable_token_merge:
	self.token_merge = SparsePatchMerging(
	embed_dim=hidden_size,
	layernorm_eps=1e-6,
	merge_size=2
	)

	# Projector
	self.projector_depth = projector_depth
	projector_config = ProjectorConfig(
	visual_hidden_size=hidden_size * 4 if self.enable_token_merge else hidden_size,
	llm_hidden_size=self.llm.config.hidden_size,
	depth=self.projector_depth
	)
	self.projector = ProjectorModel(projector_config).to(self.llm.dtype)
	self.projector.requires_grad_(True)

	# Resampler
	self.use_resampler = use_resampler
	self.slide_ngrids = slide_ngrids
	if self.use_resampler:
	self.resampler_num_latents = resampler_num_latents
	print_log(f'using simple Resampler with {resampler_num_latents} latents', 'current')
	self.resampler = Resampler(
	grid_size=int(math.sqrt(self.resampler_num_latents)),
	embed_dim=self.llm.config.hidden_size,
	num_heads=resampler_heads,
	kv_dim=self.llm.config.hidden_size,
	).to(self.llm.dtype)


	# 冻结 LLM
	if self.freeze_llm:
	print('freeze_llm')
	self.llm.requires_grad_(False)

	# 激活检查点（按需对冻结模块跳过 input-grad 使能）
	if use_activation_checkpointing:
	if hasattr(self.llm, 'enable_input_require_grads'):
	self.llm.enable_input_require_grads()
	else:
	self.llm.get_input_embeddings().register_forward_hook(make_inputs_require_grad)

	# Resampler is a simple nn.Module and does not have this method.
	# If checkpointing is desired for it, its forward pass should be wrapped.
	# For this modification, we will omit its specific checkpointing setup.

	_projector_frozen = (train_stage == '2' and self._freeze_projector_in_s2)
	if not _projector_frozen:
	print('enable projector input require grads')
	print_log('enable projector input require grads', 'current')
	self.projector.enable_input_require_grads()
	else:
	print_log('[stage-2] Skipping projector.enable_input_require_grads() (frozen)', 'current')

	# 启用激活检查点
	self.gradient_checkpointing_enable()

	# LoRA
	self.use_llm_lora = llm_lora is not None
	self.use_visual_encoder_lora = None
	if self.use_llm_lora:
	print_log(f"Building lora {llm_lora.__str__}", "current")
	self._prepare_llm_for_lora(llm_lora, use_activation_checkpointing)
	self.verify_lora()

	# 加载 token_merge / projector / resampler 的 safetensors
	if token_merge_pth is not None and enable_token_merge and hasattr(self, 'token_merge'):
	print_log(f'loading token_merge from {token_merge_pth}', 'current')
	merger_sd = load_file(token_merge_pth, device='cpu')
	self.token_merge.load_state_dict(merger_sd, strict=False)
	self.token_merge.to(self.llm.dtype)

	if projector_pth is not None:
	print_log(f"Loading projector from {projector_pth}", "current")
	proj_sd = load_file(projector_pth, device="cpu")
	self.projector.load_state_dict(proj_sd, strict=False)
	self.projector.to(self.llm.dtype)

	if resampler_pth is not None and self.use_resampler and hasattr(self, 'resampler'):
	print_log(f'Loading resampler from {resampler_pth}', 'current')
	resampler_sd = load_file(resampler_pth, device="cpu")
	self.resampler.load_state_dict(resampler_sd, strict=False)
	self.resampler.to(self.llm.dtype)

	# 额外加载 float 权重（可选）
	if pretrained_pth is not None:
	sd = guess_load_checkpoint(pretrained_pth)
	model_sd = self.state_dict()
	filtered = {k: v for k, v in sd.items() if k in model_sd and model_sd[k].shape == v.shape}
	missing, unexpected = self.load_state_dict(filtered, strict=False)
	print_log(f"Loaded float ckpt from {pretrained_pth}", "current")
	print_log(f" missing: {missing}", "current")
	print_log(f" unexpected:{unexpected}", "current")

	# 记录可视层
	self.visual_select_layer = visual_select_layer

	# 初始化标志
	self._is_init = True
	self.is_first_iter = True

	# === 关键新增：在 Stage-2 按需冻结三个多模态子模块 ===
	if train_stage == '2':
	# projector
	if hasattr(self, 'projector') and self._freeze_projector_in_s2:
	self.projector.requires_grad_(False)
	self.projector.eval()
	print_log('[stage-2] Freezing projector parameters', 'current')

	# resampler
	if getattr(self, 'use_resampler', False) and hasattr(self, 'resampler') and self._freeze_resampler_in_s2:
	self.resampler.requires_grad_(False)
	self.resampler.eval()
	print_log('[stage-2] Freezing resampler parameters', 'current')

	# token_merge
	if getattr(self, 'enable_token_merge', False) and hasattr(self, 'token_merge') and self._freeze_token_merge_in_s2:
	self.token_merge.requires_grad_(False)
	self.token_merge.eval()
	print_log('[stage-2] Freezing token_merge parameters', 'current')




	def _parse_lora_config(self, lora_config):
	if isinstance(lora_config, dict) or isinstance(
	lora_config, Config) or isinstance(lora_config, ConfigDict):
	lora_config = BUILDER.build(lora_config)
	return lora_config

	def _init_weights(self, m):
	if isinstance(m, nn.Linear):
	# we use xavier_uniform following official JAX ViT:
	torch.nn.init.xavier_uniform_(m.weight)
	if isinstance(m, nn.Linear) and m.bias is not None:
	nn.init.constant_(m.bias, 0)
	elif isinstance(m, nn.LayerNorm):
	nn.init.constant_(m.bias, 0)
	nn.init.constant_(m.weight, 1.0)

	def _prepare_llm_for_lora(self,
	lora_config,
	use_activation_checkpointing=True):
	lora_config = self._parse_lora_config(lora_config)
	self.llm = prepare_model_for_kbit_training(
	self.llm, use_activation_checkpointing)
	if lora_config.target_modules is None:
	modules = find_all_linear_names(self.llm)
	lora_config.target_modules = modules
	self.llm = get_peft_model(self.llm, lora_config)

	def verify_lora(self):
	m = self.llm

	# 1) Wrapped as a PEFT model
	assert isinstance(m, PeftModel), "LoRA not applied: model is not a PeftModel"

	# 2) Adapters are registered and active
	adapters = m.peft_config # dict: {adapter_name: LoraConfig}
	assert len(adapters) > 0, "No adapters registered in peft_config"
	active = m.active_adapter if hasattr(m, "active_adapter") else None
	assert active in adapters, f"Active adapter {active} not found in peft_config"

	# 3) LoRA layers are present on target modules
	lora_modules = [mod for mod in m.modules() if isinstance(mod, LoraLayer)]
	assert len(lora_modules) > 0, "No LoraLayer modules found (check target_modules)"

	# 4) LoRA params are the only trainable ones (typical for QLoRA)
	trainable = [(n,p) for n,p in m.named_parameters() if p.requires_grad]
	assert len(trainable) > 0, "No trainable parameters (LoRA params are not set to requires_grad=True)"
	# Optional: sanity-check that trainable params look like LoRA
	suspicious = [n for n,_ in trainable if "lora_" not in n and "modules_to_save" not in n]
	# It's okay if you intentionally left some modules_to_save; adjust as needed.
	assert len(suspicious) == 0, f"Unexpected trainable params (not LoRA): {suspicious[:5]}"

	# 5) Quick count + readable log
	total = sum(p.numel() for _,p in m.named_parameters())
	trainable_cnt = sum(p.numel() for _,p in trainable)
	ratio = trainable_cnt / total
	print(f"[LoRA OK] adapters={list(adapters.keys())}, active={active}, "
	f"LoraLayers={len(lora_modules)}, trainable={trainable_cnt}/{total} ({ratio:.4%})")

	# 6) Forward+backward smoke test to confirm gradients flow to LoRA only
	m.train()
	dummy_inp = torch.randint(0, m.get_input_embeddings().num_embeddings, (1, 8)).to(next(m.parameters()).device)
	out = m(input_ids=dummy_inp, labels=dummy_inp)
	out.loss.backward() # should not error
	# Ensure some LoRA grads exist
	lora_grads = [p.grad for _,p in m.named_parameters() if p.requires_grad and p.grad is not None]
	assert len(lora_grads) > 0, "No gradients on LoRA parameters after backward()"

	def _prepare_visual_encoder_for_lora(self,
	lora_config,
	use_activation_checkpointing=True):
	lora_config = self._parse_lora_config(lora_config)
	if lora_config.target_modules is None:
	modules = find_all_linear_names(self.visual_encoder)
	lora_config.target_modules = modules
	self.visual_encoder = get_peft_model(self.visual_encoder, lora_config)

	def gradient_checkpointing_enable(self, use_reentrant=False):
	self.activation_checkpointing_enable(use_reentrant=use_reentrant)

	def activation_checkpointing_enable(self, use_reentrant=False):
	# LLM
	try:
	self.llm.gradient_checkpointing_enable(use_reentrant=use_reentrant)
	except TypeError:
	# older HF versions
	self.llm.gradient_checkpointing_enable()

	# projector
	try:
	self.projector.gradient_checkpointing_enable(use_reentrant=use_reentrant)
	except TypeError:
	self.projector.gradient_checkpointing_enable()

	if getattr(self, 'use_resampler', False) and getattr(self, 'resampler', None) is not None:
	try:
	self.resampler.gradient_checkpointing_enable(use_reentrant=use_reentrant)
	except:
	self.resampler.gradient_checkpointing_enable()


	def gradient_checkpointing_disable(self):
	self.activation_checkpointing_disable()

	def activation_checkpointing_disable(self):
	self.llm.gradient_checkpointing_disable()
	self.projector.gradient_checkpointing_disable()
	if getattr(self, 'use_resampler', False) and getattr(self, 'resampler', None) is not None:
	self.resampler.gradient_checkpointing_disable()


	def init_weights(self):
	pass

	def state_dict(self, args, *kwargs):
	state_dict = super().state_dict(args, *kwargs)
	to_return = OrderedDict()
	# Step 1. visual_encoder
	if self.use_visual_encoder_lora:
	to_return.update(
	get_peft_model_state_dict(
	self.visual_encoder, state_dict=state_dict))
	elif not self.freeze_visual_encoder:
	to_return.update({
	k: v
	for k, v in state_dict.items() if 'visual_encoder.' in k
	})
	# Step 2. LLM
	if self.use_llm_lora:
	to_return.update(
	get_peft_model_state_dict(self.llm, state_dict=state_dict))

	elif not self.freeze_llm:
	to_return.update(
	{k: v
	for k, v in state_dict.items() if 'llm.' in k})
	# Step 3. Projector
	to_return.update(
	{k: v
	for k, v in state_dict.items() if 'projector.' in k})

	# Step 4. Resampler
	if getattr(self, 'use_resampler', False) and getattr(self, 'resampler', None) is not None:
	to_return.update({k: v for k, v in state_dict.items() if 'resampler.' in k})

	# step 5 token merger
	if getattr(self, 'token_merge', False):
	to_return.update({k: v for k, v in state_dict.items() if 'token_merge.' in k})
	return to_return

	@staticmethod
	def _prepare_for_long_context_training(cfg, llm_cfg,
	max_position_embeddings):

	orig_rope_scaling = getattr(llm_cfg, 'rope_scaling', None)
	if orig_rope_scaling is None:
	orig_rope_scaling = {'factor': 1}

	orig_rope_scaling_factor = orig_rope_scaling[
	'factor'] if 'factor' in orig_rope_scaling.keys() else 1
	orig_ctx_len = getattr(llm_cfg, 'max_position_embeddings', None)
	if orig_ctx_len:
	orig_ctx_len *= orig_rope_scaling_factor
	if max_position_embeddings > orig_ctx_len:
	scaling_factor = float(
	math.ceil(max_position_embeddings / orig_ctx_len))
	llm_cfg.rope_scaling = {
	'type': 'linear',
	'factor': scaling_factor
	}

	# hardcode for internlm2
	llm_cfg.attn_implementation = 'flash_attention_2'
	cfg.config = llm_cfg

	return cfg, llm_cfg

	@staticmethod
	def _prepare_for_flash_attn(cfg, llm_cfg):
	cls_name = type(llm_cfg).__name__
	SUPPORT_SDPA_ATTN = ('LlamaConfig', 'GemmaConfig', 'MistralConfig',
	'MixtralConfig', 'Qwen2Config', 'Qwen2MoeConfig',
	'Starcoder2Config', 'Starcoder2Config',
	'Phi3Config')
	SUPPORT_FLASH_ATTN2 = ('InternLM2Config', 'LlamaConfig', 'GemmaConfig',
	'MistralConfig', 'MixtralConfig', 'Qwen2Config',
	'Qwen2MoeConfig', 'Starcoder2Config',
	'Starcoder2Config', 'Phi3Config')

	torch_dtype = torch.bfloat16 if (
	torch.cuda.is_available() and torch.cuda.is_bf16_supported()) \
	else torch.float16

	if getattr(cfg, 'attn_implementation', None) is not None:
	# Flash Attention 2.0 only supports torch.float16 and
	# torch.bfloat16 dtypes
	if cfg.attn_implementation == 'flash_attention_2':
	cfg.torch_dtype = torch_dtype
	elif SUPPORT_FLASH2 and cls_name in SUPPORT_FLASH_ATTN2:
	cfg.torch_dtype = torch_dtype
	cfg.attn_implementation = 'flash_attention_2'
	elif SUPPORT_FLASH1 and cls_name in SUPPORT_SDPA_ATTN:
	cfg.attn_implementation = 'sdpa'

	return cfg, llm_cfg

	@staticmethod
	def _prepare_for_qlora_zero3(cfg):
	if (not is_deepspeed_zero3_enabled()) or (not hasattr(
	cfg, 'quantization_config')):
	return cfg

	torch_dtype = torch.bfloat16 if (
	torch.cuda.is_available() and torch.cuda.is_bf16_supported()) \
	else torch.float16

	cfg.torch_dtype = torch_dtype
	quantization_config = cfg.quantization_config
	quantization_config.bnb_4bit_compute_dtype = torch_dtype
	quantization_config.bnb_4bit_quant_storage = torch_dtype

	return cfg

	def _dispatch_lm_model_cfg(self, cfg, max_position_embeddings=None):
	cfg = self._prepare_for_qlora_zero3(cfg)
	pretrained_model_name_or_path = cfg.pretrained_model_name_or_path
	llm_cfg = AutoConfig.from_pretrained(
	pretrained_model_name_or_path, trust_remote_code=True)

	cfg, llm_cfg = self._prepare_for_flash_attn(cfg, llm_cfg)
	if max_position_embeddings is not None:
	cfg, llm_cfg = self._prepare_for_long_context_training(
	cfg, llm_cfg, max_position_embeddings)
	return cfg

	def _build_from_cfg_or_module(self, cfg_or_mod):
	if isinstance(cfg_or_mod, nn.Module):
	return cfg_or_mod
	elif isinstance(cfg_or_mod, dict):
	traverse_dict(cfg_or_mod)
	return BUILDER.build(cfg_or_mod)
	else:
	raise NotImplementedError

	def coords_to_pos(self, coords, tile_size: int = 224):
	"""
	This function is used to convert the coordinates to the positional indices

	Arguments:
	----------
	coords: torch.Tensor
	The coordinates of the patches, of shape [N, L, 2]
	output: torch.Tensor
	The positional indices of the patches, of shape [N, L]
	"""
	coords_ = torch.floor(coords / tile_size)
	pos = coords_[..., 0] * self.slide_ngrids + coords_[..., 1]
	return pos.long() # add 1 for the cls token

	@staticmethod
	def _coords_rc_to_pos(coords_rc: torch.Tensor, ngrids: int) -> torch.Tensor:
	if coords_rc.dtype.is_floating_point:
	coords_rc = coords_rc.round().to(torch.long)
	# row = coords_rc[:, 0].clamp_(0, ngrids-1)
	# col = coords_rc[:, 1].clamp_(0, ngrids-1)
	return (coords_rc[..., 0] * ngrids + coords_rc[..., 1]).long() # +1 for cls

	def forward(self, data, data_samples=None, mode='loss'):
	if self.is_first_iter:
	# hardcode for qlora DeepSpeed ZeRO3, put buffers and QuantState to
	# device
	# Only required in `LLaVAModel` .
	# We do not need this in `SupervisedFinetune` .
	self.to(data['input_ids'].device)
	self.is_first_iter = False
	coords = None

	if 'pixel_values' in data:

	feat_to_proj = data['pixel_values'].to(self.llm.dtype) # torch.Size([1, img_num, 512])
	# ensure requires_grad for gradient checkpointing
	feat_to_proj.requires_grad_(True)

	if 'coords' in data:
	coords = data['coords'].to(self.llm.dtype)
	# Accept: list[tensor], [L,2] tensor, or [B,L,2] tensor
	coords_t = coords[0] if isinstance(coords, list) else coords
	Bx = feat_to_proj.size(0) # actual batch size of inputs
	if not torch.is_tensor(coords_t):
	raise ValueError("coords must be a Tensor or list[Tensor].")

	if coords_t.dim() == 2:
	# [L, 2]
	coords_rc = coords_t
	elif coords_t.dim() == 3:
	# [B, L, 2] -> ensure B matches and either B==1 or all examples share coords
	if coords_t.size(0) != Bx:
	raise ValueError(f"coords batch dim mismatch: got {coords_t.size(0)} but inputs have B={Bx}")
	if Bx == 1:
	coords_rc = coords_t[0]
	else:
	# require same coords across the batch (cheap equality check)
	if not torch.equal(coords_t, coords_t[0].unsqueeze(0).expand_as(coords_t)):
	raise NotImplementedError(
	"Per-example coords (varying across batch) are not supported by the current "
	"patch-merging/layout path. Use batch size 1 or share coords across the batch."
	)
	coords_rc = coords_t[0]
	else:
	raise ValueError("coords must have shape [L,2] or [B,L,2].")

	if coords_rc.size(-1) != 2:
	raise ValueError("coords last dimension must be 2.")
	else:
	raise RuntimeError

	# only works for batch size one
	if self.enable_token_merge:
	feat_to_proj, coords_rc_merged, _ = self.token_merge(
	x=feat_to_proj,
	coords_rc=self._coords_to_rowcol(coords_rc),
	padmask=torch.zeros([feat_to_proj.size(0), feat_to_proj.size(1)],
	device=feat_to_proj.device, dtype=torch.bool)
	)
	# print(f"After token_merge, feat_to_proj: {feat_to_proj.shape}, coords_rc_merged: {coords_rc_merged.shape}")
	else:
	coords_rc_merged = self._coords_to_rowcol(coords_rc)
	padmask_merged = torch.zeros([feat_to_proj.size(0), feat_to_proj.size(1)],
	device=feat_to_proj.device, dtype=torch.bool)

	pixel_values = self.projector(feat_to_proj.to(self.llm.dtype)) # output shape [1, patch_num, hidden_size]
	# print(f"After projector, pixel_values: {pixel_values.shape}")
	if self.use_resampler and getattr(self, 'resampler', None) is not None:
	pixel_values = self.resampler(pixel_values, coords_rc_merged,
	attn_mask= None) # [1, num_latents, hidden_size]

	data['pixel_values'] = pixel_values

	# remove coords
	data.pop('coords', None)

	data = prepare_inputs_labels_for_multimodal(llm=self.llm, **data)

	if mode == 'loss':
	return self.compute_loss(data, data_samples)
	elif mode == 'predict':
	return self.predict(data, data_samples)
	elif mode == 'tensor':
	return self._forward(data, data_samples)
	else:
	raise NotImplementedError

	@staticmethod
	def _coords_to_rowcol(coords_xy: torch.Tensor) -> torch.Tensor:
	with torch.no_grad():
	x = coords_xy[:, 0]
	y = coords_xy[:, 1]
	x_for_unique = x
	y_for_unique = y
	if x_for_unique.dtype.is_floating_point:
	x_for_unique = x_for_unique.round().to(torch.int)
	y_for_unique = y_for_unique.round().to(torch.int)
	x_sorted = torch.unique(x_for_unique, sorted=True)
	y_sorted = torch.unique(y_for_unique, sorted = True)

	col = torch.searchsorted(x_sorted, x)
	row = torch.searchsorted(y_sorted, y)
	return torch.stack([row, col], dim=-1)

	def _forward(self, data, data_samples=None):

	outputs = self.llm(**data)

	return outputs

	def predict(self, data, data_samples=None):
	outputs = self.llm(**data)
	logits_dict = [{'logits': logits} for logits in outputs.logits]
	return logits_dict

	def compute_loss(self, data, data_samples=None):
	"""
	计算损失的修改版实现。
	该版本通过计算批次中每个样本的平均损失来解决长短文本的梯度失衡问题，
	使得每个样本对总损失的贡献相等，无论其token长度如何。
	"""
	# 如果 HF 模型可以自己处理，则直接返回
	if "labels" not in data:
	outputs = self.llm(**data)
	return {"loss": outputs.loss}

	# 将 labels 从 data 中分离出来，避免其被直接传递给模型
	labels = data.pop("labels")

	# 模型前向传播，获取 logits
	outputs = self.llm(**data)
	logits = outputs.logits

	# 验证 logits 和 labels 的形状是否匹配
	if logits.shape[:-1] != labels.shape:
	raise ValueError(
	f"Logits and labels shape mismatch. Logits: {logits.shape}, Labels: {labels.shape}"
	)

	# 将 Logits 和 Labels 的 batch 维度移动到第一维，方便迭代
	# logits: [B, L, V] -> [L, B, V]
	# labels: [B, L] -> [L, B]
	shift_logits = logits[..., :-1, :].contiguous()
	shift_labels = labels[..., 1:].contiguous()

	# 使用 cross_entropy 计算每个 token 的损失，但不对其进行任何聚合 (reduction='none')
	# 这将返回一个与 shift_labels 形状相同的损失张量
	loss = F.cross_entropy(
	shift_logits.view(-1, shift_logits.size(-1)),
	shift_labels.view(-1),
	ignore_index=-100,
	reduction='none'
	)

	# 将损失张量 reshape 回 [B, L-1]
	loss = loss.view(shift_logits.size(0), -1)

	# 对每个样本（每个序列）分别计算平均损失
	# 统计每个样本中有效（非-100）的 token 数量
	num_tokens_per_sample = (shift_labels != -100).sum(dim=1)

	# 计算每个样本的总损失
	loss_per_sample = loss.sum(dim=1)

	# 避免除以零
	valid_samples_mask = num_tokens_per_sample > 0

	# 初始化每个样本的平均损失
	mean_loss_per_sample = torch.zeros_like(loss_per_sample)

	# 只对有效的样本计算平均损失
	if valid_samples_mask.any():
	mean_loss_per_sample[valid_samples_mask] = loss_per_sample[valid_samples_mask] / num_tokens_per_sample[valid_samples_mask]

	# 最终的损失是所有样本平均损失的平均值
	final_loss = mean_loss_per_sample.mean()

	return {"loss": final_loss}



	def __getattr__(self, name: str):
	try:
	return super().__getattr__(name)
	except AttributeError:
	return getattr(self.llm, name)

	def to_hf(self,
	cfg,
	save_dir,
	fp32=False,
	save_pretrained_kwargs={},
	save_format='xtuner',
	**kwargs):
	if save_format == 'xtuner':
	self.to_xtuner_llava(cfg, save_dir, fp32, save_pretrained_kwargs)
	elif save_format == 'huggingface':
	self.to_huggingface_llava(cfg, save_dir, fp32,
	save_pretrained_kwargs)
	elif save_format == 'official':
	self.to_official_llava(cfg, save_dir, fp32, save_pretrained_kwargs)
	else:
	raise NotImplementedError

	def to_xtuner_llava(self,
	cfg,
	save_dir,
	fp32=False,
	save_pretrained_kwargs={}):
	# LLM
	self.llm.config.use_cache = True
	if not fp32:
	print_log('Convert LLM to float16', 'current')
	self.llm.half()
	if self.use_llm_lora:
	llm_path = osp.join(save_dir, 'llm_adapter')
	print_log(f'Saving LLM adapter to {llm_path}', 'current')
	self.llm.save_pretrained(llm_path, **save_pretrained_kwargs)
	elif not self.freeze_llm:
	llm_path = save_dir
	print_log(f'Saving LLM tokenizer to {llm_path}', 'current')
	tokenizer = BUILDER.build(cfg.tokenizer)
	tokenizer.save_pretrained(llm_path, **save_pretrained_kwargs)
	print_log(f'Saving LLM to {llm_path}', 'current')
	self.llm.save_pretrained(llm_path, **save_pretrained_kwargs)
	self.llm.config.use_cache = False

	# Visual Encoder
	if self.use_visual_encoder_lora:
	visual_encoder_path = osp.join(save_dir, 'visual_encoder_adapter')
	print_log(
	f'Saving visual_encoder adapter to {visual_encoder_path}',
	'current')
	self.visual_encoder.save_pretrained(visual_encoder_path,
	**save_pretrained_kwargs)
	elif not self.freeze_visual_encoder:
	visual_encoder_path = osp.join(save_dir, 'visual_encoder')
	print_log(
	'Saving visual_encoder image_processor to'
	f'{visual_encoder_path}', 'current')
	image_processor = BUILDER.build(cfg.image_processor)
	image_processor.save_pretrained(visual_encoder_path,
	**save_pretrained_kwargs)
	print_log(f'Saving visual_encoder to {visual_encoder_path}',
	'current')
	self.visual_encoder.save_pretrained(visual_encoder_path,
	**save_pretrained_kwargs)

	# Projector
	projector_path = osp.join(save_dir, 'projector')
	print_log(f'Saving projector to {projector_path}', 'current')
	os.makedirs(projector_path, exist_ok=True)
	output_path = os.path.join(projector_path, 'projector.safetensors')
	save_file(self.projector.state_dict(), output_path)

	if self.use_resampler and hasattr(self, 'resampler'):

	resampler_path = osp.join(save_dir, "resampler")
	print_log(f'Saving Resampler to {resampler_path}', 'current')
	os.makedirs(resampler_path, exist_ok=True)
	resampler_output_path = os.path.join(resampler_path, 'resampler.safetensors')
	save_file(self.resampler.state_dict(), resampler_output_path)

	if self.enable_token_merge and hasattr(self, 'token_merge'):
	merger_path = osp.join(save_dir, 'token_merger')
	print_log(f'Saving token merger to{merger_path}', 'current')
	os.makedirs(merger_path, exist_ok= True)
	merger_path = os.path.join(merger_path, 'merger.safetensors')
	save_file(self.token_merge.state_dict(), merger_path)

	def to_huggingface_llava(self,
	cfg,
	save_dir,
	fp32=False,
	save_pretrained_kwargs={}):

	if self.use_resampler:
	warnings.warn("Conversion to HuggingFace LLaVA format with a custom resampler is not supported. "
	"The resampler weights will not be saved.")

	LLM_MAPPING = {
	'model': 'language_model.model',
	'lm_head': 'language_model.lm_head',
	}
	VIT_MAPPING = {
	'vision_model': 'vision_tower.vision_model',
	}
	PROJECTOR_MAPPING = {
	'model.0': 'multi_modal_projector.linear_1',
	'model.2': 'multi_modal_projector.linear_2',
	}

	assert getattr(self.llm, 'hf_quantizer', None) is None, \
	'This conversion format does not support quantized LLM.'

	# get state_dict
	llm = self.llm
	if self.use_llm_lora:
	llm = self.llm.merge_and_unload()
	llm.config.use_cache = True
	if not fp32:
	print_log('Convert LLM to float16', 'current')
	llm.half()

	assert isinstance(llm, LlamaForCausalLM), \
	'This conversion format only supports LlamaForCausalLM.'
	llm_state_dict = llm.state_dict()
	llm_state_dict = convert_state_dict_to_hf(llm_state_dict, LLM_MAPPING)

	need_visual_encoder = (not self.freeze_visual_encoder
	or self.use_visual_encoder_lora)
	visual_encoder = self.visual_encoder
	if self.use_visual_encoder_lora:
	visual_encoder = self.visual_encoder.merge_and_unload()
	assert isinstance(visual_encoder, CLIPVisionModel),\
	'This conversion format only supports CLIPVisionModel.'
	if need_visual_encoder:
	visual_encoder_state_dict = visual_encoder.state_dict()
	visual_encoder_state_dict = convert_state_dict_to_hf(
	visual_encoder_state_dict, VIT_MAPPING)
	else:
	visual_encoder_state_dict = {}

	projector_state_dict = self.projector.state_dict()
	projector_state_dict = convert_state_dict_to_hf(
	projector_state_dict, PROJECTOR_MAPPING)

	state_dict = {
	**projector_state_dict,
	**llm_state_dict,
	**visual_encoder_state_dict,
	}

	# init model
	text_config = llm.config
	vision_config = visual_encoder.config
	config = LlavaConfig(
	text_config=text_config,
	vision_config=vision_config,
	attn_implementation='eager')

	with init_empty_weights():
	with warnings.catch_warnings():
	warnings.filterwarnings(
	'ignore', message='.non-meta.', category=UserWarning)
	model = LlavaForConditionalGeneration(config)
	model.load_state_dict(state_dict, strict=False, assign=True) # strict=False to ignore missing resampler

	# processor
	cfg.tokenizer.type = LlamaTokenizerFast.from_pretrained
	tokenizer = BUILDER.build(cfg.tokenizer)

	tokenizer.add_tokens(
	AddedToken(DEFAULT_IMAGE_TOKEN, special=True, normalized=False),
	special_tokens=True)
	tokenizer.add_special_tokens({'pad_token': '<pad>'})

	image_processor = BUILDER.build(cfg.image_processor)
	assert isinstance(image_processor, CLIPImageProcessor),\
	'This conversion format only supports CLIPImageProcessor.'

	processor = LlavaProcessor(
	tokenizer=tokenizer, image_processor=image_processor)

	# Pad to 64 for performance reasons
	pad_shape = 64

	pre_expansion_embeddings = \
	model.language_model.model.embed_tokens.weight.data
	mu = torch.mean(pre_expansion_embeddings, dim=0).float()
	n = pre_expansion_embeddings.size()[0]
	sigma = ((pre_expansion_embeddings - mu).T
	@ (pre_expansion_embeddings - mu)) / n
	dist = torch.distributions.multivariate_normal.MultivariateNormal(
	mu, covariance_matrix=1e-5 * sigma)

	# We add an image token so we need to resize the model
	ori_vocab_size = config.text_config.vocab_size
	tokenizer_vocab_size = tokenizer.encode('<pad>')[-1]
	added_token = tokenizer_vocab_size - ori_vocab_size

	if added_token > 0:
	model.resize_token_embeddings(ori_vocab_size + added_token,
	pad_shape)
	model.language_model.model.embed_tokens.weight.data[
	ori_vocab_size:] = torch.stack(
	tuple(
	dist.sample()
	for _ in range(model.language_model.model.embed_tokens.
	weight.data[ori_vocab_size:].shape[0])),
	dim=0,
	)
	model.language_model.lm_head.weight.data[
	ori_vocab_size:] = torch.stack(
	tuple(dist.sample()
	for _ in range(model.language_model.lm_head.weight.
	data[ori_vocab_size:].shape[0])),
	dim=0,
	)
	model.config.image_token_index = tokenizer.encode(
	DEFAULT_IMAGE_TOKEN)[-1]
	model.config.pad_token_id = tokenizer.encode('<pad>')[-1]

	# save
	print_log(f'Saving to {save_dir}', 'current')
	model.save_pretrained(save_dir, **save_pretrained_kwargs)
	processor.save_pretrained(save_dir, **save_pretrained_kwargs)

	def to_official_llava(self,
	cfg,
	save_dir,
	fp32=False,
	save_pretrained_kwargs={}):
	if self.use_resampler:
	warnings.warn("Conversion to official LLaVA format with a custom resampler is not supported. "
	"The resampler weights will not be saved.")
	VIT_MAPPING = {
	'vision_model': 'model.vision_tower.vision_tower.vision_model',
	}
	PROJECTOR_MAPPING = {
	'model.0': 'model.mm_projector.0',
	'model.2': 'model.mm_projector.2',
	}

	try:
	from llava.model import LlavaConfig, LlavaLlamaForCausalLM
	except ImportError:
	raise ImportError(
	'Please install llava with '
	'`pip install git+https://github.com/haotian-liu/LLaVA.git '
	'--no-deps`.')

	assert getattr(self.llm, 'hf_quantizer', None) is None, \
	'This conversion format does not support quantized LLM.'

	# get state_dict
	llm = self.llm
	if self.use_llm_lora:
	llm = self.llm.merge_and_unload()
	llm.config.use_cache = True
	if not fp32:
	print_log('Convert LLM to float16', 'current')
	llm.half()

	assert isinstance(llm, LlamaForCausalLM), \
	'This conversion format only supports LlamaForCausalLM.'
	llm_state_dict = llm.state_dict()

	need_visual_encoder = (not self.freeze_visual_encoder
	or self.use_visual_encoder_lora)
	visual_encoder = self.visual_encoder
	if self.use_visual_encoder_lora:
	visual_encoder = self.visual_encoder.merge_and_unload()
	assert isinstance(visual_encoder, CLIPVisionModel),\
	'This conversion format only supports CLIPVisionModel.'
	if need_visual_encoder:
	visual_encoder_state_dict = visual_encoder.state_dict()
	visual_encoder_state_dict = convert_state_dict_to_hf(
	visual_encoder_state_dict, VIT_MAPPING)
	else:
	visual_encoder_state_dict = {}

	projector_state_dict = self.projector.state_dict()
	projector_state_dict = convert_state_dict_to_hf(
	projector_state_dict, PROJECTOR_MAPPING)

	state_dict = {
	**projector_state_dict,
	**llm_state_dict,
	**visual_encoder_state_dict,
	}

	# init model
	tokenizer = BUILDER.build(cfg.tokenizer)
	image_processor = BUILDER.build(cfg.image_processor)
	assert isinstance(image_processor, CLIPImageProcessor),\
	'This conversion format only supports CLIPImageProcessor.'

	llava_config_dict = llm.config.__dict__.copy()
	llava_config_dict.update(
	dict(
	image_aspect_ratio='pad',
	mm_hidden_size=visual_encoder.config.hidden_size,
	mm_projector_type=f'mlp{self.projector_depth}x_gelu',
	mm_use_im_patch_token=False,
	mm_use_im_start_end=False,
	mm_vision_select_feature='patch',
	mm_vision_select_layer=self.visual_select_layer,
	mm_vision_tower=visual_encoder.config.name_or_path,
	unfreeze_mm_vision_tower=need_visual_encoder,
	model_type='llava',
	use_cache=True,
	use_mm_proj=True))

	llava_config = LlavaConfig(**llava_config_dict)

	with init_empty_weights():
	with warnings.catch_warnings():
	warnings.filterwarnings(
	'ignore', message='.non-meta.', category=UserWarning)
	model = LlavaLlamaForCausalLM(llava_config)

	model.load_state_dict(state_dict, strict=False, assign=True) # strict=False to ignore missing resampler

	# save
	print_log(f'Saving to {save_dir}', 'current')

	model.save_pretrained(save_dir, **save_pretrained_kwargs)
	image_processor.save_pretrained(save_dir, **save_pretrained_kwargs)
	tokenizer.save_pretrained(save_dir, **save_pretrained_kwargs)