视觉理解模型微调的lora推理不正确的问题 #3000

zhuchen1109 · 2025-01-08T13:02:56Z

zhuchen1109
Jan 8, 2025

我使用swift微调Qwen2-VL-7B-Instruct模型，微调的 "target_modules": [ "up_proj", "attn.proj", "qkv", "down_proj", "mlp.0", "gate_proj", "k_proj","o_proj", "fc2", "q_proj", "mlp.2", "v_proj", "fc1" ]，包含了vision部分的attn.proj、mlp.0、mlp.2。
遇到第一个问题是，patch.py add_adapters方法里，mod.lora_adapters[target_name] = lora，这里target_name不能包含"."，我这里修改代码逻辑绕过的，这个逻辑修改能在后面load_lora_weights时正确的加载权重，修改如下截图所示：

遇到第二问题是，visual.merger.mlp这层因没有实现BaseLinear，mlp.0和mlp.2这二层不能加载lora权重，我将原来的nn.Linear修改为BaseLinear实现，修改如下截图所示：

经过上述修改后，我能正常的初始化模型并正常工作，但在我跑验证集的时候，发现结果都是错的。
想请教下，我这修改是有什么问题吗，我还需要做什么工作才能正常工作呢？

grimoire · 2025-01-09T03:07:44Z

grimoire
Jan 9, 2025
Collaborator

mlp.0 mlp.1 这俩应该不用 tp。
别的应该问题不大，如果结果对不上大概只能一层一层对结果了

0 replies

zhuchen1109 · 2025-01-10T13:17:12Z

zhuchen1109
Jan 10, 2025
Author

我排查发现，在vision的mlp.fc1层，其推理结果的tensor里包含了大量nan值。想请教下，这可能是什么原因呢？我使用transformer推理没有出现这样的问题。推理代码对应位置：

1 reply

grimoire Jan 10, 2025
Collaborator

build_xxx_linear 默认 is_tp=True 以及 all_reduce=True，这个地方应该都不需要

zhuchen1109 · 2025-01-17T08:21:14Z

zhuchen1109
Jan 17, 2025
Author

我梳理了继承于BaseLinear所有layer的is_tp和all_reduce，都修改为False。还是有nan值，想请教下，这个可能是什么原因导致的呢？

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

视觉理解模型微调的lora推理不正确的问题 #3000

{{title}}

Replies: 3 comments 1 reply

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

视觉理解模型微调的lora推理不正确的问题 #3000

zhuchen1109 Jan 8, 2025

Replies: 3 comments · 1 reply

grimoire Jan 9, 2025 Collaborator

zhuchen1109 Jan 10, 2025 Author

grimoire Jan 10, 2025 Collaborator

zhuchen1109 Jan 17, 2025 Author

zhuchen1109
Jan 8, 2025

Replies: 3 comments 1 reply

grimoire
Jan 9, 2025
Collaborator

zhuchen1109
Jan 10, 2025
Author

grimoire Jan 10, 2025
Collaborator

zhuchen1109
Jan 17, 2025
Author