vllm-project · youkaichao · Nov 30, 2024 · Nov 23, 2024 · Nov 29, 2024 · Nov 29, 2024
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
@@ -167,13 +167,24 @@
             rope_scaling=rope_scaling,
             is_neox_style=is_neox_style,
         )
+
+        layer_idx: int = int(prefix.split(".")[0])
+        if isinstance(config.interleaved_sliding_window, int):
+            sliding_window = config.interleaved_sliding_window
+        elif isinstance(config.interleaved_sliding_window, list):
+            sw_idx = layer_idx % len(sliding_window)
+            sliding_window = config.interleaved_sliding_window[sw_idx]
+        else:
+            None
+
         self.attn = Attention(
             self.num_heads,
             self.head_dim,
             self.scaling,
             num_kv_heads=self.num_kv_heads,
             cache_config=cache_config,
             quant_config=quant_config,
+            per_layer_sliding_window=sliding_window,
             prefix=f"{prefix}.attn",
         )