Spaces:

Mungert
/

GradLLM

Running

johnbridges commited on Aug 16

Commit

2ed485e

1 Parent(s): 11dee55

.

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 # app.py
-import asyncio, logging
 import gradio as gr
 from config import settings
@@ -31,17 +31,18 @@ except Exception:
 # ----------------- vLLM init -----------------
 async def init_vllm():
-    """Initialize the global vLLM engine and store it in state.py"""
     if state.vllm_engine is not None:
         return state.vllm_engine
     model_id = getattr(settings, "LlmHFModelID", "Qwen/Qwen2.5-7B-Instruct")
     log.info(f"Loading vLLM model: {model_id}")
     args = AsyncEngineArgs(
         model=model_id,
         trust_remote_code=True,
         max_model_len=getattr(settings, "LlmOpenAICtxSize", 32768),
     )
     state.vllm_engine = AsyncLLMEngine.from_engine_args(args)
     return state.vllm_engine

 # app.py
+import asyncio, logging, os
 import gradio as gr
 from config import settings
 # ----------------- vLLM init -----------------
 async def init_vllm():
     if state.vllm_engine is not None:
         return state.vllm_engine
     model_id = getattr(settings, "LlmHFModelID", "Qwen/Qwen2.5-7B-Instruct")
     log.info(f"Loading vLLM model: {model_id}")
+    # Always use GPU (cuda) — Spaces provides GPU when @spaces.GPU is active
     args = AsyncEngineArgs(
         model=model_id,
         trust_remote_code=True,
         max_model_len=getattr(settings, "LlmOpenAICtxSize", 32768),
+        device="cuda",   # ✅ force GPU
     )
     state.vllm_engine = AsyncLLMEngine.from_engine_args(args)
     return state.vllm_engine