Spaces:

cxddggz
/

prometheus-qwen-api

Build error

App Files Files Community

您的用户名 commited on Aug 20

Commit

b53c3a8

1 Parent(s): 9ae7eaa

Final fix: Switch to lighter 4B model to fit in memory

Browse files

Files changed (1) hide show

main.py +43 -12

main.py CHANGED Viewed

@@ -6,7 +6,7 @@ from fastapi import FastAPI
 from pydantic import BaseModel
 # ================================================================
-#                      动态安装核心AI引擎
 # ================================================================
 # 检查核心库是否存在，如果不存在，则在第一次运行时动态安装
 try:
@@ -17,7 +17,16 @@ except ImportError:
     logging.warning("这个过程会极其缓慢 (预计15-25分钟)，且只会执行一次。请耐心等待日志完成。")
     try:
         # 使用subprocess来执行pip安装命令
-        subprocess.check_call([sys.executable, "-m", "pip", "install", "llama-cpp-python"])
         logging.info("核心AI引擎动态安装成功！正在重新导入...")
         # 重新导入
         from llama_cpp import Llama
@@ -29,11 +38,16 @@ except ImportError:
 from huggingface_hub import hf_hub_download
 # ================================================================
-#                     后续代码与之前版本相同
 # ================================================================
 app = FastAPI()
-MODEL_ID = "Qwen/Qwen1.5-7B-Chat-GGUF"
-MODEL_FILE = "qwen1_5-7b-chat-q5_k_m.gguf"
 llm = None
 @app.on_event("startup")
@@ -44,17 +58,24 @@ def load_model():
         return
     logging.info("正在CPU上使用 llama-cpp-python 加载GGUF模型...")
-    logging.info("这仍然会很慢，请耐心等待模型下载和加载...")
     try:
-        model_path = hf_hub_download(repo_id=MODEL_ID, filename=MODEL_FILE)
         logging.info(f"模型已成功下载到: {model_path}")
         llm = Llama(
             model_path=model_path,
-            n_ctx=4096,
-            n_threads=2,
-            n_gpu_layers=0
         )
         logging.info("AI模型加载成功！API已准备就绪。")
     except Exception as e:
         logging.error(f"!!!!!!!!!!!!!! 模型加载失败 !!!!!!!!!!!!!!")
         logging.error(f"错误类型: {type(e).__name__}")
@@ -69,13 +90,23 @@ class ChatCompletionRequest(BaseModel):
 def chat_completions(request: ChatCompletionRequest):
     if llm is None:
         return {"error": "模型未能成功加载，API不可用。请检查Space日志。"}
     messages = request.messages
     try:
         logging.info("正在生成回复...")
-        completion = llm.create_chat_completion(messages=messages, max_tokens=2048, temperature=0.7)
-        response_text = completion['choices'][0]['message']['content']
         logging.info("回复生成成功！")
         return completion
     except Exception as e:
         logging.error(f"生成回复时出错: {e}")
         return {"error": "生成回复时遇到内部错误。"}

 from pydantic import BaseModel
 # ================================================================
+#                      核心AI引擎的动态安装
 # ================================================================
 # 检查核心库是否存在，如果不存在，则在第一次运行时动态安装
 try:
     logging.warning("这个过程会极其缓慢 (预计15-25分钟)，且只会执行一次。请耐心等待日志完成。")
     try:
         # 使用subprocess来执行pip安装命令
+        # 我们将安装目标指定到一个拥有写入权限的本地目录
+        install_path = "/app/pip_packages"
+        os.makedirs(install_path, exist_ok=True)
+        # 将这个路径添加到Python的搜索路径中
+        sys.path.append(install_path)
+        subprocess.check_call([
+            sys.executable, "-m", "pip", "install",
+            f"--target={install_path}",
+            "llama-cpp-python"
+        ])
         logging.info("核心AI引擎动态安装成功！正在重新导入...")
         # 重新导入
         from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 # ================================================================
+#                    最终的main.py代码
 # ================================================================
 app = FastAPI()
+# --- 核心修正点在这里 ---
+# 我们从7B模型切换到更轻量级的4B模型，以适应16GB的内存限制
+MODEL_ID = "Qwen/Qwen1.5-4B-Chat-GGUF"
+# 同时，我们也选择这个模型对应的量化版本
+MODEL_FILE = "qwen1_5-4b-chat-q5_k_m.gguf"
 llm = None
 @app.on_event("startup")
         return
     logging.info("正在CPU上使用 llama-cpp-python 加载GGUF模型...")
+    logging.info(f"目标模型: {MODEL_ID}/{MODEL_FILE}")
     try:
+        # 1. 从Hugging Face Hub下载模型文件到本地缓存
+        model_path = hf_hub_download(
+            repo_id=MODEL_ID,
+            filename=MODEL_FILE
+        )
         logging.info(f"模型已成功下载到: {model_path}")
+        # 2. 使用llama-cpp-python加载模型
         llm = Llama(
             model_path=model_path,
+            n_ctx=4096,      # 上下文长度
+            n_threads=2,     # 使用CPU核心数，对于免费版2核CPU是最佳设置
+            n_gpu_layers=0   # 明确指定在CPU上运行
         )
         logging.info("AI模型加载成功！API已准备就绪。")
     except Exception as e:
         logging.error(f"!!!!!!!!!!!!!! 模型加载失败 !!!!!!!!!!!!!!")
         logging.error(f"错误类型: {type(e).__name__}")
 def chat_completions(request: ChatCompletionRequest):
     if llm is None:
         return {"error": "模型未能成功加载，API不可用。请检查Space日志。"}
+    # llama-cpp-python直接接收OpenAI格式的messages
     messages = request.messages
     try:
         logging.info("正在生成回复...")
+        # 直接调用create_chat_completion
+        completion = llm.create_chat_completion(
+            messages=messages,
+            max_tokens=2048,
+            temperature=0.7
+        )
         logging.info("回复生成成功！")
+        # 直接返回OpenAI兼容的格式
         return completion
     except Exception as e:
         logging.error(f"生成回复时出错: {e}")
         return {"error": "生成回复时遇到内部错误。"}