Spaces:

cxddggz
/

prometheus-qwen-api

Build error

App Files Files Community

您的用户名 commited on Aug 20

Commit

76dd601

1 Parent(s): 29543dc

Final attempt: Switch to robust PyTorch base image

Browse files

Files changed (3) hide show

Dockerfile +16 -12
main.py +10 -67
requirements.txt +1 -0

Dockerfile CHANGED Viewed

@@ -1,23 +1,27 @@
-# 使用官方的Python 3.10镜像作为基础
-FROM python:3.10-slim
-# 在做任何事之前，先把所有编译和构建可能用到的工具一次性全部安装好
-RUN apt-get update && apt-get install -y build-essential cmake
 # 设置工作目录
 WORKDIR /app
-# --- 核心修正点在这里 ---
-# 在构建阶段，就提前创建好所有程序在运行时需要写入的文件夹
-# 并且，使用 chmod -R 777 授予它们最高权限，允许任何用户读、写、执行
-RUN mkdir -p /app/pip_packages /app/huggingface_cache && \
-    chmod -R 777 /app/pip_packages /app/huggingface_cache
 # 将requirements.txt复制到工作目录中
 COPY requirements.txt .
-# 只安装那些“秒速”完成的依赖库
-RUN pip install --no-cache-dir -r requirements.txt
 # 将我们的API程序代码复制到工作目录中
 COPY main.py .

+# --- 核心修正点在这里 ---
+# 我们不再使用简陋的python:3.10-slim
+# 而是使用一个功能强大的、预装了所有编译工具和CUDA环境的官方PyTorch镜像
+FROM pytorch/pytorch:2.1.0-cuda12.1-cudnn8-runtime
 # 设置工作目录
 WORKDIR /app
+# 这个新环境里已经包含了所有编译工具，我们不再需要自己安装
+# RUN apt-get update && apt-get install -y gcc g++ build-essential cmake
+# 设置环境变量，确保pip的缓存路径拥有权限
+# 这是解决所有权限问题的最终方案
+ENV PIP_CACHE_DIR=/app/pip_cache
+ENV HF_HOME=/app/huggingface_cache
+RUN mkdir -p $PIP_CACHE_DIR $HF_HOME && chmod -R 777 $PIP_CACHE_DIR $HF_HOME
 # 将requirements.txt复制到工作目录中
 COPY requirements.txt .
+# --- 第二个核心修正点 ---
+# 我们在安装时，明确告诉pip使用我们创建的、拥有权限的缓存目录
+# 这将彻底解决所有PermissionError
+RUN pip install --no-cache-dir --cache-dir $PIP_CACHE_DIR -r requirements.txt
 # 将我们的API程序代码复制到工作目录中
 COPY main.py .

main.py CHANGED Viewed

@@ -1,81 +1,36 @@
 import os
-import sys
-import subprocess
 import logging
 from fastapi import FastAPI
 from pydantic import BaseModel
-# ================================================================
-#                      核心AI引擎的动态安装
-# ================================================================
-# 检查核心库是否存在，如果不存在，则在第一次运行时动态安装
-try:
-    from llama_cpp import Llama
-    logging.info("核心AI引擎 (llama-cpp-python) 已安装。")
-except ImportError:
-    logging.warning("核心AI引擎 (llama-cpp-python) 未找到，正在尝试动态安装...")
-    logging.warning("这个过程会极其缓慢 (预计15-25分钟)，且只会执行一次。请耐心等待日志完成。")
-    try:
-        # 使用subprocess来执行pip安装命令
-        # 我们将安装目标指定到一个拥有写入权限的本地目录
-        install_path = "/app/pip_packages"
-        os.makedirs(install_path, exist_ok=True)
-        # 将这个路径添加到Python的搜索路径中
-        sys.path.append(install_path)
-        subprocess.check_call([
-            sys.executable, "-m", "pip", "install",
-            f"--target={install_path}",
-            "llama-cpp-python"
-        ])
-        logging.info("核心AI引擎动态安装成功！正在重新导入...")
-        # 重新导入
-        from llama_cpp import Llama
-    except Exception as e:
-        logging.error(f"动态安装核心AI引擎失败！错误: {e}")
-        # 如果安装失败，设置一个标志，让API返回错误
-        Llama = None
 from huggingface_hub import hf_hub_download
-# ================================================================
-#                    最终的main.py代码
-# ================================================================
 app = FastAPI()
-# --- 核心修正点在这里 ---
-# 我们从7B模型切换到更轻量级的4B模型，以适应16GB的内存限制
 MODEL_ID = "Qwen/Qwen1.5-4B-Chat-GGUF"
-# 同时，我们也选择这个模型对应的量化版本
 MODEL_FILE = "qwen1_5-4b-chat-q5_k_m.gguf"
 llm = None
 @app.on_event("startup")
 def load_model():
     global llm
-    if Llama is None:
-        logging.error("核心AI引擎未能加载，API将不可用。")
-        return
     logging.info("正在CPU上使用 llama-cpp-python 加载GGUF模型...")
     logging.info(f"目标模型: {MODEL_ID}/{MODEL_FILE}")
     try:
-        # 1. 从Hugging Face Hub下载模型文件到本地缓存
-        model_path = hf_hub_download(
-            repo_id=MODEL_ID,
-            filename=MODEL_FILE
-        )
         logging.info(f"模型已成功下载到: {model_path}")
-        # 2. 使用llama-cpp-python加载模型
         llm = Llama(
             model_path=model_path,
-            n_ctx=4096,      # 上下文长度
-            n_threads=2,     # 使用CPU核心数，对于免费版2核CPU是最佳设置
-            n_gpu_layers=0   # 明确指定在CPU上运行
         )
         logging.info("AI模型加载成功！API已准备就绪。")
     except Exception as e:
         logging.error(f"!!!!!!!!!!!!!! 模型加载失败 !!!!!!!!!!!!!!")
         logging.error(f"错误类型: {type(e).__name__}")
@@ -90,23 +45,12 @@ class ChatCompletionRequest(BaseModel):
 def chat_completions(request: ChatCompletionRequest):
     if llm is None:
         return {"error": "模型未能成功加载，API不可用。请检查Space日志。"}
-    # llama-cpp-python直接接收OpenAI格式的messages
     messages = request.messages
     try:
         logging.info("正在生成回复...")
-        # 直接调用create_chat_completion
-        completion = llm.create_chat_completion(
-            messages=messages,
-            max_tokens=2048,
-            temperature=0.7
-        )
         logging.info("回复生成成功！")
-        # 直接返回OpenAI兼容的格式
         return completion
     except Exception as e:
         logging.error(f"生成回复时出错: {e}")
         return {"error": "生成回复时遇到内部错误。"}
@@ -118,5 +62,4 @@ def read_root():
     else:
         return {"status": "Prometheus Qwen API is running, but model failed to load."}
-# 在主脚本的开头初始化日志
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

 import os
 import logging
 from fastapi import FastAPI
 from pydantic import BaseModel
+from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
+# 初始化FastAPI应用
 app = FastAPI()
+# 定义模型ID和文件名
 MODEL_ID = "Qwen/Qwen1.5-4B-Chat-GGUF"
 MODEL_FILE = "qwen1_5-4b-chat-q5_k_m.gguf"
+# 全局变量来存储模型
 llm = None
+# 在应用启动时加载模型
 @app.on_event("startup")
 def load_model():
     global llm
     logging.info("正在CPU上使用 llama-cpp-python 加载GGUF模型...")
     logging.info(f"目标模型: {MODEL_ID}/{MODEL_FILE}")
     try:
+        model_path = hf_hub_download(repo_id=MODEL_ID, filename=MODEL_FILE)
         logging.info(f"模型已成功下载到: {model_path}")
         llm = Llama(
             model_path=model_path,
+            n_ctx=4096,
+            n_threads=2,
+            n_gpu_layers=0
         )
         logging.info("AI模型加载成功！API已准备就绪。")
     except Exception as e:
         logging.error(f"!!!!!!!!!!!!!! 模型加载失败 !!!!!!!!!!!!!!")
         logging.error(f"错误类型: {type(e).__name__}")
 def chat_completions(request: ChatCompletionRequest):
     if llm is None:
         return {"error": "模型未能成功加载，API不可用。请检查Space日志。"}
     messages = request.messages
     try:
         logging.info("正在生成回复...")
+        completion = llm.create_chat_completion(messages=messages, max_tokens=2048, temperature=0.7)
         logging.info("回复生成成功！")
         return completion
     except Exception as e:
         logging.error(f"生成回复时出错: {e}")
         return {"error": "生成回复时遇到内部错误。"}
     else:
         return {"status": "Prometheus Qwen API is running, but model failed to load."}
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 fastapi
 uvicorn
 pydantic
 huggingface-hub

 fastapi
 uvicorn
+llama-cpp-python
 pydantic
 huggingface-hub