前言最近给一家集团公司部署本地大模型,便写下本文记录一下企业级生产环境部署大模型的全过程。整体服务器配置如下:部署框
安装python3.12版本 本身系统里有python3.10版本,也有vLLM,而且是DCU vLLM版本,但是需要用到python3.12版本,所以才重新弄整
如何在服务器上运行 LobeChat 镜像并对接 GPU 加速推理? 在企业级 AI 应用快速落地的今天,一个常见但棘手的问题浮现出来:
部署环境说明 服务器: 曙光 X7850H0(256 核+ 8张A100+1.5T内存) 服务器操作系统: UOS V2500 DTK版本: 25.04.1 Rocm版本
一、小白入门:先搞懂核心概念(无技术门槛)1. 为什么需要PageAttention?LLM(大语言模型)推理时,KV Cache 是核心(存储
封神!昇腾平台推理性能翻倍秘籍:SGLang+vllm-ascend 调优全拆解(5 年运维血泪踩坑实录) 引言正文一、先亮底牌:真
封神!昇腾平台推理性能翻倍秘籍:SGLang+vllm-ascend 调优全拆解(5 年运维血泪踩坑实录) 引言正文一、先亮底牌:真
一、安装Python 安装依赖项 sudo apt update sudo apt install -y build-essential libssl-dev zlib1g-dev libncurses5-dev