vLLM 是一款高性能的大语言模型推理和服务框架,安装的核心前提是必须先安装匹配的 CUDA 环境(vLLM 依赖 CUDA 实现 GPU 加速,
前言:2025年是大模型“百模大战”转入“推理落地”的关键一年。DeepSeek V3、Llama 3 70B 等开源权重的发布,让开发者有了
MinerU 是一款高效的数据处理工具,基于 Docker Compose 部署可以极大简化环境配置流程,无需复杂的依赖安装即可快速启动服务
安装python3.12版本 本身系统里有python3.10版本,也有vLLM,而且是DCU vLLM版本,但是需要用到python3.12版本,所以才重新弄整
如何在服务器上运行 LobeChat 镜像并对接 GPU 加速推理? 在企业级 AI 应用快速落地的今天,一个常见但棘手的问题浮现出来:
部署环境说明 服务器: 曙光 X7850H0(256 核+ 8张A100+1.5T内存) 服务器操作系统: UOS V2500 DTK版本: 25.04.1 Rocm版本
一、小白入门:先搞懂核心概念(无技术门槛)1. 为什么需要PageAttention?LLM(大语言模型)推理时,KV Cache 是核心(存储