最新资讯

  • 最新资讯了解最新公司动态及行业资讯

2026-02-022 阅读量

vLLM 是一款高性能的大语言模型推理和服务框架,安装的核心前提是必须先安装匹配的 CUDA 环境(vLLM 依赖 CUDA 实现 GPU 加速,

2026-02-015 阅读量

前言:2025年是大模型“百模大战”转入“推理落地”的关键一年。DeepSeek V3、Llama 3 70B 等开源权重的发布,让开发者有了

2026-01-2810 阅读量

MinerU 是一款高效的数据处理工具,基于 Docker Compose 部署可以极大简化环境配置流程,无需复杂的依赖安装即可快速启动服务

2026-01-284 阅读量

前言最近给一家集团公司部署本地大模型,便写下本文记录一下企业级生产环境部署大模型的全过程。整体服务器配置如下:部署框

2026-01-233 阅读量

安装python3.12版本 本身系统里有python3.10版本,也有vLLM,而且是DCU vLLM版本,但是需要用到python3.12版本,所以才重新弄整

2026-01-212 阅读量

如何在服务器上运行 LobeChat 镜像并对接 GPU 加速推理? 在企业级 AI 应用快速落地的今天,一个常见但棘手的问题浮现出来:

2026-01-192 阅读量

部署环境说明 服务器: 曙光 X7850H0(256 核+ 8张A100+1.5T内存) 服务器操作系统: UOS V2500 DTK版本: 25.04.1 Rocm版本

2026-01-184 阅读量

一、小白入门:先搞懂核心概念(无技术门槛)1. 为什么需要PageAttention?LLM(大语言模型)推理时,KV Cache 是核心(存储

2026-01-183 阅读量

文章目录 一、LLAMA-Factory简介二、安装LLaMA-Factory三、准备训练数据四、模型训练1. 模型下载2. 全量微调3.lora微调4.Q