最新资讯

  • K8s+SGLang实战:DeepSeek-r1:671b满血版多机多卡私有化部署全攻略

K8s+SGLang实战:DeepSeek-r1:671b满血版多机多卡私有化部署全攻略

2025-04-27 17:38:05 2 阅读

前言

随着 DeepSeek AI 大模型的崛起,近期私有化部署逐渐成为行业趋势。常见的部署方式之一是使用 Ollama,这对于个人用户和本地开发环境而言,具有较好的兼容性,尤其是支持各种 GPU 硬件和大模型的兼容性,且无需复杂的配置就能够启动。然而,相比于专业的推理引擎,如 SGLang、vLLM,Ollama 在性能上存在一定差距。

今天,阿程将介绍如何结合云原生K8s、SGLang、LeaderWorkerSet 和 Volcano 等技术栈,来高效部署分布式 DeepSeek-r1 满血版推理集群。通过这一架构,可以充分利用云原生技术的优势,确保模型的高性能推理以及集群的灵活扩展性。

选型SGLang推理引擎的理由:

图1 来自deepseek-ai/DeepSeek-V3

图2 来自deepseek-ai/DeepSeek-V3 Support

环境准备

1. 模型下载

本次阿程部署的是企业级满血版的Deepseek-R1 671B。

方式一:通过HuggingFace 下载
仓库地址:https://huggingface.co/deepseek-ai/DeepSeek-R1

方式二:通过 ModelScope 下载 (阿程通过此方式下载)
仓库地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/files

1、安装ModelScope   pip3 install modelscope       2、下载完整模型repo   mkdir /file_CPU_01/modelServing/DeepSeek-R1 -p   nohup modelscope download --model deepseek-ai/DeepSeek-R1 --local_dir /file_CPU_01/modelServing/DeepSeek-R1/ &   

在Linux环境下载后的完整DeepSeek-R1模型大小为638G

2. 软硬件环境介绍

硬件配置

|
服务器

|

数量(台)

|

CPU(核)

|

内存(TB)

|

系统版本

|

RDMA

|
| — | — | — | — | — | — |
|

NVIDIA H100 80GB HBM3

|

2

|

192

|

2.0Ti

|

Ubuntu 22.04.5 LTS

|

4 * IB(400 Gb/sec )

|

软件平台

|
软件名称

|

版本

|

备注

|
| — | — | — |
|

Kubernetes

|

v1.30.6

|

容器编排引擎

|
|

GPU Operator

|

v24.9.1

|

自动化管理配置GPU驱动程序

|
|

Volcano

|

v1.9.0

|

调度引擎

|
|

NVIDIA Driver

|

560.35.03

|

GPU驱动

|
|

NVIDIA-Fabric Manager

|

560.35.03

|

NVSwitch互联

|
|

CUDA

|

12.6

|

|
|

MLNX_OFED

|

24.10-0.7.0.0

|

IB驱动

|
|

NCCL

|

2.21.5

|

GPU多卡通信

|
|

SGLang

|

v0.4.2.post4-cu125

|

LLM推理引擎

|
|

LeaderWorkerSet

|

v0.5.1

|

PodGroup Deploy API

|
|

open-webui

|

v0.5.10

|

AI聊天互动工具

|

正式部署

云原生分布式推理集群部署拓扑:

1. 部署LWS API

Github项目地址:
https://github.com/kubernetes-sigs/lws

在企业分布式推理架构中,需要多个 Pod 共同组成一个推理服务,同时不同 Pod 还具有不同的主从角色(在 sglang 和 vllm 中称为head 和 worker 节点)。Kubernetes 原生提供了如 Deployments、StatefulSet 等资源管理对象,能够很好管理单个 Pod 的生命周期和扩缩容。但是对于多机多卡分布式推理需要跨多个 Pod 部署资源并对多个 Pod 进行扩缩容的场景,就无法使用 Deployments 或 StatefulSet 。

为了应对这个挑战,Kubernetes 社区在 StatefulSet 的基础上提出了 Leader-Worker Set (LWS) API ,LWS API 提供了一种原生的方式来管理分布式推理任务中常见的 Leader-Worker 模式,其中 Leader Pods 通常负责协调任务、Worker Pods 则负责执行实际的推理任务或计算工作。LWS API 能够确保 Leader Pods 在完全就绪之前,不会启动 Worker Pods。同时可以单独定义 Leader 和 Worker 所需的 Pod 数量

使用 LWS API 的主要优势包括:

  • 简化分布式推理的部署:通过 LWS API,提供了一个声明式的 API,用户只需定义 LeaderWorker 的配置,Kubernetes 控制器会自动处理其生命周期管理。用户可以更轻松地部署复杂的分布式推理工作负载,而无需手动管理 LeaderWorker 的依赖关系和副本数量;

  • 无缝水平扩容:分布式推理的服务需要多个 Pods 共同提供服务,在进行扩容时也需要以多个 Pod 一组为原子单位进行扩展, LWS 可以与 k8s HPA 无缝对接,将 LWS 作为HPA扩容的Target,实现推理服务整组扩容;

  • 拓扑感知调度 :在分布式推理中,不同 Pod 之间需要进行大量数据交互。为了减少通信延时 LWS API 结合了拓扑感知调度,保证能够保证 LeaderWorker Pod 能够调度到 RDMA 网络中拓扑距离尽可能接近的节点上。

来自LWS官网

1. 安装 LWS API 的 CRD   ~# VERSION=v0.5.1   ~# kubectl apply --server-side -f https://github.com/kubernetes-sigs/lws/releases/download/$VERSION/manifests.yaml      2. 检查LWS 资源   ~# kubectl get pods -n lws-system    NAME                                     READY   STATUS    RESTARTS   AGE   lws-controller-manager-7474f46db-xb8br   1/1     Running   0          14h   lws-controller-manager-7474f46db-xkcf2   1/1     Running   0          14h      ~# kubectl get svc -n lws-system   NAME                                     TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)    AGE   lws-controller-manager-metrics-service   ClusterIP   10.233.35.119           8443/TCP   14h   lws-webhook-service                      ClusterIP   10.233.4.24             443/TCP    14h      ~# kubectl api-resources |grep -i lws   leaderworkersets                    lws                      leaderworkerset.x-k8s.io/v1                 true         LeaderWorkerSet

2. 通过 LWS 部署DeepSeek-r1模型

Deploy Manifest Yaml 如下:

apiVersion: leaderworkerset.x-k8s.io/v1   kind: LeaderWorkerSet   metadata:     name: sglang     labels:       app: sglang   spec:     replicas: 1     startupPolicy: LeaderCreated     rolloutStrategy:       type: RollingUpdate       rollingUpdateConfiguration:         maxSurge: 0         maxUnavailable: 2     leaderWorkerTemplate:       size: 2       restartPolicy: RecreateGroupOnPodRestart       leaderTemplate:         metadata:           labels:             role: leader         spec:           containers:             - name: sglang-head               image: ccr.ccs.tencentyun.com/kason/sglang:v0.4.2.post4-cu125               imagePullPolicy: IfNotPresent               workingDir: /sgl-workspace               command: ["sh", "-c"]               args:               - >                 cd /sgl-workspace && python3 -m sglang.launch_server                 --model-path /root/.cache/modelscope/DeepSeek-R1                 --served-model-name deepseek-r1                 --tp 16                 --dist-init-addr $LWS_LEADER_ADDRESS:20000                 --nnodes $LWS_GROUP_SIZE                 --node-rank 0                 --trust-remote-code                 --context-length 131072                 --enable-metrics                 --host 0.0.0.0                 --port 8000               env:                 - name: GLOO_SOCKET_IFNAME                   value: eth0                 - name: NCCL_IB_HCA                   value: "mlx5_0,mlx5_1,mlx5_4,mlx5_5"                 - name: NCCL_P2P_LEVEL                   value: "NVL"                 - name: NCCL_IB_GID_INDEX                   value: "0"                 - name: NCCL_IB_CUDA_SUPPORT                   value: "1"                 - name: NCCL_IB_DISABLE                   value: "0"                 - name: NCCL_SOCKET_IFNAME                   value: "eth0"                   #value: "ibs13,ibs11,ibs15,ibs17"                 - name: NCCL_DEBUG                   value: "INFO"                 - name: NCCL_NET_GDR_LEVEL                   value: "2"                 - name: POD_NAME                   valueFrom:                     fieldRef:                       fieldPath: metadata.name                 - name: SGLANG_USE_MODELSCOPE                   value: "true"               ports:               - containerPort: 8000                 name: http                 protocol: TCP               - containerPort: 20000                 name: distributed                 protocol: TCP               resources:                 limits:                   cpu: "128"                   memory: "1Ti"                   nvidia.com/gpu: "8"                   rdma/ib: "4"                 requests:                   cpu: "128"                   memory: "1Ti"                   nvidia.com/gpu: "8"                   rdma/ib: "4"               securityContext:                 capabilities:                   add:                   - IPC_LOCK                   - SYS_PTRACE               volumeMounts:                 - mountPath: /root/.cache/modelscope                   name: modelscope-cache                 - mountPath: /dev/shm                   name: shm-volume                 - name: localtime                   mountPath: /etc/localtime                   readOnly: true               readinessProbe:                 tcpSocket:                   port: 8000                 initialDelaySeconds: 120                 periodSeconds: 30           volumes:             - name: modelscope-cache               hostPath:                 path: /file_CPU_01/modelServing             - name: shm-volume               emptyDir:                 sizeLimit: 512Gi                 medium: Memory             - name: localtime               hostPath:                 path: /etc/localtime                 type: File           schedulerName: volcano       workerTemplate:         metadata:           name: sglang-worker         spec:           containers:             - name: sglang-worker               image: ccr.ccs.tencentyun.com/kason/sglang:v0.4.2.post4-cu125               imagePullPolicy: IfNotPresent               workingDir: /sgl-workspace               command: ["sh", "-c"]               args:               - >                 cd /sgl-workspace && python3 -m sglang.launch_server                 --model-path /root/.cache/modelscope/DeepSeek-R1                 --served-model-name deepseek-r1                 --tp 16                 --dist-init-addr $LWS_LEADER_ADDRESS:20000                 --nnodes $LWS_GROUP_SIZE                 --node-rank $LWS_WORKER_INDEX                 --trust-remote-code                 --context-length 131072                 --enable-metrics                 --host 0.0.0.0                 --port 8000               env:                 - name: GLOO_SOCKET_IFNAME                   value: eth0                 - name: NCCL_IB_HCA                   value: "mlx5_0,mlx5_1,mlx5_4,mlx5_5"                 - name: NCCL_P2P_LEVEL                   value: "NVL"                 - name: NCCL_IB_GID_INDEX                   value: "0"                 - name: NCCL_IB_CUDA_SUPPORT                   value: "1"                 - name: NCCL_IB_DISABLE                   value: "0"                 - name: NCCL_SOCKET_IFNAME                   value: "eth0"                   #value: "ibs13,ibs11,ibs15,ibs17"                 - name: NCCL_DEBUG                   value: "INFO"                 - name: NCCL_NET_GDR_LEVEL                   value: "2"                 - name: SGLANG_USE_MODELSCOPE                   value: "true"                 - name: LWS_WORKER_INDEX                   valueFrom:                     fieldRef:                       fieldPath: metadata.labels['leaderworkerset.sigs.k8s.io/worker-index']               ports:               - containerPort: 8000                 name: http                 protocol: TCP               - containerPort: 20000                 name: distributed                 protocol: TCP               resources:                 limits:                   cpu: "128"                   memory: "1Ti"                   nvidia.com/gpu: "8"                   rdma/ib: "4"                 requests:                   cpu: "128"                   memory: "1Ti"                   nvidia.com/gpu: "8"                   rdma/ib: "4"               securityContext:                 capabilities:                   add:                   - IPC_LOCK                   - SYS_PTRACE               volumeMounts:               - mountPath: /root/.cache/modelscope                 name: modelscope-cache               - mountPath: /dev/shm                 name: shm-volume               - name: localtime                 mountPath: /etc/localtime                 readOnly: true           volumes:           - name: modelscope-cache             hostPath:               path: /file_CPU_01/modelServing           - name: shm-volume             emptyDir:               sizeLimit: 512Gi               medium: Memory           - name: localtime             hostPath:               path: /etc/localtime               type: File           schedulerName: volcano
~# kubectl apply -f deepseek-r1-lws-sglang.yaml      ~# kubectl get lws -n sre-tools    NAME     AGE   sglang   13h      ~# kubectl get pods -n sre-tools |grep sglang   sglang-0                                 1/1     Running   0          15h   sglang-0-1                               1/1     Running   0          15h      ##查看日志   ~# kubectl logs -n sre-tools sglang-0   INFO 02-13 22:10:34 __init__.py:190] Automatically detected platform cuda.   [2025-02-13 22:10:40] server_args=ServerArgs(model_path='/root/.cache/modelscope/DeepSeek-R1', tokenizer_path='/root/.cache/modelscope/DeepSeek-R1', tokenizer_mode='auto', load_format='auto', trust_remote_code=True, dtype='auto', kv_cache_dtype='auto', quantization_param_path=None, quantization=None, context_length=131072, device='cuda', served_model_name='deepseek-r1', chat_template=None, is_embedding=False, revision=None, skip_tokenizer_init=False, host='0.0.0.0', port=8000, mem_fraction_static=0.79, max_running_requests=None, max_total_tokens=None, chunked_prefill_size=8192, max_prefill_tokens=16384, schedule_policy='lpm', schedule_conservativeness=1.0, cpu_offload_gb=0, prefill_only_one_req=False, tp_size=16, stream_interval=1, stream_output=False, random_seed=824694846, constrained_json_whitespace_pattern=None, watchdog_timeout=300, download_dir=None, base_gpu_id=0, log_level='info', log_level_http=None, log_requests=False, show_time_cost=False, enable_metrics=True, decode_log_interval=40, api_key=None, file_storage_pth='sglang_storage', enable_cache_report=False, dp_size=1, load_balance_method='round_robin', ep_size=1, dist_init_addr='sglang-0.sglang.sre-tools:20000', nnodes=2, node_rank=0, json_model_override_args='{}', lora_paths=None, max_loras_per_batch=8, lora_backend='triton', attention_backend='flashinfer', sampling_backend='flashinfer', grammar_backend='outlines', speculative_draft_model_path=None, speculative_algorithm=None, speculative_num_steps=5, speculative_num_draft_tokens=64, speculative_eagle_topk=8, enable_double_sparsity=False, ds_channel_config_path=None, ds_heavy_channel_num=32, ds_heavy_token_num=256, ds_heavy_channel_type='qk', ds_sparse_decode_threshold=4096, disable_radix_cache=False, disable_jump_forward=False, disable_cuda_graph=False, disable_cuda_graph_padding=False, disable_outlines_disk_cache=False, disable_custom_all_reduce=False, disable_mla=False, disable_overlap_schedule=False, enable_mixed_chunk=False, enable_dp_attention=False, enable_ep_moe=False, enable_torch_compile=False, torch_compile_max_bs=32, cuda_graph_max_bs=160, cuda_graph_bs=None, torchao_config='', enable_nan_detection=False, enable_p2p_check=False, triton_attention_reduce_in_fp32=False, triton_attention_num_kv_splits=8, num_continuous_decode_steps=1, delete_ckpt_after_loading=False, enable_memory_saver=False, allow_auto_truncate=False, enable_custom_logit_processor=False, tool_call_parser=None, enable_hierarchical_cache=False)   INFO 02-13 22:10:43 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:43 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   INFO 02-13 22:10:44 __init__.py:190] Automatically detected platform cuda.   [2025-02-13 22:10:49 TP7] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:49 TP7] Init torch distributed begin.   [2025-02-13 22:10:50 TP0] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:50 TP0] Init torch distributed begin.   [2025-02-13 22:10:51 TP6] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP6] Init torch distributed begin.   [2025-02-13 22:10:51 TP5] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP5] Init torch distributed begin.   [2025-02-13 22:10:51 TP1] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP1] Init torch distributed begin.   [2025-02-13 22:10:51 TP2] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP2] Init torch distributed begin.   [2025-02-13 22:10:51 TP4] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP4] Init torch distributed begin.   [2025-02-13 22:10:51 TP3] MLA optimization is turned on. Use triton backend.   [2025-02-13 22:10:51 TP3] Init torch distributed begin.   [2025-02-13 22:10:57 TP0] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP3] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP6] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP5] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP2] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP7] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP4] sglang is using nccl==2.21.5   [2025-02-13 22:10:57 TP1] sglang is using nccl==2.21.5   sglang-0:99:99 [0] NCCL INFO NCCL_SOCKET_IFNAME set by environment to eth0   sglang-0:99:99 [0] NCCL INFO Bootstrap : Using eth0:10.233.73.96<0>   sglang-0:99:99 [0] NCCL INFO cudaDriverVersion 12060   NCCL version 2.21.5+cuda12.4   [2025-02-13 22:11:02 TP1] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP0] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP3] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP2] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP5] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP4] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP6] Custom allreduce is disabled because this process group spans across nodes.   [2025-02-13 22:11:02 TP7] Custom allreduce is disabled because this process group spans across nodes.   sglang-0:103:103 [4] NCCL INFO cudaDriverVersion 12060   sglang-0:103:103 [4] NCCL INFO NCCL_SOCKET_IFNAME set by environment to eth0   sglang-0:103:103 [4] NCCL INFO Bootstrap : Using eth0:10.233.73.96<0>   sglang-0:103:103 [4] NCCL INFO Plugin Path : /opt/hpcx/nccl_rdma_sharp_plugin/lib/libnccl-net.so   sglang-0:103:103 [4] NCCL INFO P2P plugin IBext_v8   sglang-0:103:103 [4] NCCL INFO NCCL_SOCKET_IFNAME set by environment to eth0   sglang-0:103:103 [4] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB/SHARP [1]mlx5_1:1/IB/SHARP [2]mlx5_4:1/IB/SHARP [3]mlx5_5:1/IB/SHARP [RO]; OOB eth0:10.233.73.96<0>   sglang-0:103:103 [4] NCCL INFO Using non-device net plugin version 0   sglang-0:103:103 [4] NCCL INFO Using network IBext_v8   ......   sglang-0:100:1012 [1] NCCL INFO Setting affinity for GPU 1 to ffff,ffffffff,00000000,0000ffff,ffffffff   sglang-0:100:1012 [1] NCCL INFO comm 0x5568e6555af0 rank 1 nRanks 16 nNodes 2 localRanks 8 localRank 1 MNNVL 0   sglang-0:100:1012 [1] NCCL INFO Trees [0] 2/-1/-1->1->0 [1] 2/-1/-1->1->0 [2] 2/-1/-1->1->0 [3] 2/-1/-1->1->0   sglang-0:100:1012 [1] NCCL INFO P2P Chunksize set to 131072   sglang-0:100:1012 [1] NCCL INFO Channel 00/0 : 1[1] -> 14[6] [send] via NET/IBext_v8/0(0)/GDRDMA   sglang-0:100:1012 [1] NCCL INFO Channel 02/0 : 1[1] -> 14[6] [send] via NET/IBext_v8/0(0)/GDRDMA   sglang-0:100:1012 [1] NCCL INFO Channel 01/0 : 1[1] -> 0[0] via P2P/IPC   sglang-0:100:1012 [1] NCCL INFO Channel 03/0 : 1[1] -> 0[0] via P2P/IPC   ......   sglang-0:106:1010 [7] NCCL INFO threadThresholds 8/8/64 | 128/8/64 | 512 | 512   [2025-02-13 22:11:06 TP1] Load weight begin. avail mem=78.37 GB   [2025-02-13 22:11:06 TP5] Load weight begin. avail mem=78.37 GB   [2025-02-13 22:11:06 TP6] Load weight begin. avail mem=78.26 GB   [2025-02-13 22:11:06 TP4] Load weight begin. avail mem=78.15 GB   [2025-02-13 22:11:06 TP2] Load weight begin. avail mem=78.26 GB   [2025-02-13 22:11:06 TP7] Load weight begin. avail mem=78.38 GB   [2025-02-13 22:11:06 TP3] Load weight begin. avail mem=78.38 GB   [2025-02-13 22:11:06 TP0] Load weight begin. avail mem=78.15 GB   [2025-02-13 22:11:06 TP6] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP2] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP3] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP4] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP1] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP7] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP0] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   [2025-02-13 22:11:06 TP5] Detected fp8 checkpoint. Please note that the format is experimental and subject to change.   sglang-0:106:1010 [7] NCCL INFO 4 coCache shape torch.Size([163840, 64])   Loading safetensors checkpoint shards:   0% Completed | 0/162 [00:00 4[4] [receive] via NET/IBext_v8/2/GDRDMA   sglang-0:103:2984 [4] NCCL INFO Channel 03/0 : 14[6] -> 4[4] [receive] via NET/IBext_v8/2/GDRDMA   sglang-0:103:2984 [4] NCCL INFO Channel 01/0 : 4[4] -> 14[6] [send] via NET/IBext_v8/2/GDRDMA   sglang-0:103:2984 [4] NCCL INFO Channel 03/0 : 4[4] -> 14[6] [send] via NET/IBext_v8/2/GDRDMA   sglang-0:103:2984 [4] NCCL INFO Connected all trees   sglang-0:103:2984 [4] NCCL INFO threadThresholds 8/8/64 | 128/8/64 | 512 | 512   100%|██████████| 23/23 [01:30<00:00,  3.92s/it]   [2025-02-13 22:14:23] INFO:     Started server process [1]   [2025-02-13 22:14:23] INFO:     Waiting for application startup.   [2025-02-13 22:14:23] INFO:     Application startup complete.   [2025-02-13 22:14:23] INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)      #启动成功   sglang-0:103:2984 [4] NCCL [2025-02-13 22:14:24] INFO:     127.0.0.1:33198 - "GET /get_model_info HTTP/1.1" 200 OK   [2025-02-13 22:14:31] INFO:     127.0.0.1:33208 - "POST /generate HTTP/1.1" 200 OK   [2025-02-13 22:14:31] The server is fired up and ready to roll!

3. 查看显存占用情况

4. 服务对外暴露

`apiVersion: v1   kind: Service   metadata:     name: sglang-api-svc      labels:       app: sglang   spec:     selector:         leaderworkerset.sigs.k8s.io/name: sglang         role: leader     ports:       - protocol: TCP         port: 8000         targetPort: http         name: http     type: NodePort      #这里临时通过NodePort测试` 
~# kubectl apply -f deepseek-r1-svc.yaml -n sre-tools      #check   ~# kubectl get svc -n sre-tools |grep sglang   sglang               ClusterIP   None                                13h   sglang-api-svc       NodePort    10.233.57.205           8000:32169/TCP    13h   

到此已完成了 DeepSeek R1 大模型的部署和服务对外暴露。接下来通过本地 curl 命令调用 API 或者 终端软件工具来测试部署效果。

5. 测试部署效果

5.1 通过 curl
curl -X POST http://10.0.xx.xx:32169/v1/chat/completions -H "Content-Type: application/json" -d '{       "model": "/model",       "messages": [           {               "role": "user",               "content": "你好,你是谁?"           }       ],       "stream": false,       "temperature": 0.7   }'

5.2 通过 OpenWebUI
a. 部署 OpenWebUI
apiVersion: v1   kind: PersistentVolumeClaim   metadata:     name: open-webui-data-pvc   spec:     accessModes:       - ReadWriteOnce     resources:       requests:         storage: 100Gi     storageClassName: nfs-client      ---   apiVersion: apps/v1   kind: Deployment   metadata:     name: open-webui-deployment   spec:     replicas: 1     selector:       matchLabels:         app: open-webui     template:       metadata:         labels:           app: open-webui       spec:         containers:         - name: open-webui           image: ccr.ccs.tencentyun.com/kason/open-webui:main           imagePullPolicy: Always           ports:           - containerPort: 8080           env:           - name: OPENAI_API_BASE_URL             value: "http://10.0.xx.xxx:32169/v1"   # 替换为SGLang API           - name: ENABLE_OLLAMA_API # 禁用 Ollama API,只保留 OpenAI API             value: "False"           volumeMounts:           - name: open-webui-data             mountPath: /app/backend/data         volumes:         - name: open-webui-data           persistentVolumeClaim:             claimName: open-webui-data-pvc      ---   apiVersion: v1   kind: Service   metadata:     name: open-webui-service   spec:     type: ClusterIP     ports:       - port: 3000         targetPort: 8080      selector:       app: open-webui
b. 通过Ingress暴露 OpenWebUI
apiVersion: networking.k8s.io/v1   kind: Ingress   metadata:     name: open-webui-ingress   spec:     rules:     - host: open-webui.xxxx-sh.com       http:         paths:         - backend:             service:               name: open-webui-service               port:                 number: 3000           path: /           pathType: Prefix     tls:     - hosts:       - open-webui.xxxx-sh.com       secretName: xxxx-tls
c. 访问 OpenWebUI

在浏览器访问相应的地址即可进入 OpenWebUI 页面。首次进入会提示创建管理员账号密码,创建完毕后即可登录,然后默认会使用前面下载好的大模型进行对话。

还有一些其他可视化交互工具,例如:
1.Chatbox AI:https://chatboxai.app/zh
2.Cherry Studio:https://cherry-ai.com

地表最强LLM推理引擎-SGLangGeneration Throughput (Token / s):1095(Max)

Ollama运行的话稳定会保持在 30~32 tokens/s

后续计划

截至目前,已成功部署并上线了一个相较官网版更加稳定、且具备自主可控性的DeepSeek-r1模型应用。希望这个博文对您有所帮助。

下一步,阿程将对已部署的模型进行压测,深入探索系统的性能极限,并进一步研究如何在生产环境中进行性能优化。此外,还将着力补充模型的可观测性、实现自动化弹性扩缩容,以及加速模型推理等优化措施。敬请期待后续更新!

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文地址:https://www.vps345.com/3651.html

搜索文章

Tags

PV计算 带宽计算 流量带宽 服务器带宽 上行带宽 上行速率 什么是上行带宽? CC攻击 攻击怎么办 流量攻击 DDOS攻击 服务器被攻击怎么办 源IP 服务器 linux 运维 游戏 云计算 javascript 前端 chrome edge python MCP ssh 阿里云 网络 网络安全 网络协议 llama 算法 opencv 自然语言处理 神经网络 语言模型 进程 操作系统 进程控制 Ubuntu ubuntu deepseek Ollama 模型联网 API CherryStudio fastapi mcp mcp-proxy mcp-inspector fastapi-mcp agent sse filezilla 无法连接服务器 连接被服务器拒绝 vsftpd 331/530 android harmonyos typescript 鸿蒙 RTSP xop RTP RTSPServer 推流 视频 flutter 华为 开发语言 计算机网络 数据库 centos oracle 关系型 安全 分布式 笔记 C 环境变量 进程地址空间 前端框架 深度学习 YOLO 目标检测 计算机视觉 人工智能 LDAP golang 智能路由器 外网访问 内网穿透 端口映射 GaN HEMT 氮化镓 单粒子烧毁 辐射损伤 辐照效应 docker 容器 adb nginx 监控 自动化运维 运维开发 windows WSL win11 无法解析服务器的名称或地址 django flask web3.py numpy asm macos live555 rtsp rtp websocket 产品经理 agi microsoft vim Hyper-V WinRM TrustedHosts web安全 Kali Linux 黑客 渗透测试 信息收集 vue3 HTML audio 控件组件 vue3 audio音乐播放器 Audio标签自定义样式默认 vue3播放音频文件音效音乐 自定义audio播放器样式 播放暂停调整声音大小下载文件 java 面试 性能优化 jdk intellij-idea 架构 github 创意 社区 ffmpeg 音视频 c++ Flask FastAPI Waitress Gunicorn uWSGI Uvicorn 机器学习 react.js 前端面试题 node.js 持续部署 rust http jenkins ssl pytorch transformer Dell R750XS 科技 ai 个人开发 udp unity tcp/ip uni-app 微服务 springcloud ollama llm ide php 宝塔面板访问不了 宝塔面板网站访问不了 宝塔面板怎么配置网站能访问 宝塔面板配置ip访问 宝塔面板配置域名访问教程 宝塔面板配置教程 spring boot 后端 tomcat pycharm vue.js audio vue音乐播放器 vue播放音频文件 Audio音频播放器自定义样式 播放暂停进度条音量调节快进快退 自定义audio覆盖默认样式 jmeter 软件测试 SSH Linux Xterminal 物联网 ESP32 单片机 spring cloud 豆瓣 追剧助手 迅雷 nas 微信 Docker Compose docker compose docker-compose openEuler unity3d 银河麒麟 kylin v10 麒麟 v10 网络穿透 云服务器 mysql TRAE pygame 小游戏 五子棋 android studio 交互 gitlab express okhttp CORS 跨域 软件工程 大模型微调 maven intellij idea vscode 代码调试 ipdb 腾讯云 gitee 远程工作 AI编程 AIGC HCIE 数通 Trae AI AI代码编辑器 code-server kubernetes VMware安装Ubuntu Ubuntu安装k8s k8s mysql离线安装 ubuntu22.04 mysql8.0 word图片自动上传 word一键转存 复制word图片 复制word图文 复制word公式 粘贴word图文 粘贴word公式 混合开发 环境安装 JDK 僵尸进程 dubbo Ubuntu 24 常用命令 Ubuntu 24 Ubuntu vi 异常处理 gateway Clion Nova ResharperC++引擎 Centos7 远程开发 json html5 firefox kamailio sip VoIP Windsurf 大数据 大数据平台 echarts 信息可视化 数据分析 网页设计 LLM 大模型面经 大模型 职场和发展 Deepseek 大模型学习 c语言 redis 1024程序员节 centos-root /dev/mapper yum clean all df -h / du -sh conda pillow 自动化 统信 国产操作系统 虚拟机安装 protobuf 序列化和反序列化 安装 缓存 jar spring 串口服务器 ci/cd devops .netcore 强制清理 强制删除 mac废纸篓 小程序 微信小程序域名配置 微信小程序服务器域名 微信小程序合法域名 小程序配置业务域名 微信小程序需要域名吗 微信小程序添加域名 stm32 qt WebRTC gpt WSL2 学习方法 经验分享 程序人生 chatgpt oneapi 开源 YOLOv12 Reactor 设计模式 C++ webrtc springsecurity6 oauth2 授权服务器 token sas java-ee DeepSeek-R1 API接口 mongodb pdf 多线程服务器 Linux网络编程 rabbitmq 学习 visualstudio prometheus IDE AI 原生集成开发环境 Trae AI 安装教程 GPU环境配置 Ubuntu22 CUDA PyTorch Anaconda安装 3d 测试工具 系统开发 binder 车载系统 framework 源码环境 文件系统 路径解析 DigitalOcean GPU服务器购买 GPU服务器哪里有 GPU服务器 apache Kylin-Server 服务器安装 嵌入式硬件 EasyConnect Cline ecmascript nextjs react reactjs https 流式接口 搜索引擎 openwrt hadoop mount挂载磁盘 wrong fs type LVM挂载磁盘 Centos7.9 RAID RAID技术 磁盘 存储 Agent 云原生 环境迁移 源码剖析 rtsp实现步骤 流媒体开发 gpu算力 postgresql c# NPS 雨云服务器 雨云 相差8小时 UTC 时间 Java 温湿度数据上传到服务器 Arduino HTTP es jvm cpu 内存 实时 使用 ollama下载加速 电脑 状态管理的 UDP 服务器 Arduino RTOS kvm 无桌面 命令行 媒体 微信公众平台 C语言 企业微信 Linux24.04 deepin svn 负载均衡 matlab 向日葵 web Socket YOLOv8 NPU Atlas800 A300I pro asi_bench 博客 springboot远程调试 java项目远程debug docker远程debug java项目远程调试 springboot远程 ecm bpm mybatis 宕机切换 服务器宕机 fpga开发 压力测试 蓝耘科技 元生代平台工作流 ComfyUI safari pip Mac 系统 系统架构 计算机外设 mac 软件需求 ddos stm32项目 llama3 Chatglm 开源大模型 debian PVE HarmonyOS Next Samba NAS wsl2 wsl zotero WebDAV 同步失败 代理模式 远程桌面 ansible playbook 多进程 远程 命令 执行 sshpass 操作 iDRAC R720xd CPU 主板 电源 网卡 freebsd dell服务器 go 硬件架构 虚拟化 半虚拟化 硬件虚拟化 Hypervisor IIS .net core Hosting Bundle .NET Framework vs2022 XFS xfs文件系统损坏 I_O error firewalld iot 部署 服务器配置 华为云 集成学习 集成测试 virtualenv 微信小程序 elasticsearch DevEco Studio html 剧本 微信分享 Image wxopensdk 爬虫 数据集 Qwen2.5-coder 离线部署 threejs 3D sql KingBase Dify UOS 统信操作系统 yum oceanbase rc.local 开机自启 systemd 麒麟 excel W5500 OLED u8g2 TCP服务器 音乐服务器 Navidrome 音流 ping++ kylin 深度优先 图论 并集查找 换根法 树上倍增 智能手机 Termux 嵌入式 linux驱动开发 arm开发 指令 ruoyi DeepSeek行业应用 DeepSeek Heroku 网站部署 postman mock mock server 模拟服务器 mock服务器 Postman内置变量 Postman随机数据 低代码 服务器繁忙 服务器数据恢复 数据恢复 存储数据恢复 北亚数据恢复 oracle数据恢复 av1 电视盒子 机顶盒ROM 魔百盒刷机 nuxt3 实时音视频 数学建模 IIS服务器 IIS性能 日志监控 next.js 部署next.js 命名管道 客户端与服务端通信 银河麒麟服务器操作系统 系统激活 springboot 设置代理 实用教程 bash list 数据结构 ArcTS 登录 ArcUI GridItem sqlserver 数据库系统 linux环境变量 minicom 串口调试工具 unix 漏洞 .net 安全威胁分析 k8s资源监控 annotations自动化 自动化监控 监控service 监控jvm vscode 1.86 火绒安全 语法 Nuxt.js 需求分析 规格说明书 bug 系统安全 弹性计算 裸金属服务器 弹性裸金属服务器 p2p zabbix dns 远程连接 数据挖掘 r语言 数据可视化 AI大模型 程序员 大模型入门 HTTP 服务器控制 ESP32 DeepSeek aws googlecloud Google pay Apple pay 备选 网站 api 调用 示例 黑苹果 虚拟机 VMware ip命令 新增网卡 新增IP 启动网卡 Playwright 自动化测试 服务器主板 AI芯片 信息与通信 AD域 vSphere vCenter 软件定义数据中心 sddc 反向代理 致远OA OA服务器 服务器磁盘扩容 sdkman docker命令大全 5G 3GPP 卫星通信 nac 802.1 portal 怎么卸载MySQL MySQL怎么卸载干净 MySQL卸载重新安装教程 MySQL5.7卸载 Linux卸载MySQL8.0 如何卸载MySQL教程 MySQL卸载与安装 能力提升 面试宝典 技术 IT信息化 alias unalias 别名 rpc eureka JAVA cuda cudnn nvidia 消息队列 边缘计算 智能硬件 查询数据库服务IP地址 SQL Server AutoDL arm 业界资讯 华为od 鲲鹏 tidb GLIBC 模拟退火算法 git GCC Linux环境 Docker Hub docker pull 镜像源 daemon.json MQTT mosquitto 源码 毕业设计 课程设计 监控k8s 监控kubernetes 机器人 视觉检测 计算机 regedit 开机启动 VMware创建虚拟机 sqlite 华为认证 网络工程师 交换机 MS Materials 交叉编译 ceph openssl 密码学 京东云 自定义客户端 SAS shell WebUI DeepSeek V3 基础入门 编程 Claude 银河麒麟高级服务器 外接硬盘 Kylin 国产化 rocketmq hive Hive环境搭建 hive3环境 Hive远程模式 flink AnythingLLM AnythingLLM安装 华为机试 Python visual studio code dify 深度求索 私域 知识库 AISphereButler armbian u-boot 大模型教程 efficientVIT YOLOv8替换主干网络 TOLOv8 remote-ssh flash-attention 报错 frp ukui 麒麟kylinos openeuler rust腐蚀 cnn DenseNet npm wordpress 无法访问wordpess后台 打开网站页面错乱 linux宝塔面板 wordpress更换服务器 框架搭建 腾讯云大模型知识引擎 游戏程序 qemu libvirt ui 回显服务器 UDP的API使用 mcu ftp can 线程池 VPS pyqt 编辑器 VM搭建win2012 win2012应急响应靶机搭建 攻击者获取服务器权限 上传wakaung病毒 应急响应并溯源 挖矿病毒处置 应急响应综合性靶场 gradle ios 其他 Linux的基础指令 C# MQTTS 双向认证 emqx 自动驾驶 RustDesk自建服务器 rustdesk服务器 docker rustdesk epoll opensearch helm IDEA 无人机 Ark-TS语言 飞书 Ubuntu Server Ubuntu 22.04.5 孤岛惊魂4 uniapp vue 恒源云 tcp ux 多线程 USB网络共享 移动魔百盒 vscode1.86 1.86版本 ssh远程连接 open Euler dde 统信UOS USB转串口 CH340 飞牛NAS 飞牛OS MacBook Pro RTMP 应用层 jupyter LLM Web APP Streamlit camera Arduino 电子信息 监控k8s集群 集群内prometheus xml big data 数据库架构 数据管理 数据治理 数据编织 数据虚拟化 自动化编程 open webui idm ssh漏洞 ssh9.9p2 CVE-2025-23419 游戏服务器 TrinityCore 魔兽世界 lua 虚拟显示器 远程控制 sysctl.conf vm.nr_hugepages adobe 传统数据库升级 银行 cmos 硬件 大语言模型 LLMs k8s集群资源管理 云原生开发 单一职责原则 vmware 卡死 kafka 网络编程 聊天服务器 套接字 TCP 客户端 IPMITOOL BMC 硬件管理 opcua opcda KEPServer安装 ros2 moveit 机器人运动 FTP 服务器 重启 排查 系统重启 日志 原因 NFS spark HistoryServer Spark YARN jobhistory VMware安装mocOS macOS系统安装 Headless Linux 音乐库 群晖 飞牛 ai小智 语音助手 ai小智配网 ai小智教程 esp32语音助手 diy语音助手 selete 高级IO asp.net大文件上传 asp.net大文件上传下载 asp.net大文件上传源码 ASP.NET断点续传 asp.net上传文件夹 asp.net上传大文件 .net core断点续传 文件分享 prompt 中间件 iis VSCode IO模型 移动云 云服务 可信计算技术 n8n 工作流 workflow raid5数据恢复 磁盘阵列数据恢复 iphone 僵尸世界大战 游戏服务器搭建 银河麒麟操作系统 telnet 远程登录 iftop 网络流量监控 zookeeper nfs 服务器部署ai模型 selenium SSL 域名 rsyslog Anolis nginx安装 linux插件下载 make命令 makefile文件 gcc ruby wireshark 显示过滤器 ICMP Wireshark安装 v10 软件 鸿蒙系统 perf 驱动开发 硬件工程 嵌入式实习 安卓 DBeaver 数据仓库 kerberos 网络用户购物行为分析可视化平台 大数据毕业设计 本地部署 架构与原理 单例模式 技术共享 多个客户端访问 IO多路复用 TCP相关API Linux PID openstack Xen KVM LInux 黑客技术 mariadb URL 网工 压测 ECS MacOS录屏软件 ssrf 失效的访问控制 MI300x mamba Vmamba SysBench 基准测试 SSE elk Logstash 日志采集 大文件分片上传断点续传及进度条 如何批量上传超大文件并显示进度 axios大文件切片上传详细教 node服务器合并切片 vue3大文件上传报错提示错误 大文件秒传跨域报错cors vue-i18n 国际化多语言 vue2中英文切换详细教程 如何动态加载i18n语言包 把语言json放到服务器调用 前端调用api获取语言配置文件 xrdp string模拟实现 深拷贝 浅拷贝 经典的string类问题 三个swap RAGFLOW RAG 检索增强生成 文档解析 大模型垂直应用 Unity Dedicated Server Host Client 无头主机 开发环境 SSL证书 网络攻击模型 技能大赛 tcpdump 政务 分布式系统 监控运维 Prometheus Grafana 模拟器 教程 实时互动 ESXi Dell HPE 联想 浪潮 崖山数据库 YashanDB 视频编解码 Ubuntu 24.04.1 轻量级服务器 redhat 蓝桥杯 医疗APP开发 app开发 策略模式 性能测试 功能测试 odoo 服务器动作 Server action netty 代码托管服务 .net mvc断点续传 远程看看 远程协助 远程过程调用 Windows环境 直播推流 gpt-3 文心一言 高效日志打印 串口通信日志 服务器日志 系统状态监控日志 异常记录日志 安全架构 毕设 midjourney AI写作 大模型应用 FTP服务器 服务器管理 宝塔面板 配置教程 网站管理 EMUI 回退 降级 升级 gitea risc-v Ubuntu DeepSeek DeepSeek Ubuntu DeepSeek 本地部署 DeepSeek 知识库 DeepSeek 私有化知识库 本地部署 DeepSeek DeepSeek 私有化部署 linux安装配置 佛山戴尔服务器维修 佛山三水服务器维修 ipython etcd 数据安全 RBAC seatunnel Redis Desktop kali 共享文件夹 矩阵 三级等保 服务器审计日志备份 金融 css 工业4.0 联想开天P90Z装win10 Invalid Host allowedHosts 干货分享 黑客工具 密码爆破 bootstrap SSH 服务 SSH Server OpenSSH Server 软考 软件构建 Cursor VS Code 互信 小智AI服务端 xiaozhi ASR TTS C++软件实战问题排查经验分享 0xfeeefeee 0xcdcdcdcd 动态库加载失败 程序启动失败 程序运行权限 标准用户权限与管理员权限 AD 域管理 单元测试 网站搭建 serv00 微信开放平台 微信公众号配置 bonding 链路聚合 双系统 GRUB引导 Linux技巧 灵办AI 执法记录仪 智能安全帽 smarteye 链表 tailscale derp derper 中转 线性代数 电商平台 MCP server C/S windows日志 图形化界面 历史版本 下载 Minecraft DOIT 四博智联 cursor minio 自学笔记 小米 澎湃OS Android 上传视频至服务器代码 vue3批量上传多个视频并预览 如何实现将本地视频上传到网页 element plu视频上传 ant design vue vue3本地上传视频及预览移除 我的世界服务器搭建 minecraft thingsboard crosstool-ng H3C 服务器无法访问 ip地址无法访问 无法访问宝塔面板 宝塔面板打不开 测试用例 磁盘监控 多层架构 解耦 kind 前后端分离 生物信息学 Cookie uni-file-picker 拍摄从相册选择 uni.uploadFile H5上传图片 微信小程序上传图片 pgpool 支付 微信支付 开放平台 分析解读 田俊楠 FunASR file server http server web server muduo X11 Xming g++ g++13 Portainer搭建 Portainer使用 Portainer使用详解 Portainer详解 Portainer portainer outlook c ue4 着色器 ue5 虚幻 rdp 实验 目标跟踪 OpenVINO 推理应用 王者荣耀 Wi-Fi DNS 开机自启动 Spring Security Linux无人智慧超市 LInux多线程服务器 QT项目 LInux项目 单片机项目 ISO镜像作为本地源 MacMini 迷你主机 mini Apple 宠物 免费学习 宠物领养 宠物平台 云电竞 云电脑 todesk QQ bot Docker 小艺 Pura X 设备 GPU PCI-Express anaconda 阻塞队列 生产者消费者模型 服务器崩坏原因 版本 jetty undertow 宝塔 超融合 DeepSeek r1 Open WebUI 匿名管道 Erlang OTP gen_server 热代码交换 事务语义 MNN Qwen ip 备份SQL Server数据库 数据库备份 傲梅企业备份网络版 GoogLeNet eclipse hugo Netty 即时通信 NIO 游戏引擎 SWAT 配置文件 服务管理 网络共享 OD机试真题 华为OD机试真题 服务器能耗统计 gaussdb 银河麒麟桌面操作系统 Kylin OS xss 进程信号 在线预览 xlsx xls文件 在浏览器直接打开解析xls表格 前端实现vue3打开excel 文件地址url或接口文档流二进 VR手套 数据手套 动捕手套 动捕数据手套 CLion 图像处理 游戏机 昇腾 npu pppoe radius 7z ocr micropython esp32 mqtt AI agent 输入法 思科模拟器 思科 Cisco curl wget docker run 数据卷挂载 交互模式 saltstack vasp安装 网络结构图 AI作画 聊天室 XCC Lenovo 国标28181 视频监控 监控接入 语音广播 流程 SIP SDP linux 命令 sed 命令 繁忙 解决办法 替代网站 汇总推荐 AI推理 CDN keepalived dba 算力 Radius qt项目 qt项目实战 qt教程 chrome devtools chromedriver skynet 计算虚拟化 弹性裸金属 ragflow eNSP 网络规划 VLAN 企业网络 权限 windwos防火墙 defender防火墙 win防火墙白名单 防火墙白名单效果 防火墙只允许指定应用上网 防火墙允许指定上网其它禁止 根服务器 clickhouse arkUI embedding 服务网格 istio 社交电子 自动化任务管理 高效远程协作 TrustViewer体验 跨设备操作便利 智能远程控制 easyui langchain EMQX 通信协议 hibernate laravel grafana 直流充电桩 充电桩 IPMI junit 飞牛nas fnos chfs ubuntu 16.04 阿里云ECS 小番茄C盘清理 便捷易用C盘清理工具 小番茄C盘清理的优势尽显何处? 教你深度体验小番茄C盘清理 C盘变红?!不知所措? C盘瘦身后电脑会发生什么变化? LORA NLP 显示管理器 lightdm gdm yum源切换 更换国内yum源 同步 备份 建站 Linux awk awk函数 awk结构 awk内置变量 awk参数 awk脚本 awk详解 内网服务器 内网代理 内网通信 Xinference RAGFlow vr HarmonyOS OpenHarmony 真机调试 vpn 远程服务 rustdesk ArkTs ArkUI 捆绑 链接 谷歌浏览器 youtube google gmail 健康医疗 互联网医院 ubuntu24 vivado24 MacOS x64 SIGSEGV xmm0 图形渲染 mq Typore sequoiaDB 免费域名 域名解析 kotlin less DocFlow 查看显卡进程 fuser Linux的权限 perl prometheus数据采集 prometheus数据模型 prometheus特点 李心怡 Mac内存不够用怎么办 语音识别 相机 EtherNet/IP串口网关 EIP转RS485 EIP转Modbus EtherNet/IP网关协议 EIP转RS485网关 EIP串口服务器 Python基础 Python教程 Python技巧 yaml Ultralytics 可视化 wpf db WLAN CentOS sqlite3 idea wsgiref Web 服务器网关接口 webgl 信创 信创终端 中科方德 考研 onlyoffice 在线office 软链接 硬链接 做raid 装系统 Java Applet URL操作 服务器建立 Socket编程 网络文件读取 流水线 脚本式流水线 jina ardunio BLE webstorm chrome 浏览器下载 chrome 下载安装 谷歌浏览器下载 私有化 CrewAI rime 基础环境 WebVM su sudo 并查集 leetcode 项目部署到linux服务器 项目部署过程 composer CVE-2024-7347 MySql 开发 linux上传下载 KylinV10 麒麟操作系统 Vmware web3 信号处理 问题解决 网络药理学 生信 gromacs 分子动力学模拟 MD 动力学模拟 autodl harmonyOS面试题 ssh远程登录 邮件APP 免费软件 aarch64 编译安装 HPC EtherCAT转Modbus ECT转Modbus协议 EtherCAT转485网关 ECT转Modbus串口网关 EtherCAT转485协议 ECT转Modbus网关 IMM 浏览器开发 AI浏览器 iBMC UltraISO deepseek r1 域名服务 DHCP 符号链接 配置 etl 烟花代码 烟花 元旦 性能调优 安全代理 python3.11 ubuntu24.04.1 lsb_release /etc/issue /proc/version uname -r 查看ubuntu版本 树莓派 VNC ros Ubuntu共享文件夹 共享目录 Linux共享文件夹 磁盘清理 powerpoint 粘包问题 fast dity make java-rocketmq ldap fstab GIS 遥感 WebGIS Docker引擎已经停止 Docker无法使用 WSL进度一直是0 镜像加速地址 uv 实战案例 searxng 人工智能生成内容 大大通 第三代半导体 碳化硅 镜像 Windows ai工具 ShenTong cfssl 拓扑图 ROS 产测工具框架 IMX6ULL 管理框架 抗锯齿 AP配网 AK配网 小程序AP配网和AK配网教程 WIFI设备配网小程序UDP开 内网环境 h.264 neo4j 知识图谱 本地部署AI大模型 IMX317 MIPI H265 VCU firewall navicat TCP协议 cpp-httplib cd 目录切换 P2P HDLC milvus QT 5.12.12 QT开发环境 Ubuntu18.04 nvm whistle 线程 网卡的名称修改 eth0 ens33 Attention react native SRS 流媒体 直播 防火墙 NAT转发 NAT Server MVS 海康威视相机 Deepseek-R1 私有化部署 推理模型 程序 性能分析 串口驱动 CH341 uart 485 聚类 bcompare Beyond Compare 常用命令 文本命令 目录命令 proxy模式 win服务器架设 windows server 虚拟局域网 dash 正则表达式 迁移指南 llama.cpp 具身智能 强化学习 显卡驱动 OpenSSH css3 sentinel 嵌入式Linux IPC 容器技术 IPv4 子网掩码 公网IP 私有IP SSH 密钥生成 SSH 公钥 私钥 生成 序列化反序列化 主从复制 状态模式 swoole rclone AList webdav fnOS 企业网络规划 华为eNSP seleium 加解密 Yakit yaklang apt 中兴光猫 换光猫 网络桥接 自己换光猫 iperf3 带宽测试 docker搭建pg docker搭建pgsql pg授权 postgresql使用 postgresql搭建 我的世界 我的世界联机 数码 UOS1070e UDP 多端开发 智慧分发 应用生态 鸿蒙OS matplotlib 服务器时间 流量运营 代码 对比 工具 meld DiffMerge 软件卸载 系统清理 fd 文件描述符 docker搭建nacos详解 docker部署nacos docker安装nacos 腾讯云搭建nacos centos7搭建nacos hexo triton 模型分析 换源 国内源 Debian glibc lio-sam SLAM edge浏览器 元服务 应用上架 毕昇JDK AI-native Docker Desktop HiCar CarLife+ CarPlay QT RK3588 yolov8 tensorflow trae 软负载 安防软件 Node-Red 编程工具 流编程 wps rnn Unity插件 deekseek iventoy VmWare OpenEuler ubuntu20.04 ros1 Noetic 20.04 apt 安装 端口 查看 ss deployment daemonset statefulset cronjob 办公自动化 自动化生成 pdf教程 读写锁 top Linux top top命令详解 top命令重点 top常用参数 c/c++ 串口 AI Agent 字节智能运维 用户缓冲区 模拟实现 arcgis PX4 端口测试 deep learning 影刀 #影刀RPA# 云桌面 微软 AD域控 证书服务器 个人博客 rtsp服务器 rtsp server android rtsp服务 安卓rtsp服务器 移动端rtsp服务 大牛直播SDK 信号 pyautogui word cocoapods xcode ABAP 运维监控 rag ragflow 源码启动 SenseVoice 实习 grub 版本升级 扩容 钉钉 代理 figma 游戏开发 Kali 渗透 Jellyfin 存储维护 NetApp存储 EMC存储 带外管理 TrueLicense Linux find grep 抓包工具 磁盘镜像 服务器镜像 服务器实时复制 实时文件备份 金仓数据库 2025 征文 数据库平替用金仓 大模型推理 OpenManus 网络建设与运维 程序员创富 dns是什么 如何设置电脑dns dns应该如何设置 MQTT协议 消息服务器 miniapp 调试 debug 断点 网络API请求调试方法 docker desktop image Ubuntu22.04 开发人员主页 trea xpath定位元素 智能音箱 智能家居 bat 分布式训练 RoboVLM 通用机器人策略 VLA设计哲学 vlm fot robot 视觉语言动作模型 SVN Server tortoise svn 键盘 sonoma 自动更新 xshell termius iterm2 数据库开发 database 本地知识库部署 DeepSeek R1 模型 docker部署翻译组件 docker部署deepl docker搭建deepl java对接deepl 翻译组件使用 HAProxy 环境配置 IM即时通讯 剪切板对通 HTML FORMAT 物联网开发 代理服务器 SEO log4j 合成模型 扩散模型 图像生成 多路转接 解决方案 鸿蒙开发 移动开发 conda配置 conda镜像源 稳定性 看门狗 大模型部署 ArtTS 数字证书 签署证书 vllm docker部署Python 智能电视 搭建个人相关服务器 本地化部署 yum换源 网络爬虫 开机黑屏 玩机技巧 软件分享 软件图标 增强现实 沉浸式体验 应用场景 技术实现 案例分析 AR mm-wiki搭建 linux搭建mm-wiki mm-wiki搭建与使用 mm-wiki使用 mm-wiki详解 沙盒 虚幻引擎 nlp hosts 服务器正确解析请求体 AI员工 论文阅读 欧标 OCPP Sealos 嵌入式系统开发 极限编程 网络搭建 神州数码 神州数码云平台 云平台 HarmonyOS NEXT 原生鸿蒙 IO PPI String Cytoscape CytoHubba nosql Qwen2.5-VL MobaXterm CentOS Stream 项目部署 推荐算法 dock 加速 热榜 macOS MDK 嵌入式开发工具 论文笔记 sublime text gnu 离线部署dify ranger MySQL8.0 达梦 DM8 visual studio 搜狗输入法 中文输入法 风扇控制软件 rpa 端口聚合 windows11 System V共享内存 进程通信 yolov5 kernel 接口优化 k8s二次开发 西门子PLC 通讯 js 云耀服务器