最新资讯

  • ollama修改配置使用多GPU,使用EvalScope进行模型压力测试,查看使用负载均衡前后的性能区别

ollama修改配置使用多GPU,使用EvalScope进行模型压力测试,查看使用负载均衡前后的性能区别

2025-05-12 14:00:52 1 阅读

文章目录

      • 省流结论
      • 机器配置
      • 不同量化模型占用显存
      • 1. 创建虚拟环境
      • 2. 创建测试jsonl文件
      • 3. 新建测试脚本
      • 3. 默认加载方式,单卡运行模型
        • 3.1 7b模型输出213 tok/s
        • 3.1 32b模型输出81 tok/s
        • 3.1 70b模型输出43tok/s
      • 4. 使用负载均衡,多卡运行
        • 4.1 7b模型输出217tok/s
        • 4.2 32b模型输出83 tok/s
        • 4.3 70b模型输出45 tok/s
      • 5. 结论

由于ollama默认调用模型,模型实例会运行在一张卡上,如果有几张显卡,模型只会永远跑在第一张卡上,除非显存超出,然后才会将模型跑在第二张卡,这造成了资源很大的浪费。网上通过修改ollama.service的配置,如下:

Environment="CUDA_VISIBLE_DEVICES=0,1,2,3"
Environment="OLLAMA_SCHED_SPREAD=1"
Environment="OLLAMA_KEEP_ALIVE=-1"

修改之后可以负载均衡,显存平均分配在集群中的每张卡上,但是我不太了解这种方式是否会提升模型吞吐量?和默认的调用单卡实例有啥区别呢?

因此我决定使用EvalScope进行模型性能测试,从而查看这两种方式区别有多大。

EvalScope简介:

EvalScope是魔搭社区官方推出的模型评测与性能基准测试框架,内置多个常用测试基准和评测指标,如MMLU、CMMLU、C-Eval、GSM8K、ARC、HellaSwag、TruthfulQA、MATH和HumanEval等;支持多种类型的模型评测,包括LLM、多模态LLM、embedding模型和reranker模型。EvalScope还适用于多种评测场景,如端到端RAG评测、竞技场模式和模型推理性能压测等。此外,通过ms-swift训练框架的无缝集成,可一键发起评测,实现了模型训练到评测的全链路支持。

省流结论

我修改ollama的配置环境,使用负载均衡,发现输出tok并没有增加很多,性能几乎没有提升。我看网上使用负载均衡会提升吞吐量,经过我的测试,发现配置修改前后性能差不多。

但是负载均衡毕竟可以使用多GPU,感觉也挺不错。

机器配置

使用显卡如下,4张L20。

懒得查资料,问了gpt 4o,抛开显存不谈,L20的算力性能约等于哪个消费级显卡?

它说:L20 性能 ≈ RTX 4080。介于4080和4090之间。

参数NVIDIA L20RTX 4080RTX 4090
架构Ada LovelaceAda LovelaceAda Lovelace
CUDA 核心数11,7769,72816,384
Tensor 核心数368304512
基础频率1,440 MHz2,205 MHz2,235 MHz
Boost 频率2,520 MHz2,505 MHz2,520 MHz
FP16 Tensor Core119.5 TFLOPS97.4 TFLOPS165.2 TFLOPS
FP32 算力59.8 TFLOPS49.1 TFLOPS82.6 TFLOPS
TDP 功耗275W320W450W

不同量化模型占用显存

deepseek-r1量化的几个模型显存占用:

deepseek-r1:7b大概需要5.5G的显存

deepseek-r1:32b大概需要21.2G的显存

deepseek-r1:70b大概需要43G的显存

我们使用evalscope的perf进行模型性能压力测试

evalscope的perf主要用于模型性能压测(吞吐量、速度)

🔍 作用:

用于测试你部署的模型在高并发或大输入下的响应能力和性能,比如:每秒处理多少条请求?并发处理能力怎么样?最慢 / 最快 / 平均响应时间是多少?

📊 输出内容:

吞吐率(tokens/s)平均响应延迟(ms)流式输出响应时间等

1. 创建虚拟环境

首先使用conda新建虚拟环境,之后安装依赖:

pip install evalscope                # 安装 Native backend (默认)
# 额外选项
pip install 'evalscope[opencompass]'   # 安装 OpenCompass backend
pip install 'evalscope[vlmeval]'       # 安装 VLMEvalKit backend
pip install 'evalscope[rag]'           # 安装 RAGEval backend
pip install 'evalscope[perf]'          # 安装 模型压测模块 依赖
pip install 'evalscope[app]'           # 安装 可视化 相关依赖
pip install 'evalscope[all]'           # 安装所有 backends (Native, OpenCompass, VLMEvalKit, RAGEval)

如果个别的包由于无法连接github下载导致安装错误,可以手动下载依赖,手动安装。

2. 创建测试jsonl文件

我们需要写一个简单测试的jsonl文件。

新建open_qa.jsonl文件,我的测试jsonl文件内容如下:

{"question": "什么是深度学习?"}
{"question": "请介绍一下量子纠缠。"}
{"question": "图像恢复是什么?"}
{"question": "解释一下牛顿第三定律。"}
{"question": "《红楼梦》讲述了什么内容?"}
{"question": "地球为什么有四季变化?"}
{"question": "黑洞是如何形成的?"}
{"question": "什么是注意力机制(Attention Mechanism)?"}
{"question": "二战的主要原因有哪些?"}
{"question": "如何提高自然语言处理模型的泛化能力?"}
{"question": "什么是摩尔定律?它现在还有效吗?"}
{"question": "请简述贝叶斯定理及其应用。"}
{"question": "中国的四大发明是什么?"}
{"question": "什么是元宇宙(Metaverse)?"}
{"question": "请解释区块链的基本原理。"}
{"question": "DNA 是什么?它的结构特点是什么?"}
{"question": "介绍一下古希腊哲学的主要流派。"}
{"question": "什么是强化学习?它与监督学习有何区别?"}
{"question": "太阳内部发生了什么物理过程?"}
{"question": "人工智能会取代人类的工作吗?"}
{"question": "解释电磁感应现象及其应用。"}
{"question": "什么是熵?它在信息论中代表什么?"}
{"question": "5G 网络有哪些核心技术?"}
{"question": "请说明气候变化的主要原因。"}
{"question": "什么是图神经网络(GNN)?"}

3. 新建测试脚本

新建test_perf_deepseek.sh文件,内容如下,测试的是7b模型:

如果测试其他模型,修改–model的参数

修改–dataset-path的路径,改为你存放open_qa.jsonl的路径

evalscope perf 
  --url 'http://localhost:11434/v1/chat/completions' 
  --max-prompt-length 128 
  --parallel 20 
  --model 'deepseek-r1:7b' 
  --log-every-n-query 1 
  --read-timeout=1200 
  --name 128-128-1 
  --stream 
  --dataset-path '/root/test/data/open_qa.jsonl' 
  -n 20 
  --max-tokens 1024 
  --api openai 
  --stop '<|im_end|>' 
  --dataset openqa

参数说明:

  • --url: 请求的URL地址,例如:http://localhost:11434/v1/chat/completions,这是本地部署的模型API接口。
  • --max-prompt-length: 单个请求中prompt的最大长度限制,这里是128个token。
  • --parallel: 并行请求的任务数量,这里是20,意味着同时发起20个请求进行性能测试。
  • --model: 使用的模型名称,这里是 deepseek-r1:7b
  • --log-every-n-query: 每隔多少个请求打印一次日志,这里是每1个请求都打印一次。
  • --read-timeout: 单个请求的最长等待时间(秒),超过这个时间会认为请求超时。这里设置为1200秒(20分钟),适合长时间响应的情况。
  • --name: 当前测试的名称/标识,用于记录结果或日志标记。这里为 128-128-1,可能是自定义的配置标识(如max_prompt/max_tokens/batch_size之类)。
  • --stream: 是否启用流式处理。开启后,将使用流式响应模式接收生成结果(比如OpenAI的stream=True),适合处理大输出或加速响应体验。
  • --dataset-path: 指定本地数据集的路径,这里是 /root/test/data/open_qa.jsonl,通常为JSON Lines格式的数据集。
  • -n: 请求总数,这里是20,表示总共发送20个请求进行测试。
  • --max-tokens: 模型在生成时最多生成的token数量,这里为1024。
  • --api: 使用的API协议或服务类型,这里是 openai 风格的API(即参数格式符合OpenAI Chat API标准)。
  • --stop: 指定生成的停止标记,这里是 <|im_end|>,用于控制生成结果在遇到该标记时停止。
  • --dataset: 使用的数据集名称或类型标识,这里是 openqa,常用于区分测试任务或用于内部适配。

3. 默认加载方式,单卡运行模型

测试命令如下,测试的模型:

测试不同的模型,修改这个–model参数

测试7b:deepseek-r1:7b

测试32b:deepseek-r1:32b

测试70b:deepseek-r1:70b

3.1 7b模型输出213 tok/s

显存占用如下,由于我先启动了32b和70b模型,最后启动了7b模型,可以看到前两张卡运行了两个模型。

第三张卡运行的是7b模型。

不使用负载均衡,使用ollama默认的调用方式,使用单张卡进行推理,deepseek-r1:7b测试结果如下,可以看到每秒输出的token大概有213。

Benchmarking summary:
+-----------------------------------+-----------------------------------------------------+
| Key                               | Value                                               |
+===================================+=====================================================+
| Time taken for tests (s)          | 69.5776                                             |
+-----------------------------------+-----------------------------------------------------+
| Number of concurrency             | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Total requests                    | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Succeed requests                  | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Failed requests                   | 0                                                   |
+-----------------------------------+-----------------------------------------------------+
| Output token throughput (tok/s)   | 213.79                                              |
+-----------------------------------+-----------------------------------------------------+
| Total token throughput (tok/s)    | 216.7363                                            |
+-----------------------------------+-----------------------------------------------------+
| Request throughput (req/s)        | 0.2874                                              |
+-----------------------------------+-----------------------------------------------------+
| Average latency (s)               | 39.6962                                             |
+-----------------------------------+-----------------------------------------------------+
| Average time to first token (s)   | 26.5699                                             |
+-----------------------------------+-----------------------------------------------------+
| Average time per output token (s) | 0.0776                                              |
+-----------------------------------+-----------------------------------------------------+
| Average input tokens per request  | 10.25                                               |
+-----------------------------------+-----------------------------------------------------+
| Average output tokens per request | 743.75                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package latency (s)       | 0.0178                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package per request       | 739.25                                              |
+-----------------------------------+-----------------------------------------------------+
| Expected number of requests       | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Result DB path                    | outputs/20250415_091602/128-128-1/benchmark_data.db |
+-----------------------------------+-----------------------------------------------------+
2025-04-15 09:17:12,411 - evalscope - INFO - 
Percentile results:
+------------+----------+---------+-------------+--------------+---------------+----------------------+
| Percentile | TTFT (s) | ITL (s) | Latency (s) | Input tokens | Output tokens | Throughput(tokens/s) |
+------------+----------+---------+-------------+--------------+---------------+----------------------+
|    10%     |  0.1328  | 0.0173  |   13.8207   |      7       |      490      |        9.5719        |
|    25%     |  12.052  | 0.0177  |   25.8903   |      8       |      664      |       14.3005        |
|    50%     | 27.0828  | 0.0179  |   42.0287   |      10      |      772      |       18.1264        |
|    66%     | 39.8597  |  0.018  |   53.5647   |      11      |      897      |       29.8181        |
|    75%     | 44.5788  |  0.018  |   62.9357   |      12      |     1024      |       33.9352        |
|    80%     | 45.7624  | 0.0181  |   64.1272   |      14      |     1024      |       56.3658        |
|    90%     | 54.2245  | 0.0182  |   65.4349   |      14      |     1024      |       56.5702        |
|    95%     | 62.9888  | 0.0183  |   69.5807   |      14      |     1024      |       56.6541        |
|    98%     | 62.9888  | 0.0184  |   69.5807   |      14      |     1024      |       56.6541        |
|    99%     | 62.9888  | 0.0188  |   69.5807   |      14      |     1024      |       56.6541        |
+------------+----------+---------+-------------+--------------+---------------+----------------------+

3.1 32b模型输出81 tok/s

显存占用,可以看到就单卡运行

测试的deepseek-r1:32b模型,每秒输出token有81。

Benchmarking summary:
+-----------------------------------+-----------------------------------------------------+
| Key                               | Value                                               |
+===================================+=====================================================+
| Time taken for tests (s)          | 215.884                                             |
+-----------------------------------+-----------------------------------------------------+
| Number of concurrency             | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Total requests                    | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Succeed requests                  | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Failed requests                   | 0                                                   |
+-----------------------------------+-----------------------------------------------------+
| Output token throughput (tok/s)   | 81.5021                                             |
+-----------------------------------+-----------------------------------------------------+
| Total token throughput (tok/s)    | 82.4517                                             |
+-----------------------------------+-----------------------------------------------------+
| Request throughput (req/s)        | 0.0926                                              |
+-----------------------------------+-----------------------------------------------------+
| Average latency (s)               | 122.059                                             |
+-----------------------------------+-----------------------------------------------------+
| Average time to first token (s)   | 81.843                                              |
+-----------------------------------+-----------------------------------------------------+
| Average time per output token (s) | 0.1421                                              |
+-----------------------------------+-----------------------------------------------------+
| Average input tokens per request  | 10.25                                               |
+-----------------------------------+-----------------------------------------------------+
| Average output tokens per request | 879.75                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package latency (s)       | 0.0461                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package per request       | 872.05                                              |
+-----------------------------------+-----------------------------------------------------+
| Expected number of requests       | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Result DB path                    | outputs/20250415_092445/128-128-1/benchmark_data.db |
+-----------------------------------+-----------------------------------------------------+
2025-04-15 09:28:26,988 - evalscope - INFO - 
Percentile results:
+------------+----------+---------+-------------+--------------+---------------+----------------------+
| Percentile | TTFT (s) | ITL (s) | Latency (s) | Input tokens | Output tokens | Throughput(tokens/s) |
+------------+----------+---------+-------------+--------------+---------------+----------------------+
|    10%     |  0.1992  | 0.0432  |   41.9602   |      7       |      664      |         4.52         |
|    25%     | 40.2375  | 0.0454  |   81.6553   |      8       |      797      |        4.7959        |
|    50%     | 87.3562  | 0.0465  |  135.0661   |      10      |      892      |        7.5815        |
|    66%     | 113.3376 | 0.0466  |  153.0112   |      11      |     1020      |       10.1626        |
|    75%     | 137.7377 | 0.0467  |  182.9889   |      12      |     1024      |       11.4105        |
|    80%     | 143.7239 | 0.0467  |  184.4415   |      14      |     1024      |       22.1322        |
|    90%     | 168.787  | 0.0468  |  212.6837   |      14      |     1024      |        22.247        |
|    95%     | 183.1294 | 0.0469  |  215.8822   |      14      |     1024      |       22.2935        |
|    98%     | 183.1294 | 0.0471  |  215.8822   |      14      |     1024      |       22.2935        |
|    99%     | 183.1294 | 0.0488  |  215.8822   |      14      |     1024      |       22.2935        |
+------------+----------+---------+-------------+--------------+---------------+----------------------+

3.1 70b模型输出43tok/s

显存占用如下,可以看到当运行32b模型时,由于再唤醒70b模型需要占用42.9G的显存,单卡48G的显存显然不够用的,因此会调用下一张卡。

测试的deepseek-r1:70b模型,每秒输出token只有43。

Benchmarking summary:
+-----------------------------------+-----------------------------------------------------+
| Key                               | Value                                               |
+===================================+=====================================================+
| Time taken for tests (s)          | 376.5257                                            |
+-----------------------------------+-----------------------------------------------------+
| Number of concurrency             | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Total requests                    | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Succeed requests                  | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Failed requests                   | 0                                                   |
+-----------------------------------+-----------------------------------------------------+
| Output token throughput (tok/s)   | 43.2029                                             |
+-----------------------------------+-----------------------------------------------------+
| Total token throughput (tok/s)    | 43.8934                                             |
+-----------------------------------+-----------------------------------------------------+
| Request throughput (req/s)        | 0.0531                                              |
+-----------------------------------+-----------------------------------------------------+
| Average latency (s)               | 206.8567                                            |
+-----------------------------------+-----------------------------------------------------+
| Average time to first token (s)   | 139.3129                                            |
+-----------------------------------+-----------------------------------------------------+
| Average time per output token (s) | 0.4626                                              |
+-----------------------------------+-----------------------------------------------------+
| Average input tokens per request  | 13.0                                                |
+-----------------------------------+-----------------------------------------------------+
| Average output tokens per request | 813.35                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package latency (s)       | 0.0854                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package per request       | 791.3                                               |
+-----------------------------------+-----------------------------------------------------+
| Expected number of requests       | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Result DB path                    | outputs/20250415_111007/128-128-1/benchmark_data.db |
+-----------------------------------+-----------------------------------------------------+
2025-04-15 11:16:35,963 - evalscope - INFO - 
Percentile results:
+------------+----------+---------+-------------+--------------+---------------+----------------------+
| Percentile | TTFT (s) | ITL (s) | Latency (s) | Input tokens | Output tokens | Throughput(tokens/s) |
+------------+----------+---------+-------------+--------------+---------------+----------------------+
|    10%     |  0.358   | 0.0788  |   83.4586   |      10      |      476      |        2.2468        |
|    25%     | 83.7387  | 0.0813  |  124.8847   |      12      |      695      |        2.7196        |
|    50%     | 126.7937 | 0.0847  |  212.0645   |      14      |     1024      |        3.8596        |
|    66%     | 211.6319 |  0.085  |  269.4886   |      14      |     1024      |        4.8287        |
|    75%     | 214.0528 | 0.0853  |  298.9557   |      14      |     1024      |        5.9358        |
|    80%     | 216.7131 | 0.0854  |  301.3438   |      15      |     1024      |       12.2285        |
|    90%     | 276.0923 | 0.0858  |  347.9994   |      16      |     1024      |       12.2702        |
|    95%     | 299.2182 | 0.0862  |  376.5222   |      18      |     1024      |       12.2703        |
|    98%     | 299.2182 | 0.1646  |  376.5222   |      18      |     1024      |       12.2703        |
|    99%     | 299.2182 |  0.17   |  376.5222   |      18      |     1024      |       12.2703        |
+------------+----------+---------+-------------+--------------+---------------+----------------------+

4. 使用负载均衡,多卡运行

4.1 7b模型输出217tok/s

测试的deepseek-r1:7b模型,每秒输出token变成217。

奇怪,使用负载均衡之后,吐出的tok数量并没有增加很多啊,甚至和单张卡输出tok几乎差不多,我看网上说会增加的。

这是为什么?我也不知道。

Benchmarking summary:
+-----------------------------------+-----------------------------------------------------+
| Key                               | Value                                               |
+===================================+=====================================================+
| Time taken for tests (s)          | 68.8518                                             |
+-----------------------------------+-----------------------------------------------------+
| Number of concurrency             | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Total requests                    | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Succeed requests                  | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Failed requests                   | 0                                                   |
+-----------------------------------+-----------------------------------------------------+
| Output token throughput (tok/s)   | 217.409                                             |
+-----------------------------------+-----------------------------------------------------+
| Total token throughput (tok/s)    | 220.3864                                            |
+-----------------------------------+-----------------------------------------------------+
| Request throughput (req/s)        | 0.2905                                              |
+-----------------------------------+-----------------------------------------------------+
| Average latency (s)               | 40.9902                                             |
+-----------------------------------+-----------------------------------------------------+
| Average time to first token (s)   | 27.764                                              |
+-----------------------------------+-----------------------------------------------------+
| Average time per output token (s) | 0.1033                                              |
+-----------------------------------+-----------------------------------------------------+
| Average input tokens per request  | 10.25                                               |
+-----------------------------------+-----------------------------------------------------+
| Average output tokens per request | 748.45                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package latency (s)       | 0.0178                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package per request       | 742.25                                              |
+-----------------------------------+-----------------------------------------------------+
| Expected number of requests       | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Result DB path                    | outputs/20250415_145249/128-128-1/benchmark_data.db |
+-----------------------------------+-----------------------------------------------------+
2025-04-15 14:54:01,950 - evalscope - INFO - 
Percentile results:
+------------+----------+---------+-------------+--------------+---------------+----------------------+
| Percentile | TTFT (s) | ITL (s) | Latency (s) | Input tokens | Output tokens | Throughput(tokens/s) |
+------------+----------+---------+-------------+--------------+---------------+----------------------+
|    10%     |  0.1713  | 0.0172  |   13.0051   |      7       |      579      |        10.83         |
|    25%     | 12.5773  | 0.0177  |   27.2219   |      8       |      709      |       15.7196        |
|    50%     | 29.3214  | 0.0179  |   45.6927   |      10      |      755      |       19.3558        |
|    66%     | 42.2444  |  0.018  |   52.9042   |      11      |      897      |       31.1884        |
|    75%     | 46.6769  |  0.018  |   64.2114   |      12      |     1012      |        33.106        |
|    80%     | 52.7525  | 0.0181  |   65.1415   |      14      |     1024      |       57.1314        |
|    90%     | 54.2956  | 0.0182  |   66.5091   |      14      |     1024      |       57.1984        |
|    95%     | 64.2614  | 0.0183  |   68.8467   |      14      |     1024      |       57.4499        |
|    98%     | 64.2614  | 0.0185  |   68.8467   |      14      |     1024      |       57.4499        |
|    99%     | 64.2614  | 0.0195  |   68.8467   |      14      |     1024      |       57.4499        |
+------------+----------+---------+-------------+--------------+---------------+----------------------+

4.2 32b模型输出83 tok/s

测试的deepseek-r1:32b模型,每秒输出token有83左右,单卡输出为83,可以说几乎没区别。

Benchmarking summary:
+-----------------------------------+-----------------------------------------------------+
| Key                               | Value                                               |
+===================================+=====================================================+
| Time taken for tests (s)          | 210.3824                                            |
+-----------------------------------+-----------------------------------------------------+
| Number of concurrency             | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Total requests                    | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Succeed requests                  | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Failed requests                   | 0                                                   |
+-----------------------------------+-----------------------------------------------------+
| Output token throughput (tok/s)   | 83.3245                                             |
+-----------------------------------+-----------------------------------------------------+
| Total token throughput (tok/s)    | 84.2989                                             |
+-----------------------------------+-----------------------------------------------------+
| Request throughput (req/s)        | 0.0951                                              |
+-----------------------------------+-----------------------------------------------------+
| Average latency (s)               | 116.6855                                            |
+-----------------------------------+-----------------------------------------------------+
| Average time to first token (s)   | 76.7932                                             |
+-----------------------------------+-----------------------------------------------------+
| Average time per output token (s) | 0.1313                                              |
+-----------------------------------+-----------------------------------------------------+
| Average input tokens per request  | 10.25                                               |
+-----------------------------------+-----------------------------------------------------+
| Average output tokens per request | 876.5                                               |
+-----------------------------------+-----------------------------------------------------+
| Average package latency (s)       | 0.0458                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package per request       | 870.55                                              |
+-----------------------------------+-----------------------------------------------------+
| Expected number of requests       | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Result DB path                    | outputs/20250415_162240/128-128-1/benchmark_data.db |
+-----------------------------------+-----------------------------------------------------+
2025-04-15 16:26:11,509 - evalscope - INFO - 
Percentile results:
+------------+----------+---------+-------------+--------------+---------------+----------------------+
| Percentile | TTFT (s) | ITL (s) | Latency (s) | Input tokens | Output tokens | Throughput(tokens/s) |
+------------+----------+---------+-------------+--------------+---------------+----------------------+
|    10%     |  0.1945  | 0.0429  |   45.1571   |      7       |      645      |        4.9526        |
|    25%     | 36.8916  | 0.0451  |   73.0001   |      8       |      807      |        5.6556        |
|    50%     | 81.7751  | 0.0463  |  119.9128   |      10      |      958      |        8.1476        |
|    66%     | 117.7298 | 0.0464  |  159.4871   |      11      |     1007      |       10.6849        |
|    75%     | 129.4489 | 0.0464  |  174.0512   |      12      |     1024      |       12.8373        |
|    80%     | 134.1872 | 0.0464  |  176.8538   |      14      |     1024      |       22.1902        |
|    90%     | 166.9573 | 0.0465  |  208.7023   |      14      |     1024      |       22.3439        |
|    95%     | 174.1963 | 0.0466  |  210.3796   |      14      |     1024      |       22.5919        |
|    98%     | 174.1963 | 0.0467  |  210.3796   |      14      |     1024      |       22.5919        |
|    99%     | 174.1963 | 0.0469  |  210.3796   |      14      |     1024      |       22.5919        |
+------------+----------+---------+-------------+--------------+---------------+----------------------+

4.3 70b模型输出45 tok/s

测试的deepseek-r1:70b模型,每秒输出token变成45左右。和单卡的43差不多,似乎性能也没有增加。

为什么?不清楚。

占用显存如下所示,可以看到不像之前占用一张卡,如果显存超过了,启动下一张卡。使用负载均衡可以将显存平均分配到每一张卡上,需要每张卡都出一点力。

性能测试如下:

Benchmarking summary:
+-----------------------------------+-----------------------------------------------------+
| Key                               | Value                                               |
+===================================+=====================================================+
| Time taken for tests (s)          | 350.0327                                            |
+-----------------------------------+-----------------------------------------------------+
| Number of concurrency             | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Total requests                    | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Succeed requests                  | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Failed requests                   | 0                                                   |
+-----------------------------------+-----------------------------------------------------+
| Output token throughput (tok/s)   | 45.4586                                             |
+-----------------------------------+-----------------------------------------------------+
| Total token throughput (tok/s)    | 46.2014                                             |
+-----------------------------------+-----------------------------------------------------+
| Request throughput (req/s)        | 0.0571                                              |
+-----------------------------------+-----------------------------------------------------+
| Average latency (s)               | 185.3367                                            |
+-----------------------------------+-----------------------------------------------------+
| Average time to first token (s)   | 120.6031                                            |
+-----------------------------------+-----------------------------------------------------+
| Average time per output token (s) | 0.2389                                              |
+-----------------------------------+-----------------------------------------------------+
| Average input tokens per request  | 13.0                                                |
+-----------------------------------+-----------------------------------------------------+
| Average output tokens per request | 795.6                                               |
+-----------------------------------+-----------------------------------------------------+
| Average package latency (s)       | 0.0837                                              |
+-----------------------------------+-----------------------------------------------------+
| Average package per request       | 772.95                                              |
+-----------------------------------+-----------------------------------------------------+
| Expected number of requests       | 20                                                  |
+-----------------------------------+-----------------------------------------------------+
| Result DB path                    | outputs/20250415_115239/128-128-1/benchmark_data.db |
+-----------------------------------+-----------------------------------------------------+
2025-04-15 11:58:30,043 - evalscope - INFO - 
Percentile results:
+------------+----------+---------+-------------+--------------+---------------+----------------------+
| Percentile | TTFT (s) | ITL (s) | Latency (s) | Input tokens | Output tokens | Throughput(tokens/s) |
+------------+----------+---------+-------------+--------------+---------------+----------------------+
|    10%     |  0.3932  |  0.08   |   55.6919   |      10      |      482      |        2.5115        |
|    25%     | 51.2654  | 0.0819  |   95.2744   |      12      |      617      |        3.0284        |
|    50%     | 135.0597 | 0.0819  |  172.4987   |      14      |     1024      |        4.5089        |
|    66%     | 170.2825 |  0.082  |  254.2084   |      14      |     1024      |        6.0887        |
|    75%     | 214.4321 |  0.082  |   270.23    |      14      |     1024      |         11.3         |
|    80%     | 252.6452 |  0.082  |  297.0692   |      15      |     1024      |       11.5983        |
|    90%     | 256.9616 | 0.0822  |  338.1322   |      16      |     1024      |       12.1382        |
|    95%     | 270.4241 | 0.0824  |  350.0368   |      18      |     1024      |       12.1909        |
|    98%     | 270.4241 | 0.1634  |  350.0368   |      18      |     1024      |       12.1909        |
|    99%     | 270.4241 | 0.1639  |  350.0368   |      18      |     1024      |       12.1909        |
+------------+----------+---------+-------------+--------------+---------------+----------------------+

5. 结论

使用负载均衡之后,7b模型吞吐量从213变为217,32b模型从81到83,70b模型从43到45。

可以说几乎没有提升,因为每次运行,结果会有上下浮动,所以说差不多。

本文地址:https://www.vps345.com/10082.html

搜索文章

Tags

PV计算 带宽计算 流量带宽 服务器带宽 上行带宽 上行速率 什么是上行带宽? CC攻击 攻击怎么办 流量攻击 DDOS攻击 服务器被攻击怎么办 源IP docker 容器 运维 java-rabbitmq java 服务器安全 网络安全策略 防御服务器攻击 安全威胁和解决方案 程序员博客保护 数据保护 安全最佳实践 linux 服务器 游戏 云计算 deepseek DeepSeek-R1 API接口 RTSP xop RTP RTSPServer 推流 视频 网络工程师 网络管理 软考 2024 2024年上半年 下午真题 答案 Deepseek Deepseek-R1 大模型 私有化部署 推理模型 物联网 ubuntu llama 算法 opencv 自然语言处理 神经网络 语言模型 人工智能 深度学习 计算机视觉 卷积神经网络 CH340 单片机 嵌入式硬件 串口驱动 CH341 uart 485 c语言 redis django 英语 Ollama Qwen2.5-coder 离线部署 ssh YOLO 网络结构图 网络 tcp/ip 网络协议 ip协议 mysql adb android javascript 前端 chrome edge 进程 操作系统 进程控制 Ubuntu pycharm ide 模型联网 API CherryStudio vue.js spring boot nginx php 开发语言 智能路由器 外网访问 内网穿透 端口映射 阿里云 网络安全 jenkins gitee 开发环境 数据库 centos oracle 关系型 安全 分布式 vscode 数据库系统 jellyfin nas gcc centos 7 harmonyos 华为 python MCP ubuntu 18.04 安装教程 typescript 鸿蒙 jvm 虚拟机 windows gnu fastapi mcp mcp-proxy mcp-inspector fastapi-mcp agent sse 游戏引擎 学习 debian PVE 负载均衡 DNS word图片自动上传 word一键转存 复制word图片 复制word图文 复制word公式 粘贴word图文 粘贴word公式 dify ai macos conda pytorch yolov5 kubernetes prometheus grafana 云原生 https 策略模式 c++ qt QT 5.12.12 QT开发环境 Ubuntu18.04 数据分析 matplotlib fonts-noto-cjk eureka asm 笔记 zotero WebDAV 同步失败 代理模式 科技 个人开发 tomcat ssh漏洞 ssh9.9p2 CVE-2025-23419 fstab 聚类 mcu C 环境变量 进程地址空间 经验分享 kylin 并查集 leetcode udp 本地环回 bind json 快捷键 旋转屏幕 自动操作 C# MQTTS 双向认证 emqx spring cloud compose 持续部署 大数据 spark hive node.js USB转串口 transformer 机器学习 kafka cron crontab日志 部署 JAVA Java 华为云 计算机网络 课程设计 媒体 websocket pillow xcode Dify ue4 着色器 ue5 虚幻 devops elasticsearch pip 思科 react.js 前端面试题 高级IO epoll outlook 错误代码2603 无网络连接 2603 计算机外设 bug nlp HarmonyOS Next 知识库 本地化部署 AI ddos web安全 c# vr gateway Clion Nova ResharperC++引擎 Centos7 远程开发 多层架构 解耦 opengl UEFI Legacy MBR GPT U盘安装操作系统 .netcore 多线程 微信 微信分享 Image wxopensdk svn 进程优先级 调度队列 进程切换 MacMini Mac 迷你主机 mini Apple flask yum docker-compose docker compose arm开发 架构 自动化 burp suite 抓包 axure 富文本编辑器 ui vnc protobuf 序列化和反序列化 安装 虚拟局域网 maxkb ARG maven 像素流送api 像素流送UE4 像素流送卡顿 像素流送并发支持 audio vue音乐播放器 vue播放音频文件 Audio音频播放器自定义样式 播放暂停进度条音量调节快进快退 自定义audio覆盖默认样式 Linux 维护模式 GPU环境配置 Ubuntu22 CUDA PyTorch Anaconda安装 Linux无人智慧超市 LInux多线程服务器 QT项目 LInux项目 单片机项目 github Agent DeepSeek LLM CrewAI stm32项目 stm32 efficientVIT YOLOv8替换主干网络 TOLOv8 宝塔面板访问不了 宝塔面板网站访问不了 宝塔面板怎么配置网站能访问 宝塔面板配置ip访问 宝塔面板配置域名访问教程 宝塔面板配置教程 虚拟显示器 远程控制 IM即时通讯 QQ 企业微信 剪切板对通 HTML FORMAT llm 监控k8s集群 集群内prometheus http 性能优化 VMware安装mocOS VMware macOS系统安装 git rust腐蚀 ffmpeg 音视频 视频编解码 集成学习 集成测试 unix 目标检测 数据结构 Cursor ip openvpn server openvpn配置教程 centos安装openvpn vSphere vCenter 软件定义数据中心 sddc flutter Google pay Apple pay 后端 信息与通信 perf linux内核 ESP32 camera Arduino 电子信息 Linux PID dubbo 安卓模拟器 mac filezilla 无法连接服务器 连接被服务器拒绝 vsftpd 331/530 大语言模型 LLMs 运维开发 开源 VMware创建虚拟机 VMware安装Ubuntu Ubuntu安装k8s k8s 编辑器 vim AI大模型 大模型技术 本地部署大模型 面试 驱动开发 ollama 私有化 本地部署 远程连接 rdp 实验 实时音视频 实时互动 Alexnet DevEco Studio EtherCAT转Modbus ECT转Modbus协议 EtherCAT转485网关 ECT转Modbus串口网关 EtherCAT转485协议 ECT转Modbus网关 numpy 3d 数学建模 etcd 数据安全 RBAC Dell R750XS iot ros 机器人 话题通信 服务通信 虚拟现实 温湿度数据上传到服务器 Arduino HTTP 华为认证 交换机 iftop 网络流量监控 Hyper-V WinRM TrustedHosts live555 rtsp rtp rtsp服务器 rtsp server android rtsp服务 安卓rtsp服务器 移动端rtsp服务 大牛直播SDK oracle fusion oracle中间件 rust TCP WebServer AIGC agi remote-ssh 压测 ECS MacOS录屏软件 ragflow vue3 HTML audio 控件组件 vue3 audio音乐播放器 Audio标签自定义样式默认 vue3播放音频文件音效音乐 自定义audio播放器样式 播放暂停调整声音大小下载文件 virtualenv Flask FastAPI Waitress Gunicorn uWSGI Uvicorn 多线程服务器 Linux网络编程 postman 测试工具 嵌入式 linux驱动开发 华为od Linux 进程信号 热榜 cpu 内存 实时 使用 hadoop 硬件工程 嵌入式实习 sublime text apache html 缓存 灵办AI 学习方法 Cline 离线部署dify 电脑 软件需求 spring AI编程 浪潮信息 AI服务器 CPU 主板 电源 网卡 互信 jmeter 软件测试 oceanbase 传统数据库升级 银行 SRS 流媒体 直播 windows 服务器安装 EtherNet/IP串口网关 EIP转RS485 EIP转Modbus EtherNet/IP网关协议 EIP转RS485网关 EIP串口服务器 WSL2 上安装 Ubuntu zabbix mariadb list qps 高并发 GaN HEMT 氮化镓 单粒子烧毁 辐射损伤 辐照效应 rpc 程序人生 dell服务器 ip命令 新增网卡 新增IP 启动网卡 区块链 html5 firefox sqlserver kamailio sip VoIP IIS .net core Hosting Bundle .NET Framework vs2022 cuda Linux的权限 ansible redhat uni-app 正则表达式 TrueLicense rc.local 开机自启 systemd 麒麟 WSL2 Ubuntu22.04 虚拟化 开发人员主页 Docker Hub docker pull 镜像源 daemon.json 智能手机 NAS Termux Samba burpsuite 安全工具 mac安全工具 burp安装教程 渗透工具 pygame Chatbox Invalid Host allowedHosts vue arm jupyter WLAN 远程工作 爬虫 数据集 rabbitmq jar Mermaid 可视化图表 自动化生成 云电竞 云电脑 todesk ssl 游戏程序 ios ux xml fork wait waitpid exit MCP server C/S su sudo AI-native gpt Ubuntu20.04 GLIBC 2.35 microsoft 智能体 autogen openai coze edge浏览器 程序员创富 中间件 iis 命名管道 客户端与服务端通信 进程程序替换 execl函数 execv函数 execvp函数 execvpe函数 putenv函数 vmamba 网络药理学 生信 生物信息学 gromacs 分子动力学模拟 MD 动力学模拟 远程 命令 执行 sshpass 操作 硬件架构 系统架构 bash 毕设 python2 ubuntu24.04 个人博客 wsl C语言 Ubuntu共享文件夹 共享目录 Linux共享文件夹 database 串口服务器 vmware 卡死 自动化编程 Kali Linux 黑客 渗透测试 信息收集 产品经理 VMware Tools vmware tools安装 vmwaretools安装步骤 vmwaretools安装失败 vmware tool安装步骤 vm tools安装步骤 vm tools安装后不能拖 vmware tools安装步骤 豆瓣 追剧助手 迅雷 ai小智 语音助手 ai小智配网 ai小智教程 智能硬件 esp32语音助手 diy语音助手 matlab DigitalOcean GPU服务器购买 GPU服务器哪里有 GPU服务器 远程桌面 远程服务 王者荣耀 ros2 moveit 机器人运动 rancher linux环境变量 chatgpt powerpoint 通信工程 毕业 系统安全 copilot 银河麒麟 kylin v10 麒麟 v10 系统 黑苹果 实战案例 人工智能生成内容 HCIE 数通 低代码 数据挖掘 网络用户购物行为分析可视化平台 大数据毕业设计 1024程序员节 alias unalias 别名 压力测试 lvm 磁盘挂载 磁盘分区 nftables 防火墙 LDAP visual studio code 创意 社区 ruoyi openstack Xen KVM intellij-idea Windsurf intellij idea linux上传下载 .net 僵尸进程 go TRAE 直播推流 Hive环境搭建 hive3环境 Hive远程模式 java-ee 状态管理的 UDP 服务器 Arduino RTOS shell GPU 程序 编程 性能分析 Redis Desktop nvm gradle 政务 分布式系统 监控运维 Prometheus Grafana 大模型应用 统信UOS bonding 链路聚合 KylinV10 麒麟操作系统 Vmware 深度求索 私域 执法记录仪 智能安全帽 smarteye CPU 使用率 系统监控工具 linux 命令 tcpdump IPMI golang kali 共享文件夹 Mac软件 kind llama3 Chatglm 开源大模型 交互 SSH Xterminal 宝塔面板无法访问 iBMC UltraISO cursor harmonyOS面试题 SSH 密钥生成 SSH 公钥 私钥 生成 主从复制 大屏端 selenium 网络爬虫 seatunnel GCC aarch64 编译安装 HPC 腾讯云大模型知识引擎 源码剖析 rtsp实现步骤 流媒体开发 报错 软件工程 软件构建 glibc 程序员 大模型入门 deepseek-r1 大模型本地部署 云原生开发 K8S k8s管理系统 链表 springsecurity6 oauth2 授权服务器 前后端分离 磁盘监控 oneapi 大模型微调 开发 docker搭建nacos详解 docker部署nacos docker安装nacos 腾讯云搭建nacos centos7搭建nacos gitlab Reactor 设计模式 C++ MS Materials gpu算力 playbook 剧本 ESXi 计算生物学 生物信息 基因组 vite YOLOv12 硅基流动 ChatBox elk sql KingBase HiCar CarLife+ CarPlay QT RK3588 ubuntu20.04 ros1 Noetic 20.04 apt 安装 镜像下载 freebsd 模拟实现 milvus WSL win11 无法解析服务器的名称或地址 回显服务器 UDP的API使用 centos-root /dev/mapper yum clean all df -h / du -sh armbian u-boot grub 版本升级 扩容 firewalld 读写锁 threejs 3D RustDesk自建服务器 rustdesk服务器 docker rustdesk express p2p 图像处理 自动驾驶 jdk 腾讯云 小程序 微信小程序域名配置 微信小程序服务器域名 微信小程序合法域名 小程序配置业务域名 微信小程序需要域名吗 微信小程序添加域名 mock mock server 模拟服务器 mock服务器 Postman内置变量 Postman随机数据 统信 NFS DIFY 迁移指南 rag ragflow 源码启动 SWAT 配置文件 服务管理 网络共享 onlyoffice IIS服务器 IIS性能 日志监控 unity cudnn anaconda 微服务 springcloud odoo 服务器动作 Server action FTP 服务器 网易邮箱大师 矩阵 webdav 指令 YOLOv8 NPU Atlas800 A300I pro asi_bench tar 客户端 Docker Desktop windwos防火墙 defender防火墙 win防火墙白名单 防火墙白名单效果 防火墙只允许指定应用上网 防火墙允许指定上网其它禁止 Doris搭建 docker搭建Doris Doris搭建过程 linux搭建Doris Doris搭建详细步骤 Doris部署 Trae IDE AI 原生集成开发环境 Trae AI UOS 统信操作系统 ipython 前端框架 postgresql 鸿蒙系统 功能测试 自动化测试 springboot Kylin-Server 国产操作系统 服务器安装 大模型部署 GameFramework HybridCLR Unity编辑器扩展 自动化工具 mount挂载磁盘 wrong fs type LVM挂载磁盘 Centos7.9 Web服务器 多线程下载工具 网络编程 PYTHON 权限 dns aws googlecloud WebUI DeepSeek V3 log4j 银河麒麟服务器操作系统 系统激活 大版本升 升级Ubuntu系统 具身智能 Isaac Sim 虚拟仿真 Xinference RAGFlow css 常用命令 文本命令 目录命令 安防软件 业界资讯 python3.11 计算机 田俊楠 远程过程调用 Windows环境 MQTT mosquitto 消息队列 dash Ardupilot 服务器配置 其他 sublime text3 DocFlow 教程 环境搭建 Maven mq rocketmq 分析解读 交叉编译 r语言 数据可视化 AISphereButler Office minio 大数据平台 tcp 联网 easyconnect 代理 nfs tensorflow Open WebUI flash-attention android studio Mac内存不够用怎么办 浏览器自动化 ELF加载 FTP服务器 openEuler Carla 智能驾驶 java-rocketmq k8s集群资源管理 pdf 云桌面 微软 AD域控 证书服务器 export env 变量 ukui 麒麟kylinos openeuler rustdesk webstorm cmake 监控k8s 监控kubernetes esp32 蓝牙 小艺 Pura X excel RoboVLM 通用机器人策略 VLA设计哲学 vlm fot robot 视觉语言动作模型 云服务器 VPS asp.net大文件上传 asp.net大文件上传下载 asp.net大文件上传源码 ASP.NET断点续传 ShapeFile GeoJSON Python Nginx 搜索引擎 全文检索 图搜索算法 OD机试真题 华为OD机试真题 服务器能耗统计 DeepSeek行业应用 Heroku 网站部署 强制清理 强制删除 mac废纸篓 华为证书 HarmonyOS认证 华为证书考试 服务器主板 AI芯片 大模型面经 职场和发展 大模型学习 AnythingLLM AnythingLLM安装 WebRTC zip unzip 游戏机 samba ebpf uprobe 鲲鹏 昇腾 npu CosyVoice ufw 代码调试 ipdb 大文件分片上传断点续传及进度条 如何批量上传超大文件并显示进度 axios大文件切片上传详细教 node服务器合并切片 vue3大文件上传报错提示错误 vu大文件秒传跨域报错cors AI写作 开机黑屏 聊天服务器 套接字 Socket 智能音箱 智能家居 群晖 IPMITOOL BMC 硬件管理 Ark-TS语言 rime ROS PX4 MAVROS 四旋翼无人机 WebVM 自动化运维 流水线 脚本式流水线 cmos 硬件 输入法 asp.net上传文件夹 asp.net上传大文件 .net core断点续传 文件分享 scapy NPS 雨云服务器 雨云 MQTT协议 消息服务器 代码 c token sas dba mamba stable diffusion openssl 密码学 工具 磁盘 空间 查错 H3C sqlite3 react next.js 部署next.js 无人机 高效日志打印 串口通信日志 服务器日志 系统状态监控日志 异常记录日志 5G 3GPP 卫星通信 keepalived 信号处理 ocr ci/cd 代码规范 蓝桥杯 重启 排查 系统重启 日志 原因 服务器数据恢复 数据恢复 存储数据恢复 raid5数据恢复 磁盘阵列数据恢复 高效远程协作 TrustViewer体验 跨设备操作便利 智能远程控制 neo4j 数据仓库 数据库开发 数据库架构 远程看看 远程协助 银河麒麟操作系统 国产化 hibernate 实时内核 双系统 kotlin iphone openwrt ArcTS 登录 ArcUI GridItem 漏洞 arkUI 三级等保 服务器审计日志备份 grep 信号 内核 宝塔面板 同步 备份 建站 安全威胁分析 显示器 RAGFLOW arcgis curl wget docker run 数据卷挂载 交互模式 软件卸载 系统清理 visual studio 图形化界面 安装MySQL etl 嵌入式系统开发 iTerm2 终端 网络攻击模型 selete unity3d scikit-learn 云耀服务器 系统开发 binder 车载系统 framework 源码环境 本地部署AI大模型 telnet 远程登录 多产物 恒源云 HarmonyOS OpenHarmony 真机调试 yolov8 上传视频文件到服务器 uniApp本地上传视频并预览 uniapp移动端h5网页 uniapp微信小程序上传视频 uniapp app端视频上传 uniapp uview组件库 大文件秒传跨域报错cors gpt-3 文心一言 环境配置 n8n dity make okhttp CORS 跨域 kernel wireshark 显示过滤器 ICMP Wireshark安装 宕机切换 服务器宕机 termux less 设备 PCI-Express idm k8s资源监控 annotations自动化 自动化监控 监控service 监控jvm 小游戏 五子棋 Docker引擎已经停止 Docker无法使用 WSL进度一直是0 镜像加速地址 import save load 迁移镜像 ajax iperf3 带宽测试 netlink libnl3 网络文件系统 数据管理 数据治理 数据编织 数据虚拟化 Docker Compose code-server Linux权限 权限命令 特殊权限 拓扑图 nvidia top Linux top top命令详解 top命令重点 top常用参数 微信小程序 CentOS Stream CentOS 视觉检测 docker搭建pg docker搭建pgsql pg授权 postgresql使用 postgresql搭建 能力提升 面试宝典 技术 IT信息化 移动云 监控 thingsboard 线程 工具分享 AutoDL 桌面环境 机柜 1U 2U mysql离线安装 ubuntu22.04 mysql8.0 源码 毕业设计 P2P HDLC 一切皆文件 nac 802.1 portal echarts 信息可视化 网页设计 openjdk 混合开发 环境安装 JDK netty Qualcomm WoS QNN AppBuilder GRUB引导 Linux技巧 vasp安装 Ubuntu 22.04 MySql 算家云 算力租赁 diskgenius 命令行 基础入门 RAID RAID技术 存储 npm 虚拟机安装 玩游戏 京东云 智能电视 EMQX 通信协议 chrome 浏览器下载 chrome 下载安装 谷歌浏览器下载 AI代码编辑器 React Next.js 开源框架 物联网开发 黑客技术 wps 安卓 框架搭建 web3.py 加解密 Yakit yaklang fpga开发 ROS2 pyqt yaml Ultralytics 可视化 大模型教程 rclone AList fnOS linuxdeployqt 打包部署程序 appimagetool SysBench 基准测试 RTMP 应用层 7z Ubuntu DeepSeek DeepSeek Ubuntu DeepSeek 本地部署 DeepSeek 知识库 DeepSeek 私有化知识库 本地部署 DeepSeek DeepSeek 私有化部署 mybatis minicom 串口调试工具 显卡驱动 向日葵 css3 beautifulsoup 数码 联机 僵尸毁灭工程 游戏联机 开服 宝塔 string模拟实现 深拷贝 浅拷贝 经典的string类问题 三个swap 游戏服务器 TrinityCore 魔兽世界 终端工具 远程工具 HP Anyware 序列化反序列化 adobe jina es6 qt6.3 g726 飞牛NAS 飞牛OS MacBook Pro 邮件APP 免费软件 Linux24.04 deepin Minecraft opcua opcda KEPServer安装 DOIT 四博智联 金融 shell脚本免交互 expect linux免交互 Xshell 域名服务 DHCP 符号链接 配置 safari MobaXterm 文件传输 产测工具框架 IMX6ULL 管理框架 树莓派 VNC 可信计算技术 AD域 Linux的基础指令 visualstudio 测试用例 webrtc 沙盒 内网渗透 靶机渗透 rsyslog Vmamba AI作画 springboot远程调试 java项目远程debug docker远程debug java项目远程调试 springboot远程 FunASR ASR file server http server web server VPN wireguard CLion c/c++ 串口 lio-sam SLAM X11 Xming uv CUPS 打印机 Qt5 生活 AP配网 AK配网 小程序AP配网和AK配网教程 WIFI设备配网小程序UDP开 多进程 bootstrap ecmascript nextjs reactjs Node-Red 编程工具 流编程 博客 web 流式接口 nohup 异步执行 ubuntu24.04.1 显示管理器 lightdm gdm 安全架构 SenseVoice fast 工作流 workflow 图片增强 增强数据 linux安装配置 文件系统 路径解析 rnn ssrf 失效的访问控制 Cookie ftp 升级 CVE-2024-7347 open webui Attention NLP EasyConnect Kali 渗透 windows日志 banner xrdp 国产数据库 瀚高数据库 数据迁移 下载安装 mongodb pyautogui 目标跟踪 OpenVINO 推理应用 ShenTong 开机自启动 Netty 即时通信 NIO gaussdb llama.cpp Portainer搭建 Portainer使用 Portainer使用详解 Portainer详解 Portainer portainer 环境迁移 LLM Web APP Streamlit .net mvc断点续传 飞牛nas fnos Docker快速入门 半虚拟化 硬件虚拟化 Hypervisor 医疗APP开发 app开发 yum源切换 更换国内yum源 micropython mqtt 高德地图 鸿蒙接入高德地图 HarmonyOS5.0 bot Docker SSL证书 服务器扩容没有扩容成功 nuxt3 bcompare Beyond Compare 模拟器 DevOps 软件交付 数据驱动 应用场景 VSCode notepad 服务器管理 配置教程 网站管理 gitea 高效I/O 微信公众平台 HistoryServer Spark YARN jobhistory OpenManus 视频平台 录像 视频转发 性能测试 视频流 版本 匿名管道 隐藏文件 隐藏目录 管理器 通配符 NLP模型 社交电子 工业4.0 单例模式 Wi-Fi umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word ueditor导入pdf ueditor导入ppt miniapp 调试 debug 断点 网络API请求调试方法 ollama api ollama外网访问 键盘 eclipse 代码托管服务 clickhouse 办公自动化 pdf教程 ollama下载加速 Obsidian Dataview v10 软件 服务器繁忙 代理服务器 vscode 1.86 中兴光猫 换光猫 网络桥接 自己换光猫 Java Applet URL操作 服务器建立 Socket编程 网络文件读取 服务器部署 本地拉取打包 源代码 端口号 开放端口 访问列表 直流充电桩 充电桩 微信开放平台 微信公众号配置 W5500 OLED u8g2 TCP服务器 论文阅读 chfs ubuntu 16.04 深度优先 图论 并集查找 换根法 树上倍增 智慧农业 开源鸿蒙 团队开发 linux 命令 sed 命令 磁盘清理 Webserver 异步 CNNs 图像分类 单元测试 跨平台 网络穿透 kvm 设置代理 实用教程 nacos 弹性计算 裸金属服务器 弹性裸金属服务器 网卡的名称修改 eth0 ens33 retry 重试机制 小智 致远OA OA服务器 服务器磁盘扩容 上传视频至服务器代码 vue3批量上传多个视频并预览 如何实现将本地视频上传到网页 element plu视频上传 ant design vue vue3本地上传视频及预览移除 conda配置 conda镜像源 自动化任务管理 SSE 换源 国内源 Debian 边缘计算 fd 文件描述符 蓝耘科技 元生代平台工作流 ComfyUI 服务器无法访问 ip地址无法访问 无法访问宝塔面板 宝塔面板打不开 trae Web应用服务器 x64 SIGSEGV xmm0 frp prompt XCC Lenovo 考试 CDN pgpool ArtTS ruby 端口测试 vpn skynet 软链接 硬链接 Linux Vim 子系统 ubuntu24 vivado24 ArkTs ArkUI NVML nvidia-smi 免费域名 域名解析 wsgiref Web 服务器网关接口 docker命令大全 WINCC virtualbox 怎么卸载MySQL MySQL怎么卸载干净 MySQL卸载重新安装教程 MySQL5.7卸载 Linux卸载MySQL8.0 如何卸载MySQL教程 MySQL卸载与安装 initramfs Linux内核 Grub 分布式账本 web3 智能合约 信任链 共识算法 Linux环境 Windows ai工具 Jellyfin LORA Sealos 相机 langchain deep learning 影刀 #影刀RPA# Pyppeteer Playwright 宠物 免费学习 宠物领养 宠物平台 Helm k8s集群 URL 超融合 安全漏洞 信息安全 实习 银河麒麟桌面操作系统 Kylin OS 华为OD 可以组成网络的服务器 动静态库 big data 在线预览 xlsx xls文件 在浏览器直接打开解析xls表格 前端实现vue3打开excel 文件地址url或接口文档流二进 Claude cpp-httplib opensearch helm 视频监控 网站 反向代理 MI300x docker search 冯诺依曼体系 ping++ VR手套 数据手套 动捕手套 动捕数据手套 计算机系统 qemu libvirt hosts 基础环境 sysctl.conf vm.nr_hugepages rpa av1 电视盒子 机顶盒ROM 魔百盒刷机 增强现实 沉浸式体验 技术实现 案例分析 AR 智能体开发 繁忙 解决办法 替代网站 汇总推荐 AI推理 cnn GoogLeNet 云服务 崖山数据库 YashanDB firewall 电视剧收视率分析与可视化平台 Zoertier 内网组网 uniapp 金仓数据库 2025 征文 数据库平替用金仓 sudo原理 su切换 Typore 根服务器 sonoma 自动更新 LInux saltstack xshell termius iterm2 embedding USB网络共享 ssh远程登录 zookeeper nohup后台启动 虚幻引擎 junit make命令 makefile文件 csrutil mac恢复模式进入方法 SIP 恢复模式 浏览器开发 AI浏览器 swoole 服务网格 istio 阿里云ECS 机架式服务器 1U工控机 国产工控机 ldap laravel HarmonyOS NEXT 原生鸿蒙 chrome devtools chromedriver 需求分析 规格说明书 支持向量机 本地知识库部署 DeepSeek R1 模型 lsb_release /etc/issue /proc/version uname -r 查看ubuntu版本 api 技能大赛 联想开天P90Z装win10 知识图谱 强化学习 内网服务器 内网代理 内网通信 内网环境 Apache Beam 批流统一 案例展示 数据分区 容错机制 网页服务器 web服务器 阻塞队列 生产者消费者模型 服务器崩坏原因 小番茄C盘清理 便捷易用C盘清理工具 小番茄C盘清理的优势尽显何处? 教你深度体验小番茄C盘清理 C盘变红?!不知所措? C盘瘦身后电脑会发生什么变化? 网工 Reactor反应堆 免密 公钥 私钥 eNSP 网络规划 VLAN 企业网络 飞书 图形渲染 软件开发 react native searxng PPI String Cytoscape CytoHubba vue-i18n 国际化多语言 vue2中英文切换详细教程 如何动态加载i18n语言包 把语言json放到服务器调用 前端调用api获取语言配置文件 sdkman zerotier DBeaver kerberos pthread 抗锯齿 EVE-NG postgres Dify重启后重新初始化 can 线程池 prometheus数据采集 prometheus数据模型 prometheus特点 wpf systemctl composer xfce perl cfssl midjourney ftp服务 文件上传 SSL 域名 相差8小时 UTC 时间 日志分析 系统取证 健康医疗 互联网医院 信创 信创终端 中科方德 商用密码产品体系 ArkTS 移动端开发 webgl wordpress 无法访问wordpess后台 打开网站页面错乱 linux宝塔面板 wordpress更换服务器 考研 chatbox 在线office 做raid 装系统 risc-v Radius IO 干货分享 黑客工具 密码爆破 技术共享 ceph MDK 嵌入式开发工具 论文笔记 h.264 glm4 lb 协议 AimRT 玩机技巧 软件分享 软件图标 dock 镜像 加速 GRE 孤岛惊魂4 录音麦克风权限判断检测 录音功能 录音文件mp3播放 小程序实现录音及播放功能 RecorderManager 解决录音报错播放没声音问题 open Euler dde 流量运营 macbook IP配置 netplan 容器技术 备份SQL Server数据库 数据库备份 傲梅企业备份网络版 移动魔百盒 软考设计师 中级设计师 SQL 软件设计师 IPv4 子网掩码 公网IP 私有IP VM搭建win2012 win2012应急响应靶机搭建 攻击者获取服务器权限 上传wakaung病毒 应急响应并溯源 挖矿病毒处置 应急响应综合性靶场 单一职责原则 Ubuntu Server Ubuntu 22.04.5 java-zookeeper wsl2 IMM 笔灵AI AI工具 seleium Dell HPE 联想 浪潮 iDRAC R720xd ECT转485串口服务器 ECT转Modbus485协议 ECT转Modbus串口服务器 powerbi 计算机科学与技术 底层实现 卸载 列表 历史版本 下载 llamafactory 微调 Qwen pppoe radius 聊天室 autoware 券商 股票交易接口api 类型 特点 股票量化接口 股票API接口 图文教程 VMware虚拟机 macOS系统安装教程 macOS最新版 虚拟机安装macOS Sequoia System V共享内存 进程通信 iventoy VmWare OpenEuler 开源软件 deepseek r1 无桌面 GIS 遥感 WebGIS 蓝桥杯C++组 muduo 飞牛 uni-file-picker 拍摄从相册选择 uni.uploadFile H5上传图片 微信小程序上传图片 mac设置host 自学笔记 小米 澎湃OS Android 多个客户端访问 IO多路复用 TCP相关API 自定义客户端 SAS 软负载 用户缓冲区 用户管理 支付 微信支付 开放平台 新盘添加 partedUtil Alist mount 挂载 网盘 端口 查看 ss 网站搭建 serv00 jetty undertow Charles nosql ISO镜像作为本地源 cocoapods 负载测试 word MNN Tabs组件 TabContent TabBar TabsController 导航页签栏 滚动导航栏 语音识别 7-zip 磁盘镜像 服务器镜像 服务器实时复制 实时文件备份 RAG 检索增强生成 文档解析 大模型垂直应用 IMX317 MIPI H265 VCU 我的世界服务器搭建 minecraft easyui 运维监控 vscode1.86 1.86版本 ssh远程连接 HTTP 服务器控制 ESP32 DeepSeek 可用性测试 dns是什么 如何设置电脑dns dns应该如何设置 GPU训练 分子对接 autodock mgltools PDB PubChem Trae叒更新了? XFS xfs文件系统损坏 I_O error trea idea es localhost 材料工程 音乐服务器 Navidrome 音流 行情服务器 股票交易 速度慢 切换 AI agent 思科模拟器 Cisco Linux find grep 进程间通信 sqlite qt项目 qt项目实战 qt教程 DeepSeek r1 cd 目录切换 模拟退火算法 国标28181 监控接入 语音广播 流程 SDP 抓包工具 算力 授时服务 北斗授时 电路仿真 multisim 硬件工程师 硬件工程师学习 电路图 电路分析 仪器仪表 EMUI 回退 降级 pyside6 界面 可执行程序 apt Spring Security 我的世界 我的世界联机 银河麒麟高级服务器 外接硬盘 Kylin UOS1070e 嵌入式Linux IPC qt5 客户端开发 小智AI服务端 xiaozhi TTS xpath定位元素 bat AD 域管理 NVIDIA 服务器时间 SEO ecm bpm kubeless deepseak 豆包 KIMI 腾讯元宝 g++ g++13 docker部署Python rsync Linux awk awk函数 awk结构 awk内置变量 awk参数 awk脚本 awk详解 火绒安全 crosstool-ng Nuxt.js 管道 lighttpd安装 Ubuntu配置 Windows安装 服务器优化 mysql安装报错 windows拒绝安装 docker部署翻译组件 docker部署deepl docker搭建deepl java对接deepl 翻译组件使用 毕昇JDK SSH 服务 SSH Server OpenSSH Server 企业网络规划 华为eNSP k8s部署 MySQL8.0 高可用集群(1主2从) pyicu Qwen3 qwen3 32b vllm 备选 调用 示例 LVM lvresize 磁盘扩容 pvcreate 推荐算法 Ubuntu 24 常用命令 Ubuntu 24 Ubuntu vi 异常处理 DenseNet MAC SecureCRT NAT转发 NAT Server 稳定性 看门狗 client-go k8s二次开发 大模型训练/推理 推理问题 mindie 弹性服务器 程序化交易 量化交易 高频交易 查看显卡进程 fuser 静态IP IO模型 comfyui comfyui教程 deekseek MacOS linux子系统 忘记密码 flink 配置原理 大大通 第三代半导体 碳化硅 rtc 风扇控制软件 存储维护 NetApp存储 EMC存储 海康 服务器ssl异常解决 UDP 项目部署到linux服务器 项目部署过程 fiddler Python基础 Python教程 Python技巧 VGG网络 卷积层 池化层 mm-wiki搭建 linux搭建mm-wiki mm-wiki搭建与使用 mm-wiki使用 mm-wiki详解 动态规划 查询数据库服务IP地址 SQL Server figma tidb solr resolv.conf Python 视频爬取教程 Python 视频爬取 Python 视频教程 MVS 海康威视相机 IPv4/IPv6双栈 双栈技术 网路规划设计 ensp综合实验 IPv4过渡IPv6 IPv4与IPv6 mcp服务器 client close Anolis nginx安装 linux插件下载 Echarts图表 折线图 柱状图 异步动态数据 鸿蒙开发 可视化效果 问题解决 粘包问题 hdc HAProxy 服务器部署ai模型 js yashandb 极限编程 proxy模式 计算机学习路线 编程语言选择 烟花代码 烟花 元旦 paddle 性能调优 安全代理 mybase 合成模型 扩散模型 图像生成 架构与原理 servlet 文件存储服务器组件 gunicorn triton 模型分析 充电桩平台 充电桩开源平台 移动开发 iNode Macos 网络建设与运维 网络搭建 神州数码 神州数码云平台 云平台 语法 IDEA docker desktop sequoiaDB 捆绑 链接 谷歌浏览器 youtube google gmail Unity Dedicated Server Host Client 无头主机 TCP协议 Headless Linux 锁屏不生效 NFC 近场通讯 智能门锁 多路转接 免费 输入系统 源代码管理 db chromium dpi regedit 开机启动 whistle sentinel Logstash 日志采集 搭建个人相关服务器 ubuntu安装 linux入门小白 Bug解决 Qt platform OpenCV watchtower 佛山戴尔服务器维修 佛山三水服务器维修 c/s 框架 项目部署 SVN Server tortoise svn 设备树 RK3568 带外管理 OpenSSH tailscale derp derper 中转 线性代数 电商平台 massa sui aptos sei C++软件实战问题排查经验分享 0xfeeefeee 0xcdcdcdcd 动态库加载失败 程序启动失败 程序运行权限 标准用户权限与管理员权限 欧标 OCPP qwen2vl lua 音乐库 autodl AI员工 对比 meld DiffMerge 电脑桌面出现linux图标 电脑桌面linux图标删除不了 电脑桌面Liunx图标删不掉 linux图标删不掉 端口聚合 windows11 Unity插件 达梦 DM8 僵尸世界大战 游戏服务器搭建 金仓数据库概述 金仓数据库的产品优化提案 计算虚拟化 弹性裸金属 Masshunter 质谱采集分析软件 使用教程 科研软件 image Qwen2.5-VL 华为机试 node brew 搜狗输入法 中文输入法 deployment daemonset statefulset cronjob NVM Node Yarn PM2 打不开xxx软件 无法检查其是否包含恶意软件 游戏开发 navicat AI Agent 字节智能运维 arkTs 内存管理 Erlang OTP gen_server 热代码交换 事务语义 区块链项目 显卡驱动持久化 GPU持久化 xss PyQt PySide6 win服务器架设 windows server hugo WireGuard 异地组网 集群管理 IPv6 IPv6测试 IPv6测速 IPv6检测 IPv6查询 分布式训练 钉钉 哈希算法 裸机装机 linux磁盘分区 裸机安装linux 裸机安装ubuntu 裸机安装kali 裸机 AzureDataStudio Ubuntu 24.04.1 轻量级服务器 RDP 状态模式 solidworks安装 VS Code 机械臂 Claude Desktop Claude MCP Windows Cli MCP 物理地址 页表 虚拟地址 多端开发 智慧分发 应用生态 鸿蒙OS hexo 桌面快捷方式 post.io 企业邮箱 搭建邮箱 ranger MySQL8.0 网络原理 星河版 SystemV GeneCards OMIM TTD 北亚数据恢复 oracle数据恢复 飞腾处理器 lrzsz 三次握手 ABAP 命令模式 脚本 ardunio BLE 大模型推理 零售 yum换源 西门子PLC 通讯 VM虚拟机 AWS Qt QModbus 华为昇腾910b3 线程同步 线程互斥 条件变量 UFW logstash MinIO 数字证书 签署证书 火山引擎 华为鸿蒙系统 ArkTS语言 Component 生命周期 条件渲染 Image图片组件 鸿蒙NEXT 跨域请求 Putty 花生壳 设计规范 caddy archlinux kde plasma vCenter服务器 ESXi主机 监控与管理 故障排除 日志记录 mvc 服务器正确解析请求体 接口优化 element-ui 上传视频并预览视频 vue上传本地视频及进度条功能 vue2选择视频上传到服务器 upload上传视频组件插件 批量上传视频 限制单个上传视频 webview 解决方案 CAD瓦片化 栅格瓦片 矢量瓦片 Web可视化 DWG解析 金字塔模型 李心怡 元服务 应用上架 Linux的基础开发工具 authing csrf 创业创新 easyTier 组网 pythonai PlaywrightMCP 向量数据库 安装部署 milvus安装 macOS #STC8 #STM32 数据采集 Crawlee Kubernetes vsxsrv shard 大模型压力测试 EvalScope homeassistant webpack photoshop win向maOS迁移数据 网络库 百度云 矩池云 数据下载 数据传输 finebi gru d3d12 STL 桥接模式 windows虚拟机 虚拟机联网 android-studio 知行EDI 电子数据交换 知行之桥 EDI pycharm安装