<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>MiniCPM on Producthunt daily</title>
        <link>https://producthunt.programnotes.cn/en/tags/minicpm/</link>
        <description>Recent content in MiniCPM on Producthunt daily</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en</language>
        <lastBuildDate>Thu, 12 Jun 2025 15:30:22 +0800</lastBuildDate><atom:link href="https://producthunt.programnotes.cn/en/tags/minicpm/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>MiniCPM</title>
        <link>https://producthunt.programnotes.cn/en/p/minicpm/</link>
        <pubDate>Thu, 12 Jun 2025 15:30:22 +0800</pubDate>
        
        <guid>https://producthunt.programnotes.cn/en/p/minicpm/</guid>
        <description>&lt;img src="https://images.unsplash.com/photo-1653641563301-bbb49a19d18b?ixid=M3w0NjAwMjJ8MHwxfHJhbmRvbXx8fHx8fHx8fDE3NDk3MTMzNDd8&amp;ixlib=rb-4.1.0" alt="Featured image of post MiniCPM" /&gt;&lt;h1 id=&#34;openbmbminicpm&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/MiniCPM&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;OpenBMB/MiniCPM&lt;/a&gt;
&lt;/h1&gt;&lt;div align=&#34;center&#34;&gt;
&lt;img src=&#34;./assets/minicpm_logo.png&#34; width=&#34;500em&#34; &gt;&lt;/img&gt; 
&lt;/div&gt;
&lt;h4 align=&#34;center&#34;&gt;
    &lt;p&gt;
        &lt;b&gt;中文&lt;/b&gt; | &lt;a href=&#34;https://github.com/OpenBMB/MiniCPM/blob/main/README-en.md&#34;&gt;English&lt;/a&gt;
    &lt;p&gt;
&lt;/h4&gt;
&lt;p align=&#34;center&#34;&gt;
&lt;a href=&#34;https://openbmb.vercel.app/?category=Chinese+Blog&#34; target=&#34;_blank&#34;&gt;MiniCPM 技术博客&lt;/a&gt; |
&lt;a href=&#34;https://modelbest.feishu.cn/wiki/D2tFw8Pcsi5CIzkaHNacLK64npg&#34; target=&#34;_blank&#34;&gt;MiniCPM 知识库&lt;/a&gt; |
&lt;a href=&#34;https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf&#34; target=&#34;_blank&#34;&gt;MiniCPM 论文&lt;/a&gt; |
&lt;a href=&#34;https://github.com/OpenBMB/MiniCPM-V/&#34; target=&#34;_blank&#34;&gt;MiniCPM-V 仓库&lt;/a&gt; |
加入我们的 &lt;a href=&#34;https://discord.gg/3cGQn9b3YM&#34; target=&#34;_blank&#34;&gt;discord&lt;/a&gt; 和 &lt;a href=&#34;https://github.com/OpenBMB/MiniCPM/blob/main/assets/wechat.jpg&#34; target=&#34;_blank&#34;&gt;微信群&lt;/a&gt;
&lt;/p&gt;
&lt;p&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/user-attachments/assets/ab36fd7a-485b-4707-b72f-b80b5c43d024&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/user-attachments/assets/ab36fd7a-485b-4707-b72f-b80b5c43d024&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;更新日志&#34;&gt;更新日志🔥
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;[2025.06.06] &lt;strong&gt;发布 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4&lt;/a&gt;！该模型在保持同等规模最优性能的同时，实现了极致的效率提升！在典型端侧芯片上能够实现 5 倍以上生成加速！&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;[2024.09.28] &lt;a class=&#34;link&#34; href=&#34;https://github.com/thunlp/LLMxMapReduce&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LLMxMapReduce&lt;/a&gt; 开源，支持 MiniCPM3-4B，理论上支持无限长文本输入！&lt;/li&gt;
&lt;li&gt;[2024.09.18] &lt;a class=&#34;link&#34; href=&#34;https://github.com/sgl-project/sglang&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;SGLang&lt;/a&gt; 已经支持 MiniCPM3-4B (推荐使用)！由于 SGLang v0.3 对 MiniCPM3 中使用的 MLA 结构进行了推理优化，吞吐量相比于 vLLM 提高 70%！[&lt;a class=&#34;link&#34; href=&#34;#sglang%e6%8e%a8%e8%8d%90&#34; &gt;用法&lt;/a&gt;]&lt;/li&gt;
&lt;li&gt;[2024.09.16] &lt;a class=&#34;link&#34; href=&#34;https://github.com/ggerganov/llama.cpp/releases/tag/b3765&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;llama.cpp&lt;/a&gt; 已经官方支持 MiniCPM3-4B！[&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM3-4B-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;GGUF模型&lt;/a&gt;|&lt;a class=&#34;link&#34; href=&#34;#llamacpp&#34; &gt;用法&lt;/a&gt;]&lt;/li&gt;
&lt;li&gt;[2024.09.05] 发布 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM3-4B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM3-4B&lt;/a&gt;！该模型的表现超越 Phi-3.5-mini-instruct 和 GPT-3.5-Turbo-0125，并且能够比肩 Llama3.1-8B-Instruct、Qwen2-7B-Instruct、GLM-4-9B-Chat 等多个 7B-9B 参数量的模型。&lt;/li&gt;
&lt;li&gt;[2024.07.09] MiniCPM-2B 已经支持使用 &lt;a class=&#34;link&#34; href=&#34;#sglang-%e6%8e%a8%e7%90%86&#34; &gt;SGLang&lt;/a&gt; 推理！&lt;/li&gt;
&lt;li&gt;[2024.07.05] 发布 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-S-1B-sft&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-S-1B&lt;/a&gt;！该模型在保持下游任务性能无损的前提下，FFN 层实现了 87.89% 的平均稀疏度，将 FFN FLOPs 降低了 84%。&lt;/li&gt;
&lt;li&gt;[2024.04.11] 发布 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-2B-128k&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-2B-128k&lt;/a&gt;、&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-MoE-8x2B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-MoE-8x2B&lt;/a&gt; 和 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-1B-sft-bf16&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-1B&lt;/a&gt;！点击&lt;a class=&#34;link&#34; href=&#34;https://openbmb.vercel.app/?category=Chinese&amp;#43;Blog&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;这里&lt;/a&gt;查看技术博客。&lt;/li&gt;
&lt;li&gt;[2024.03.16] MiniCPM-2B 的 30 余个中间检查点开放了！&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-2B-history&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;HuggingFace链接&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;[2024.02.01] 发布 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-2B&lt;/a&gt;！该模型在公开评测集上与 Mistral-7B 表现相近（中文、数学、代码能力更优），整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;目录&#34;&gt;目录
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e6%9b%b4%e6%96%b0%e6%97%a5%e5%bf%97&#34; &gt;更新日志🔥&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e7%9b%ae%e5%bd%95&#34; &gt;目录&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e6%a8%a1%e5%9e%8b%e4%b8%8b%e8%bd%bd&#34; &gt;模型下载&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#minicpm-40&#34; &gt;MiniCPM 4.0&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e8%af%84%e6%b5%8b%e7%bb%93%e6%9e%9c&#34; &gt;评测结果&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e6%95%88%e7%8e%87%e8%af%84%e6%b5%8b&#34; &gt;效率评测&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e7%bb%bc%e5%90%88%e8%af%84%e6%b5%8b&#34; &gt;综合评测&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e9%95%bf%e6%96%87%e6%9c%ac%e8%af%84%e6%b5%8b&#34; &gt;长文本评测&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#bitcpm4-%e6%a8%a1%e5%9e%8b%e9%87%8f%e5%8c%96&#34; &gt;BitCPM4: 模型量化&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#bitcpm4%e8%af%84%e6%b5%8b&#34; &gt;BitCPM4评测&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#bitcpm4%e6%a8%a1%e5%9e%8b%e6%8e%a8%e7%90%86&#34; &gt;BitCPM4模型推理&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e6%a8%a1%e5%9e%8b%e5%ba%94%e7%94%a8&#34; &gt;模型应用&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#minicpm4-survey-%e7%bb%bc%e8%bf%b0%e7%94%9f%e6%88%90&#34; &gt;MiniCPM4-Survey: 综述生成&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#minicpm4-mcp-mcp%e5%a2%9e%e5%bc%ba%e7%9a%84%e5%b7%a5%e5%85%b7%e8%b0%83%e7%94%a8&#34; &gt;MiniCPM4-MCP: MCP增强的工具调用&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e6%a8%a1%e5%9e%8b%e6%8e%a8%e7%90%86&#34; &gt;模型推理&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#cpmcu&#34; &gt;CPM.cu&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#huggingface&#34; &gt;HuggingFace&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#vllm&#34; &gt;vLLM&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#sglang&#34; &gt;SGLang&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e6%a8%a1%e5%9e%8b%e5%be%ae%e8%b0%83&#34; &gt;模型微调&lt;/a&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#llamA-factory&#34; &gt;LLaMA-Factory&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#minicpm-30&#34; &gt;MiniCPM 3.0&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#minicpm-20&#34; &gt;MiniCPM 2.0&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#minicpm-10&#34; &gt;MiniCPM 1.0&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e5%bc%80%e6%ba%90%e5%8d%8f%e8%ae%ae&#34; &gt;开源协议&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e5%bc%80%e5%8f%91%e6%9c%ba%e6%9e%84&#34; &gt;开发机构&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;#%e5%b7%a5%e4%bd%9c%e5%bc%95%e7%94%a8&#34; &gt;工作引用&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;模型下载&#34;&gt;模型下载
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;HuggingFace&lt;/th&gt;
          &lt;th&gt;ModelScope&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-8B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/MiniCPM4-8B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-0.5B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-0.5B&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/MiniCPM4-0.5B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-0.5B&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/BitCPM4-1B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;BitCPM4-1B&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/BitCPM4-1B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;BitCPM4-1B&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/BitCPM4-0.5B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;BitCPM4-0.5B&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/BitCPM4-0.5B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;BitCPM4-0.5B&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-8B-Eagle-FRSpec&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B-Eagle-FRSpec&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/MiniCPM4-8B-Eagle-FRSpec&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B-Eagle-FRSpec&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-8B-Eagle-FRSpec-QAT&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B-Eagle-FRSpec-QAT&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/MiniCPM4-8B-Eagle-FRSpec-QAT&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B-Eagle-FRSpec-QAT&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-8B-Eagle-vLLM&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B-Eagle-vLLM&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/MiniCPM4-8B-Eagle-vLLM&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B-Eagle-vLLM&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-8B-marlin-Eagle-vLLM&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B-marlin-Eagle-vLLM&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/MiniCPM4-8B-marlin-Eagle-vLLM&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-8B-marlin-Eagle-vLLM&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-Survey&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-Survey&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/MiniCPM4-Survey&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-Survey&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-MCP&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-MCP&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/MiniCPM4-MCP&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-MCP&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-0.5B-QAT-Int4-unquantized&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-0.5B-QAT-Int4-unquantized&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://modelscope.cn/models/OpenBMB/MiniCPM4-0.5B-QAT-Int4-unquantized&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-0.5B-QAT-Int4-unquantized&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM4-0.5B-QAT-Int4-GPTQ-format&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-0.5B-QAT-Int4-GPTQ-format&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://modelscope.cn/models/OpenBMB/MiniCPM4-0.5B-QAT-Int4-GPTQ-format&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4-0.5B-QAT-Int4-GPTQ-format&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM3-4B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM3-4B&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.modelscope.cn/models/OpenBMB/MiniCPM3-4B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM3-4B&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-2B-sft&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://modelscope.cn/models/OpenBMB/miniCPM-bf16&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-2B-sft&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-2B-dpo-bf16&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-2B-dpo&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://modelscope.cn/models/OpenBMB/MiniCPM-2B-dpo-bf16/summary&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-2B-dpo&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-2B-128k&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-2B-128k&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://modelscope.cn/models/openbmb/MiniCPM-2B-128k/summary&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-2B-128k&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-MoE-8x2B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-MoE-8x2B&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://modelscope.cn/models/OpenBMB/MiniCPM-MoE-8x2B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-MoE-8x2B&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-1B-sft-bf16&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-1B&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://modelscope.cn/models/OpenBMB/MiniCPM-1B-sft-bf16&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-1B&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-S-1B-sft&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-S-1B&lt;/a&gt;&lt;/td&gt;
          &lt;td&gt;&lt;a class=&#34;link&#34; href=&#34;https://modelscope.cn/models/OpenBMB/MiniCPM-S-1B-sft&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-S-1B&lt;/a&gt;&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;注: 更多模型版本见&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/openbmb/minicpm-2b-65d48bf958302b9fd25b698f&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;这里&lt;/a&gt;。&lt;/p&gt;
&lt;h2 id=&#34;minicpm-40&#34;&gt;MiniCPM 4.0
&lt;/h2&gt;&lt;p&gt;MiniCPM 4 是一个极致高效的端侧大模型，从模型架构、学习算法、训练数据与推理系统四个层面进行了高效优化，实现了极致的效率提升。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;🏗️ 高效模型架构：
&lt;ul&gt;
&lt;li&gt;InfLLM v2 &amp;ndash; 可训练的稀疏注意力机制：采用可训练的稀疏注意力机制架构，在 128K 长文本处理中，每个词元仅需与不足 5% 的词元进行相关性计算，显著降低长文本的计算开销&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;🧠 高效学习算法：
&lt;ul&gt;
&lt;li&gt;模型风洞 2.0 &amp;ndash; 高效 Predictable Scaling：引入下游任务的 Scaling 预测方法，实现更精准的模型训练配置搜索&lt;/li&gt;
&lt;li&gt;BitCPM &amp;ndash; 极致的三值量化：将模型参数位宽压缩至 3 值，实现模型位宽 90% 的极致瘦身&lt;/li&gt;
&lt;li&gt;高效训练工程优化：采用 FP8 低精度计算技术，结合多词元预测（Multi-token Prediction）训练策略&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;📚 高知识密度训练数据：
&lt;ul&gt;
&lt;li&gt;UltraClean &amp;ndash; 高质量预训练数据的清洗与合成：构建基于高效验证的迭代式数据清洗策略，开源高质量中英文预训练数据集 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/datasets/openbmb/Ultra-FineWeb&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;UltraFineweb&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;UltraChat v2 &amp;ndash; 高质量有监督微调数据合成：构建大规模高质量有监督微调数据集，涵盖知识密集型数据、推理密集型数据、指令遵循数据、长文本理解数据、工具调用数据等多个维度&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;⚡ 高效推理系统：
&lt;ul&gt;
&lt;li&gt;CPM.cu &amp;ndash; 轻量级的高效CUDA推理框架：融合了稀疏注意力机制、模型量化与投机采样，充分体现MiniCPM4的效率优势&lt;/li&gt;
&lt;li&gt;ArkInfer &amp;ndash; 跨平台部署系统：支持多后端环境的一键部署，提供灵活的跨平台适配能力&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;评测结果&#34;&gt;评测结果
&lt;/h3&gt;&lt;h4 id=&#34;效率评测&#34;&gt;效率评测
&lt;/h4&gt;&lt;p&gt;在 Jetson AGX Orin 和 RTX 4090 两款典型端侧芯片上，MiniCPM4 在长文本处理任务中展现出大幅领先同尺寸模型的处理速度。随着文本长度的增加，MiniCPM4 的性能优势愈发显著。在 Jetson AGX Orin 平台上，相较于 Qwen3-8B，MiniCPM4 实现了约 7 倍的生成速度提升。&lt;/p&gt;
&lt;h4 id=&#34;综合评测&#34;&gt;综合评测
&lt;/h4&gt;&lt;p&gt;MiniCPM4 推出端侧 8B、0.5B 两种参数规模版本，均在同级别模型中实现了最佳性能表现。&lt;/p&gt;
&lt;h4 id=&#34;长文本评测&#34;&gt;长文本评测
&lt;/h4&gt;&lt;p&gt;MiniCPM4 基于 32K 长文本进行预训练，并通过 YaRN 技术实现长度扩展。在 128K 长文本的大海捞针任务中，MiniCPM4 展现出卓越的性能表现。&lt;/p&gt;
&lt;h3 id=&#34;bitcpm4-模型量化&#34;&gt;BitCPM4: 模型量化
&lt;/h3&gt;&lt;p&gt;BitCPM4 是基于 MiniCPM 系列模型进行量化感知训练（QAT）后得到的三值量化模型，在训练效率和模型参数效率实现了有效的提升。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;训练方法改进
&lt;ul&gt;
&lt;li&gt;在小规模模型上进行风洞实验，搜索训练所需的训练超参。&lt;/li&gt;
&lt;li&gt;通过使用一阶段高精训练+二阶段 QAT 的方法，充分利用已经完成或部分完成训练的高精度模型，极大地压缩了 QAT 阶段所需要的算力。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;高效参数效率
&lt;ul&gt;
&lt;li&gt;模型使用 1.58Bit 的位宽达到的性能对标与同参数量级别的全精度模型，模型参数效率高。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id=&#34;bitcpm4-评测&#34;&gt;BitCPM4 评测
&lt;/h4&gt;&lt;p&gt;BitCPM4 在测试中的表现可以对标同级别的业界主流全精度模型。&lt;/p&gt;
&lt;h4 id=&#34;bitcpm4-模型推理&#34;&gt;BitCPM4 模型推理
&lt;/h4&gt;&lt;p&gt;BitCPM4 开源的模型参数为伪量化形式，可以直接使用 Huggingface 框架进行推理。&lt;/p&gt;
&lt;h3 id=&#34;模型应用&#34;&gt;模型应用
&lt;/h3&gt;&lt;h4 id=&#34;minicpm4-survey-综述生成&#34;&gt;MiniCPM4-Survey: 综述生成
&lt;/h4&gt;&lt;p&gt;MiniCPM4-Survey 是由 &lt;a class=&#34;link&#34; href=&#34;https://nlp.csai.tsinghua.edu.cn&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;THUNLP&lt;/a&gt;、中国人民大学和 &lt;a class=&#34;link&#34; href=&#34;https://modelbest.cn/en&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ModelBest&lt;/a&gt; 联合开发的开源大语言模型智能体。它基于 MiniCPM4-8B 基座模型，接受用户质量作为输入，自主生成可信的长篇综述论文。
主要特性包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;计划-检索-写作生成框架 — 我们提出了一个多智能体生成框架，包含三个核心阶段：计划（定义综述的整体结构）、检索（生成合适的检索关键词）和写作（利用检索到的信息，生成连贯的段落）。&lt;/li&gt;
&lt;li&gt;高质量数据集构建——我们收集并处理大量人类专家写作的综述论文，构建高质量训练集。同时，我们收集大量研究论文，构建检索数据库。&lt;/li&gt;
&lt;li&gt;多方面奖励设计 — 我们精心设计了包含结构、内容和引用的奖励，用于评估综述的质量，在强化学习训练阶段作奖励函数。&lt;/li&gt;
&lt;li&gt;多步强化学习训练策略 — 我们提出了一个上下文管理器，以确保在促进有效推理的同时保留必要的信息，并构建了并行环境，维持强化学习训练高效。&lt;/li&gt;
&lt;/ul&gt;
&lt;h5 id=&#34;使用与演示案例&#34;&gt;使用与演示案例
&lt;/h5&gt;&lt;p&gt;详见&lt;a class=&#34;link&#34; href=&#34;./demo/minicpm4/SurveyGeneration/README.md&#34; &gt;此处&lt;/a&gt;&lt;/p&gt;
&lt;h5 id=&#34;评估&#34;&gt;评估
&lt;/h5&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Method&lt;/th&gt;
          &lt;th&gt;Relevance&lt;/th&gt;
          &lt;th&gt;Coverage&lt;/th&gt;
          &lt;th&gt;Depth&lt;/th&gt;
          &lt;th&gt;Novelty&lt;/th&gt;
          &lt;th&gt;Avg.&lt;/th&gt;
          &lt;th&gt;Fact Score&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Naive RAG (driven by G2FT)&lt;/td&gt;
          &lt;td&gt;3.25&lt;/td&gt;
          &lt;td&gt;2.95&lt;/td&gt;
          &lt;td&gt;3.35&lt;/td&gt;
          &lt;td&gt;2.60&lt;/td&gt;
          &lt;td&gt;3.04&lt;/td&gt;
          &lt;td&gt;43.68&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;AutoSurvey (driven by G2FT)&lt;/td&gt;
          &lt;td&gt;3.10&lt;/td&gt;
          &lt;td&gt;3.25&lt;/td&gt;
          &lt;td&gt;3.15&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;3.15&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;3.16&lt;/td&gt;
          &lt;td&gt;46.56&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Webthinker (driven by WTR1-7B)&lt;/td&gt;
          &lt;td&gt;3.30&lt;/td&gt;
          &lt;td&gt;3.00&lt;/td&gt;
          &lt;td&gt;2.75&lt;/td&gt;
          &lt;td&gt;2.50&lt;/td&gt;
          &lt;td&gt;2.89&lt;/td&gt;
          &lt;td&gt;&amp;ndash;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Webthinker (driven by QwQ-32B)&lt;/td&gt;
          &lt;td&gt;3.40&lt;/td&gt;
          &lt;td&gt;3.30&lt;/td&gt;
          &lt;td&gt;3.30&lt;/td&gt;
          &lt;td&gt;2.50&lt;/td&gt;
          &lt;td&gt;3.13&lt;/td&gt;
          &lt;td&gt;&amp;ndash;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;OpenAI Deep Research (driven by GPT-4o)&lt;/td&gt;
          &lt;td&gt;3.50&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;3.95&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;3.55&lt;/td&gt;
          &lt;td&gt;3.00&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;3.50&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&amp;ndash;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;MiniCPM4-Survey&lt;/td&gt;
          &lt;td&gt;3.45&lt;/td&gt;
          &lt;td&gt;3.70&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;3.85&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;3.00&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;3.50&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;68.73&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;   &lt;em&gt;w/o&lt;/em&gt; RL&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;3.55&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;3.35&lt;/td&gt;
          &lt;td&gt;3.30&lt;/td&gt;
          &lt;td&gt;2.25&lt;/td&gt;
          &lt;td&gt;3.11&lt;/td&gt;
          &lt;td&gt;50.24&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;em&gt;GPT-4o 对综述生成系统的性能比较。“G2FT” 代表 Gemini-2.0-Flash-Thinking，“WTR1-7B” 代表 Webthinker-R1-7B。由于 Webthinker 不包括引用功能，OpenAI Deep Research 在导出结果时不提供引用，因此省略了对它们的 FactScore 评估。我们的技术报告中包含评测的详细信息。&lt;/em&gt;&lt;/p&gt;
&lt;h4 id=&#34;minicpm4-mcp-mcp增强的工具调用&#34;&gt;MiniCPM4-MCP: MCP增强的工具调用
&lt;/h4&gt;&lt;p&gt;MiniCPM4-MCP 是由&lt;a class=&#34;link&#34; href=&#34;https://nlp.csai.tsinghua.edu.cn&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;清华大学自然语言处理实验室（THUNLP）&lt;/a&gt;、中国人民大学与 &lt;a class=&#34;link&#34; href=&#34;https://modelbest.cn/en&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ModelBest&lt;/a&gt; 联合开发的开源本地大语言模型代理，它基于 MiniCPM-4-8B，拥有 80 亿参数。它能够通过 MCP 协议与各种工具和数据资源交互，解决多种真实世界任务。截至目前，MiniCPM4-MCP 已支持：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;涵盖 16 个 MCP 服务器（servers）中工具的使用：这些服务器所包含的工具横跨了办公类、生活类、通讯类、资讯类、工作管理类等.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;单工具使用的能力：可使用符合 MCP 协议的工具进行单一工具的一步或多步调用。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;跨工具组合使用的能力：可组合使用符合 MCP 协议的不同工具。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h5 id=&#34;使用与演示案例-1&#34;&gt;使用与演示案例
&lt;/h5&gt;&lt;p&gt;详见&lt;a class=&#34;link&#34; href=&#34;./demo/minicpm4/MCP/README.md&#34; &gt;此处&lt;/a&gt;&lt;/p&gt;
&lt;h5 id=&#34;评估-1&#34;&gt;评估
&lt;/h5&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;MCP 服务器&lt;/th&gt;
          &lt;th&gt;&lt;/th&gt;
          &lt;th&gt;gpt-4o&lt;/th&gt;
          &lt;th&gt;&lt;/th&gt;
          &lt;th&gt;&lt;/th&gt;
          &lt;th&gt;qwen3&lt;/th&gt;
          &lt;th&gt;&lt;/th&gt;
          &lt;th&gt;&lt;/th&gt;
          &lt;th&gt;minicpm4&lt;/th&gt;
          &lt;th&gt;&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;/td&gt;
          &lt;td&gt;函数名正确率&lt;/td&gt;
          &lt;td&gt;参数名正确率&lt;/td&gt;
          &lt;td&gt;数值正确率&lt;/td&gt;
          &lt;td&gt;函数名正确率&lt;/td&gt;
          &lt;td&gt;参数名正确率&lt;/td&gt;
          &lt;td&gt;数值正确率&lt;/td&gt;
          &lt;td&gt;函数名正确率&lt;/td&gt;
          &lt;td&gt;参数名正确率&lt;/td&gt;
          &lt;td&gt;数值正确率&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Airbnb&lt;/td&gt;
          &lt;td&gt;89.3&lt;/td&gt;
          &lt;td&gt;67.9&lt;/td&gt;
          &lt;td&gt;53.6&lt;/td&gt;
          &lt;td&gt;92.8&lt;/td&gt;
          &lt;td&gt;60.7&lt;/td&gt;
          &lt;td&gt;50.0&lt;/td&gt;
          &lt;td&gt;96.4&lt;/td&gt;
          &lt;td&gt;67.9&lt;/td&gt;
          &lt;td&gt;50.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Amap-Maps&lt;/td&gt;
          &lt;td&gt;79.8&lt;/td&gt;
          &lt;td&gt;77.5&lt;/td&gt;
          &lt;td&gt;50.0&lt;/td&gt;
          &lt;td&gt;74.4&lt;/td&gt;
          &lt;td&gt;72.0&lt;/td&gt;
          &lt;td&gt;41.0&lt;/td&gt;
          &lt;td&gt;89.3&lt;/td&gt;
          &lt;td&gt;85.7&lt;/td&gt;
          &lt;td&gt;39.9&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Arxiv-MCP-Server&lt;/td&gt;
          &lt;td&gt;85.7&lt;/td&gt;
          &lt;td&gt;85.7&lt;/td&gt;
          &lt;td&gt;85.7&lt;/td&gt;
          &lt;td&gt;81.8&lt;/td&gt;
          &lt;td&gt;54.5&lt;/td&gt;
          &lt;td&gt;50.0&lt;/td&gt;
          &lt;td&gt;57.1&lt;/td&gt;
          &lt;td&gt;57.1&lt;/td&gt;
          &lt;td&gt;52.4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Calculator&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;20.0&lt;/td&gt;
          &lt;td&gt;80.0&lt;/td&gt;
          &lt;td&gt;80.0&lt;/td&gt;
          &lt;td&gt;13.3&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;6.67&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Computor-Control-MCP&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;86.7&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Desktop-Commander&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Filesystem&lt;/td&gt;
          &lt;td&gt;63.5&lt;/td&gt;
          &lt;td&gt;63.5&lt;/td&gt;
          &lt;td&gt;31.3&lt;/td&gt;
          &lt;td&gt;69.7&lt;/td&gt;
          &lt;td&gt;69.7&lt;/td&gt;
          &lt;td&gt;26.0&lt;/td&gt;
          &lt;td&gt;83.3&lt;/td&gt;
          &lt;td&gt;83.3&lt;/td&gt;
          &lt;td&gt;42.7&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Github&lt;/td&gt;
          &lt;td&gt;92.0&lt;/td&gt;
          &lt;td&gt;80.0&lt;/td&gt;
          &lt;td&gt;58.0&lt;/td&gt;
          &lt;td&gt;80.5&lt;/td&gt;
          &lt;td&gt;50.0&lt;/td&gt;
          &lt;td&gt;27.7&lt;/td&gt;
          &lt;td&gt;62.8&lt;/td&gt;
          &lt;td&gt;25.7&lt;/td&gt;
          &lt;td&gt;17.1&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Gaode&lt;/td&gt;
          &lt;td&gt;71.1&lt;/td&gt;
          &lt;td&gt;55.6&lt;/td&gt;
          &lt;td&gt;17.8&lt;/td&gt;
          &lt;td&gt;68.8&lt;/td&gt;
          &lt;td&gt;46.6&lt;/td&gt;
          &lt;td&gt;24.4&lt;/td&gt;
          &lt;td&gt;68.9&lt;/td&gt;
          &lt;td&gt;46.7&lt;/td&gt;
          &lt;td&gt;15.6&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;MCP-Code-Executor&lt;/td&gt;
          &lt;td&gt;85.0&lt;/td&gt;
          &lt;td&gt;80.0&lt;/td&gt;
          &lt;td&gt;70.0&lt;/td&gt;
          &lt;td&gt;80.0&lt;/td&gt;
          &lt;td&gt;80.0&lt;/td&gt;
          &lt;td&gt;70.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;65.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;MCP-Docx&lt;/td&gt;
          &lt;td&gt;95.8&lt;/td&gt;
          &lt;td&gt;86.7&lt;/td&gt;
          &lt;td&gt;67.1&lt;/td&gt;
          &lt;td&gt;94.9&lt;/td&gt;
          &lt;td&gt;81.6&lt;/td&gt;
          &lt;td&gt;60.1&lt;/td&gt;
          &lt;td&gt;95.1&lt;/td&gt;
          &lt;td&gt;86.6&lt;/td&gt;
          &lt;td&gt;76.1&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;PPT&lt;/td&gt;
          &lt;td&gt;72.6&lt;/td&gt;
          &lt;td&gt;49.8&lt;/td&gt;
          &lt;td&gt;40.9&lt;/td&gt;
          &lt;td&gt;85.9&lt;/td&gt;
          &lt;td&gt;50.7&lt;/td&gt;
          &lt;td&gt;37.5&lt;/td&gt;
          &lt;td&gt;91.2&lt;/td&gt;
          &lt;td&gt;72.1&lt;/td&gt;
          &lt;td&gt;56.7&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;PPTx&lt;/td&gt;
          &lt;td&gt;64.2&lt;/td&gt;
          &lt;td&gt;53.7&lt;/td&gt;
          &lt;td&gt;13.4&lt;/td&gt;
          &lt;td&gt;91.0&lt;/td&gt;
          &lt;td&gt;68.6&lt;/td&gt;
          &lt;td&gt;20.9&lt;/td&gt;
          &lt;td&gt;91.0&lt;/td&gt;
          &lt;td&gt;58.2&lt;/td&gt;
          &lt;td&gt;26.9&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Simple-Time-Server&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;70.0&lt;/td&gt;
          &lt;td&gt;70.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;60.0&lt;/td&gt;
          &lt;td&gt;60.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Slack&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;70.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;65.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
          &lt;td&gt;100.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Whisper&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;90.0&lt;/td&gt;
          &lt;td&gt;30.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;平均值&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;80.2&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;70.2&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;49.1&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;83.5&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;67.7&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;43.8&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;88.3&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;76.1&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;51.2&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;模型推理&#34;&gt;模型推理
&lt;/h3&gt;&lt;h4 id=&#34;cpmcu&#34;&gt;CPM.cu
&lt;/h4&gt;&lt;p&gt;我们&lt;strong&gt;推荐&lt;/strong&gt;使用 &lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/CPM.cu&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;CPM.cu&lt;/a&gt; 对 MiniCPM4 模型进行推理。CPM.cu 是面壁开发的一个集合了高效稀疏、投机采样、量化等技术的 CUDA 推理框架，能够完全发挥 MiniCPM4 的效率优势。&lt;/p&gt;
&lt;p&gt;你可以通过以下脚本安装 CPM.cu 并进行推理：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/OpenBMB/CPM.cu.git --recursive
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; CPM.cu
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python3 setup.py install
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;你可以通过以下命令进行推理并查看模型的运行速度。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python3 tests/long_prompt_gen.py &lt;span class=&#34;c1&#34;&gt;# 生成 prompt.txt&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python3 tests/test_generate.py --prompt-file prompt.txt
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;更多关于 CPM.cu 的细节，请参考 &lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/CPM.cu&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;CPM.cu 仓库&lt;/a&gt;。&lt;/p&gt;
&lt;h4 id=&#34;huggingface&#34;&gt;HuggingFace
&lt;/h4&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;20
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;21
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;22
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;23
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;24
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;25
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;26
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;27
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;28
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;29
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;30
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;31
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;32
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;33
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;34
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;35
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;36
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;transformers&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoModelForCausalLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;torch&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;torch&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;manual_seed&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;path&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s1&#34;&gt;&amp;#39;openbmb/MiniCPM4-8B&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;device&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;cuda&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;model&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoModelForCausalLM&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;torch_dtype&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;torch&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;bfloat16&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;device_map&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;device&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# User can directly use the chat interface&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# responds, history = model.chat(tokenizer, &amp;#34;Write an article about Artificial Intelligence.&amp;#34;, temperature=0.7, top_p=0.7)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# print(responds)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# User can also use the generate interface&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;Write an article about Artificial Intelligence.&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;prompt_text&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;apply_chat_template&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;tokenize&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;False&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;add_generation_prompt&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;model_inputs&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;([&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;prompt_text&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;],&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;return_tensors&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;pt&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;to&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;device&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;model_outputs&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;generate&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;o&#34;&gt;**&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_inputs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;max_new_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1024&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;top_p&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;temperature&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;output_token_ids&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;model_outputs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;i&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;][&lt;/span&gt;&lt;span class=&#34;nb&#34;&gt;len&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_inputs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;i&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]):]&lt;/span&gt; &lt;span class=&#34;k&#34;&gt;for&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;i&lt;/span&gt; &lt;span class=&#34;ow&#34;&gt;in&lt;/span&gt; &lt;span class=&#34;nb&#34;&gt;range&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;nb&#34;&gt;len&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_inputs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s1&#34;&gt;&amp;#39;input_ids&amp;#39;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]))&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;responses&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;batch_decode&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;output_token_ids&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;skip_special_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;responses&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;本模型支持稀疏注意力机制 InfLLM v2，可高效处理长序列推理。如需启用该功能，请先安装依赖库 &lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/infllmv2_cuda_impl&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;infllmv2_cuda_impl&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;运行以下命令即可安装：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone -b feature_infer https://github.com/OpenBMB/infllmv2_cuda_impl.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; infllmv2_cuda_impl
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git submodule update --init --recursive
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -e . &lt;span class=&#34;c1&#34;&gt;# or python setup.py install &lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;启用 InfLLM v2 需在 &lt;code&gt;config.json&lt;/code&gt; 配置文件中添加 &lt;code&gt;sparse_config&lt;/code&gt; 字段：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-json&#34; data-lang=&#34;json&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;err&#34;&gt;...,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;nt&#34;&gt;&amp;#34;sparse_config&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;kernel_size&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;32&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;kernel_stride&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;16&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;init_blocks&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;block_size&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;64&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;window_size&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;2048&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;topk&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;64&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;use_nope&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;kc&#34;&gt;false&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;dense_len&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;8192&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这些参数控制 InfLLM v2 的行为:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;kernel_size&lt;/code&gt;（默认值：32）：语义核的大小。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;kernel_stride&lt;/code&gt;（默认值：16）：相邻语义核的步长。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;init_blocks&lt;/code&gt;（默认值：1）：每个 query token 关注的初始的块数量，用于确保关注序列开头部分。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;block_size&lt;/code&gt;（默认值：64）：key-value blocks 的块大小。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;window_size&lt;/code&gt;（默认值：2048）：局部滑动窗口大小。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;topk&lt;/code&gt;（默认值：64）：每个 token 仅与最相关的 top-k 个 key-value blocks 计算注意力。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;use_nope&lt;/code&gt;（默认值：false）：是否在块选择中使用NOPE技术以提升性能。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;dense_len&lt;/code&gt;（默认值：8192）：稀疏注意力对短序列收益有限，当 token 长度低于此阈值时自动切换为标准注意力。设为 &lt;code&gt;-1&lt;/code&gt; 则强制始终使用稀疏注意力。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Minicpm4 原生支持 32,768 tokens 的上下文长度。若对话总长度（输入 + 输出）远超此限制，建议通过 RoPE 缩放技术扩展上下文。我们已验证通过调整 LongRoPE 因子，模型可稳定支持 131,072 tokens 的超长上下文。&lt;/p&gt;
&lt;p&gt;修改方法：在 &lt;code&gt;config.json&lt;/code&gt; 文件中调整 &lt;code&gt;rope_scaling&lt;/code&gt; 字段参数即可。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;9
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-json&#34; data-lang=&#34;json&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;err&#34;&gt;...,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;nt&#34;&gt;&amp;#34;rope_scaling&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;rope_type&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;longrope&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;long_factor&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.9977997200264581&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.014658295992452&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.0349680404997148&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.059429246056193&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.0888815016813513&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.1243301355211495&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.166977103606075&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.2182568066927284&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.2798772354275727&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.3538666751582975&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.4426259039919596&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.5489853358570191&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.6762658237220625&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.8283407612492941&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;2.0096956085876183&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;2.225478927469756&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;2.481536379650452&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;2.784415934557119&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;3.1413289096347365&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;3.560047844772632&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;4.048719380066383&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;4.752651957515948&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;5.590913044973868&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;6.584005926629993&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;7.7532214876576155&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;9.119754865903639&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;10.704443927019176&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;12.524994176518703&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;14.59739595363613&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;16.93214476166354&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;19.53823297353041&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;22.417131025031697&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;25.568260840911098&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;28.991144156566317&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;32.68408069090375&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;36.65174474170465&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;40.90396065611201&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;45.4664008671033&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;50.37147343433591&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;55.6804490772103&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;61.470816952306556&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;67.8622707390618&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;75.00516023410414&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;83.11898235973767&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;92.50044360202462&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;103.57086856690864&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;116.9492274587385&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;118.16074567836519&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;119.18497548708795&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;120.04810876261652&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;120.77352815196981&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;121.38182790207875&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;121.89094985353891&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;122.31638758099915&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;122.6714244963338&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;122.9673822552567&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.21386397019609&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.41898278254268&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.58957065488238&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.73136519024158&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.84917421274221&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.94701903496814&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;124.02825801299717&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;124.09569231686116&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;],&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;short_factor&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.9977997200264581&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.014658295992452&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.0349680404997148&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.059429246056193&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.0888815016813513&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.1243301355211495&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.166977103606075&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.2182568066927284&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.2798772354275727&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.3538666751582975&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.4426259039919596&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.5489853358570191&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.6762658237220625&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;1.8283407612492941&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;2.0096956085876183&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;2.225478927469756&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;2.481536379650452&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;2.784415934557119&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;3.1413289096347365&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;3.560047844772632&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;4.048719380066383&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;4.752651957515948&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;5.590913044973868&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;6.584005926629993&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;7.7532214876576155&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;9.119754865903639&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;10.704443927019176&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;12.524994176518703&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;14.59739595363613&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;16.93214476166354&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;19.53823297353041&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;22.417131025031697&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;25.568260840911098&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;28.991144156566317&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;32.68408069090375&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;36.65174474170465&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;40.90396065611201&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;45.4664008671033&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;50.37147343433591&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;55.6804490772103&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;61.470816952306556&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;67.8622707390618&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;75.00516023410414&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;83.11898235973767&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;92.50044360202462&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;103.57086856690864&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;116.9492274587385&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;118.16074567836519&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;119.18497548708795&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;120.04810876261652&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;120.77352815196981&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;121.38182790207875&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;121.89094985353891&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;122.31638758099915&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;122.6714244963338&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;122.9673822552567&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.21386397019609&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.41898278254268&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.58957065488238&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.73136519024158&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.84917421274221&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;123.94701903496814&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;124.02825801299717&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mf&#34;&gt;124.09569231686116&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;],&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nt&#34;&gt;&amp;#34;original_max_position_embeddings&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;32768&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h4 id=&#34;vllm&#34;&gt;vLLM
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;安装&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;参照 vLLM &lt;a class=&#34;link&#34; href=&#34;https://github.com/vllm-project/vllm&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;官方仓库&lt;/a&gt;，通过&lt;em&gt;源码&lt;/em&gt;安装最新版本。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -U vllm \
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --pre \
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --extra-index-url https://wheels.vllm.ai/nightly
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;使用 vLLM 推理 MiniCPM4-8B 模型：&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;20
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;21
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;transformers&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;vllm&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;SamplingParams&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;model_name&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;openbmb/MiniCPM4-8B&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;prompt&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;推荐5个北京的景点。&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;}]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_name&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;input_text&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;apply_chat_template&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;prompt&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;tokenize&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;False&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;add_generation_prompt&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;llm&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_name&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;max_num_batched_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;32768&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;dtype&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;bfloat16&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;gpu_memory_utilization&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.8&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;sampling_params&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;SamplingParams&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;top_p&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;temperature&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;max_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1024&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;repetition_penalty&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;1.02&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;outputs&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;llm&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;generate&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;prompts&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;input_text&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;sampling_params&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;sampling_params&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;outputs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;outputs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;text&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;在 vLLM 中使用 Eagle 投机解码：只需如下初始化推理引擎&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;llm&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_name&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;max_num_batched_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;32768&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;dtype&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;bfloat16&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;gpu_memory_utilization&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.8&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;speculative_config&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;s2&#34;&gt;&amp;#34;method&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;eagle&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;s2&#34;&gt;&amp;#34;model&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;openbmb/MiniCPM4-8B-Eagle-vLLM&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;s2&#34;&gt;&amp;#34;num_speculative_tokens&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;2&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;s2&#34;&gt;&amp;#34;max_model_len&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;32768&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;在 vLLM 中推理量化后的 MiniCPM4-8B：只需如下初始化推理引擎&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;llm&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;openbmb/MiniCPM4-8B-marlin-vLLM&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;max_num_batched_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;32768&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;dtype&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;bfloat16&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;gpu_memory_utilization&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.8&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;在 vLLM 中使用 Eagle 投机解码推理量化后的 MiniCPM4-8B：只需如下初始化推理引擎&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;llm&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;openbmb/MiniCPM4-8B-marlin-vLLM&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;max_num_batched_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;32768&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;dtype&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;bfloat16&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;gpu_memory_utilization&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.8&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;speculative_config&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;s2&#34;&gt;&amp;#34;method&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;eagle&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;s2&#34;&gt;&amp;#34;model&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;openbmb/MiniCPM4-8B-marlin-Eagle-vLLM&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;s2&#34;&gt;&amp;#34;num_speculative_tokens&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;2&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;s2&#34;&gt;&amp;#34;max_model_len&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;32768&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;注意&lt;/strong&gt;：如果你使用 vLLM 中的 OpenAI 兼容的服务端，&lt;code&gt;chat&lt;/code&gt; API 默认会将 &lt;code&gt;add_special_tokens&lt;/code&gt; 设置为 &lt;code&gt;False&lt;/code&gt;。这会导致缺失一些特殊标记（例如，BOS），而这些标记对 &lt;strong&gt;MiniCPM4&lt;/strong&gt; 模型至关重要。为确保模型行为正常，你需要在 API 调用中显式设置 &lt;code&gt;extra_body={&amp;quot;add_special_tokens&amp;quot;: True}&lt;/code&gt;，如下所示：&lt;/p&gt;
&lt;/blockquote&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;openai&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;client&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;openai&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;Client&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;base_url&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;http://localhost:8000/v1&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;api_key&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;EMPTY&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;response&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;client&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;chat&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;completions&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;create&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;openbmb/MiniCPM4-8B&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;Write an article about Artificial Intelligence.&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;],&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;temperature&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;max_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1024&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;extra_body&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;add_special_tokens&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;  &lt;span class=&#34;c1&#34;&gt;# 确保添加了诸如 BOS 等特殊标记&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;response&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;choices&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;message&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;content&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h4 id=&#34;sglang&#34;&gt;SGLang
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;安装&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;参考 SGLang &lt;a class=&#34;link&#34; href=&#34;ttps://github.com/sgl-project/sglang&#34; &gt;官方仓库&lt;/a&gt;，通过&lt;em&gt;源码&lt;/em&gt;安装。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone -b openbmb https://github.com/OpenBMB/sglang.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;cd sglang
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install --upgrade pip
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -e &amp;#34;python[all]&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;启动推理服务&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python -m sglang.launch_server --model openbmb/MiniCPM4-8B --trust-remote-code --port &lt;span class=&#34;m&#34;&gt;30000&lt;/span&gt; --chat-template chatml
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;然后用户可以通过运行以下命令来使用聊天界面：&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;openai&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;client&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;openai&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;Client&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;base_url&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;sa&#34;&gt;f&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;http://localhost:30000/v1&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;api_key&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;None&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;response&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;client&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;chat&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;completions&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;create&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;openbmb/MiniCPM4-8B&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;Write an article about Artificial Intelligence.&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;],&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;temperature&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;max_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1024&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;response&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;choices&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;message&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;content&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;使用投机加速&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python3 -m sglang.launch_server --model-path &lt;span class=&#34;o&#34;&gt;[&lt;/span&gt;model&lt;span class=&#34;o&#34;&gt;]&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\ &lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --speculative_draft_model_path &lt;span class=&#34;o&#34;&gt;[&lt;/span&gt;draft_model&lt;span class=&#34;o&#34;&gt;]&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --host 0.0.0.0 --trust-remote-code &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --speculative-algorithm EAGLE --speculative-num-steps &lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; --speculative-eagle-topk &lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; --speculative-num-draft-tokens &lt;span class=&#34;m&#34;&gt;2&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --mem-fraction 0.5
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;模型微调&#34;&gt;模型微调
&lt;/h3&gt;&lt;h4 id=&#34;llama-factory&#34;&gt;LLaMA-Factory
&lt;/h4&gt;&lt;p&gt;目前模型微调支持 &lt;a class=&#34;link&#34; href=&#34;https://github.com/hiyouga/LLaMA-Factory&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LLaMA-Factory&lt;/a&gt;，使用方法参考 &lt;a class=&#34;link&#34; href=&#34;https://t0mvtyikswc.feishu.cn/docx/Gv6ld1yCTodckBxysKgcpepJnKg?from=from_copylink&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LLaMA-Factory 微调&lt;/a&gt;&lt;/p&gt;
&lt;h2 id=&#34;minicpm-30&#34;&gt;MiniCPM 3.0
&lt;/h2&gt;&lt;details&gt;
&lt;summary&gt;查看 MiniCPM 3.0 的详细信息&lt;/summary&gt;
&lt;p&gt;MiniCPM 3.0 是一个 4B 参数量的语言模型，相比 MiniCPM1.0/2.0，功能更加全面，综合能力大幅提升，多数评测集上的效果比肩甚至超越众多 7B-9B 模型。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;支持工具调用🛠️（Function Calling）和代码解释器💻（Code Interpreter）&lt;/strong&gt;：&lt;a class=&#34;link&#34; href=&#34;https://gorilla.cs.berkeley.edu/leaderboard.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Berkeley Function Calling Leaderboard (BFCL)&lt;/a&gt; 上取得 9B 规模以下 SOTA，超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;超强的推理能力🧮&lt;/strong&gt;：数学能力方面，&lt;a class=&#34;link&#34; href=&#34;https://open-compass.github.io/MathBench/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MathBench&lt;/a&gt; 上的效果超越 GPT-3.5-Turbo 以及多个 7B-9B 模型。在非常具有挑战性的 &lt;a class=&#34;link&#34; href=&#34;https://livecodebench.github.io/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LiveCodeBench&lt;/a&gt; 上，效果超越 Llama3.1-8B-Instruct。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;出色的中英文指令遵循能力🤖&lt;/strong&gt;：英文指令遵循 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/datasets/google/IFEval&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;IFEval&lt;/a&gt;、中文指令遵循 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/datasets/YuxinJiang/FollowBench&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;FollowBench-zh&lt;/a&gt; 效果超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;长文本能力&lt;/strong&gt;：原生支持 32k 上下文长度，32k 长度内大海捞针全绿。提出 &lt;a class=&#34;link&#34; href=&#34;https://github.com/thunlp/LLMxMapReduce&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LLMxMapReduce&lt;/a&gt; ，理论可处理的上下文长度达到 +∞，在综合性长文本评测基准 &lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/InfiniteBench&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;InfiniteBench&lt;/a&gt; 平均得分超越GPT-4、KimiChat等标杆模型。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;RAG能力&lt;/strong&gt;：我们发布了 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/openbmb/minicpm-rag-suite-66d976b4204cd0a4f8beaabb&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM RAG 套件&lt;/a&gt;。基于 MiniCPM 系列模型的 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-Embedding&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-Embedding&lt;/a&gt;、&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-Reranker&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM-Reranker&lt;/a&gt; 在中文、中英跨语言检索测试中取得 SOTA 表现；针对 RAG 场景的 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM3-RAG-LoRA&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM3-RAG-LoRA&lt;/a&gt; 在开放域问答等多项任务上超越 Llama3-8B、Baichuan2-13B 等模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;评测结果-1&#34;&gt;评测结果
&lt;/h3&gt;&lt;h4 id=&#34;综合评测-1&#34;&gt;综合评测
&lt;/h4&gt;&lt;table&gt;
    &lt;tr&gt;
        &lt;td&gt;评测集&lt;/td&gt;
        &lt;td&gt;Qwen2-7B-Instruct&lt;/td&gt;
        &lt;td&gt;GLM-4-9B-Chat&lt;/td&gt;
        &lt;td&gt;Gemma2-9B-it&lt;/td&gt;
        &lt;td&gt;Llama3.1-8B-Instruct&lt;/td&gt;
        &lt;td&gt;GPT-3.5-Turbo-0125&lt;/td&gt;
        &lt;td&gt;Phi-3.5-mini-Instruct(3.8B)&lt;/td&gt;
        &lt;td&gt;MiniCPM3-4B &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td colspan=&#34;15&#34; align=&#34;left&#34;&gt;&lt;strong&gt;英文能力&lt;/strong&gt;&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;MMLU&lt;/td&gt;
        &lt;td&gt;70.5&lt;/td&gt;
        &lt;td&gt;72.4&lt;/td&gt;
        &lt;td&gt;72.6&lt;/td&gt;
        &lt;td&gt;69.4&lt;/td&gt;
        &lt;td&gt;69.2&lt;/td&gt;
        &lt;td&gt;68.4&lt;/td&gt;
        &lt;td&gt;67.2 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;BBH&lt;/td&gt;
        &lt;td&gt;64.9&lt;/td&gt;
        &lt;td&gt;76.3&lt;/td&gt;
        &lt;td&gt;65.2&lt;/td&gt;
        &lt;td&gt;67.8&lt;/td&gt;
        &lt;td&gt;70.3&lt;/td&gt;
        &lt;td&gt;68.6&lt;/td&gt;
        &lt;td&gt;70.2 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;MT-Bench&lt;/td&gt;
        &lt;td&gt;8.41&lt;/td&gt;
        &lt;td&gt;8.35&lt;/td&gt;
        &lt;td&gt;7.88&lt;/td&gt;
        &lt;td&gt;8.28&lt;/td&gt;
        &lt;td&gt;8.17&lt;/td&gt;
        &lt;td&gt;8.60&lt;/td&gt;
        &lt;td&gt;8.41 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;IFEVAL (Prompt Strict-Acc.)&lt;/td&gt;
        &lt;td&gt;51.0&lt;/td&gt;
        &lt;td&gt;64.5&lt;/td&gt;
        &lt;td&gt;71.9&lt;/td&gt;
        &lt;td&gt;71.5&lt;/td&gt;
        &lt;td&gt;58.8&lt;/td&gt;
        &lt;td&gt;49.4&lt;/td&gt;
        &lt;td&gt;68.4 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td colspan=&#34;15&#34; align=&#34;left&#34;&gt;&lt;strong&gt;中文能力&lt;/strong&gt;&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;CMMLU&lt;/td&gt;
        &lt;td&gt;80.9&lt;/td&gt;
        &lt;td&gt;71.5&lt;/td&gt;
        &lt;td&gt;59.5&lt;/td&gt;
        &lt;td&gt;55.8&lt;/td&gt;
        &lt;td&gt;54.5&lt;/td&gt;
        &lt;td&gt;46.9&lt;/td&gt;
        &lt;td&gt;73.3 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;CEVAL&lt;/td&gt;
        &lt;td&gt;77.2&lt;/td&gt;
        &lt;td&gt;75.6&lt;/td&gt;
        &lt;td&gt;56.7&lt;/td&gt;
        &lt;td&gt;55.2&lt;/td&gt;
        &lt;td&gt;52.8&lt;/td&gt;
        &lt;td&gt;46.1&lt;/td&gt;
        &lt;td&gt;73.6 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;AlignBench v1.1&lt;/td&gt;
        &lt;td&gt;7.10&lt;/td&gt;
        &lt;td&gt;6.61&lt;/td&gt;
        &lt;td&gt;7.10&lt;/td&gt;
        &lt;td&gt;5.68&lt;/td&gt;
        &lt;td&gt;5.82&lt;/td&gt;
        &lt;td&gt;5.73&lt;/td&gt;
        &lt;td&gt;6.74 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;FollowBench-zh (SSR)&lt;/td&gt;
        &lt;td&gt;63.0&lt;/td&gt;
        &lt;td&gt;56.4&lt;/td&gt;
        &lt;td&gt;57.0&lt;/td&gt;
        &lt;td&gt;50.6&lt;/td&gt;
        &lt;td&gt;64.6&lt;/td&gt;
        &lt;td&gt;58.1&lt;/td&gt;
        &lt;td&gt;66.8 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td colspan=&#34;15&#34; align=&#34;left&#34;&gt;&lt;strong&gt;数学能力&lt;/strong&gt;&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;MATH&lt;/td&gt;
        &lt;td&gt;49.6&lt;/td&gt;
        &lt;td&gt;50.6&lt;/td&gt;
        &lt;td&gt;46.0&lt;/td&gt;
        &lt;td&gt;51.9&lt;/td&gt;
        &lt;td&gt;41.8&lt;/td&gt;
        &lt;td&gt;46.4&lt;/td&gt;
        &lt;td&gt;46.6 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;GSM8K&lt;/td&gt;
        &lt;td&gt;82.3&lt;/td&gt;
        &lt;td&gt;79.6&lt;/td&gt;
        &lt;td&gt;79.7&lt;/td&gt;
        &lt;td&gt;84.5&lt;/td&gt;
        &lt;td&gt;76.4&lt;/td&gt;
        &lt;td&gt;82.7&lt;/td&gt;
        &lt;td&gt;81.1 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;MathBench&lt;/td&gt;
        &lt;td&gt;63.4&lt;/td&gt;
        &lt;td&gt;59.4&lt;/td&gt;
        &lt;td&gt;45.8&lt;/td&gt;
        &lt;td&gt;54.3&lt;/td&gt;
        &lt;td&gt;48.9&lt;/td&gt;
        &lt;td&gt;54.9&lt;/td&gt;
        &lt;td&gt;65.6 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td colspan=&#34;15&#34; align=&#34;left&#34;&gt;&lt;strong&gt;代码能力&lt;/strong&gt;&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;HumanEval+&lt;/td&gt;
        &lt;td&gt;70.1&lt;/td&gt;
        &lt;td&gt;67.1&lt;/td&gt;
        &lt;td&gt;61.6&lt;/td&gt;
        &lt;td&gt;62.8&lt;/td&gt;
        &lt;td&gt;66.5&lt;/td&gt;
        &lt;td&gt;68.9&lt;/td&gt;
        &lt;td&gt;68.3 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;MBPP+&lt;/td&gt;
        &lt;td&gt;57.1&lt;/td&gt;
        &lt;td&gt;62.2&lt;/td&gt;
        &lt;td&gt;64.3&lt;/td&gt;
        &lt;td&gt;55.3&lt;/td&gt;
        &lt;td&gt;71.4&lt;/td&gt;
        &lt;td&gt;55.8&lt;/td&gt;
        &lt;td&gt;63.2 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;LiveCodeBench v3&lt;/td&gt;
        &lt;td&gt;22.2&lt;/td&gt;
        &lt;td&gt;20.2&lt;/td&gt;
        &lt;td&gt;19.2&lt;/td&gt;
        &lt;td&gt;20.4&lt;/td&gt;
        &lt;td&gt;24.0&lt;/td&gt;
        &lt;td&gt;19.6&lt;/td&gt;
        &lt;td&gt;22.6 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td colspan=&#34;15&#34; align=&#34;left&#34;&gt;&lt;strong&gt;工具调用能力&lt;/strong&gt;&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;BFCL v2&lt;/td&gt;
        &lt;td&gt;71.6&lt;/td&gt;
        &lt;td&gt;70.1&lt;/td&gt;
        &lt;td&gt;19.2&lt;/td&gt;
        &lt;td&gt;73.3&lt;/td&gt;
        &lt;td&gt;75.4&lt;/td&gt;
        &lt;td&gt;48.4&lt;/td&gt;
        &lt;td&gt;76.0 &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td colspan=&#34;15&#34; align=&#34;left&#34;&gt;&lt;strong&gt;综合能力&lt;/strong&gt;&lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;平均分&lt;/td&gt;
        &lt;td&gt;65.3&lt;/td&gt;
        &lt;td&gt;65.0&lt;/td&gt;
        &lt;td&gt;57.9&lt;/td&gt;
        &lt;td&gt;60.8&lt;/td&gt;
        &lt;td&gt;61.0&lt;/td&gt;
        &lt;td&gt;57.2&lt;/td&gt;
        &lt;td&gt;&lt;strong&gt;66.3&lt;/strong&gt;&lt;/td&gt;
    &lt;/tr&gt;
&lt;/table&gt;
&lt;h4 id=&#34;工具调用能力&#34;&gt;工具调用能力
&lt;/h4&gt;&lt;p&gt;我们在 &lt;a class=&#34;link&#34; href=&#34;https://gorilla.cs.berkeley.edu/leaderboard.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Berkeley Function Calling Leaderboard (BFCL)&lt;/a&gt; 上测试了模型的工具调用能力，MiniCPM3-4B 在该榜单上的表现超越了多个 7B-9B 参数量的模型，优于 GPT-3.5-Turbo-0125。&lt;/p&gt;
&lt;table&gt;
    &lt;tr&gt;
        &lt;td&gt;模型&lt;/td&gt;
        &lt;td&gt;总体准确率&lt;/td&gt;
        &lt;td&gt;AST Summary&lt;/td&gt;
        &lt;td&gt;Exec Summary&lt;/td&gt;
        &lt;td&gt;Irrelevance Detection&lt;/td&gt;
        &lt;td&gt;Relevance Detection &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;MiniCPM3-4B&lt;/td&gt;
        &lt;td&gt;76.03%&lt;/td&gt;
        &lt;td&gt;68.55%&lt;/td&gt;
        &lt;td&gt;85.54%&lt;/td&gt;
        &lt;td&gt;53.71%&lt;/td&gt;
        &lt;td&gt;90.24% &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;Llama3.1-8B-Instruct&lt;/td&gt;
        &lt;td&gt;73.28%&lt;/td&gt;
        &lt;td&gt;64.61%&lt;/td&gt;
        &lt;td&gt;86.48%&lt;/td&gt;
        &lt;td&gt;43.12%&lt;/td&gt;
        &lt;td&gt;85.37% &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;Qwen2-7B-Instruct&lt;/td&gt;
        &lt;td&gt;71.61%&lt;/td&gt;
        &lt;td&gt;65.71%&lt;/td&gt;
        &lt;td&gt;79.57%&lt;/td&gt;
        &lt;td&gt;44.70%&lt;/td&gt;
        &lt;td&gt;90.24% &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;GLM-4-9B-Chat&lt;/td&gt;
        &lt;td&gt;70.08%&lt;/td&gt;
        &lt;td&gt;60.69%&lt;/td&gt;
        &lt;td&gt;80.02%&lt;/td&gt;
        &lt;td&gt;55.02%&lt;/td&gt;
        &lt;td&gt;82.93% &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;Phi-3.5-mini-instruct&lt;/td&gt;
        &lt;td&gt;48.44%&lt;/td&gt;
        &lt;td&gt;38.89%&lt;/td&gt;
        &lt;td&gt;54.04%&lt;/td&gt;
        &lt;td&gt;46.78%&lt;/td&gt;
        &lt;td&gt;65.85% &lt;/td&gt;
    &lt;/tr&gt;
    &lt;tr&gt;
        &lt;td&gt;Gemma2-9B-it&lt;/td&gt;
        &lt;td&gt;19.18%&lt;/td&gt;
        &lt;td&gt;5.41%&lt;/td&gt;
        &lt;td&gt;18.50%&lt;/td&gt;
        &lt;td&gt;88.88%&lt;/td&gt;
        &lt;td&gt;7.32%&lt;/td&gt;
    &lt;/tr&gt;
&lt;/table&gt;
&lt;h4 id=&#34;长文本能力&#34;&gt;长文本能力
&lt;/h4&gt;&lt;p&gt;在 32k 的上下文长度进行&lt;a class=&#34;link&#34; href=&#34;https://github.com/gkamradt/LLMTest_NeedleInAHaystack&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;大海捞针&lt;/a&gt;测试，结果如下图：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://producthunt.programnotes.cn/assets/minicpm3/eval_needle.jpeg&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;needle&#34;
	
	
&gt;&lt;/p&gt;
&lt;p&gt;同时我们提出&lt;a class=&#34;link&#34; href=&#34;https://github.com/thunlp/LLMxMapReduce&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LLMxMapReduce&lt;/a&gt;，利用分治的策略，理论上可以处理无限长度的文本。我们在&lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/InfiniteBench&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;InfiniteBench&lt;/a&gt;上测试了模型的长文本处理能力，在LLMxMapReduce框架的加持下，MiniCPM3-4B在这个榜单的平均得分能够超越 GPT-4、KimiChat 等标杆模型。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;&lt;/th&gt;
          &lt;th&gt;Context length&lt;/th&gt;
          &lt;th&gt;Qwen2-70b&lt;/th&gt;
          &lt;th&gt;Kimi-Chat(2024.06)&lt;/th&gt;
          &lt;th&gt;GPT-4 (From InfiniteBench)&lt;/th&gt;
          &lt;th&gt;MiniCPM 3.0 x MR&lt;/th&gt;
          &lt;th&gt;Qwen2-70b x MR&lt;/th&gt;
          &lt;th&gt;Llama3-70bx MR&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Math.Find&lt;/td&gt;
          &lt;td&gt;87.9k&lt;/td&gt;
          &lt;td&gt;59.71%&lt;/td&gt;
          &lt;td&gt;18.57%&lt;/td&gt;
          &lt;td&gt;60.00%&lt;/td&gt;
          &lt;td&gt;83.43%&lt;/td&gt;
          &lt;td&gt;54.29%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;91.43%&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Retrieve.KV&lt;/td&gt;
          &lt;td&gt;89.9k&lt;/td&gt;
          &lt;td&gt;29.00%&lt;/td&gt;
          &lt;td&gt;69.20%&lt;/td&gt;
          &lt;td&gt;89.00%&lt;/td&gt;
          &lt;td&gt;93.80%&lt;/td&gt;
          &lt;td&gt;98.80%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;98.89%&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;En.Dia&lt;/td&gt;
          &lt;td&gt;103.6K&lt;/td&gt;
          &lt;td&gt;23.00%&lt;/td&gt;
          &lt;td&gt;23.00%&lt;/td&gt;
          &lt;td&gt;7.50%&lt;/td&gt;
          &lt;td&gt;12.50%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;46.50%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;17.50%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Code.Debug&lt;/td&gt;
          &lt;td&gt;114.7k&lt;/td&gt;
          &lt;td&gt;45.43%&lt;/td&gt;
          &lt;td&gt;38.32%&lt;/td&gt;
          &lt;td&gt;54.31%&lt;/td&gt;
          &lt;td&gt;25.63%&lt;/td&gt;
          &lt;td&gt;54.82%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;62.94%&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Retrieve.Number&lt;/td&gt;
          &lt;td&gt;122.4k&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;100.00%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;97.45%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;100.00%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;99.32%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;100.00%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;99.79%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Retrieve.PassKey&lt;/td&gt;
          &lt;td&gt;122.4k&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;100.00%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;99.32%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;100.00%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;98.81%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;100.00%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;100.00%&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;En.Sum&lt;/td&gt;
          &lt;td&gt;171.5K&lt;/td&gt;
          &lt;td&gt;31.85%&lt;/td&gt;
          &lt;td&gt;29.94%&lt;/td&gt;
          &lt;td&gt;14.73%&lt;/td&gt;
          &lt;td&gt;25.89%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;32.39%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;30.63%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;En.MC&lt;/td&gt;
          &lt;td&gt;184.4k&lt;/td&gt;
          &lt;td&gt;81.66%&lt;/td&gt;
          &lt;td&gt;79.91%&lt;/td&gt;
          &lt;td&gt;68.12%&lt;/td&gt;
          &lt;td&gt;66.38%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;83.84%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;82.10%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;En.QA&lt;/td&gt;
          &lt;td&gt;192.6k&lt;/td&gt;
          &lt;td&gt;21.97%&lt;/td&gt;
          &lt;td&gt;18.80%&lt;/td&gt;
          &lt;td&gt;22.44%&lt;/td&gt;
          &lt;td&gt;28.39%&lt;/td&gt;
          &lt;td&gt;23.13%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;34.70%&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Zh.QA&lt;/td&gt;
          &lt;td&gt;2068.6k&lt;/td&gt;
          &lt;td&gt;21.40%&lt;/td&gt;
          &lt;td&gt;19.84%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;25.96%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;23.66%&lt;/td&gt;
          &lt;td&gt;19.10%&lt;/td&gt;
          &lt;td&gt;N/A&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;avg w/o Zh.QA&lt;/td&gt;
          &lt;td&gt;/&lt;/td&gt;
          &lt;td&gt;51.92%&lt;/td&gt;
          &lt;td&gt;52.96%&lt;/td&gt;
          &lt;td&gt;55.33%&lt;/td&gt;
          &lt;td&gt;59.29%&lt;/td&gt;
          &lt;td&gt;64.98%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;68.64%&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;avg&lt;/td&gt;
          &lt;td&gt;/&lt;/td&gt;
          &lt;td&gt;48.86%&lt;/td&gt;
          &lt;td&gt;49.65%&lt;/td&gt;
          &lt;td&gt;52.39%&lt;/td&gt;
          &lt;td&gt;55.55%&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;60.39%&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;N/A&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;模型推理-1&#34;&gt;模型推理
&lt;/h3&gt;&lt;h4 id=&#34;huggingface-1&#34;&gt;Huggingface
&lt;/h4&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;transformers&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoModelForCausalLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;torch&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;torch&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;manual_seed&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;path&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s1&#34;&gt;&amp;#39;openbmb/MiniCPM3-4B&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;model&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoModelForCausalLM&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;torch_dtype&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;torch&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;bfloat16&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;device_map&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s1&#34;&gt;&amp;#39;cuda&amp;#39;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;responds&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;history&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;chat&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;请写一篇关于人工智能的文章，详细介绍人工智能的未来发展和隐患。&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;temperature&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;top_p&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;responds&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h4 id=&#34;sglang推荐&#34;&gt;SGLang（推荐）
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;安装&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;参考 SGLang &lt;a class=&#34;link&#34; href=&#34;ttps://github.com/sgl-project/sglang&#34; &gt;官方仓库&lt;/a&gt;，通过&lt;em&gt;源码&lt;/em&gt;安装最新版本。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;启动推理服务&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python -m sglang.launch_server --model openbmb/MiniCPM3-4B --trust-remote-code --port &lt;span class=&#34;m&#34;&gt;30000&lt;/span&gt; --chat-template chatml
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;使用示例&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;sglang&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;function&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;system&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;user&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;assistant&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;gen&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;set_default_backend&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;RuntimeEndpoint&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nd&#34;&gt;@function&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;def&lt;/span&gt; &lt;span class=&#34;nf&#34;&gt;multi_turn_question&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;s&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;question_1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;question_2&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;):&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;s&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;user&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;question_1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;s&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;assistant&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;gen&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;answer_1&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;max_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1024&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;))&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;s&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;user&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;question_2&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;s&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;assistant&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;gen&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;answer_2&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;max_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1024&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;))&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;set_default_backend&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;RuntimeEndpoint&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;http://localhost:30000&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;))&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;state&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;multi_turn_question&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;run&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;question_1&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;介绍一下人工智能&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;question_2&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;写一篇关于它的文章&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;for&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;m&lt;/span&gt; &lt;span class=&#34;ow&#34;&gt;in&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;state&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;():&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;m&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;],&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;:&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;m&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;])&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h4 id=&#34;vllm-1&#34;&gt;vLLM
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;安装 vllm
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install &lt;span class=&#34;s2&#34;&gt;&amp;#34;vllm&amp;gt;=0.6.2&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/li&gt;
&lt;li&gt;推理
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;transformers&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;vllm&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;SamplingParams&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;model_name&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;openbmb/MiniCPM3-4B&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;prompt&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;请写一篇关于人工智能的文章，详细介绍人工智能的未来发展和隐患。&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;}]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_name&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;input_text&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;apply_chat_template&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;prompt&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;tokenize&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;False&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;add_generation_prompt&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;llm&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_name&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;tensor_parallel_size&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;sampling_params&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;SamplingParams&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;top_p&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;temperature&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;max_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1024&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;outputs&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;llm&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;generate&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;prompts&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;input_text&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;sampling_params&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;sampling_params&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;outputs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;outputs&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;text&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id=&#34;llamacpp&#34;&gt;llama.cpp
&lt;/h4&gt;&lt;p&gt;我们提供了 MiniCPM3 的 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM3-4B-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;GGUF 版本&lt;/a&gt;，可以直接使用 llama.cpp 推理。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;安装 llama.cpp
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  git clone https://github.com/ggerganov/llama.cpp
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; llama.cpp
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  make 
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/li&gt;
&lt;li&gt;推理
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./llama-cli -c &lt;span class=&#34;m&#34;&gt;1024&lt;/span&gt; -m minicpm3-4b-fp16.gguf -n &lt;span class=&#34;m&#34;&gt;1024&lt;/span&gt; --top-p 0.7 --temp 0.7 --prompt &lt;span class=&#34;s2&#34;&gt;&amp;#34;&amp;lt;|im_start|&amp;gt;user\n请写一篇关于人工智能的文章，详细介绍人工智能的未来发展和隐患。&amp;lt;|im_end|&amp;gt;\n&amp;lt;|im_start|&amp;gt;assistant\n&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;模型微调-1&#34;&gt;模型微调
&lt;/h3&gt;&lt;h4 id=&#34;llama-factory-1&#34;&gt;LLaMA-Factory
&lt;/h4&gt;&lt;p&gt;目前模型微调支持 &lt;a class=&#34;link&#34; href=&#34;https://github.com/hiyouga/LLaMA-Factory&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LLaMA-Factory&lt;/a&gt;，使用方法参考 &lt;a class=&#34;link&#34; href=&#34;https://modelbest.feishu.cn/docx/Z7USdW4lloZzkZxQ14icJ3senjb?from=from_copylink&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LLaMA-Factory 微调&lt;/a&gt;。&lt;/p&gt;
&lt;h3 id=&#34;进阶功能&#34;&gt;进阶功能
&lt;/h3&gt;&lt;p&gt;对于以下进阶功能，我们的样例代码中使用 &lt;a class=&#34;link&#34; href=&#34;#vllm&#34; &gt;vLLM&lt;/a&gt; 进行推理。&lt;/p&gt;
&lt;h4 id=&#34;工具调用&#34;&gt;工具调用
&lt;/h4&gt;&lt;p&gt;我们提供了使用 MiniCPM3 调用工具的示例代码：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; demo/minicpm3/function_call
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python function_call.py
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果你想启动一个能够调用工具的推理服务，使用以下代码：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; demo/minicpm3/function_call
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -r requirements.txt
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python openai_api_server.py &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --model openbmb/MiniCPM3-4B &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --served-model-name MiniCPM3-4B &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --chat-template chatml.jinja &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --dtype auto &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --api-key token-abc123 &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --tensor-parallel-size &lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    --trust-remote-code
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;下面是一个调用搜索工具回答问题的演示：&lt;/p&gt;
&lt;h4 id=&#34;代码解释器&#34;&gt;代码解释器
&lt;/h4&gt;&lt;p&gt;我们提供了一个 MiniCPM3 使用代码解释器的示例代码：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; demo/minicpm3/code_interpreter
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -r requirements.txt
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python code_interpreter.py openbmb/MiniCPM3-4B
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;下面是一个使用代码解释器生成二维码的演示：&lt;/p&gt;
&lt;/details&gt;
&lt;h2 id=&#34;minicpm-20&#34;&gt;MiniCPM 2.0
&lt;/h2&gt;&lt;details&gt;
&lt;summary&gt;查看 MiniCPM 2.0 的详细信息&lt;/summary&gt;
&lt;p&gt;MiniCPM 2.0 系列模型对 MiniCPM 进行了多个维度的升级，包括以下模型版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MiniCPM-2B-128k：将 MiniCPM-2B 的上下文长度从 4k 扩展至 128k，在 InfiniteBench 测试集上优于 ChatGLM3-6B-128k、Yi-6B-200k 等更大参数量的模型。&lt;/li&gt;
&lt;li&gt;MiniCPM-MoE-8x2B：基于 MiniCPM-2B 进行 MoE 扩展，综合表现相比于 MiniCPM-2B 平均提高 4.5 个百分点。&lt;/li&gt;
&lt;li&gt;MiniCPM-1B：相比于 MiniCPM-2B 成本下降 60%，综合表现仍然优于 LLaMA2-13B。&lt;/li&gt;
&lt;li&gt;MiniCPM-S-1B：在保持下游任务性能无损的前提下，FFN 层实现了 87.89% 的平均稀疏度，将 FFN FLOPs 降低了 84%。结合 PowerInfer 推理框架，解码速度提升约 2.8 倍。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;评测结果-2&#34;&gt;评测结果
&lt;/h3&gt;&lt;h4 id=&#34;minicpm-2b-128k-模型评测&#34;&gt;MiniCPM-2B-128k 模型评测
&lt;/h4&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Model&lt;/th&gt;
          &lt;th&gt;avg&lt;/th&gt;
          &lt;th&gt;avg w/o code&amp;amp;math&lt;/th&gt;
          &lt;th&gt;passkey&lt;/th&gt;
          &lt;th&gt;number_string&lt;/th&gt;
          &lt;th&gt;kv_retrieval&lt;/th&gt;
          &lt;th&gt;longbook_choice_eng&lt;/th&gt;
          &lt;th&gt;longbook_qa_chn&lt;/th&gt;
          &lt;th&gt;longbook_qa_eng&lt;/th&gt;
          &lt;th&gt;longbook_sum_eng&lt;/th&gt;
          &lt;th&gt;longdialogue_qa_eng&lt;/th&gt;
          &lt;th&gt;math_calc&lt;/th&gt;
          &lt;th&gt;math_find&lt;/th&gt;
          &lt;th&gt;code_debug&lt;/th&gt;
          &lt;th&gt;code_run&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;LWM-Text-128k&lt;/td&gt;
          &lt;td&gt;24.45&lt;/td&gt;
          &lt;td&gt;33.62&lt;/td&gt;
          &lt;td&gt;100&lt;/td&gt;
          &lt;td&gt;97.8&lt;/td&gt;
          &lt;td&gt;0.6&lt;/td&gt;
          &lt;td&gt;28.82&lt;/td&gt;
          &lt;td&gt;15.93&lt;/td&gt;
          &lt;td&gt;14.31&lt;/td&gt;
          &lt;td&gt;9.99&lt;/td&gt;
          &lt;td&gt;1.5&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
          &lt;td&gt;3.43&lt;/td&gt;
          &lt;td&gt;20.05&lt;/td&gt;
          &lt;td&gt;1&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Yarn-Mistral-7b-128k&lt;/td&gt;
          &lt;td&gt;19.84&lt;/td&gt;
          &lt;td&gt;27.36&lt;/td&gt;
          &lt;td&gt;92.71&lt;/td&gt;
          &lt;td&gt;&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
          &lt;td&gt;27.95&lt;/td&gt;
          &lt;td&gt;15.49&lt;/td&gt;
          &lt;td&gt;9.55&lt;/td&gt;
          &lt;td&gt;9.06&lt;/td&gt;
          &lt;td&gt;7.5&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
          &lt;td&gt;17.14&lt;/td&gt;
          &lt;td&gt;0.76&lt;/td&gt;
          &lt;td&gt;1.25&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Mistral-7B-Instruct-v0.2(ABF 1000w)&lt;/td&gt;
          &lt;td&gt;27.75&lt;/td&gt;
          &lt;td&gt;36.9&lt;/td&gt;
          &lt;td&gt;100&lt;/td&gt;
          &lt;td&gt;78.98&lt;/td&gt;
          &lt;td&gt;3.6&lt;/td&gt;
          &lt;td&gt;37.12&lt;/td&gt;
          &lt;td&gt;11.74&lt;/td&gt;
          &lt;td&gt;17.37&lt;/td&gt;
          &lt;td&gt;21.12&lt;/td&gt;
          &lt;td&gt;9.5&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
          &lt;td&gt;29.43&lt;/td&gt;
          &lt;td&gt;17.51&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Yi-6B-200k&lt;/td&gt;
          &lt;td&gt;22.15&lt;/td&gt;
          &lt;td&gt;32.54&lt;/td&gt;
          &lt;td&gt;100&lt;/td&gt;
          &lt;td&gt;94.92&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
          &lt;td&gt;36.68&lt;/td&gt;
          &lt;td&gt;15.07&lt;/td&gt;
          &lt;td&gt;9.2&lt;/td&gt;
          &lt;td&gt;0.92&lt;/td&gt;
          &lt;td&gt;3.5&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
          &lt;td&gt;4.29&lt;/td&gt;
          &lt;td&gt;0.51&lt;/td&gt;
          &lt;td&gt;0.75&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;chatglm3-6b-128k&lt;/td&gt;
          &lt;td&gt;25.58&lt;/td&gt;
          &lt;td&gt;36.57&lt;/td&gt;
          &lt;td&gt;89.93&lt;/td&gt;
          &lt;td&gt;99.66&lt;/td&gt;
          &lt;td&gt;5.2&lt;/td&gt;
          &lt;td&gt;46.29&lt;/td&gt;
          &lt;td&gt;10.7&lt;/td&gt;
          &lt;td&gt;8.38&lt;/td&gt;
          &lt;td&gt;25.91&lt;/td&gt;
          &lt;td&gt;6.5&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
          &lt;td&gt;8&lt;/td&gt;
          &lt;td&gt;5.33&lt;/td&gt;
          &lt;td&gt;1&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;MiniCPM-2.4B-128k&lt;/td&gt;
          &lt;td&gt;27.32&lt;/td&gt;
          &lt;td&gt;37.68&lt;/td&gt;
          &lt;td&gt;98.31&lt;/td&gt;
          &lt;td&gt;99.83&lt;/td&gt;
          &lt;td&gt;9&lt;/td&gt;
          &lt;td&gt;29.69&lt;/td&gt;
          &lt;td&gt;23.06&lt;/td&gt;
          &lt;td&gt;16.33&lt;/td&gt;
          &lt;td&gt;15.73&lt;/td&gt;
          &lt;td&gt;9.5&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
          &lt;td&gt;4.29&lt;/td&gt;
          &lt;td&gt;22.08&lt;/td&gt;
          &lt;td&gt;0&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id=&#34;minicpm-moe-8x2b-模型评测&#34;&gt;MiniCPM-MoE-8x2B 模型评测
&lt;/h4&gt;&lt;div align=&#34;left&#34;&gt;
&lt;table style=&#34;margin: 0px auto;&#34;&gt;
&lt;thead&gt;
  &lt;tr&gt;
    &lt;th align=&#34;left&#34;&gt;Model&lt;/th&gt;
    &lt;th nowrap=&#34;nowrap&#34; &gt;BBH&lt;/th&gt;
    &lt;th nowrap=&#34;nowrap&#34; &gt;MMLU&lt;/th&gt;
    &lt;th nowrap=&#34;nowrap&#34; &gt;CEval&lt;/th&gt;
    &lt;th nowrap=&#34;nowrap&#34; &gt;CMMLU&lt;/th&gt;
    &lt;th nowrap=&#34;nowrap&#34; &gt;HumanEval&lt;/th&gt;
    &lt;th nowrap=&#34;nowrap&#34; &gt;MBPP&amp;dagger;&lt;/th&gt;
    &lt;th nowrap=&#34;nowrap&#34; &gt;GSM8K&lt;/th&gt;
    &lt;th nowrap=&#34;nowrap&#34; &gt;MATH&lt;/th
  &lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody align=&#34;center&#34;&gt;
  &lt;tr&gt;
    &lt;td nowrap=&#34;nowrap&#34; align=&#34;left&#34;&gt;Llama2-34B*&lt;/td&gt;
    &lt;td&gt;44.1&lt;/td&gt;
    &lt;td&gt;62.6&lt;/td&gt;
    &lt;td&gt;-&lt;/td&gt;
    &lt;td&gt;-&lt;/td&gt;
    &lt;td&gt;22.6&lt;/td&gt;
    &lt;td&gt;33.0&lt;/td&gt;
    &lt;td&gt;42.2&lt;/td&gt;
    &lt;td&gt;6.24&lt;/td&gt;
  &lt;/tr&gt;
  &lt;tr&gt;
    &lt;td nowrap=&#34;nowrap&#34; align=&#34;left&#34;&gt;Mistral-7B-Instruct-v0.2&lt;/td&gt;
    &lt;td&gt;39.81&lt;/td&gt;
    &lt;td&gt;60.51&lt;/td&gt;
    &lt;td&gt;42.55&lt;/td&gt;
    &lt;td&gt;41.92&lt;/td&gt;
    &lt;td&gt;36.59&lt;/td&gt;
    &lt;td&gt;39.63&lt;/td&gt;
    &lt;td&gt;40.49&lt;/td&gt;
    &lt;td&gt;4.95&lt;/td&gt;
  &lt;/tr&gt;
  &lt;tr&gt;
    &lt;td nowrap=&#34;nowrap&#34; align=&#34;left&#34; &gt;Gemma-7B*&lt;/td&gt;
    &lt;td&gt;55.1&lt;/td&gt;
    &lt;td&gt;64.3&lt;/td&gt;
    &lt;td&gt;-&lt;/td&gt;
    &lt;td&gt;-&lt;/td&gt;
    &lt;td&gt;32.3&lt;/td&gt;
    &lt;td&gt;44.4&lt;/td&gt;
    &lt;td&gt;46.4&lt;/td&gt;
    &lt;td&gt;24.3&lt;/td&gt;
  &lt;/tr&gt;
  &lt;tr&gt;
    &lt;td nowrap=&#34;nowrap&#34; align=&#34;left&#34; &gt;Qwen1.5-7B*&lt;/td&gt;
    &lt;td&gt;40.2&lt;/td&gt;
    &lt;td&gt;61&lt;/td&gt;
    &lt;td&gt;74.1&lt;/td&gt;
    &lt;td&gt;73.1&lt;/td&gt;
    &lt;td&gt;36&lt;/td&gt;
    &lt;td&gt;37.4&lt;/td&gt;
    &lt;td&gt;62.5&lt;/td&gt;
    &lt;td&gt;20.3&lt;/td&gt;
  &lt;/tr&gt;
  &lt;tr&gt;
    &lt;td  nowrap=&#34;nowrap&#34; align=&#34;left&#34; &gt;Deepseek-MoE(16B)*&lt;/td&gt;
    &lt;td&gt;-&lt;/td&gt;
    &lt;td&gt;45.0&lt;/td&gt;
    &lt;td&gt;40.6&lt;/td&gt;
    &lt;td&gt;42.5&lt;/td&gt;
    &lt;td&gt;26.8&lt;/td&gt;
    &lt;td&gt;39.2&lt;/td&gt;
    &lt;td&gt;18.8&lt;/td&gt;
    &lt;td&gt;4.3&lt;/td&gt;
  &lt;/tr&gt;
  &lt;tr&gt;
    &lt;td nowrap=&#34;nowrap&#34; align=&#34;left&#34; &gt;&lt;b&gt;MiniCPM-2.4B&lt;/b&gt;&lt;/td&gt;
    &lt;td&gt;36.87&lt;/td&gt;
    &lt;td&gt;53.46&lt;/td&gt;
    &lt;td&gt;51.13&lt;/td&gt;
    &lt;td&gt;51.07&lt;/td&gt;
    &lt;td&gt;50.00&lt;/td&gt;
    &lt;td&gt;35.93&lt;/td&gt;
    &lt;td&gt;53.83&lt;/td&gt;
    &lt;td&gt;10.24&lt;/td&gt;
  &lt;/tr&gt;
  &lt;tr&gt;
    &lt;td nowrap=&#34;nowrap&#34; align=&#34;left&#34; &gt;&lt;b&gt;MiniCPM-MoE-8x2B&lt;/b&gt;&lt;/td&gt;
    &lt;td&gt;39.22&lt;/td&gt;
    &lt;td&gt;58.90&lt;/td&gt;
    &lt;td&gt;58.11&lt;/td&gt;
    &lt;td&gt;58.80&lt;/td&gt;
    &lt;td&gt;55.49&lt;/td&gt;
    &lt;td&gt;41.68&lt;/td&gt;
    &lt;td&gt;61.56&lt;/td&gt;
    &lt;td&gt;10.52&lt;/td&gt;
  &lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;p&gt;注：* 表示结果取自技术报告。† 表示评测集为MBPP全集。&lt;/p&gt;
&lt;h4 id=&#34;minicpm-s-1b-评测结果&#34;&gt;MiniCPM-S-1B 评测结果
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;代码生成：在 HumanEval（0-shot）和 MBPP（3-shot）上的平均 pass@1 得分。&lt;/li&gt;
&lt;li&gt;常识推理：在 PIQA、SIQA、HellaSwag、WinoGrande 和 COPA 上的平均 0-shot 准确率。&lt;/li&gt;
&lt;li&gt;阅读理解：在 BoolQ、LAMBADA 和 TyDi QA 上的平均 0-shot 准确率。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;其他测试集：我们报告在GSM8K（8-shot）、MMLU（5-shot）、BBH（3-shot）和 AGI-Eval（0-shot）上的平均准确率。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Setting&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Average&lt;br&gt;Sparsity&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Average&lt;br&gt;Performance&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Code&lt;br&gt;Generation&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Commonsense&lt;br&gt;Reasoning&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Reading&lt;br&gt;Comprehension&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;GSM8K&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;MMLU&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;BBH&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;AGI Eval&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;LLaMA2-7B&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;-&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;37.96&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;16.37&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;69.59&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;61.87&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;12.96&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;44.45&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;32.96&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;27.53&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;ReluLLaMA-7B&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;66.98&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;37.62&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;15.85&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;69.64&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;70.54&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;5.84&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;38.64&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;35.07&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;27.73&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;ProSparse-7B&lt;/strong&gt;*&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.11&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;38.31&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;19.47&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;66.29&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;63.33&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;12.74&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;45.21&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;33.59&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;27.55&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;ProSparse-7B&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;89.32&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;38.46&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;19.42&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;66.27&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;63.50&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;12.13&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;45.48&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;34.99&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;27.46&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;LLaMA2-13B&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;-&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;44.06&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;20.19&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;72.58&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;71.55&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;22.21&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;54.69&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;37.89&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;29.33&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;ReluLLaMA-13B&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;71.56&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;42.74&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;20.19&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;70.44&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;73.29&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;18.50&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;50.58&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;37.97&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;28.22&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;ProSparse-13B&lt;/strong&gt;*&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.97&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;45.07&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;29.03&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;69.75&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;67.54&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;25.40&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;54.78&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;40.20&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;28.76&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;ProSparse-13B&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;88.80&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;44.90&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;28.42&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;69.76&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;66.91&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;26.31&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;54.35&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;39.90&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;28.67&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;MiniCPM-1B&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;-&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;44.44&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;36.85&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;63.67&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;60.90&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;35.48&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;50.44&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;35.03&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;28.71&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;MiniCPM-S-1B&lt;/strong&gt;*&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.25&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;44.72&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;41.38&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;64.55&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;60.69&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;34.72&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;49.36&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;34.04&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;28.27&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;MiniCPM-S-1B&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;87.89&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;44.72&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;42.04&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;64.37&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;60.73&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;34.57&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;49.51&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;34.08&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;27.77&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;注：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;ReluLLaMA-7B 和 ReluLLaMA-13B 的下载链接分别是 &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/SparseLLM/ReluLLaMA-7B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;7B&lt;/a&gt; and &lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/SparseLLM/ReluLLaMA-13B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;13B&lt;/a&gt;。&amp;ldquo;ProSparse-7B*&amp;quot;、&amp;ldquo;ProSparse-13B*&amp;rdquo; 和 &amp;ldquo;MiniCPM-S-1B*&amp;rdquo; 代表没有激活阈值偏移的 ProSparse 版本。&lt;/li&gt;
&lt;li&gt;对于 PIQA、SIQA、HellaSwag、WinoGrande、COPA、BoolQ、LAMBADA、TyDi QA 和 AGI-Eval，我们根据各个选项的 PPL 来进行答案选择。对于 GSM8K、MMLU 和 BBH，我们直接生成答案。&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;模型推理-2&#34;&gt;模型推理
&lt;/h3&gt;&lt;h4 id=&#34;huggingfacevllm推理&#34;&gt;HuggingFace、vLLM推理
&lt;/h4&gt;&lt;p&gt;参考 MiniCPM 1.0 中的&lt;a class=&#34;link&#34; href=&#34;#huggingface-%e6%8e%a8%e7%90%86&#34; &gt;模型推理&lt;/a&gt;部分。&lt;/p&gt;
&lt;h4 id=&#34;powerinfer-推理&#34;&gt;Powerinfer 推理
&lt;/h4&gt;&lt;p&gt;针对 MiniCPM-S-1B 模型，我们可以使用 Powerinfer 进行推理加速，使用方法如下：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;保证cmake版本3.17以上，如果已经安装过，则跳过此步骤&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;c1&#34;&gt;# 下载安装包&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  sudo wget https://cmake.org/files/v3.23/cmake-3.23.0.tar.gz
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;c1&#34;&gt;# 解压安装包&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  sudo tar -zxvf cmake-3.23.0.tar.gz
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;c1&#34;&gt;# 配置安装环境&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  sudo ./configure
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  sudo make -j8
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;c1&#34;&gt;# 编译安装&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  sudo make install
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;c1&#34;&gt;# 查看安装后版本&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  cmake --version
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;c1&#34;&gt;# 返回版本号则安装成功&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;c1&#34;&gt;#cmake version 3.23.0&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ol start=&#34;2&#34;&gt;
&lt;li&gt;安装powerinfer：&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  git clone https://github.com/SJTU-IPADS/PowerInfer
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; PowerInfer
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  pip install -r requirements.txt &lt;span class=&#34;c1&#34;&gt;# install Python helpers&amp;#39; dependencies&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ol start=&#34;3&#34;&gt;
&lt;li&gt;cpu版本powerinfer编译,如果你的机器只有cpu，或者只想使用cpu进行推理，则运行以下命令：&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  cmake -S . -B build
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  cmake --build build --config Release
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ol start=&#34;4&#34;&gt;
&lt;li&gt;gpu版本powerinfer编译,如果你的机器有gpu，则可以运行以下命令：&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  cmake -S . -B build -DLLAMA_CUBLAS&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;ON
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  cmake --build build --config Release
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ol start=&#34;5&#34;&gt;
&lt;li&gt;获取稀疏模型&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://huggingface.co/openbmb/MiniCPM-S-1B-sft-gguf/tree/main
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;#or&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://modelscope.cn/models/OpenBMB/MiniCPM-S-1B-sft-gguf
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ol start=&#34;6&#34;&gt;
&lt;li&gt;模型推理：&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; PowerInfer
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 以下是命令模版，output_token_count为最大输出tokens，thread_num 为线程数，prompt为输入prompt字符&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;#./build/bin/main -m /PATH/TO/MODEL -n $output_token_count -t $thread_num -p $prompt&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 以下是示例&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;./build/bin/main -m /root/ld/ld_model_pretrain/1b-s-minicpm/MiniCPM-S-1B-sft.gguf -n &lt;span class=&#34;m&#34;&gt;2048&lt;/span&gt; -t &lt;span class=&#34;m&#34;&gt;8&lt;/span&gt; -p &lt;span class=&#34;s1&#34;&gt;&amp;#39;&amp;lt;用户&amp;gt;hello,tell me a story please.&amp;lt;AI&amp;gt;&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/details&gt;
&lt;h2 id=&#34;minicpm-10&#34;&gt;MiniCPM 1.0
&lt;/h2&gt;&lt;details&gt;
&lt;summary&gt;查看 MiniCPM 1.0 的详细信息&lt;/summary&gt;
&lt;p&gt;MiniCPM-2B 语言模型有 24亿（2.4B）的非词嵌入参数量, 总计 2.7B 参数量。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;经过 SFT 后，MiniCPM-2B 在公开评测集上与 Mistral-7B 表现相近（中文、数学、代码能力更优），整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。&lt;/li&gt;
&lt;li&gt;经过 DPO 后，MiniCPM-2B 在 MTBench 上也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;注意：为了保证在学术研究用途上模型的通用性，我们&lt;strong&gt;未对 MiniCPM-2B 进行任何身份认同训练&lt;/strong&gt;。同时由于我们用 ShareGPT 开源语料作为部分训练数据，模型可能会输出类似 GPT 系列模型的身份认同信息。&lt;/p&gt;
&lt;h3 id=&#34;评测结果-3&#34;&gt;评测结果
&lt;/h3&gt;&lt;h4 id=&#34;评测设置&#34;&gt;评测设置
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;由于大模型评测难以统一，且大量评测也没有公开的prompt和测试代码，对于具体评测方式，我们只能尽量做到适合各类模型。&lt;/li&gt;
&lt;li&gt;整体而言，我们测试时采用统一的prompt输入，并按照各模型对应的模板进行输入调整。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;评测脚本及prompt已开源在我们的Github仓库中，也欢迎更多开发者来不断改进我们的评测方式。&lt;/strong&gt;
&lt;ul&gt;
&lt;li&gt;文本评测部分，采用了我们的开源大模型能力评测框架&lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/UltraEval&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;UltraEval&lt;/a&gt;。以下为开源模型复现流程：
&lt;ul&gt;
&lt;li&gt;安装UltraEval
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/OpenBMB/UltraEval.git
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; UltraEval
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -e .
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/li&gt;
&lt;li&gt;下载相关数据并解压处理
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;wget -O RawData.zip &lt;span class=&#34;s2&#34;&gt;&amp;#34;https://cloud.tsinghua.edu.cn/f/71b5232264ae4833a4d0/?dl=1&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;unzip RawData.zip
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python data_process.py
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/li&gt;
&lt;li&gt;执行评测脚本(提供了模板，可自定义)
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;bash run_eval.sh
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id=&#34;部署模式&#34;&gt;部署模式
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;因为MiniCPM采用Mup的结构，与现有模型在具体计算上有细微差别，我们是基于vllm=0.2.2版本进行了我们模型的实现。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;对于非MiniCPM模型，我们采用了vllm=0.2.7的最新版本进行推理。&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id=&#34;评测度量&#34;&gt;评测度量
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;对于QA任务（选择题任务），我们选用两种方式进行测试：
&lt;ul&gt;
&lt;li&gt;PPL：将选项作为题目生成的延续，并根据各个选项的PPL来进行答案选择；&lt;/li&gt;
&lt;li&gt;第二种是直接生成答案选项。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;对于不同模型，这两种方式得到的结果差异较大。MiniCPM两种模式上的结果较为接近，而Mistral-7B-v0.1等模型在PPL上表现较好，直接生成上效果较差。&lt;/li&gt;
&lt;li&gt;在具体评测时，我们以两种评测方式得分的最高者为最终结果，以此保证对比的公平性(以下表格中*号表示采用PPL)。&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id=&#34;文本模型评测&#34;&gt;文本模型评测
&lt;/h4&gt;&lt;p&gt;&lt;strong&gt;越级比较:&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;平均分&lt;/th&gt;
          &lt;th&gt;英文均分&lt;/th&gt;
          &lt;th&gt;中文均分&lt;/th&gt;
          &lt;th&gt;C-Eval&lt;/th&gt;
          &lt;th&gt;CMMLU&lt;/th&gt;
          &lt;th&gt;MMLU&lt;/th&gt;
          &lt;th&gt;HumanEval&lt;/th&gt;
          &lt;th&gt;MBPP&lt;/th&gt;
          &lt;th&gt;GSM8K&lt;/th&gt;
          &lt;th&gt;MATH&lt;/th&gt;
          &lt;th&gt;BBH&lt;/th&gt;
          &lt;th&gt;ARC-E&lt;/th&gt;
          &lt;th&gt;ARC-C&lt;/th&gt;
          &lt;th&gt;HellaSwag&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;Llama2-7B&lt;/td&gt;
          &lt;td&gt;35.40&lt;/td&gt;
          &lt;td&gt;36.21&lt;/td&gt;
          &lt;td&gt;31.765&lt;/td&gt;
          &lt;td&gt;32.42&lt;/td&gt;
          &lt;td&gt;31.11&lt;/td&gt;
          &lt;td&gt;44.32&lt;/td&gt;
          &lt;td&gt;12.2&lt;/td&gt;
          &lt;td&gt;27.17&lt;/td&gt;
          &lt;td&gt;13.57&lt;/td&gt;
          &lt;td&gt;1.8&lt;/td&gt;
          &lt;td&gt;33.23&lt;/td&gt;
          &lt;td&gt;75.25&lt;/td&gt;
          &lt;td&gt;42.75&lt;/td&gt;
          &lt;td&gt;75.62*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Qwen-7B&lt;/td&gt;
          &lt;td&gt;49.46&lt;/td&gt;
          &lt;td&gt;47.19&lt;/td&gt;
          &lt;td&gt;59.655&lt;/td&gt;
          &lt;td&gt;58.96&lt;/td&gt;
          &lt;td&gt;60.35&lt;/td&gt;
          &lt;td&gt;57.65&lt;/td&gt;
          &lt;td&gt;17.07&lt;/td&gt;
          &lt;td&gt;42.15&lt;/td&gt;
          &lt;td&gt;41.24&lt;/td&gt;
          &lt;td&gt;5.34&lt;/td&gt;
          &lt;td&gt;37.75&lt;/td&gt;
          &lt;td&gt;83.42&lt;/td&gt;
          &lt;td&gt;64.76&lt;/td&gt;
          &lt;td&gt;75.32*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Deepseek-7B&lt;/td&gt;
          &lt;td&gt;39.96&lt;/td&gt;
          &lt;td&gt;39.15&lt;/td&gt;
          &lt;td&gt;43.64&lt;/td&gt;
          &lt;td&gt;42.82&lt;/td&gt;
          &lt;td&gt;44.45&lt;/td&gt;
          &lt;td&gt;47.82&lt;/td&gt;
          &lt;td&gt;20.12&lt;/td&gt;
          &lt;td&gt;41.45&lt;/td&gt;
          &lt;td&gt;15.85&lt;/td&gt;
          &lt;td&gt;1.53&lt;/td&gt;
          &lt;td&gt;33.38&lt;/td&gt;
          &lt;td&gt;74.58*&lt;/td&gt;
          &lt;td&gt;42.15*&lt;/td&gt;
          &lt;td&gt;75.45*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Mistral-7B&lt;/td&gt;
          &lt;td&gt;48.97&lt;/td&gt;
          &lt;td&gt;49.96&lt;/td&gt;
          &lt;td&gt;44.54&lt;/td&gt;
          &lt;td&gt;46.12&lt;/td&gt;
          &lt;td&gt;42.96&lt;/td&gt;
          &lt;td&gt;62.69&lt;/td&gt;
          &lt;td&gt;27.44&lt;/td&gt;
          &lt;td&gt;45.2&lt;/td&gt;
          &lt;td&gt;33.13&lt;/td&gt;
          &lt;td&gt;5.0&lt;/td&gt;
          &lt;td&gt;41.06&lt;/td&gt;
          &lt;td&gt;83.92&lt;/td&gt;
          &lt;td&gt;70.73&lt;/td&gt;
          &lt;td&gt;80.43*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Llama2-13B&lt;/td&gt;
          &lt;td&gt;41.48&lt;/td&gt;
          &lt;td&gt;42.44&lt;/td&gt;
          &lt;td&gt;37.19&lt;/td&gt;
          &lt;td&gt;37.32&lt;/td&gt;
          &lt;td&gt;37.06&lt;/td&gt;
          &lt;td&gt;54.71&lt;/td&gt;
          &lt;td&gt;17.07&lt;/td&gt;
          &lt;td&gt;32.55&lt;/td&gt;
          &lt;td&gt;21.15&lt;/td&gt;
          &lt;td&gt;2.25&lt;/td&gt;
          &lt;td&gt;37.92&lt;/td&gt;
          &lt;td&gt;78.87*&lt;/td&gt;
          &lt;td&gt;58.19&lt;/td&gt;
          &lt;td&gt;79.23*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;MPT-30B&lt;/td&gt;
          &lt;td&gt;38.17&lt;/td&gt;
          &lt;td&gt;39.82&lt;/td&gt;
          &lt;td&gt;30.72&lt;/td&gt;
          &lt;td&gt;29.34&lt;/td&gt;
          &lt;td&gt;32.09&lt;/td&gt;
          &lt;td&gt;46.56&lt;/td&gt;
          &lt;td&gt;21.95&lt;/td&gt;
          &lt;td&gt;35.36&lt;/td&gt;
          &lt;td&gt;10.31&lt;/td&gt;
          &lt;td&gt;1.56&lt;/td&gt;
          &lt;td&gt;38.22&lt;/td&gt;
          &lt;td&gt;78.66*&lt;/td&gt;
          &lt;td&gt;46.08*&lt;/td&gt;
          &lt;td&gt;79.72*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Falcon-40B&lt;/td&gt;
          &lt;td&gt;43.62&lt;/td&gt;
          &lt;td&gt;44.21&lt;/td&gt;
          &lt;td&gt;40.93&lt;/td&gt;
          &lt;td&gt;40.29&lt;/td&gt;
          &lt;td&gt;41.57&lt;/td&gt;
          &lt;td&gt;53.53&lt;/td&gt;
          &lt;td&gt;24.39&lt;/td&gt;
          &lt;td&gt;36.53&lt;/td&gt;
          &lt;td&gt;22.44&lt;/td&gt;
          &lt;td&gt;1.92&lt;/td&gt;
          &lt;td&gt;36.24&lt;/td&gt;
          &lt;td&gt;81.94*&lt;/td&gt;
          &lt;td&gt;57.68&lt;/td&gt;
          &lt;td&gt;83.26*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;MiniCPM-2B&lt;/td&gt;
          &lt;td&gt;52.33&lt;/td&gt;
          &lt;td&gt;52.6&lt;/td&gt;
          &lt;td&gt;51.1&lt;/td&gt;
          &lt;td&gt;51.13&lt;/td&gt;
          &lt;td&gt;51.07&lt;/td&gt;
          &lt;td&gt;53.46&lt;/td&gt;
          &lt;td&gt;50.00&lt;/td&gt;
          &lt;td&gt;47.31&lt;/td&gt;
          &lt;td&gt;53.83&lt;/td&gt;
          &lt;td&gt;10.24&lt;/td&gt;
          &lt;td&gt;36.87&lt;/td&gt;
          &lt;td&gt;85.44&lt;/td&gt;
          &lt;td&gt;68.00&lt;/td&gt;
          &lt;td&gt;68.25&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;同级比较：&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;平均分&lt;/th&gt;
          &lt;th&gt;英文均分&lt;/th&gt;
          &lt;th&gt;中文均分&lt;/th&gt;
          &lt;th&gt;C-Eval&lt;/th&gt;
          &lt;th&gt;CMMLU&lt;/th&gt;
          &lt;th&gt;MMLU&lt;/th&gt;
          &lt;th&gt;HumanEval&lt;/th&gt;
          &lt;th&gt;MBPP&lt;/th&gt;
          &lt;th&gt;GSM8K&lt;/th&gt;
          &lt;th&gt;MATH&lt;/th&gt;
          &lt;th&gt;BBH&lt;/th&gt;
          &lt;th&gt;ARC-E&lt;/th&gt;
          &lt;th&gt;ARC-C&lt;/th&gt;
          &lt;th&gt;HellaSwag&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;TinyLlama-1.1B&lt;/td&gt;
          &lt;td&gt;25.36&lt;/td&gt;
          &lt;td&gt;25.55&lt;/td&gt;
          &lt;td&gt;24.525&lt;/td&gt;
          &lt;td&gt;25.02&lt;/td&gt;
          &lt;td&gt;24.03&lt;/td&gt;
          &lt;td&gt;24.3&lt;/td&gt;
          &lt;td&gt;6.71&lt;/td&gt;
          &lt;td&gt;19.91&lt;/td&gt;
          &lt;td&gt;2.27&lt;/td&gt;
          &lt;td&gt;0.74&lt;/td&gt;
          &lt;td&gt;28.78&lt;/td&gt;
          &lt;td&gt;60.77*&lt;/td&gt;
          &lt;td&gt;28.15*&lt;/td&gt;
          &lt;td&gt;58.33*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Qwen-1.8B&lt;/td&gt;
          &lt;td&gt;34.72&lt;/td&gt;
          &lt;td&gt;31.87&lt;/td&gt;
          &lt;td&gt;47.57&lt;/td&gt;
          &lt;td&gt;49.81&lt;/td&gt;
          &lt;td&gt;45.32&lt;/td&gt;
          &lt;td&gt;43.37&lt;/td&gt;
          &lt;td&gt;7.93&lt;/td&gt;
          &lt;td&gt;17.80&lt;/td&gt;
          &lt;td&gt;19.26&lt;/td&gt;
          &lt;td&gt;2.42&lt;/td&gt;
          &lt;td&gt;29.07&lt;/td&gt;
          &lt;td&gt;63.97*&lt;/td&gt;
          &lt;td&gt;43.69&lt;/td&gt;
          &lt;td&gt;59.28*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Gemini Nano-3B&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;27.2(report)&lt;/td&gt;
          &lt;td&gt;22.8(report)&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;42.4(report)&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
          &lt;td&gt;-&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;StableLM-Zephyr-3B&lt;/td&gt;
          &lt;td&gt;43.46&lt;/td&gt;
          &lt;td&gt;46.31&lt;/td&gt;
          &lt;td&gt;30.62&lt;/td&gt;
          &lt;td&gt;30.34&lt;/td&gt;
          &lt;td&gt;30.89&lt;/td&gt;
          &lt;td&gt;45.9&lt;/td&gt;
          &lt;td&gt;35.37&lt;/td&gt;
          &lt;td&gt;31.85&lt;/td&gt;
          &lt;td&gt;52.54&lt;/td&gt;
          &lt;td&gt;12.49&lt;/td&gt;
          &lt;td&gt;37.68&lt;/td&gt;
          &lt;td&gt;73.78&lt;/td&gt;
          &lt;td&gt;55.38&lt;/td&gt;
          &lt;td&gt;71.87*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Phi-2-2B&lt;/td&gt;
          &lt;td&gt;48.84&lt;/td&gt;
          &lt;td&gt;54.41&lt;/td&gt;
          &lt;td&gt;23.78&lt;/td&gt;
          &lt;td&gt;23.37&lt;/td&gt;
          &lt;td&gt;24.18&lt;/td&gt;
          &lt;td&gt;52.66&lt;/td&gt;
          &lt;td&gt;47.56&lt;/td&gt;
          &lt;td&gt;55.04&lt;/td&gt;
          &lt;td&gt;57.16&lt;/td&gt;
          &lt;td&gt;3.5&lt;/td&gt;
          &lt;td&gt;43.39&lt;/td&gt;
          &lt;td&gt;86.11&lt;/td&gt;
          &lt;td&gt;71.25&lt;/td&gt;
          &lt;td&gt;73.07*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;MiniCPM-2B&lt;/td&gt;
          &lt;td&gt;52.33&lt;/td&gt;
          &lt;td&gt;52.6&lt;/td&gt;
          &lt;td&gt;51.10&lt;/td&gt;
          &lt;td&gt;51.13&lt;/td&gt;
          &lt;td&gt;51.07&lt;/td&gt;
          &lt;td&gt;53.46&lt;/td&gt;
          &lt;td&gt;50.00&lt;/td&gt;
          &lt;td&gt;47.31&lt;/td&gt;
          &lt;td&gt;53.83&lt;/td&gt;
          &lt;td&gt;10.24&lt;/td&gt;
          &lt;td&gt;36.87&lt;/td&gt;
          &lt;td&gt;85.44&lt;/td&gt;
          &lt;td&gt;68.00&lt;/td&gt;
          &lt;td&gt;68.25&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;Chat模型比较：&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;平均分&lt;/th&gt;
          &lt;th&gt;英文均分&lt;/th&gt;
          &lt;th&gt;中文均分&lt;/th&gt;
          &lt;th&gt;C-Eval&lt;/th&gt;
          &lt;th&gt;CMMLU&lt;/th&gt;
          &lt;th&gt;MMLU&lt;/th&gt;
          &lt;th&gt;HumanEval&lt;/th&gt;
          &lt;th&gt;MBPP&lt;/th&gt;
          &lt;th&gt;GSM8K&lt;/th&gt;
          &lt;th&gt;MATH&lt;/th&gt;
          &lt;th&gt;BBH&lt;/th&gt;
          &lt;th&gt;ARC-E&lt;/th&gt;
          &lt;th&gt;ARC-C&lt;/th&gt;
          &lt;th&gt;HellaSwag&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;ChatGLM2-6B&lt;/td&gt;
          &lt;td&gt;37.98&lt;/td&gt;
          &lt;td&gt;35.17&lt;/td&gt;
          &lt;td&gt;50.63&lt;/td&gt;
          &lt;td&gt;52.05&lt;/td&gt;
          &lt;td&gt;49.21&lt;/td&gt;
          &lt;td&gt;45.77&lt;/td&gt;
          &lt;td&gt;10.37&lt;/td&gt;
          &lt;td&gt;9.38&lt;/td&gt;
          &lt;td&gt;22.74&lt;/td&gt;
          &lt;td&gt;5.96&lt;/td&gt;
          &lt;td&gt;32.6&lt;/td&gt;
          &lt;td&gt;74.45&lt;/td&gt;
          &lt;td&gt;56.82&lt;/td&gt;
          &lt;td&gt;58.48*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Mistral-7B-Instruct-v0.1&lt;/td&gt;
          &lt;td&gt;44.36&lt;/td&gt;
          &lt;td&gt;45.89&lt;/td&gt;
          &lt;td&gt;37.51&lt;/td&gt;
          &lt;td&gt;38.06&lt;/td&gt;
          &lt;td&gt;36.96&lt;/td&gt;
          &lt;td&gt;53.56&lt;/td&gt;
          &lt;td&gt;29.27&lt;/td&gt;
          &lt;td&gt;39.34&lt;/td&gt;
          &lt;td&gt;28.73&lt;/td&gt;
          &lt;td&gt;3.48&lt;/td&gt;
          &lt;td&gt;39.52&lt;/td&gt;
          &lt;td&gt;81.61&lt;/td&gt;
          &lt;td&gt;63.99&lt;/td&gt;
          &lt;td&gt;73.47*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Mistral-7B-Instruct-v0.2&lt;/td&gt;
          &lt;td&gt;50.91&lt;/td&gt;
          &lt;td&gt;52.83&lt;/td&gt;
          &lt;td&gt;42.235&lt;/td&gt;
          &lt;td&gt;42.55&lt;/td&gt;
          &lt;td&gt;41.92&lt;/td&gt;
          &lt;td&gt;60.51&lt;/td&gt;
          &lt;td&gt;36.59&lt;/td&gt;
          &lt;td&gt;48.95&lt;/td&gt;
          &lt;td&gt;40.49&lt;/td&gt;
          &lt;td&gt;4.95&lt;/td&gt;
          &lt;td&gt;39.81&lt;/td&gt;
          &lt;td&gt;86.28&lt;/td&gt;
          &lt;td&gt;73.38&lt;/td&gt;
          &lt;td&gt;84.55*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Qwen-7B-Chat&lt;/td&gt;
          &lt;td&gt;44.93&lt;/td&gt;
          &lt;td&gt;42.05&lt;/td&gt;
          &lt;td&gt;57.9&lt;/td&gt;
          &lt;td&gt;58.57&lt;/td&gt;
          &lt;td&gt;57.23&lt;/td&gt;
          &lt;td&gt;56.03&lt;/td&gt;
          &lt;td&gt;15.85&lt;/td&gt;
          &lt;td&gt;40.52&lt;/td&gt;
          &lt;td&gt;42.23&lt;/td&gt;
          &lt;td&gt;8.3&lt;/td&gt;
          &lt;td&gt;37.34&lt;/td&gt;
          &lt;td&gt;64.44*&lt;/td&gt;
          &lt;td&gt;39.25*&lt;/td&gt;
          &lt;td&gt;74.52*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Yi-6B-Chat&lt;/td&gt;
          &lt;td&gt;50.46&lt;/td&gt;
          &lt;td&gt;45.89&lt;/td&gt;
          &lt;td&gt;70.995&lt;/td&gt;
          &lt;td&gt;70.88&lt;/td&gt;
          &lt;td&gt;71.11&lt;/td&gt;
          &lt;td&gt;62.95&lt;/td&gt;
          &lt;td&gt;14.02&lt;/td&gt;
          &lt;td&gt;28.34&lt;/td&gt;
          &lt;td&gt;36.54&lt;/td&gt;
          &lt;td&gt;3.88&lt;/td&gt;
          &lt;td&gt;37.43&lt;/td&gt;
          &lt;td&gt;84.89&lt;/td&gt;
          &lt;td&gt;70.39&lt;/td&gt;
          &lt;td&gt;74.6*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Baichuan2-7B-Chat&lt;/td&gt;
          &lt;td&gt;44.68&lt;/td&gt;
          &lt;td&gt;42.74&lt;/td&gt;
          &lt;td&gt;53.39&lt;/td&gt;
          &lt;td&gt;53.28&lt;/td&gt;
          &lt;td&gt;53.5&lt;/td&gt;
          &lt;td&gt;53&lt;/td&gt;
          &lt;td&gt;21.34&lt;/td&gt;
          &lt;td&gt;32.32&lt;/td&gt;
          &lt;td&gt;25.25&lt;/td&gt;
          &lt;td&gt;6.32&lt;/td&gt;
          &lt;td&gt;37.46&lt;/td&gt;
          &lt;td&gt;79.63&lt;/td&gt;
          &lt;td&gt;60.15&lt;/td&gt;
          &lt;td&gt;69.23*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Deepseek-7B-chat&lt;/td&gt;
          &lt;td&gt;49.34&lt;/td&gt;
          &lt;td&gt;49.56&lt;/td&gt;
          &lt;td&gt;48.335&lt;/td&gt;
          &lt;td&gt;46.95&lt;/td&gt;
          &lt;td&gt;49.72&lt;/td&gt;
          &lt;td&gt;51.67&lt;/td&gt;
          &lt;td&gt;40.85&lt;/td&gt;
          &lt;td&gt;48.48&lt;/td&gt;
          &lt;td&gt;48.52&lt;/td&gt;
          &lt;td&gt;4.26&lt;/td&gt;
          &lt;td&gt;35.7&lt;/td&gt;
          &lt;td&gt;76.85&lt;/td&gt;
          &lt;td&gt;63.05&lt;/td&gt;
          &lt;td&gt;76.68*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Llama2-7B-Chat&lt;/td&gt;
          &lt;td&gt;38.16&lt;/td&gt;
          &lt;td&gt;39.17&lt;/td&gt;
          &lt;td&gt;33.59&lt;/td&gt;
          &lt;td&gt;34.54&lt;/td&gt;
          &lt;td&gt;32.64&lt;/td&gt;
          &lt;td&gt;47.64&lt;/td&gt;
          &lt;td&gt;14.02&lt;/td&gt;
          &lt;td&gt;27.4&lt;/td&gt;
          &lt;td&gt;21.15&lt;/td&gt;
          &lt;td&gt;2.08&lt;/td&gt;
          &lt;td&gt;35.54&lt;/td&gt;
          &lt;td&gt;74.28&lt;/td&gt;
          &lt;td&gt;54.78&lt;/td&gt;
          &lt;td&gt;75.65*&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;MiniCPM-2B&lt;/td&gt;
          &lt;td&gt;52.33&lt;/td&gt;
          &lt;td&gt;52.6&lt;/td&gt;
          &lt;td&gt;51.10&lt;/td&gt;
          &lt;td&gt;51.13&lt;/td&gt;
          &lt;td&gt;51.07&lt;/td&gt;
          &lt;td&gt;53.46&lt;/td&gt;
          &lt;td&gt;50.00&lt;/td&gt;
          &lt;td&gt;47.31&lt;/td&gt;
          &lt;td&gt;53.83&lt;/td&gt;
          &lt;td&gt;10.24&lt;/td&gt;
          &lt;td&gt;36.87&lt;/td&gt;
          &lt;td&gt;85.44&lt;/td&gt;
          &lt;td&gt;68.00&lt;/td&gt;
          &lt;td&gt;68.25&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;DPO后模型比较：&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;MT-bench&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;GPT-4-turbo&lt;/td&gt;
          &lt;td&gt;9.32&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;GPT-3.5-turbo&lt;/td&gt;
          &lt;td&gt;8.39&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Mistral-8*7b-Instruct-v0.1&lt;/td&gt;
          &lt;td&gt;8.30&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Claude-2.1&lt;/td&gt;
          &lt;td&gt;8.18&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Zephyr-7B-beta&lt;/td&gt;
          &lt;td&gt;7.34&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;MiniCPM-2B&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;strong&gt;7.25&lt;/strong&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Vicuna-33B&lt;/td&gt;
          &lt;td&gt;7.12&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Zephyr-7B-alpha&lt;/td&gt;
          &lt;td&gt;6.88&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;LLaMA-2-70B-chat&lt;/td&gt;
          &lt;td&gt;6.86&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Mistral-7B-Instruct-v0.1&lt;/td&gt;
          &lt;td&gt;6.84&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;MPT-34B-instruct&lt;/td&gt;
          &lt;td&gt;6.39&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;快速上手&#34;&gt;快速上手
&lt;/h3&gt;&lt;h4 id=&#34;在线体验&#34;&gt;在线体验
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://colab.research.google.com/drive/1tJcfPyWGWA5HezO7GKLeyeIso0HyOc0l?usp=sharing&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Colab&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id=&#34;基于gradio的网页版demo&#34;&gt;基于Gradio的网页版Demo
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;使用如下命令启动基于Gradio的网页版demo：&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# generation powered by vllm&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python demo/minicpm/vllm_based_demo.py --model_path &amp;lt;vllmcpm_repo_path&amp;gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# generation powered by huggingface&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python demo/minicpm/hf_based_demo.py --model_path &amp;lt;hf_repo_path&amp;gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h4 id=&#34;huggingface-推理&#34;&gt;HuggingFace 推理
&lt;/h4&gt;&lt;h5 id=&#34;minicpm-2b&#34;&gt;MiniCPM-2B
&lt;/h5&gt;&lt;p&gt;安装&lt;code&gt;transformers&amp;gt;=4.36.0&lt;/code&gt;以及&lt;code&gt;accelerate&lt;/code&gt;后，运行以下代码：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;transformers&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoModelForCausalLM&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;torch&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;torch&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;manual_seed&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;path&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s1&#34;&gt;&amp;#39;openbmb/MiniCPM-2B-dpo-bf16&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoTokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;model&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;AutoModelForCausalLM&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;torch_dtype&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;torch&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;bfloat16&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;device_map&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s1&#34;&gt;&amp;#39;cuda&amp;#39;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;responds&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;history&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;chat&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;山东省最高的山是哪座山, 它比黄山高还是矮？差距多少？&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;temperature&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.5&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;top_p&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.8&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;repetition_penalty&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;1.02&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;responds&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h5 id=&#34;minicpm-2b-llama-format&#34;&gt;MiniCPM-2B （Llama Format）
&lt;/h5&gt;&lt;p&gt;我们将MiniCPM的模型权重转化成了Llama代码可以直接调用的&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16-llama-format&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;格式&lt;/a&gt;，以便大家尝试:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;torch&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;transformers&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LlamaTokenizerFast&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LlamaForCausalLM&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;model_path&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;openbmb/MiniCPM-2B-dpo-bf16-llama-format&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LlamaTokenizerFast&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;model&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;LlamaForCausalLM&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;from_pretrained&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model_path&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;torch_dtype&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;torch&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;bfloat16&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;device_map&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s1&#34;&gt;&amp;#39;cuda&amp;#39;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;trust_remote_code&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;prompt&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;Now you act like a terminal situated within a beginner&amp;#39;s C++ practice repository folder, please provide the output for the command: `ls -l`&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;input_ids&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;encode&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&amp;lt;用户&amp;gt;&lt;/span&gt;&lt;span class=&#34;si&#34;&gt;{}&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;lt;AI&amp;gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;format&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;prompt&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;),&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;return_tensors&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s1&#34;&gt;&amp;#39;pt&amp;#39;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;add_special_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;cuda&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;()&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;responds&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;generate&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;input_ids&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;temperature&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.3&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;top_p&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.8&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;repetition_penalty&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;1.02&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;max_length&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1024&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;responds&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;tokenizer&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;decode&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;responds&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;0&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;],&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;skip_special_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;kc&#34;&gt;True&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;responds&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h4 id=&#34;vllm-推理&#34;&gt;vLLM 推理
&lt;/h4&gt;&lt;p&gt;安装 &lt;a class=&#34;link&#34; href=&#34;https://github.com/vllm-project/vllm&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;vLLM&lt;/a&gt;。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install &lt;span class=&#34;s2&#34;&gt;&amp;#34;vllm&amp;gt;=0.4.1&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;具体推理代码见&lt;a class=&#34;link&#34; href=&#34;#vllm&#34; &gt;这里&lt;/a&gt;。&lt;/p&gt;
&lt;h4 id=&#34;sglang-推理&#34;&gt;SGLang 推理
&lt;/h4&gt;&lt;p&gt;安装 &lt;a class=&#34;link&#34; href=&#34;https://github.com/sgl-project/sglang&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;SGLang&lt;/a&gt;。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;首先需要启动一个服务:&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python -m sglang.launch_server --model-path openbmb/MiniCPM-2B-dpo-fp16 --trust-remote-code --port &lt;span class=&#34;m&#34;&gt;30000&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;下面是一个推理代码的样例:&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;sglang&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;function&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;gen&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;set_default_backend&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;RuntimeEndpoint&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nd&#34;&gt;@function&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;def&lt;/span&gt; &lt;span class=&#34;nf&#34;&gt;text_qa&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;s&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;question&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;):&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;s&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;&amp;lt;用户&amp;gt;&amp;#34;&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;question&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;&amp;lt;AI&amp;gt;&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;s&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;+=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;gen&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;answer&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;max_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1024&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;temperature&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;top_p&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mf&#34;&gt;0.7&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;set_default_backend&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;RuntimeEndpoint&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;http://localhost:30000&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;))&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;state&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;text_qa&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;run&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;question&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;What is the capital of China?&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;state&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;answer&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;])&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h4 id=&#34;llamacppollamafastllmmlx_lm推理&#34;&gt;llama.cpp、Ollama、fastllm、mlx_lm推理
&lt;/h4&gt;&lt;p&gt;MiniCPM支持&lt;a class=&#34;link&#34; href=&#34;https://github.com/ggerganov/llama.cpp/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;llama.cpp&lt;/a&gt; 、&lt;a class=&#34;link&#34; href=&#34;https://github.com/ollama/ollama&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;ollama&lt;/a&gt;、&lt;a class=&#34;link&#34; href=&#34;https://github.com/ztxz16/fastllm&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;fastllm&lt;/a&gt;、&lt;a class=&#34;link&#34; href=&#34;https://github.com/ml-explore/mlx-examples&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;mlx_lm&lt;/a&gt;推理。感谢&lt;a class=&#34;link&#34; href=&#34;https://github.com/runfuture&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;@runfuture&lt;/a&gt;对llama.cpp和ollama的适配。&lt;/p&gt;
&lt;p&gt;请参考 MiniCPM 知识库中的&lt;a class=&#34;link&#34; href=&#34;https://modelbest.feishu.cn/wiki/VL5kw9DsEiRDmJkEyTUcydE0nie&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;边端部署教程&lt;/a&gt;。&lt;/p&gt;
&lt;h4 id=&#34;模型量化&#34;&gt;模型量化
&lt;/h4&gt;&lt;p&gt;请参考 MiniCPM 知识库中的&lt;a class=&#34;link&#34; href=&#34;https://modelbest.feishu.cn/wiki/EatbwdLuvitbbMk2X5wcX6h5n7c&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;量化指南&lt;/a&gt;。&lt;/p&gt;
&lt;h4 id=&#34;模型微调-2&#34;&gt;模型微调
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;一张 1080/2080 可实现高效参数微调：&lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/MiniCPM/tree/main/finetune&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;代码&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;mlx 微调：&lt;a class=&#34;link&#34; href=&#34;https://modelbest.feishu.cn/wiki/AIU3wbREcirOm9kkvd7cxujFnMb#share-ASrDdvFAloHtycxfy85cLNhAnd3&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;教程&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/InternLM/xtuner&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;xtuner&lt;/a&gt;: &lt;a class=&#34;link&#34; href=&#34;https://modelbest.feishu.cn/wiki/AIU3wbREcirOm9kkvd7cxujFnMb#AMdXdzz8qoadZhxU4EucELWznzd&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM高效率微调的不二选择&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/hiyouga/LLaMA-Factory.git&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LLaMA-Factory&lt;/a&gt;：&lt;a class=&#34;link&#34; href=&#34;https://modelbest.feishu.cn/wiki/AIU3wbREcirOm9kkvd7cxujFnMb#BAWrdSjXuoFvX4xuIuzc8Amln5E&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM微调一键式解决方案&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/details&gt;
&lt;h2 id=&#34;开源协议&#34;&gt;开源协议
&lt;/h2&gt;&lt;h4 id=&#34;模型协议&#34;&gt;模型协议
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;本仓库中代码与 MiniCPM 模型权重依照 &lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/MiniCPM/blob/main/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Apache-2.0&lt;/a&gt; 协议开源&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id=&#34;声明&#34;&gt;声明
&lt;/h4&gt;&lt;ul&gt;
&lt;li&gt;作为一个语言模型，MiniCPM 通过学习大量的文本来生成内容，但它无法理解、表达个人观点或价值判断，它所输出的任何内容都不代表模型开发者的观点和立场。&lt;/li&gt;
&lt;li&gt;因此用户在使用 MiniCPM 生成的内容时，应自行负责对其进行评估和验证。&lt;/li&gt;
&lt;li&gt;如果由于使用 MiniCPM 开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;开发机构&#34;&gt;开发机构
&lt;/h2&gt;&lt;p&gt;本项目由以下机构共同开发：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;img src=&#34;assets/modelbest.png&#34; width=&#34;28px&#34;&gt; &lt;a class=&#34;link&#34; href=&#34;https://modelbest.cn/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;面壁智能&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;img src=&#34;assets/thunlp.png&#34; width=&#34;28px&#34;&gt; &lt;a class=&#34;link&#34; href=&#34;https://nlp.csai.tsinghua.edu.cn/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;清华大学自然语言处理实验室&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;img src=&#34;assets/RUC.png&#34; width=&#34;28px&#34;&gt; &lt;a class=&#34;link&#34; href=&#34;https://linyankai.github.io/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;人大高瓴人工智能学院&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;工作引用&#34;&gt;工作引用
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;如果觉得 MiniCPM 有助于您的工作，请引用我们的论文：&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2404.06395&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM1&lt;/a&gt;，&lt;a class=&#34;link&#34; href=&#34;https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniCPM4&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;@article{minicpm4,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  title={MiniCPM4: Ultra-Efficient LLMs on End Devices},
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  author={MiniCPM Team},
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  year={2025}
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;}
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;@inproceedings{huminicpm,
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  title={MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies},
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  author={Hu, Shengding and Tu, Yuge and Han, Xu and Cui, Ganqu and He, Chaoqun and Zhao, Weilin and Long, Xiang and Zheng, Zhi and Fang, Yewei and Huang, Yuxiang and others},
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  booktitle={First Conference on Language Modeling},
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  year={2024}
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;}
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;</description>
        </item>
        
    </channel>
</rss>
