跟踪中国操作系统发展动态,向世界宣传中国操作系统,中国信创产业一定会成功!
跟踪中国操作系统发展动态,向世界宣传中国操作系统,中国信创产业一定会成功!

为防止超速翻车,建议通读全文后再进行操作。
(此处双系统以 Windows 10+优麒麟 20.04 LTS Pro 为例,其他版本的系统仅供参考)

01
安装前的准备
四小步
第一步:查看电脑基础信息
按”win+r”快捷键回车确认,输入”msinfo32″,回车,出现系统信息界面,可查看 BIOS 模式:
BIOS 有多种模式,此教程以 UEFI 模式为例;

第二步:下载优麒麟镜像
官网下载:(www.ubuntukylin.com/downloads/)

页面下方还有多个开源镜像站下载途径可供选择;

注:下载完成后,为确认优麒麟系统镜像的完整性,可以使用 MD5 校验工具(网页搜索下载即可)验证 MD5 值与官网的是否一致。
第三步:准备一个 U 盘
打开冰箱门,拿出一个新鲜的U盘(或移动硬盘、DVD,此处以 U 盘为例)插在电脑上
要求:U 盘内存大于 4G;
第四步:制作启动盘
此处推荐 Ventoy,下载链接:https://www.lanzoui.com/b01bd54gb

选择结尾为 windows.zip 的最新版本进行下载解压,接着进入解压目录,双击运行 Ventoy2Disk.exe。

运行界面如下图所示:

① 是插入的 U 盘信息;
② 是此 Ventoy 的版本信息;
③ 是 U 盘内的 Ventoy 版本信息(没有安装 Ventoy 的显示为空);
④ 是安装选项,点击安装,就可以将 Ventoy 安装进对应的 U 盘里;
注:此处安装会提示是否格式化,也就是清空 U 盘内的所有数据,请提前将 U 盘原有数据备份。
安装完成后,设备内部 Ventoy 的版本信息就会显示出来,若内部版本低于安装包版本我们可以点击下方的“升级”选择进行升级。

注:升级操作是安全的,不会让 U 盘里已有的镜像文件丢失。
Ventoy 安装成功后,将优麒麟系统的镜像文件复制进到 U 盘,如下图:
此时 U 盘启动盘已经制作完成。以下为启动界面展示图:


02
安装进行时
三大步
第一步:关闭快速启动
如果不关掉可能会存在无法进入 BIOS 的情况
选择“控制面板–硬件和声音–电源选项–选择电源按钮的功能–更改当前不可用的设置”,在关机设置栏下找到“启动快速启动”,取消勾选,然后点击“保存修改”;
第二步:进行磁盘分区
磁盘分区是为了给优麒麟操作系统分配空间,默认选择分区尾部的磁盘(考虑到机械硬盘的读写特性,尽可能切靠前的分区)
首先需要在 Win10 上创建空白磁盘分区,选择“此电脑”–右键点击“管理”。

进入“计算机管理”页,点击“存储>磁盘管理”,选择要分割的磁盘空间,右键点击该磁盘,选择“压缩卷”。

此时会弹出压缩窗口,输入压缩空间量的大小,此处展示约分配 135G (空间分配建议最低不少于 30 G,如果大小不够可以重新分配一下磁盘空间,确保分区空余空间充足,原分区的大小也足够使用)。确认压缩空间量后点击“压缩”。
注:1G=1024MB,为方便计算,可以估算成 1G=1000MB。

压缩结束后,会多出一块可用空间,磁盘分区到此结束。

第三步:正式安装
插入制作好的 U 盘启动盘,重启电脑,在开机时按“F2”进入 BIOS 系统,然后在奇奇的带领下,一步步完成双系统的安装吧~
注:根据不同机型进入 BIOS 系统的快捷键有所不同,请根据自身机型搜索对应的快捷键进行操作。
首先关闭安全启动,通过左右方向键进入“Security”界面,按上下方向键移动到“Secure Boot”选项,回车进入修改状态,按上下键选择“Disabled”,回车确认。

接着通过左右方向键进入“Boot”界面,按上下方向键选择“Boot Option #1”选项卡,回车。选择启动方式为从 USB 启动,即选中自己的 U 盘,回车。

之后通过左右方向键进入“Save & Exit”界面,选择“Save Changes and Exit”,回车。在弹出的选择框里选择“Yes”,回车。

现在电脑开始重新启动,然后你会看到优麒麟开源操作系统安装的准备界面:

稍作等待,进入优麒麟新版安装界面,双击“安装 Kylin”。如下图:

接下来进入安装配置页面–选择语言、时区以及设置用户信息,大家根据自身情况进行设置哦。


直到出现选择安装方式界面,选择“自定义安装”。
注:记住我们是安装双系统,不要点击快速安装,否则有丢失数据的风险!

之后进到分区页面,如下图:

可以看到,系统已经存在 Windows 系统,“空闲”对应的就是我们刚刚压缩出来的空闲分区。 因为我们是安装双系统,所以接下来我们要做的就是将优麒麟系统安装在这个空闲分区内。
选中“空闲”分区–点击最右侧的“添加”按钮,进入新建分区页面。
首先添加根分区,奇奇在此处分配的大小是 80G,大家可以根据自身需求进行分配,但一定要确保之后有充足的空间可供使用,如下图:

由于 Windows 系统已经存在 EFI 引导分区了,所以我们再次不用添加 EFI 引导分区。
之后,添加 data 和 backup 分区,作为数据分区和备份还原分区,此处分别分配 20G。


全部分配完成后点击“下一步”,开始安装优麒麟开源操作系统。

等待安装完成,点击“现在重启”。
重启后便会出现选择系统界面,如下图:

通过上下键选择我们想要进入的系统,回车。到此,双系统已经安装好啦。
怎么样,你安装成功了吗?

03
常见问题解决方案
希望你用不到
Q:如果双系统安装完成后没有启动项选择界面,该怎么解决?
A:可能是启动项出现问题,可以下载安装用 EasyBCD 软件修复启动项。
Q:配置完分区后提示没有根分区、EFI分区、数据备份或还原分区,该怎么办?
A:根分区对应的是“/”,EFI 分区需要在分区时将“用于”类型改为 EFI,数据备份分区对应的是“/data”,还原分区对应的是“/backup”,请根据提示查找对应的分区是否创建。
Q:配置完分区提示“只能存在一个 EFI 分区”,该怎么办?
A:应该是已有的 Windows 系统也存在 EFI 分区,我们需要把自己添加的 EFI 分区进行删除。
Q:笔记本安装完双系统之后,进入 Windows 系统出现花屏,该怎么办?
A:笔记本只有集显,在系统启动时会先加载优麒麟的显卡驱动以用来加载选择系统的界面,致使在选择进入Windows时出现花屏情况
解决办法:首先,进入优麒麟系统中,打开 /etc/default/grub:
将如下语句取消注释即可(删掉 #)。
# Uncomment to disable graphical terminal (grub-pc only)
# GRUB_TERMINAL=console
Q:使用 USB 启动盘安装时,出现”try ubuntu kylin without installation”或“install ubuntu kylin”,Enter 选择“安装”后,显示器黑屏无任何显示,该怎么办?
A:
方法一:显示黑屏,可能是显卡显示的支持有问题,尝试手动修复。
移动光标到”install ubuntu kylin” , 按”e”进入编辑模式,进入命令行模式,


找到”quite splash”然后去掉”—“后,添加“nomodeset”,按 F10 安装。


注:依照不同显卡进行不同显卡驱动选项的添加,此处使用的是Nvidia显卡,添加 nomodeset。
方法二:移动光标到“Try Ubuntu Kylin without installing(safe graphics)”进入安全试用界面尝试使用。
Q:系统安装完成之后,提示未检测到无线网卡,该怎么办?
A:重启,然后在 grub 界面选择高级选项,选择低版本内核,回车,查看网络是否正常:



04
结语
投个票吧投个票吧
如果有什么看不懂的地方,或者在安装过程中出现了文章中未提及的问题,欢迎小伙伴们加入交流群一起探讨,群里不仅有 Linux 忠实爱好者,还有不定时的惊喜福利等你哦~!
扫一扫添加小优微信拉你进群:


以下是 `llama.cpp` 工具中常见参数(Common Params)、采样参数(Sampling Params)及特定示例参数(Example-specific Params)的中文翻译对照表。
—
### 一、通用参数 (—– common params —–)
* `-h, –help, –usage`: 打印使用说明并退出
* `–version`: 显示版本号及构建信息
* `–license`: 显示源代码许可证及依赖项
* `-cl, –cache-list`: 显示缓存中的模型列表
* `–completion-bash`: 打印可用于 bash 的补全脚本源文件
* `–verbose-prompt`: 在生成前打印详细的提示(默认:false)
* `-t, –threads N`: 生成过程中使用的 CPU 线程数(默认:-1,表示自动)
* *(环境变量:LLAMA_ARG_THREADS)*
* `–tb, –threads-batch N`: 批次处理和提示处理中使用的线程数(默认:与 `–threads` 相同)
* `-C, –cpu-mask M`: CPU 亲和性掩码:任意长度的十六进制数。与 `–cpu-range` 互补
* *(默认:空字符串)*
* `-Cr, –cpu-range lo-hi`: CPU 亲和性范围。与 `–cpu-mask` 互补
* `–cpu-strict <0|1>`: 使用严格的 CPU 放置策略(默认:0)
* `–prio N`: 设置进程/线程优先级:low(-1), normal(0), medium(1), high(2), realtime(3)(默认:0)
* `–poll <0…100>`: 使用轮询级别等待工作(0 – 无轮询,默认:50)
* `-Cb, –cpu-mask-batch M`: CPU 亲和性掩码(批次):任意长度的十六进制数。与 `–cpu-range-batch` 互补
* *(默认:与 `–cpu-mask` 相同)*
* `-Crb, –cpu-range-batch lo-hi`: CPU 亲和性范围(批次)。与 `–cpu-mask-batch` 互补
* `–cpu-strict-batch <0|1>`: 使用严格的 CPU 放置策略(批次)(默认:与 `–cpu-strict` 相同)
* `–prio-batch N`: 设置进程/线程优先级(批次):0-normal, 1-medium, 2-high, 3-realtime(默认:0)
* `–poll-batch <0|1>`: 使用轮询等待工作(批次)(默认:与 `–poll` 相同)
* `-c, –ctx-size N`: 提示上下文的大小(默认:0,0 表示从模型加载)
* *(环境变量:LLAMA_ARG_CTX_SIZE)*
* `-n, –predict, –n-predict N`: 预测的 token 数量(默认:-1,-1 表示无限)
* *(环境变量:LLAMA_ARG_N_PREDICT)*
* `-b, –batch-size N`: 逻辑最大批次大小(默认:2048)
* *(环境变量:LLAMA_ARG_BATCH)*
* `-ub, –ubatch-size N`: 物理最大批次大小(默认:512)
* *(环境变量:LLAMA_ARG_UBATCH)*
* `–keep N`: 从初始提示中保留的 token 数量(默认:0,-1 表示全部)
* `–swa-full`: 使用全尺寸 SWA 缓存(默认:false)
* *(更多信息:[PR #13194](https://github.com/ggml-org/llama.cpp/pull/13194#issuecomment-2868343055))*
* *(环境变量:LLAMA_ARG_SWA_FULL)*
* `-fa, –flash-attn [on|off|auto]`: 设置 Flash Attention 的使用(’on’, ‘off’, 或 ‘auto’,默认:’auto’)
* *(环境变量:LLAMA_ARG_FLASH_ATTN)*
* `–perf, –no-perf`: 是否启用内部 libllama 性能计时(默认:false)
* *(环境变量:LLAMA_ARG_PERF)*
* `-e, –escape, –no-escape`: 是否处理转义序列(\n, \r, \t, \’, \”, \\)(默认:true)
* `–rope-scaling {none,linear,yarn}`: RoPE 频率缩放方法,除非模型指定,否则默认为 linear
* *(环境变量:LLAMA_ARG_ROPE_SCALING_TYPE)*
* `–rope-scale N`: RoPE 上下文缩放因子,按 N 倍扩展上下文
* *(环境变量:LLAMA_ARG_ROPE_SCALE)*
* `–rope-freq-base N`: RoPE 基础频率,用于 NTK 感知缩放(默认:从模型加载)
* *(环境变量:LLAMA_ARG_ROPE_FREQ_BASE)*
* `–rope-freq-scale N`: RoPE 频率缩放因子,按 1/N 倍扩展上下文
* *(环境变量:LLAMA_ARG_ROPE_FREQ_SCALE)*
* `–yarn-orig-ctx N`: YaRN: 模型的原始上下文大小(默认:0 = 模型训练上下文大小)
* *(环境变量:LLAMA_ARG_YARN_ORIG_CTX)*
* `–yarn-ext-factor N`: YaRN: 外推混合因子(默认:-1.00,0.0 = 完全插值)
* *(环境变量:LLAMA_ARG_YARN_EXT_FACTOR)*
* `–yarn-attn-factor N`: YaRN: 缩放 sqrt(t) 或注意力幅度(默认:-1.00)
* *(环境变量:LLAMA_ARG_YARN_ATTN_FACTOR)*
* `–yarn-beta-slow N`: YaRN: 高修正维度或 alpha(默认:-1.00)
* *(环境变量:LLAMA_ARG_YARN_BETA_SLOW)*
* `–yarn-beta-fast N`: YaRN: 低修正维度或 beta(默认:-1.00)
* *(环境变量:LLAMA_ARG_YARN_BETA_FAST)*
* `-kvo, –kv-offload, -nkvo, –no-kv-offload`: 是否启用 KV 缓存卸载(默认:启用)
* *(环境变量:LLAMA_ARG_KV_OFFLOAD)*
* `–repack, -nr, –no-repack`: 是否启用权重重新打包(默认:启用)
* *(环境变量:LLAMA_ARG_REPACK)*
* `–no-host`: 绕过主机缓冲区,允许使用额外的缓冲区
* *(环境变量:LLAMA_ARG_NO_HOST)*
* `-ctk, –cache-type-k TYPE`: K 的 KV 缓存数据类型
* *允许的值:f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1*
* *(默认:f16)*
* *(环境变量:LLAMA_ARG_CACHE_TYPE_K)*
* `-ctv, –cache-type-v TYPE`: V 的 KV 缓存数据类型
* *允许的值:f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1*
* *(默认:f16)*
* *(环境变量:LLAMA_ARG_CACHE_TYPE_V)*
* `-dt, –defrag-thold N`: KV 缓存碎片整理阈值(已弃用)
* *(环境变量:LLAMA_ARG_DEFRAG_THOLD)*
* `–rpc SERVERS`: 逗号分隔的 RPC 服务器列表 (host:port)
* *(环境变量:LLAMA_ARG_RPC)*
* `–mlock`: 强制系统保留模型在 RAM 中,而不是交换或压缩
* *(环境变量:LLAMA_ARG_MLOCK)*
* `–mmap, –no-mmap`: 是否内存映射模型。(如果禁用 mmap,加载速度较慢,但如果不使用 mlock 可能会减少页面换出)(默认:启用)
* *(环境变量:LLAMA_ARG_MMAP)*
* `-dio, –direct-io, -ndio, –no-direct-io`: 如果可用则使用 DirectIO。(默认:禁用)
* *(环境变量:LLAMA_ARG_DIO)*
* `–numa TYPE`: 尝试优化以支持某些 NUMA 系统
* `distribute`: 在所有节点上均匀分布执行
* `isolate`: 仅在执行启动所在的节点 CPU 上生成线程
* `numactl`: 使用 numactl 提供的 CPU 映射
* *如果之前未使用此选项运行,建议在运行此选项前释放系统页面缓存*
* *(参见:https://github.com/ggml-org/llama.cpp/issues/1437)*
* *(环境变量:LLAMA_ARG_NUMA)*
* `-dev, –device <dev1,dev2,..>`: 用于卸载的逗号分隔的设备列表(none = 不卸载)
* *使用 `–list-devices` 查看可用设备列表*
* *(环境变量:LLAMA_ARG_DEVICE)*
* `–list-devices`: 打印可用设备列表并退出
* `-ot, –override-tensor <tensor name pattern>=<buffer type>,…`: 覆盖张量缓冲区类型
* *(环境变量:LLAMA_ARG_OVERRIDE_TENSOR)*
* `-cmoe, –cpu-moe`: 将所有混合专家 (MoE) 权重保留在 CPU
* *(环境变量:LLAMA_ARG_CPU_MOE)*
* `-ncmoe, –n-cpu-moe N`: 将前 N 层的混合专家 (MoE) 权重保留在 CPU
* *(环境变量:LLAMA_ARG_N_CPU_MOE)*
* `-ngl, –gpu-layers, –n-gpu-layers N`: 存储在 VRAM 中的最大层数,可以是确切数字、’auto’ 或 ‘all’(默认:auto)
* *(环境变量:LLAMA_ARG_N_GPU_LAYERS)*
* `-sm, –split-mode {none,layer,row}`: 如何在多个 GPU 之间分割模型
* `none`: 仅使用一个 GPU
* `layer` (默认): 按层和 KV 在 GPU 间分割
* `row`: 按行在 GPU 间分割
* *(环境变量:LLAMA_ARG_SPLIT_MODE)*
* `-ts, –tensor-split N0,N1,N2,…`: 分配给每个 GPU 的模型比例,逗号分隔的比例列表,例如 3,1
* *(环境变量:LLAMA_ARG_TENSOR_SPLIT)*
* `-mg, –main-gpu INDEX`: 用于模型的 GPU(当 split-mode = none 时),或用于中间结果和 KV(当 split-mode = row 时)(默认:0)
* *(环境变量:LLAMA_ARG_MAIN_GPU)*
* `-fit, –fit [on|off]`: 是否调整未设置的参数以适应设备内存(’on’ 或 ‘off’,默认:’on’)
* *(环境变量:LLAMA_ARG_FIT)*
* `-fitt, –fit-target MiB0,MiB1,MiB2,…`: 为 `–fit` 设置的每个设备的目标余量,逗号分隔的值列表,单个值广播到所有设备,默认:1024
* *(环境变量:LLAMA_ARG_FIT_TARGET)*
* `-fitc, –fit-ctx N`: `–fit` 选项可以设置的最低 ctx 大小,默认:4096
* *(环境变量:LLAMA_ARG_FIT_CTX)*
* `–check-tensors`: 检查模型张量数据是否有无效值(默认:false)
* `–override-kv KEY=TYPE:VALUE,…`: 高级选项,通过 key 覆盖模型元数据。要指定多个覆盖项,请使用逗号分隔的值。
* *类型:int, float, bool, str。示例:–override-kv tokenizer.ggml.add_bos_token=bool:false,tokenizer.ggml.add_eos_token=bool:false*
* `–op-offload, –no-op-offload`: 是否将主机张量操作卸载到设备(默认:true)
* `-lora FNAME`: LoRA 适配器路径(使用逗号分隔的值加载多个适配器)
* `-lora-scaled FNAME:SCALE,…`: 带用户定义缩放的 LoRA 适配器路径(格式:FNAME:SCALE,…)
* *注意:使用逗号分隔的值*
* `–control-vector FNAME`: 添加控制向量
* *注意:使用逗号分隔的值添加多个控制向量*
* `–control-vector-scaled FNAME:SCALE,…`: 添加带用户定义缩放 SCALE 的控制向量
* *注意:使用逗号分隔的值(格式:FNAME:SCALE,…)*
* `–control-vector-layer-range START END`: 应用于控制向量的层范围,起止包含
* `-m, –model FNAME`: 要加载的模型路径
* *(环境变量:LLAMA_ARG_MODEL)*
* `-mu, –model-url MODEL_URL`: 模型下载 URL(默认:未使用)
* *(环境变量:LLAMA_ARG_MODEL_URL)*
* `-dr, –docker-repo [<repo>/]<model>[:quant]`: Docker Hub 模型仓库。repo 可选,默认为 ai/。quant 可选,默认为 :latest。
* *示例:gemma3*
* *(默认:未使用)*
* *(环境变量:LLAMA_ARG_DOCKER_REPO)*
* `-hf, -hfr, –hf-repo <user>/<model>[:quant]`: Hugging Face 模型仓库;quant 可选,不区分大小写,默认 Q4_K_M,如果 Q4_K_M 不存在则回退到仓库中的第一个文件。
* *如果可用,也会自动下载 mmproj。要禁用,添加 –no-mmproj*
* *示例:unsloth/phi-4-GGUF:q4_k_m*
* *(默认:未使用)*
* *(环境变量:LLAMA_ARG_HF_REPO)*
* `-hfd, -hfrd, –hf-repo-draft <user>/<model>[:quant]`: 与 `–hf-repo` 相同,但用于 draft 模型(默认:未使用)
* *(环境变量:LLAMA_ARG_HFD_REPO)*
* `-hff, –hf-file FILE`: Hugging Face 模型文件。如果指定,它将覆盖 `–hf-repo` 中的 quant(默认:未使用)
* *(环境变量:LLAMA_ARG_HF_FILE)*
* `-hfv, -hfrv, –hf-repo-v <user>/<model>[:quant]`: 用于 vocoder 模型的 Hugging Face 模型仓库(默认:未使用)
* *(环境变量:LLAMA_ARG_HF_REPO_V)*
* `-hffv, –hf-file-v FILE`: 用于 vocoder 模型的 Hugging Face 模型文件(默认:未使用)
* *(环境变量:LLAMA_ARG_HF_FILE_V)*
* `-hft, –hf-token TOKEN`: Hugging Face 访问令牌(默认:HF_TOKEN 环境变量的值)
* *(环境变量:HF_TOKEN)*
* `–log-disable`: 禁用日志
* `–log-file FNAME`: 日志输出到文件
* *(环境变量:LLAMA_LOG_FILE)*
* `–log-colors [on|off|auto]`: 设置彩色日志(’on’, ‘off’, 或 ‘auto’,默认:’auto’)
* *’auto’ 在输出到终端时启用颜色*
* *(环境变量:LLAMA_LOG_COLORS)*
* `-v, –verbose, –log-verbose`: 将详细程度级别设置为无穷大(即记录所有消息,适用于调试)
* `–offline`: 离线模式:强制使用缓存,防止网络访问
* *(环境变量:LLAMA_OFFLINE)*
* `-lv, –verbosity, –log-verbosity N`: 设置详细程度阈值。详细程度更高的消息将被忽略。值:
* `0`: 通用输出
* `1`: 错误
* `2`: 警告
* `3`: 信息
* `4`: 调试
* *(默认:3)*
* *(环境变量:LLAMA_LOG_VERBOSITY)*
* `–log-prefix`: 在日志消息中启用前缀
* *(环境变量:LLAMA_LOG_PREFIX)*
* `–log-timestamps`: 在日志消息中启用时间戳
* *(环境变量:LLAMA_LOG_TIMESTAMPS)*
* `-ctkd, –cache-type-k-draft TYPE`: draft 模型 K 的 KV 缓存数据类型
* *允许的值:f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1*
* *(默认:f16)*
* *(环境变量:LLAMA_ARG_CACHE_TYPE_K_DRAFT)*
* `-ctvd, –cache-type-v-draft TYPE`: draft 模型 V 的 KV 缓存数据类型
* *允许的值:f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1*
* *(默认:f16)*
* *(环境变量:LLAMA_ARG_CACHE_TYPE_V_DRAFT)*
—
### 二、采样参数 (—– sampling params —–)
* `–samplers SAMPLERS`: 按顺序用于生成的采样器,由 ‘;’ 分隔
* *(默认:penalties;dry;top_n_sigma;top_k;typ_p;top_p;min_p;xtc;temperature)*
* `-s, –seed SEED`: RNG 种子(默认:-1,-1 表示使用随机种子)
* `–sampler-seq, –sampling-seq SEQUENCE`: 简化版的采样器序列(默认:edskypmxt)
* `–ignore-eos`: 忽略结束流 token 并继续生成(隐含 `–logit-bias EOS-inf`)
* `–temp, –temperature N`: 温度(默认:0.80)
* `–top-k N`: top-k 采样(默认:40,0 = 禁用)
* *(环境变量:LLAMA_ARG_TOP_K)*
* `–top-p N`: top-p 采样(默认:0.95,1.0 = 禁用)
* `–min-p N`: min-p 采样(默认:0.05,0.0 = 禁用)
* `–top-nsigma, –top-n-sigma N`: top-n-sigma 采样(默认:-1.00,-1.0 = 禁用)
* `–xtc-probability N`: xtc 概率(默认:0.00,0.0 = 禁用)
* `–xtc-threshold N`: xtc 阈值(默认:0.10,1.0 = 禁用)
* `–typical, –typical-p N`: 局部典型采样,参数 p(默认:1.00,1.0 = 禁用)
* `–repeat-last-n N`: 考虑用于惩罚的最近 n 个 token(默认:64,0 = 禁用,-1 = ctx_size)
* `–repeat-penalty N`: 惩罚重复的 token 序列(默认:1.00,1.0 = 禁用)
* `–presence-penalty N`: 重复 alpha 存在惩罚(默认:0.00,0.0 = 禁用)
* `–frequency-penalty N`: 重复 alpha 频率惩罚(默认:0.00,0.0 = 禁用)
* `–dry-multiplier N`: 设置 DRY 采样乘数(默认:0.00,0.0 = 禁用)
* `–dry-base N`: 设置 DRY 采样基础值(默认:1.75)
* `–dry-allowed-length N`: 设置 DRY 采样允许的长度(默认:2)
* `–dry-penalty-last-n N`: 设置最近 n 个 token 的 DRY 惩罚(默认:-1,0 = 禁用,-1 = 上下文大小)
* `–dry-sequence-breaker STRING`: 为 DRY 采样添加序列分隔符,清除默认分隔符(’\n’, ‘:’, ‘”‘, ‘*’);使用 “none” 不使用任何分隔符
* `–adaptive-target N`: adaptive-p: 选择接近此概率的 token(有效范围 0.0 到 1.0;负数 = 禁用)(默认:-1.00)
* *(更多信息:[PR #17927](https://github.com/ggml-org/llama.cpp/pull/17927))*
* `–adaptive-decay N`: adaptive-p: 目标适应的时间衰减率。较低的值更灵敏,较高的值更稳定。(有效范围 0.0 到 0.99)(默认:0.90)
* `–dynatemp-range N`: 动态温度范围(默认:0.00,0.0 = 禁用)
* `–dynatemp-exp N`: 动态温度指数(默认:1.00)
* `–mirostat N`: 使用 Mirostat 采样。如果同时使用 Top K、Nucleus 和 Locally Typical 采样器,则会被忽略。(默认:0,0 = 禁用,1 = Mirostat, 2 = Mirostat 2.0)
* `–mirostat-lr N`: Mirostat 学习率,参数 eta(默认:0.10)
* `–mirostat-ent N`: Mirostat 目标熵,参数 tau(默认:5.00)
* `-l, –logit-bias TOKEN_ID(+/-)BIAS`: 修改 token 出现在完成中的可能性,例如 `–logit-bias 15043+1` 增加 token ‘ Hello’ 的可能性,或 `–logit-bias 15043-1` 减少可能性
* `–grammar GRAMMAR`: BNF 风格的语法以限制生成(参见 grammars/ 目录中的示例)(默认:”)
* `–grammar-file FNAME`: 读取语法的文件
* `-j, –json-schema SCHEMA`: JSON 模式以限制生成(https://json-schema.org/),例如 `{}` 表示任何 JSON 对象
* *对于带有外部 $refs 的模式,请使用 `–grammar` + `example/json_schema_to_grammar.py`*
* `-jf, –json-schema-file FILE`: 包含用于限制生成的 JSON 模式的文件(https://json-schema.org/),例如 `{}` 表示任何 JSON 对象
* *对于带有外部 $refs 的模式,请使用 `–grammar` + `example/json_schema_to_grammar.py`*
* `-bs, –backend-sampling`: 启用后端采样(实验性)(默认:禁用)
* *(环境变量:LLAMA_ARG_BACKEND_SAMPLING)*
—
### 三、特定示例参数 (—– example-specific params —–)
* `-lcs, –lookup-cache-static FNAME`: 用于查找解码的静态查找缓存路径(不由生成更新)
* `-lcd, –lookup-cache-dynamic FNAME`: 用于查找解码的动态查找缓存路径(由生成更新)
* `-ctxcp, –ctx-checkpoints, –swa-checkpoints N`: 每个槽位创建的最大上下文检查点数量(默认:32)
* *(更多信息:[PR #15293](https://github.com/ggml-org/llama.cpp/pull/15293))*
* *(环境变量:LLAMA_ARG_CTX_CHECKPOINTS)*
* `-cpent, –checkpoint-every-n-tokens N`: 在预填充(处理)过程中每 n 个 token 创建一个检查点,-1 禁用(默认:8192)
* *(环境变量:LLAMA_ARG_CHECKPOINT_EVERY_NT)*
* `-cram, –cache-ram N`: 设置缓存的最大大小(MiB)(默认:8192,-1 – 无限制,0 – 禁用)
* *(更多信息:[PR #16391](https://github.com/ggml-org/llama.cpp/pull/16391))*
* *(环境变量:LLAMA_ARG_CACHE_RAM)*
* `-kvu, –kv-unified, -no-kvu, –no-kv-unified`: 使用跨所有序列共享的统一 KV 缓冲区(默认:如果槽位数量为 auto 则启用)
* *(环境变量:LLAMA_ARG_KV_UNIFIED)*
* `–context-shift, –no-context-shift`: 是否在无限文本生成中使用上下文偏移(默认:禁用)
* *(环境变量:LLAMA_ARG_CONTEXT_SHIFT)*
* `-r, –reverse-prompt PROMPT`: 在 PROMPT 处暂停生成,在交互模式下返回控制权
* `-sp, –special`: 启用特殊 token 输出(默认:false)
* `–warmup, –no-warmup`: 是否执行空运行的预热(默认:启用)
* `–spm-infill`: 使用 Suffix/Prefix/Middle 模式进行填充(而不是 Prefix/Suffix/Middle),因为某些模型更喜欢这种方式。(默认:禁用)
* `–pooling {none,mean,cls,last,rank}`: 嵌入的池化类型,如果未指定则使用模型默认值
* *(环境变量:LLAMA_ARG_POOLING)*
* `-np, –parallel N`: 服务器槽位数量(默认:-1,-1 = auto)
* *(环境变量:LLAMA_ARG_N_PARALLEL)*
* `-cb, –cont-batching, -nocb, –no-cont-batching`: 是否启用连续批处理(又称动态批处理)(默认:启用)
* *(环境变量:LLAMA_ARG_CONT_BATCHING)*
* `-mm, –mmproj FILE`: 多模态投影文件的路径。参见 tools/mtmd/README.md
* *注意:如果使用 -hf,此参数可以省略*
* *(环境变量:LLAMA_ARG_MMPROJ)*
* `-mmu, –mmproj-url URL`: 多模态投影文件的 URL。参见 tools/mtmd/README.md
* *(环境变量:LLAMA_ARG_MMPROJ_URL)*
* `–mmproj-auto, –no-mmproj, –no-mmproj-auto`: 是否使用多模态投影文件(如果可用),在使用 -hf 时很有用(默认:启用)
* *(环境变量:LLAMA_ARG_MMPROJ_AUTO)*
* `–mmproj-offload, –no-mmproj-offload`: 是否启用多模态投影的 GPU 卸载(默认:启用)
* *(环境变量:LLAMA_ARG_MMPROJ_OFFLOAD)*
* `–image-min-tokens N`: 每个图像的最小 token 数量,仅用于具有动态分辨率的视觉模型(默认:从模型读取)
* *(环境变量:LLAMA_ARG_IMAGE_MIN_TOKENS)*
* `–image-max-tokens N`: 每个图像的最大 token 数量,仅用于具有动态分辨率的视觉模型(默认:从模型读取)
* *(环境变量:LLAMA_ARG_IMAGE_MAX_TOKENS)*
* `-otd, –override-tensor-draft <tensor name pattern>=<buffer type>,…`: 覆盖 draft 模型的张量缓冲区类型
* `-cmoed, –cpu-moe-draft`: 将所有混合专家 (MoE) 权重保留在 CPU(用于 draft 模型)
* *(环境变量:LLAMA_ARG_CPU_MOE_DRAFT)*
* `-ncmoed, –n-cpu-moe-draft N`: 将前 N 层的混合专家 (MoE) 权重保留在 CPU(用于 draft 模型)
* *(环境变量:LLAMA_ARG_N_CPU_MOE_DRAFT)*
* `-a, –alias STRING`: 设置模型名称别名,逗号分隔(供 API 使用)
* *(环境变量:LLAMA_ARG_ALIAS)*
* `–tags STRING`: 设置模型标签,逗号分隔(信息性,不用于路由)
* *(环境变量:LLAMA_ARG_TAGS)*
* `–host HOST`: 监听的 IP 地址,或以 .sock 结尾的地址绑定到 UNIX 套接字(默认:127.0.0.1)
* *(环境变量:LLAMA_ARG_HOST)*
* `–port PORT`: 监听的端口(默认:8080)
* *(环境变量:LLAMA_ARG_PORT)*
* `–path PATH`: 提供静态文件的服务器路径(默认:空)
* *(环境变量:LLAMA_ARG_STATIC_PATH)*
* `–api-prefix PREFIX`: 服务器提供服务的根路径(不带尾随斜杠)
* *(默认:空)*
* *(环境变量:LLAMA_ARG_API_PREFIX)*
* `–webui-config JSON`: 提供默认 WebUI 设置的 JSON(覆盖 WebUI 默认值)
* *(环境变量:LLAMA_ARG_WEBUI_CONFIG)*
* `–webui-config-file PATH`: 提供默认 WebUI 设置的 JSON 文件(覆盖 WebUI 默认值)
* *(环境变量:LLAMA_ARG_WEBUI_CONFIG_FILE)*
* `–webui-mcp-proxy, –no-webui-mcp-proxy`: 实验性:是否启用 MCP CORS 代理 – 在不信任的环境中不要启用(默认:禁用)
* *(环境变量:LLAMA_ARG_WEBUI_MCP_PROXY)*
* `–webui, –no-webui`: 是否启用 Web UI(默认:启用)
* *(环境变量:LLAMA_ARG_WEBUI)*
* `–embedding, –embeddings`: 限制仅支持嵌入用例;仅用于专用的嵌入模型(默认:禁用)
* *(环境变量:LLAMA_ARG_EMBEDDINGS)*
* `–rerank, –reranking`: 启用服务器上的重新排序端点(默认:禁用)
* *(环境变量:LLAMA_ARG_RERANKING)*
* `–api-key KEY`: 用于身份验证的 API 密钥,可以提供多个密钥,用逗号分隔(默认:无)
* *(环境变量:LLAMA_API_KEY)*
* `–api-key-file FNAME`: 包含 API 密钥的文件路径(默认:无)
* `–ssl-key-file FNAME`: PEM 编码的 SSL 私钥文件路径
* *(环境变量:LLAMA_ARG_SSL_KEY_FILE)*
* `–ssl-cert-file FNAME`: PEM 编码的 SSL 证书文件路径
* *(环境变量:LLAMA_ARG_SSL_CERT_FILE)*
* `–chat-template-kwargs STRING`: 设置 json 模板解析器的附加参数,必须是有效的 JSON 对象字符串,例如 ‘{“key1″:”value1″,”key2″:”value2”}’
* *(环境变量:LLAMA_CHAT_TEMPLATE_KWARGS)*
* `-to, –timeout N`: 服务器读写超时(秒)(默认:600)
* *(环境变量:LLAMA_ARG_TIMEOUT)*
* `–threads-http N`: 用于处理 HTTP 请求的线程数(默认:-1)
* *(环境变量:LLAMA_ARG_THREADS_HTTP)*
* `–cache-prompt, –no-cache-prompt`: 是否启用提示缓存(默认:启用)
* *(环境变量:LLAMA_ARG_CACHE_PROMPT)*
* `–cache-reuse N`: 尝试通过 KV 移位从缓存重用块的最小块大小,需要启用提示缓存(默认:0)
* *(参见:https://ggml.ai/f0.png)*
* *(环境变量:LLAMA_ARG_CACHE_REUSE)*
* `–metrics`: 启用兼容 Prometheus 的指标端点(默认:禁用)
* *(环境变量:LLAMA_ARG_ENDPOINT_METRICS)*
* `–props`: 启用通过 POST /props 更改全局属性(默认:禁用)
* *(环境变量:LLAMA_ARG_ENDPOINT_PROPS)*
* `–slots, –no-slots`: 暴露槽位监控端点(默认:启用)
* *(环境变量:LLAMA_ARG_ENDPOINT_SLOTS)*
* `–slot-save-path PATH`: 保存 slot kv 缓存的路径(默认:禁用)
* `–media-path PATH`: 加载本地媒体文件的目录;可以使用相对路径通过 file:// URL 访问文件(默认:禁用)
* `–models-dir PATH`: 包含路由器服务器模型的目录(默认:禁用)
* *(环境变量:LLAMA_ARG_MODELS_DIR)*
* `–models-preset PATH`: 包含路由器服务器模型预设的 INI 文件路径(默认:禁用)
* *(环境变量:LLAMA_ARG_MODELS_PRESET)*
* `–models-max N`: 对于路由器服务器,同时加载的最大模型数量(默认:4,0 = 无限)
* *(环境变量:LLAMA_ARG_MODELS_MAX)*
* `–models-autoload, –no-models-autoload`: 对于路由器服务器,是否自动加载模型(默认:启用)
* *(环境变量:LLAMA_ARG_MODELS_AUTOLOAD)*
* `–jinja, –no-jinja`: 是否使用 jinja 模板引擎进行聊天(默认:启用)
* *(环境变量:LLAMA_ARG_JINJA)*
* `–reasoning-format FORMAT`: 控制是否允许/从响应中提取 thought 标签,以及返回格式;选项之一:
* `none`: 在 `message.content` 中保留未解析的思想
* `deepseek`: 将思想放在 `message.reasoning_content` 中
* `deepseek-legacy`: 在 `message.content` 中保留 `<think>` 标签,同时填充 `message.reasoning_content`
* *(默认:auto)*
* *(环境变量:LLAMA_ARG_THINK)*
* `–reasoning-budget N`: 控制允许的“思考”数量;目前仅支持:-1 表示无限制思考预算,或 0 表示禁用思考(默认:-1)
* *(环境变量:LLAMA_ARG_THINK_BUDGET)*
* `–chat-template JINJA_TEMPLATE`: 设置自定义 jinja 聊天模板(默认:从模型元数据中获取的模板)
* *如果指定了 suffix/prefix,模板将被禁用*
* *仅接受常用模板(除非在此标志之前设置了 –jinja):*
* *内置模板列表:bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml, command-r, deepseek, deepseek2, deepseek3, exaone-moe, exaone3, exaone4, falcon3, gemma, gigachat, glmedge, gpt-oss, granite, grok-2, hunyuan-dense, hunyuan-moe, kimi-k2, llama2, llama2-sys, llama2-sys-bos, llama2-sys-strip, llama3, llama4, megrez, minicpm, mistral-v1, mistral-v3, mistral-v3-tekken, mistral-v7, mistral-v7-tekken, monarch, openchat, orion, pangu-embedded, phi3, phi4, rwkv-world, seed_oss, smolvlm, solar-open, vicuna, vicuna-orca, yandex, zephyr*
* *(环境变量:LLAMA_ARG_CHAT_TEMPLATE)*
* `–chat-template-file JINJA_TEMPLATE_FILE`: 设置自定义 jinja 聊天模板文件(默认:从模型元数据中获取的模板)
* *如果指定了 suffix/prefix,模板将被禁用*
* *仅接受常用模板(除非在此标志之前设置了 –jinja):*
* *内置模板列表:bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml, command-r, deepseek, deepseek2, deepseek3, exaone-moe, exaone3, exaone4, falcon3, gemma, gigachat, glmedge, gpt-oss, granite, grok-2, hunyuan-dense, hunyuan-moe, kimi-k2, llama2, llama2-sys, llama2-sys-bos, llama2-sys-strip, llama3, llama4, megrez, minicpm, mistral-v1, mistral-v3, mistral-v3-tekken, mistral-v7, mistral-v7-tekken, monarch, openchat, orion, pangu-embedded, phi3, phi4, rwkv-world, seed_oss, smolvlm, solar-open, vicuna, vicuna-orca, yandex, zephyr*
* *(环境变量:LLAMA_ARG_CHAT_TEMPLATE_FILE)*
* `–prefill-assistant, –no-prefill-assistant`: 如果最后一条消息是助手消息,是否预填充助手的响应(默认:启用预填充)
* *当设置此标志时,如果最后一条消息是助手消息,则将其视为完整消息而不是预填充*
* *(环境变量:LLAMA_ARG_PREFILL_ASSISTANT)*
* `-sps, –slot-prompt-similarity SIMILARITY`: 请求的提示必须与槽位的提示匹配多少才能使用该槽位(默认:0.10,0.0 = 禁用)
* `–lora-init-without-apply`: 加载 LoRA 适配器而不应用它们(稍后通过 POST /lora-adapters 应用)(默认:禁用)
* `–sleep-idle-seconds SECONDS`: 空闲多少秒后服务器将进入休眠状态(默认:-1; -1 = 禁用)
* `-td, –threads-draft N`: 生成过程中使用的线程数(默认:与 `–threads` 相同)
* `-tbd, –threads-batch-draft N`: 批次处理和提示处理中使用的线程数(默认:与 `–threads-draft` 相同)
* `–draft, –draft-n, –draft-max N`: 用于推测解码的 draft token 数量(默认:16)
* *(环境变量:LLAMA_ARG_DRAFT_MAX)*
* `–draft-min, –draft-n-min N`: 用于推测解码的最小 draft token 数量(默认:0)
* *(环境变量:LLAMA_ARG_DRAFT_MIN)*
* `–draft-p-min P`: 最小推测解码概率(贪婪)(默认:0.75)
* *(环境变量:LLAMA_ARG_DRAFT_P_MIN)*
* `-cd, –ctx-size-draft N`: draft 模型的提示上下文大小(默认:0,0 = 从模型加载)
* *(环境变量:LLAMA_ARG_CTX_SIZE_DRAFT)*
* `-devd, –device-draft <dev1,dev2,..>`: 用于卸载 draft 模型的逗号分隔的设备列表(none = 不卸载)
* *使用 `–list-devices` 查看可用设备列表*
* `-ngld, –gpu-layers-draft, –n-gpu-layers-draft N`: 存储在 VRAM 中的最大 draft 模型层数,可以是确切数字、’auto’ 或 ‘all’(默认:auto)
* *(环境变量:LLAMA_ARG_N_GPU_LAYERS_DRAFT)*
* `-md, –model-draft FNAME`: 用于推测解码的 draft 模型(默认:未使用)
* *(环境变量:LLAMA_ARG_MODEL_DRAFT)*
* `–spec-replace TARGET DRAFT`: 如果 draft 模型和主模型不兼容,则将 TARGET 中的字符串翻译为 DRAFT
* `–spec-type [none|ngram-cache|ngram-simple|ngram-map-k|ngram-map-k4v|ngram-mod]`: 当未提供 draft 模型时要使用的推测解码类型
* *(默认:none)*
* `–spec-ngram-size-n N`: ngram-simple/ngram-map 推测解码的 ngram 大小 N,查找 n-gram 的长度(默认:12)
* `–spec-ngram-size-m N`: ngram-simple/ngram-map 推测解码的 ngram 大小 M,draft m-gram 的长度(默认:48)
* `–spec-ngram-min-hits N`: ngram-map 推测解码的最小命中次数(默认:1)
* `-mv, –model-vocoder FNAME`: 用于音频生成的 vocoder 模型(默认:未使用)
* `–tts-use-guide-tokens`: 使用引导 token 以提高 TTS 单词召回率
* `–embd-gemma-default`: 使用默认的 EmbeddingGemma 模型(注意:可以从互联网下载权重)
* `–fim-qwen-1.5b-default`: 使用默认的 Qwen 2.5 Coder 1.5B(注意:可以从互联网下载权重)
* `–fim-qwen-3b-default`: 使用默认的 Qwen 2.5 Coder 3B(注意:可以从互联网下载权重)
* `–fim-qwen-7b-default`: 使用默认的 Qwen 2.5 Coder 7B(注意:可以从互联网下载权重)
* `–fim-qwen-7b-spec`: 使用 Qwen 2.5 Coder 7B + 0.5B draft 进行推测解码(注意:可以从互联网下载权重)
* `–fim-qwen-14b-spec`: 使用 Qwen 2.5 Coder 14B + 0.5B draft 进行推测解码(注意:可以从互联网下载权重)
* `–fim-qwen-30b-default`: 使用默认的 Qwen 3 Coder 30B A3B Instruct(注意:可以从互联网下载权重)
* `–gpt-oss-20b-default`: 使用 gpt-oss-20b(注意:可以从互联网下载权重)
* `–gpt-oss-120b-default`: 使用 gpt-oss-120b(注意:可以从互联网下载权重)
* `–vision-gemma-4b-default`: 使用 Gemma 3 4B QAT(注意:可以从互联网下载权重)
* `–vision-gemma-12b-default`: 使用 Gemma 3 12B QAT(注意:可以从互联网下载权重)