ollama 部署教程（window、linux）-CUTEPIG BLOG-可爱猪博客

文章目录[隐藏]

一、官网
二、安装方式一：window10版本下载
三、安装方式二：linux版本docker
四、模型库
五、运行模型
六、API服务
七、python调用
八、模型添加方式
九、部署Open WebUI

一、官网

二、安装方式一：window10版本下载

安装完成没有提示。接下来配置环境变量！

Ollama的安装过程，与安装其他普通软件并没有什么两样，安装完成之后，有几个常用的系统环境变量参数建议进行设置：

OLLAMA_MODELS：模型文件存放目录，默认目录为当前用户目录（Windows 目录：C:\Users%username%.ollama\models，MacOS 目录：~/.ollama/models，Linux 目录：/usr/share/ollama/.ollama/models），如果是 Windows 系统建议修改（如：D:\OllamaModels），避免 C 盘空间吃紧

OLLAMA_HOST：Ollama 服务监听的网络地址，默认为127.0.0.1，如果允许其他电脑访问 Ollama（如：局域网中的其他电脑），建议设置成0.0.0.0，从而允许其他网络访问

OLLAMA_PORT：Ollama 服务监听的默认端口，默认为11434，如果端口有冲突，可以修改设置成其他端口（如：8080等）

OLLAMA_ORIGINS：HTTP 客户端请求来源，半角逗号分隔列表，若本地使用无严格要求，可以设置成星号，代表不受限制

OLLAMA_KEEP_ALIVE：大模型加载到内存中后的存活时间，默认为5m即 5 分钟（如：纯数字如 300 代表 300 秒，0 代表处理请求响应后立即卸载模型，任何负数则表示一直存活）；我们可设置成24h，即模型在内存中保持 24 小时，提高访问速度

OLLAMA_NUM_PARALLEL：请求处理并发数量，默认为1，即单并发串行处理请求，可根据实际情况进行调整

OLLAMA_MAX_QUEUE：请求队列长度，默认值为512，可以根据情况设置，超过队列长度请求被抛弃

OLLAMA_DEBUG：输出 Debug 日志标识，应用研发阶段可以设置成1，即输出详细日志信息，便于排查问题

OLLAMA_MAX_LOADED_MODELS：最多同时加载到内存中模型的数量，默认为1，即只能有 1 个模型在内存中

看看是不是已经启动了ollama。右下角图标如下

如果没有，则去打开一下

黑窗口查看一下版本

浏览器查看一下API服务: 127.0.0.1:11434

如果出现连接不上，则检查一下环境变量是不是配错了，是不是没有E盘（如果你照抄）。

运行一个0.5b的qwen模型

三、安装方式二：linux版本docker

Olama现已作为官方Docker镜像提供 · Olama博客 - Ollama 中文

主机的/home/ollama文件夹映射到容器的/root/.ollama文件夹

主机的11435端口映射到容器的11434端口

进入容器内部：

查看ollama执行

ollama serve   # 启动ollama
ollama create   # 从模型文件创建模型
ollama show       # 显示模型信息
ollama run       # 运行模型，会先自动下载模型
ollama pull       # 从注册仓库中拉取模型
ollama push       # 将模型推送到注册仓库
ollama list       # 列出已下载模型
ollama ps       # 列出正在运行的模型
ollama cp       # 复制模型
ollama rm       # 删除模型

四、模型库

library (ollama.com)

五、运行模型

模型要求

这里我们运行一个要求最小的0.5B的qwen模型。

注意这是在容器内部运行的：

六、API服务

文档地址:

model：（必需）模型名称

prompt：生成响应的提示

suffix：模型响应后的文本

images：（可选）base64 编码图像列表（对于多模态模型，例如llava)

高级参数（可选）：

format：返回响应的格式。目前唯一接受的值是json

options： Modelfile 文档中列出的其他模型参数，例如temperature

system：系统消息更改为（覆盖Modelfile)

template：要使用的提示模板（覆盖Modelfile)

context：从上一个请求返回的 context 参数 to ，这可用于保持较短的对话记忆/generate

stream：如果响应将作为单个响应对象返回，而不是对象流false

raw：如果没有格式将应用于提示。如果您在对 API 的请求中指定了完整的模板化提示，则可以选择使用该参数trueraw

keep_alive：控制模型在请求后加载到内存中的时间（默认值：5m)