KTransformers 是一个灵活的、以 Python 为中心的框架,其设计核心是可扩展性、通过用一行代码实现和注入一个优化模块,用户就能访问兼容 Transformers 的界面、符合 OpenAI 和 Ollama 标准的 RESTful API,甚至是类似 ChatGPT 的简化网页用户界面。
KTransformers项目地址:https://github.com/kvcache-ai/ktransformers/tree/main
用 KTransformers DeepSeek-R1 硬性条件:
-
CPU:英特尔至强 Gold 6454S 1T DRAM(2 个 NUMA 节点)
-
GPU:RTX 4090D(24G VRAM)
-
内存:标准 DDR5-4800 服务器 DRAM(1 TB)
-
CUDA 12.1 或更高版本
- 显卡:RTX 4090
一、准备工作:
1、CUDA 12.1 及更高版本,如果您还没有,可以从 此处 安装。
# Adding CUDA to PATH
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export CUDA_PATH=/usr/local/cuda
2、对于 Linux-x86_64 系统,您需要 gcc、g++ 和 cmake 使用以下命令进行安装:
sudo apt-get updatesudo apt-get install gcc g++ cmake ninja-build
3、这里强烈建议使用 Conda 创建一个包含 Python 3.11 的虚拟环境。使用以下命令创建并激活环境:
conda create --name ktransformers python=3.11
conda activate ktransformers # you may need to run ‘conda init’ and reopen shell first
4、安装 PyTorch、packaging、ninja、cpufeature 和 numpy:
pip install torch packaging ninja cpufeature numpy
二、安装KTransformers
- 下载源码并编译:
- init 源代码
git clone https://github.com/kvcache-ai/ktransformers.git cd ktransformers git submodule init git submodule update
- [可选]如果您想与 website 一起运行,请在执行前编译 websitebash install.sh
- 对于 Linux
- 对于简单安装:
bash install.sh
- 对于拥有两个 CPU 和 1T RAM 的用户:
# Make sure your system has dual sockets and double size RAM than the model's size (e.g. 1T RAM for 512G model)
export USE_NUMA=1
bash install.sh # or `make dev_install`
- 对于简单安装:
- 对于 Windows
install.bat
- init 源代码
更多安装说明:https://kvcache-ai.github.io/ktransformers/en/install.html