【LLM】Windows10环境部署阿里通义千问大模型(Qwen-14B-Chat-Int4)

环境

系统版本:Windows 10 企业版
版本号:20H2
系统类型:64 位操作系统, 基于 x64 的处理器
处理器:Intel® Core™ i7-13700K CPU @ 3.40GHz
机带 RAM:16.0 GB
显卡:NVIDIA RTX 4080(16G)
Python版本:3.10.11

文件准备

项目代码

Git地址:https://github.com/QwenLM/Qwen

创建好归档的文件夹,直接克隆即可:

git clone https://github.com/QwenLM/Qwen.git

模型相关文件

地址:https://huggingface.co/Qwen/Qwen-14B-Chat-Int4

注意:从huggingface.co上克隆,需要魔法、cmd命令行设置代理

魔法软件端口信息:

在cmd命令行执行:

set https_proxy=https://127.0.0.1:8001

完成上述配置后可以开始克隆了

模型文件比较大,需要使用git-lfs,下载git-lfs并安装:https://git-lfs.com,安装完配置好环境变量,

完成上述配置后,执行:

git lfs install
git clone https://huggingface.co/Qwen/Qwen-14B-Chat-Int4

运行

准备工作

安装所需的依赖,进入下载好的项目代码代码根目录,执行:

pip install -r requirements.txt
pip install auto-gptq optimum

所有文件下载完成后,修改web_demo.py中模型文件路径:

运行demo

尝试执行:python web_demo.py,看看是否会报错,如果报错,就根据提示改:

提示需要设置share=True,在web_demo.py中找到对应位置:

再运行试试:

日志显示已启动成功,打开页面,可以正常进行问答,运行比较流畅:

Tips

从别的机器上访问,连接是拒绝的,查看日志,生成了一个临时的分享地址,可以提供给局域网内其他人使用

Running on local URL:  http://127.0.0.1:8000
Running on public URL: https://527bdbe0e50cba6f90.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)

经过后续测试,将–server-name指定的参数修改为“0.0.0.0”即可。