先来看看这是什么神仙项目
兄弟们!今天给大家搞一个超级硬核的——用你自己的3090显卡,跑Qwen3.6-27B大模型,不用云端API,不用每个月交钱,隐私还贼好。
这个项目叫 local-deep-research,GitHub已经狂揽 6000+ stars,核心卖点就一句话:
一块3090显卡,95%准确率,本地跑大模型,做你自己的AI研究助手。
说实话,以前想跑这种级别的大模型,不是租服务器就是买高端卡,成本高到离谱。现在好了,2080Ti都能跑(虽然慢点),3090更是直接起飞。今天这篇文章,手把手带你们从零搭起来,跟着做就能成。
一、背景:为什么这个需求突然火了?
这两年,本地LLM这股风越吹越猛。
OpenAI的API虽然强,但:贵、限速、数据不在自己手里。每次调API,脑子里都在算这个token花了多少钱,体验非常折磨。
而开源生态这边,动作是真的快——llama.cpp让量化推理效率大幅提升,Ollama把模型管理做到极简,Qwen3.6-27B这样的超大模型也被各路大神压到了消费级显卡能跑的大小。
local-deep-research 就是在这种背景下诞生的。它本质上是一个本地AI研究助手,你可以往里面扔论文、扔网页、扔文档,它帮你自动搜索、自动阅读、自动整理成报告。背后跑的就是本地大模型,完全离线的,数据从来不出去。
二、环境要求:你的配置够不够?
先别急着动手,确认一下自己能不能跑。
硬件要求:
- 显卡:RTX 3060(12G显存)最低,RTX 3090 24G推荐
- 内存:16G最低,32G+推荐
- 硬盘:50G空闲最低,100G+ SSD推荐
- 系统:Linux/macOS/Windows皆可
3090玩家注意:你的24G显存基本可以无脑跑Qwen3.6-27B的Q4量化版本,速度和效果都很均衡。
软件要求:
- Docker(Linux推荐)或 pip(全平台)
- NVIDIA驱动 + CUDA(GPU用户)
- 大概30分钟空闲时间(首次安装要下载模型,比较大)
三、搭建步骤:全程截图级教程
我这里给两种方案,Docker方案(推荐Linux用户) 和 pip方案(Windows/macOS首选)。
方案A:Docker 一键跑起来(适合Linux)
第一步:安装Docker
curl -fsSL https://get.docker.com | sh
第二步:启动Ollama
docker run -d -p 11434:11434 --name ollama ollama/ollama
docker exec ollama ollama pull gpt-oss:20b
第三步:启动SearXNG搜索服务
docker run -d -p 8080:8080 --name searxng searxng/searxng
第四步:启动Local Deep Research
docker run -d -p 5000:5000 --network host \
--name local-deep-research \
--volume "deep-research:/data" \
-e LDR_DATA_DIR=/data \
localdeepresearch/local-deep-research
第五步:打开浏览器,开始用
http://localhost:5000
方案B:pip安装(Windows/Mac全流程)
嫌弃Docker太重?一行pip直接搞定:
pip install local-deep-research
启动:
local-deep-research
Windows用户首次启动会自动打开 http://localhost:5000。
四、效果展示:跑起来是什么体验?
重头戏来了。Qwen3.6-27B在3090上跑,SimpleQA准确率95%,这是什么概念?
测试问答示例:
- “2024年诺贝尔物理学奖得主是谁?” ✅ 准确,能回答
- “帮我整理一下Transformer的注意力机制” ✅ 逻辑清晰,有深度
- “用中文总结这篇arXiv论文的核心观点” ✅ 可以,还带引用
响应速度(3090 + Q4量化):
- 短答案(50字以内):1-3秒
- 中等回答(200字左右):5-10秒
- 长文分析(500字+):15-30秒
这个速度对于本地跑27B参数级别的模型来说,已经非常能用了。
隐私方面:所有数据存在本地SQLCipher加密数据库(AES-256级别加密),就算服务器管理员也看不到你的研究内容。真正实现了——你的数据,只有你能看到。
五、总结:值不值得跑?
值得冲的三个理由:
- 成本:0 API费用,一次配置,长期使用,3090电费忽略不计
- 隐私:数据不离本地,研究内容不经过任何第三方服务器
- 效果:Qwen3.6-27B + 95%准确率,日常研究够用了
小坑提示:
- 首次启动要下载模型,确保网络稳定,断了我见过卡在初始化阶段的
- 3090跑24G模型建议开Q4量化,否则显存不够会OOM
- Docker方案内存建议16G+,否则系统可能会卡
整体来说,这个项目把本地大模型的门槛拉低了一大截。显卡党们,是时候把你那张3090用起来了。
下期预告
下一期我们来做点更刺激的——把local-deep-research接入微信/QQ,做一个本地AI私人助理,你的微信好友都能调用的那种。敬请期待!
如果搭建过程中遇到问题,欢迎留言,看到都会回复。
技术标签: #本地大模型 #Qwen3.6-27B #3090 #local-deep-research #AI研究助手 #隐私AI #Ollama #开源项目
评论区