AI/ML

로컬에서 LLM 돌리기 — RTX 3090으로 충분한가

RTX 3090 24GB로 다양한 LLM을 실제 돌려보며 벤치마크한 결과. Llama 3.1, Mistral, Qwen, DeepSeek까지 — 모델별 속도, VRAM, 품질을 실측 비교합니다.

·10 min read
#RTX 3090 LLM#로컬 AI#local LLM#Ollama#벤치마크#VRAM

RTX 3090 LLM 벤치마크

RTX 3090, 2026년에도 현역인가

RTX 3090은 2020년 9월 출시된 GPU다. 벌써 5년이 넘었다. RTX 5090이 나온 시점에 이 "할아버지 GPU"로 LLM을 돌리는 게 의미가 있을까?

결론부터 말하면 — 충분하다. 단, 조건부로.

나는 2025년 초에 중고 RTX 3090을 65만 원에 구매해서 지금까지 로컬 LLM 전용으로 사용하고 있다. 24GB VRAM이라는 스펙은 2026년에도 여전히 중급 이상의 모델을 돌릴 수 있는 Sweet Spot이다. 이 글에서는 1년간의 실제 벤치마크 데이터를 공유한다.

테스트 환경

  • GPU: NVIDIA RTX 3090 FE 24GB
  • CPU: AMD Ryzen 7 5800X
  • RAM: 64GB DDR4 3600MHz
  • SSD: Samsung 990 Pro 2TB (모델 저장)
  • OS: Ubuntu 22.04 + CUDA 12.4
  • 프레임워크: Ollama 0.4.x, llama.cpp (최신 빌드)
  • 전력 측정: nvidia-smi + TP-Link 스마트 플러그

모델별 벤치마크 결과

7B 모델 — 일상 사용에 최적

모델양자화VRAM속도 (tok/s)품질 체감
Mistral 7B v0.3Q4_K_M4.9GB48★★★★☆
Llama 3.1 8BQ4_K_M5.4GB42★★★★☆
Qwen 2.5 7BQ4_K_M5.1GB45★★★★★
DeepSeek V3 7BQ4_K_M5.2GB43★★★★☆
Gemma 2 9BQ4_K_M6.1GB38★★★★☆

7B 클래스는 RTX 3090에서 40+ tok/s로 돌아간다. 체감상 GPT-4o API보다 빠르다. 일상적인 질의응답, 번역, 요약에 부족함이 없다. 개인적으로 Qwen 2.5 7B이 한국어 품질이 가장 좋았다.

13-34B 모델 — 균형의 영역

모델양자화VRAM속도 (tok/s)품질 체감
Llama 3.1 13BQ4_K_M8.7GB28★★★★☆
CodeLlama 34BQ4_K_M20.1GB14★★★★☆
Yi 34BQ4_K_M20.3GB13★★★★☆
DeepSeek Coder 33BQ4_K_M19.8GB15★★★★★

34B 모델은 24GB VRAM을 거의 다 쓴다. 하지만 속도가 13-15 tok/s로 떨어져도 코드 생성 품질은 확실히 7B보다 낫다. DeepSeek Coder 33B는 코딩 작업에서 GPT-4o의 80-85% 수준이라고 체감한다.

70B 모델 — 한계에 도전

모델양자화VRAM속도 (tok/s)비고
Llama 3.1 70BQ4_K_M22.1GB8-10ctx 4096 제한
Llama 3.1 70BQ3_K_M18.9GB9-11품질 약간 하락
Qwen 2.5 72BQ4_K_M22.8GB7-9VRAM 여유 거의 없음

70B Q4는 돌아가긴 한다. 하지만:

  • 컨텍스트 길이를 4096으로 제한해야 안정적
  • 다른 VRAM 사용 프로세스가 있으면 OOM 발생
  • 모델 로딩에 약 45초 소요
  • 초당 8-10 토큰은 대화형 사용에서 "참을 수 있는 최소 속도"

결론적으로 70B는 "간신히 돌릴 수 있다" 수준이다. 일상적 사용보다는 품질이 중요한 특정 작업에 한해 사용하는 것이 현실적이다.

VRAM이 진짜 병목인가

많은 사람이 "VRAM이 클수록 좋다"고 하지만, 실제로는 **메모리 대역폭(memory bandwidth)**이 더 중요한 경우가 많다.

  • RTX 3090: 936 GB/s (GDDR6X)
  • RTX 4090: 1,008 GB/s (GDDR6X)
  • RTX 5090: 1,792 GB/s (GDDR7)

LLM 추론은 메모리 바운드(memory-bound) 작업이다. 모델 가중치를 메모리에서 읽어오는 속도가 병목이지, 연산 자체가 병목이 아니다. RTX 3090의 936 GB/s는 2026년 기준으로도 나쁘지 않지만, RTX 5090의 1,792 GB/s와 비교하면 거의 2배 차이다.

이것이 같은 모델을 돌려도 RTX 5090이 RTX 3090보다 약 1.8배 빠른 이유다. VRAM 크기가 아니라 대역폭의 차이.

양자화 전략: Q4 vs Q5 vs Q8

양자화 수준에 따른 품질-속도 트레이드오프를 정리하면:

  • Q3_K_M: VRAM 절약 최대. 7B 모델에서는 큰 차이 없지만 70B에서는 품질 하락 체감
  • Q4_K_M: 최적의 균형점. 대부분의 경우 이걸 추천
  • Q5_K_M: Q4 대비 VRAM 15-20% 더 사용. 품질 향상은 미미
  • Q8_0: FP16 대비 거의 품질 손실 없지만 VRAM이 2배. 3090에서는 7B만 가능
  • FP16: 벤치마크용. 7B만 올라감

실용적으로는 항상 Q4_K_M을 먼저 시도하고, 품질이 부족하면 Q5로 올리는 전략이 효율적이다.

Ollama 실전 최적화 팁

GPU 레이어 수동 설정

# 70B 모델에서 일부 레이어를 CPU로 오프로드
OLLAMA_NUM_GPU_LAYERS=60 ollama run llama3.1:70b-instruct-q4_K_M

동시 요청 처리

Ollama는 기본적으로 하나의 요청만 처리한다. 여러 요청을 병렬로 보내면 큐에 쌓인다. Open WebUI를 프론트엔드로 사용하면 대화 관리가 편하다.

모델 자동 언로드 방지

# 5분 아이들 후 자동 언로드 (기본값)를 30분으로 변경
OLLAMA_KEEP_ALIVE=30m ollama serve

70B 모델은 로딩에 45초가 걸리므로, 자주 사용하는 모델은 keep-alive를 길게 설정하는 것이 좋다.

RTX 3090 vs RTX 4090 vs RTX 5090: 업그레이드해야 하나

항목RTX 3090RTX 4090RTX 5090
VRAM24GB24GB32GB
대역폭936 GB/s1,008 GB/s1,792 GB/s
중고가(2026)~65만 원~150만 원~350만 원
70B Q4 속도8-10 tok/s10-12 tok/s18-22 tok/s
가성비★★★★★★★★☆☆★★☆☆☆

내 결론: RTX 3090의 가성비는 2026년에도 최고다. 4090은 VRAM이 같아서 업그레이드 메리트가 적다. 5090은 32GB VRAM + 높은 대역폭으로 확실히 좋지만, 가격이 5배 이상이다. 예산이 무한하지 않다면 RTX 3090 + API 하이브리드 전략이 최적이라고 생각한다.

누가 로컬 LLM을 고려해야 하는가

  • 프라이버시가 중요한 작업: 환자 데이터, 기업 내부 문서, 개인 일기
  • 월 API 비용 20만 원 이상 지출자: 6개월이면 GPU 값을 회수
  • 오프라인 환경 필요: 비행기, 보안 네트워크 등
  • 커스터마이징이 필요한 경우: fine-tuning, RAG 파이프라인 구축
  • 기술적 호기심: 이것만으로도 충분한 이유

반면 다음 경우에는 API가 나을 수 있다:

  • 최고 품질이 필수 (GPT-4o, Claude 수준)
  • 사용량이 적어 월 5만 원 이하
  • 하드웨어 관리에 시간을 쓰기 싫은 경우

마치며

RTX 3090은 2026년에도 로컬 LLM의 가성비 킹이다. 24GB VRAM으로 7B 모델은 쾌적하게, 34B는 실용적으로, 70B는 간신히 돌릴 수 있다. 뇌과학적으로 비유하자면, RTX 3090은 "모든 것을 완벽하게 처리하지는 못하지만, 대부분의 일상적 인지 작업을 효율적으로 수행하는 뇌"와 같다 — 그리고 그것으로 충분하다.

중요한 것은 도구의 한계를 알고 적재적소에 사용하는 전략이다. 로컬로 할 수 있는 건 로컬로, 클라우드가 필요한 건 클라우드로. 이것이 비용과 품질을 모두 잡는 방법이다.


참고 자료 및 관련 링크

관련 글