단일세포 RNA-seq로 본 뇌 — scRNA-seq 분석 입문 가이드 (Seurat/Scanpy, Allen Brain Atlas) 2026
뇌 조직 scRNA-seq 분석 입문 — 왜 뇌가 단일세포 분석에 특별한가, Cell Ranger부터 Seurat/Scanpy 표준 파이프라인, Allen Brain Atlas/PsychENCODE/BICCN 데이터셋 활용, scGPT 같은 2026 foundation model 트렌드. 알츠하이머·파킨슨 연구 실제 적용 사례 + Python 코드.
뇌 연구가 bulk RNA-seq의 한계에 부딪힌 이유
10년 전까지 뇌 transcriptomics는 bulk RNA-seq가 표준이었다. 뇌 조직 샘플 하나에서 RNA를 추출해 평균 발현량을 측정. 알츠하이머 환자 vs 정상인 비교, 약물 처리 전후 비교 — 모두 잘 작동했다.
그러나 결과를 보다 보면 항상 같은 문제가 생겼다: "이 유전자가 어느 세포 타입에서 변한 거지?"
뇌는 단일 세포 타입이 아니다. 흥분성 뉴런, 억제성 뉴런, 별아교세포(astrocyte), 미세아교세포(microglia), 희소돌기아교세포(oligodendrocyte), 혈관 세포 등 최소 6대 카테고리에 100여 가지 세부 타입이 공존한다. Bulk RNA-seq는 이 모든 것의 평균만 본다.
만약 알츠하이머에서 마이크로글리아만 특정 유전자가 5배 증가했다면, 그 세포가 전체의 5%만 차지하니까 bulk에서는 변화가 25% 정도로 희석되어 보인다. 통계적 유의성을 잃거나, 오해를 부른다.
단일세포 RNA-seq (scRNA-seq) 가 이걸 바꿨다. 2017년 이후 뇌 연구에 빠르게 보급되어, 이제는 알츠하이머, 파킨슨, 자폐, ALS 등 모든 주요 뇌 질환 연구의 표준 도구가 됐다.
이 글은 신경과학·바이오인포매틱스 연구를 시작하는 사람을 위한 2026년 기준 뇌 scRNA-seq 입문 가이드다. 도구 선택부터 실제 코드까지, 한 번 읽고 시작할 수 있도록 정리한다.
scRNA-seq의 기본 원리
Bulk RNA-seq: 조직 → RNA 추출 → 시퀀싱 → 평균 발현량 scRNA-seq: 조직 → 세포 분리 → 각 세포에 unique barcode → 시퀀싱 → 세포별 발현 profile
주요 플랫폼
| 플랫폼 | 처리량/run | 세포당 reads | 비용 (개략) |
|---|---|---|---|
| 10x Genomics Chromium | 8 lanes × 1만 세포 | 50K-100K | 1-2백만원/샘플 |
| Smart-seq2/3 | 96-384 세포 | 100만+ | 비싸지만 deep |
| Drop-seq | 수천 세포 | 50K | 저렴, DIY 가능 |
| Parse Biosciences (combinatorial) | 1만-10만 세포 | 다양 | 저렴, 다중화 |
2026년 뇌 연구 표준: 10x Genomics + 동결 핵 (snRNA-seq, 뇌는 세포 전체 분리가 어려워 핵을 분리)
snRNA-seq vs scRNA-seq for Brain
뇌 조직은 신경세포의 긴 axon/dendrite 때문에 single cell 분리가 거의 불가능. 대안:
- snRNA-seq (single-nucleus RNA-seq): 핵만 분리. 세포질 mRNA는 못 잡지만, 동결 조직에서 가능 = 사후 뇌 조직 사용 가능
- 사람 사후 뇌 (postmortem) 연구의 99%는 snRNA-seq
핵심 데이터셋 — 뭐가 있나
1. Allen Brain Atlas (Seattle Allen Institute)
- Mouse Whole Brain: ~400만 세포, 5,000+ 세포 타입 (2023)
- Human Brain Cell Atlas: 31 영역, ~300만 세포
- 무료, 공개: https://celltypes.brain-map.org
- CCF (Common Coordinate Framework): 표준 뇌 좌표계로 통합
2. PsychENCODE Consortium
- 정신질환 특화: 자폐, 조현병, 양극성장애 등
- DLPFC (등쪽가쪽 전전두엽) 깊이 sampling
- 무료, 공개: http://www.psychencode.org
3. BICCN (Brain Initiative Cell Census Network)
- NIH 후원 컨소시엄
- Mouse motor cortex 통합 reference (40+ 데이터셋 통합)
- 표준 cell type taxonomy 제공
- 무료: https://www.biccn.org
4. ROSMAP / MSBB (알츠하이머 특화)
- Religious Orders Study + Mount Sinai Brain Bank
- 알츠하이머 뇌 sn조직 (수백 명 단위)
- 요청 필요: Synapse 또는 AD Knowledge Portal
5. CELLxGENE (Chan Zuckerberg Initiative)
- 다양한 published 데이터셋 통합 brewing
- 웹에서 시각화·다운로드 가능
- 무료: https://cellxgene.cziscience.com
스타팅 포인트 추천: 처음 시작이면 Allen Brain Cell Atlas — 가장 정돈됨, 튜토리얼 풍부
표준 분석 파이프라인 (2026)
8단계로 구성:
1. Raw reads (FASTQ)
↓ Cell Ranger / STARsolo / kallisto|bustools
2. Cell × Gene matrix (UMI count)
↓ Seurat / Scanpy
3. Quality Control (QC)
↓
4. Normalization & Scaling
↓
5. Dimensionality Reduction (PCA → UMAP)
↓
6. Clustering (Leiden / Louvain)
↓
7. Cell Type Annotation
↓
8. Downstream (DEG, trajectory, cell-cell communication)
Tool 비교: Seurat (R) vs Scanpy (Python)
| 항목 | Seurat (R) | Scanpy (Python) |
|---|---|---|
| 사용자층 | 임상 연구자 多 | 머신러닝 연구자 多 |
| 통합 (multi-sample) | Harmony, Seurat integration | scVI, Scanorama |
| GPU 지원 | 제한적 | 강함 (cuPy/RAPIDS) |
| 대용량 (>100만 세포) | 어려움 | 우수 (AnnData, sparse) |
| 통합 도구 생태계 | Bioconductor | Squidpy, CellRank, scVI |
| 학습 곡선 | 완만 (R 사용 시) | 완만 (Python 사용 시) |
선택 가이드:
- 1만-10만 세포, 표준 분석, 통계 익숙: Seurat
- 50만+ 세포, ML 통합, 빠른 처리: Scanpy
2026 트렌드: Scanpy + AnnData가 점차 우세. Foundation model 도구들도 대부분 Python.
실전 코드 — Scanpy 기준
설치:
pip install scanpy anndata leidenalg python-igraph harmonypy
데이터 로드 (Allen Brain Atlas):
import scanpy as sc
import anndata as ad
# Load from h5ad (standard scRNA-seq format)
adata = sc.read_h5ad('allen_brain_motor_cortex.h5ad')
print(adata) # AnnData object: 100,000 cells × 30,000 genes
Step 1 — QC
뇌 snRNA-seq에서 자주 보는 문제:
- 빈 droplets: UMI count 매우 낮음 (< 500)
- Doublets: 두 세포가 한 droplet에 → UMI count 비정상적 높음
- Stressed cells: 미토콘드리아 비율 높음 (>5% — 뇌에서는 1% 기준 적용도 많음)
# QC metrics
sc.pp.calculate_qc_metrics(adata, percent_top=None, log1p=False, inplace=True)
# 미토콘드리아 유전자 마킹
adata.var['mt'] = adata.var_names.str.startswith('MT-') # 사람
sc.pp.calculate_qc_metrics(adata, qc_vars=['mt'], percent_top=None, log1p=False, inplace=True)
# 필터링 (뇌 snRNA-seq 기준)
sc.pp.filter_cells(adata, min_genes=500) # 핵당 최소 500 유전자
sc.pp.filter_genes(adata, min_cells=10) # 유전자가 최소 10 세포에 있어야
adata = adata[adata.obs['pct_counts_mt'] < 5, :] # 미토 비율 5% 미만
Step 2 — Doublet detection
import scrublet as scr
scrub = scr.Scrublet(adata.X)
doublet_scores, predicted_doublets = scrub.scrub_doublets()
adata.obs['predicted_doublet'] = predicted_doublets
adata = adata[~adata.obs['predicted_doublet']]
Step 3 — Normalization
# Log-normalize (표준)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
# 또는 SCTransform-style (Seurat 권장)
# Scanpy에서는 sc.experimental.pp.normalize_pearson_residuals()
Step 4 — Highly Variable Genes + PCA
sc.pp.highly_variable_genes(adata, n_top_genes=3000, flavor='seurat_v3')
adata.raw = adata
adata = adata[:, adata.var.highly_variable]
sc.pp.scale(adata, max_value=10)
sc.tl.pca(adata, n_comps=50)
Step 5 — Integration (multi-sample)
샘플 간 batch effect 보정:
# Harmony (간단)
sc.external.pp.harmony_integrate(adata, key='sample_id')
# 또는 scVI (deep learning, 더 강력)
import scvi
scvi.model.SCVI.setup_anndata(adata, batch_key='sample_id')
model = scvi.model.SCVI(adata, n_latent=30)
model.train(max_epochs=100)
adata.obsm['X_scVI'] = model.get_latent_representation()
Step 6 — UMAP + Clustering
# Neighbors → UMAP → Leiden
sc.pp.neighbors(adata, n_neighbors=15, use_rep='X_pca_harmony')
sc.tl.umap(adata)
sc.tl.leiden(adata, resolution=0.5)
sc.pl.umap(adata, color=['leiden', 'n_genes_by_counts'])
Step 7 — Cell type annotation
# 뇌 marker genes (간단 예시)
brain_markers = {
'Excitatory neuron': ['SLC17A7', 'SLC17A6', 'NRGN'],
'Inhibitory neuron': ['GAD1', 'GAD2', 'SLC32A1'],
'Astrocyte': ['GFAP', 'AQP4', 'SLC1A2'],
'Microglia': ['CX3CR1', 'P2RY12', 'TMEM119'],
'Oligodendrocyte': ['MBP', 'PLP1', 'MOG'],
'OPC': ['PDGFRA', 'CSPG4'],
'Endothelial': ['CLDN5', 'PECAM1'],
}
sc.pl.dotplot(adata, brain_markers, groupby='leiden')
# 각 cluster별 dotplot 보고 수동 annotation
자동화 옵션:
- CellTypist: 사람 뇌 reference로 학습된 모델
- scANVI: scVI 기반 supervised
- scGPT (2026 trend): foundation model
# CellTypist 예시
import celltypist
predictions = celltypist.annotate(adata, model='Adult_Human_Brain.pkl')
Step 8 — Downstream
# DEG between clusters
sc.tl.rank_genes_groups(adata, 'leiden', method='wilcoxon')
sc.pl.rank_genes_groups(adata, n_genes=10, sharey=False)
# Trajectory (lineage 발달)
sc.tl.paga(adata, groups='cell_type')
sc.pl.paga(adata)
# Cell-cell communication (CellChat, scTalk 등)
# 별도 도구 필요
2026 트렌드 — Foundation Models for scRNA-seq
scGPT (Cui et al., 2023, Nature Methods)
- 1,000만 세포 데이터로 사전학습된 transformer
- Zero-shot cell type prediction, batch correction, gene perturbation 예측
- 장점: 새 데이터에 reference 없이 적용 가능
- 단점: GPU 필요 (큰 모델), 도메인 specific 미세조정 필요할 수 있음
Geneformer
- 3천만 세포로 학습된 transformer
- 유전자 dosage 효과 예측에 강함
scFoundation (Hao et al., 2024)
- 1억 세포로 학습 (현재 최대)
- 다중 downstream task 적용 가능
언제 쓸까:
- 기존 도구로 안 풀리는 까다로운 cell type
- 새 종이나 새 조직에 reference 없을 때
- Perturbation 효과 예측
언제 안 쓸까:
- 표준 분석은 Seurat/Scanpy로 충분
- 소규모 데이터(<10만 세포) — 오히려 과대적합
뇌 질환 응용 사례
알츠하이머
Mathys et al. (2019, Nature) — 첫 인간 알츠하이머 brain snRNA-seq:
- 48명 (24 AD + 24 정상), DLPFC
- 80,660 핵
- 마이크로글리아 활성화 subtype 발견 — 알츠하이머 특이적
- 희소돌기아교세포 손상 시그니처 — myelin 손실과 연결
후속 연구들:
- ROSMAP cohort 확장 (500+ 명)
- Spatial transcriptomics 통합 (Visium)
- Multi-omics (snRNA + snATAC) 통합
파킨슨
Smajic et al. (2022, Brain): 흑질(substantia nigra)의 dopamine neuron 손실을 단일세포 해상도로 시각화. 알파-시뉴클레인 응집과 microglia 활성화 시그니처 발견.
자폐 (PsychENCODE)
Velmeshev et al. (2019, Science): 자폐 환자 뇌 41,000 핵. 상층(upper-layer) 뉴런과 microglia에서 특이 변화. 시냅스 발달 유전자 disruption.
일반적 함정 — 시작 시 흔히 빠지는 것
이 분야 시작 시 자주 듣는 실수:
- QC를 너무 느슨하게: doublet, dying cell 미제거 → 가짜 cluster
- Batch effect 무시: 두 샘플을 그냥 합치면 batch가 cell type처럼 보임
- 너무 미세한 클러스터링: resolution을 너무 높이면 노이즈 cluster 생김. 0.3-0.8이 일반적 sweet spot
- Marker gene 단일 의존: GFAP는 astrocyte 마커지만 spinal cord 일부 ependymal cell도 발현. 3-5개 마커 조합 필수
- Bulk와 직접 비교: scRNA-seq은 dropout(zero-inflation)이 많음 → 직접 비교 어려움
💡 멀티오믹스 통합 관점은 sbmlab에서 다룬 Park et al. 2026 cross-species ECM proteomics 재현 가이드와 비슷한 reproducibility 함정이 있다.
시작하기 — 일주일 학습 로드맵
본인이 시작하려면:
Day 1-2: Scanpy 공식 튜토리얼 따라하기 (PBMC 3K) — 기본 워크플로 이해 Day 3: Allen Brain Atlas에서 작은 데이터셋 다운로드 → 같은 워크플로 적용 Day 4-5: PsychENCODE 또는 ROSMAP 데이터로 본인 연구 주제 탐색 Day 6: Integration (Harmony 또는 scVI) 실습 Day 7: Cell type annotation 자동화 (CellTypist 또는 scGPT)
추천 자료:
- Scanpy tutorial: https://scanpy.readthedocs.io
- Single Cell Best Practices: https://www.sc-best-practices.org (책 무료 공개)
- 10x Genomics Analysis Guides: https://www.10xgenomics.com/analysis-guides
자주 묻는 질문
Q: GPU 없이도 가능한가요? 가능. 10만 세포 이하는 CPU로도 충분 (몇 시간 단위). 50만 이상 + scVI 같은 deep learning은 GPU 권장.
Q: 한국에서 scRNA-seq 데이터 받는 비용은? 2026년 기준 외주 (Macrogen, 마크로젠 등): 샘플당 100-300만원. 학교/연구소 핵심시설(KAIST, 서울대 등)은 더 저렴.
Q: 데이터 분석 외주 가능한가요? 가능. Macrogen, EONE, 일부 IT 업체에서 분석 서비스 제공. 그러나 본인이 도메인 지식 가지고 분석에 참여하는 게 결과 품질 결정적.
Q: bulk RNA-seq을 안 해도 되나요? 경우에 따라. bulk는 신호 검출력이 강해서 변화 크기 측정에는 더 정확. scRNA-seq는 어느 세포가 변하는지 알아냄. 보완적. 가장 좋은 디자인은 둘 다.
Q: scRNA-seq 데이터로 어떤 논문급 결과 낼 수 있나요? 한 실험실에서 50-100명 sample을 분석 → 새 cell subtype 발견 / 질병 특이 시그니처 도출 → Nature/Cell/Cell Reports 급 가능. 단, 정확한 annotation + reproducibility가 핵심.
결론 — 핵심 정리
- 뇌는 단일 cell type 아님 — bulk RNA-seq의 평균은 신호 희석
- snRNA-seq + 10x Genomics가 2026 표준 (특히 사후 뇌 조직)
- Allen Brain Atlas, PsychENCODE, BICCN, ROSMAP이 핵심 공개 데이터셋
- Seurat (R) vs Scanpy (Python) — 둘 다 OK, 데이터 크기·인프라에 따라 선택
- scGPT 같은 foundation model — 2026 trend, 새 시나리오에 강점
- 알츠하이머·파킨슨·자폐 모두 scRNA-seq로 새 인사이트 얻은 분야
- QC + batch correction + 신중한 annotation이 결과 품질 좌우
뇌과학을 데이터로 한 단계 더 깊이 들여다보고 싶다면, scRNA-seq는 더 이상 옵션이 아니라 표준이다. 일주일 정도 투자해서 기본 워크플로 익히면 본인 연구에 새로운 차원이 열린다.
관련 글:
- 수면 부족이 뇌에 미치는 영향
- 치매 vs 정상 노화 — 뇌영상 + MMSE/MoCA 가이드
- Park et al. 2026 cross-species proteomics 재현 가이드 (sbmlab)
참고 문헌:
- Mathys, H. et al. (2019). Single-cell transcriptomic analysis of Alzheimer's disease. Nature, 570, 332-337.
- Velmeshev, D. et al. (2019). Single-cell genomics identifies cell type-specific molecular changes in autism. Science, 364, 685-689.
- Smajic, S. et al. (2022). Single-cell sequencing of human midbrain reveals glial activation and Parkinson's disease–specific neurons. Brain, 145, 964-978.
- Cui, H. et al. (2023). scGPT. Nature Methods.
- Hao, Y. et al. (2024). scFoundation. Nature.