단일세포 RNA-seq로 본 뇌 — scRNA-seq 분석 입문 가이드 (Seurat/Scanpy, Allen Brain Atlas) 2026

Q: GPU 없이도 가능한가요?

가능. 10만 세포 이하는 CPU로도 충분 (몇 시간 단위). 50만 이상 + scVI 같은 deep learning은 GPU 권장.

Q: 한국에서 scRNA-seq 데이터 받는 비용은?

2026년 기준 외주 (Macrogen, 마크로젠 등): 샘플당 100-300만원. 학교/연구소 핵심시설(KAIST, 서울대 등)은 더 저렴.

Q: 데이터 분석 외주 가능한가요?

가능. Macrogen, EONE, 일부 IT 업체에서 분석 서비스 제공. 그러나 본인이 도메인 지식 가지고 분석에 참여하는 게 결과 품질 결정적.

Q: bulk RNA-seq을 안 해도 되나요?

경우에 따라. bulk는 신호 검출력이 강해서 변화 크기 측정에는 더 정확. scRNA-seq는 어느 세포가 변하는지 알아냄. 보완적. 가장 좋은 디자인은 둘 다.

Q: scRNA-seq 데이터로 어떤 논문급 결과 낼 수 있나요?

한 실험실에서 50-100명 sample을 분석 → 새 cell subtype 발견 / 질병 특이 시그니처 도출 → Nature/Cell/Cell Reports 급 가능. 단, 정확한 annotation + reproducibility가 핵심.

Single-cell RNA-seq for brain

🇬🇧 English version

뇌 연구가 bulk RNA-seq의 한계에 부딪힌 이유

10년 전까지 뇌 transcriptomics는 bulk RNA-seq가 표준이었다. 뇌 조직 샘플 하나에서 RNA를 추출해 평균 발현량을 측정. 알츠하이머 환자 vs 정상인 비교, 약물 처리 전후 비교 — 모두 잘 작동했다.

그러나 결과를 보다 보면 항상 같은 문제가 생겼다: "이 유전자가 어느 세포 타입에서 변한 거지?"

뇌는 단일 세포 타입이 아니다. 흥분성 뉴런, 억제성 뉴런, 별아교세포(astrocyte), 미세아교세포(microglia), 희소돌기아교세포(oligodendrocyte), 혈관 세포 등 최소 6대 카테고리에 100여 가지 세부 타입이 공존한다. Bulk RNA-seq는 이 모든 것의 평균만 본다.

만약 알츠하이머에서 마이크로글리아만 특정 유전자가 5배 증가했다면, 그 세포가 전체의 5%만 차지하니까 bulk에서는 변화가 25% 정도로 희석되어 보인다. 통계적 유의성을 잃거나, 오해를 부른다.

단일세포 RNA-seq (scRNA-seq) 가 이걸 바꿨다. 2017년 이후 뇌 연구에 빠르게 보급되어, 이제는 알츠하이머, 파킨슨, 자폐, ALS 등 모든 주요 뇌 질환 연구의 표준 도구가 됐다.

이 글은 신경과학·바이오인포매틱스 연구를 시작하는 사람을 위한 2026년 기준 뇌 scRNA-seq 입문 가이드다. 도구 선택부터 실제 코드까지, 한 번 읽고 시작할 수 있도록 정리한다.

scRNA-seq의 기본 원리

Bulk RNA-seq: 조직 → RNA 추출 → 시퀀싱 → 평균 발현량 scRNA-seq: 조직 → 세포 분리 → 각 세포에 unique barcode → 시퀀싱 → 세포별 발현 profile

주요 플랫폼

플랫폼	처리량/run	세포당 reads	비용 (개략)
10x Genomics Chromium	8 lanes × 1만 세포	50K-100K	1-2백만원/샘플
Smart-seq2/3	96-384 세포	100만+	비싸지만 deep
Drop-seq	수천 세포	50K	저렴, DIY 가능
Parse Biosciences (combinatorial)	1만-10만 세포	다양	저렴, 다중화

2026년 뇌 연구 표준: 10x Genomics + 동결 핵 (snRNA-seq, 뇌는 세포 전체 분리가 어려워 핵을 분리)

snRNA-seq vs scRNA-seq for Brain

뇌 조직은 신경세포의 긴 axon/dendrite 때문에 single cell 분리가 거의 불가능. 대안:

snRNA-seq (single-nucleus RNA-seq): 핵만 분리. 세포질 mRNA는 못 잡지만, 동결 조직에서 가능 = 사후 뇌 조직 사용 가능
사람 사후 뇌 (postmortem) 연구의 99%는 snRNA-seq

핵심 데이터셋 — 뭐가 있나

1. Allen Brain Atlas (Seattle Allen Institute)

Mouse Whole Brain: ~400만 세포, 5,000+ 세포 타입 (2023)
Human Brain Cell Atlas: 31 영역, ~300만 세포
무료, 공개: https://celltypes.brain-map.org
CCF (Common Coordinate Framework): 표준 뇌 좌표계로 통합

2. PsychENCODE Consortium

정신질환 특화: 자폐, 조현병, 양극성장애 등
DLPFC (등쪽가쪽 전전두엽) 깊이 sampling
무료, 공개: http://www.psychencode.org

3. BICCN (Brain Initiative Cell Census Network)

NIH 후원 컨소시엄
Mouse motor cortex 통합 reference (40+ 데이터셋 통합)
표준 cell type taxonomy 제공
무료: https://www.biccn.org

4. ROSMAP / MSBB (알츠하이머 특화)

Religious Orders Study + Mount Sinai Brain Bank
알츠하이머 뇌 sn조직 (수백 명 단위)
요청 필요: Synapse 또는 AD Knowledge Portal

5. CELLxGENE (Chan Zuckerberg Initiative)

다양한 published 데이터셋 통합 brewing
웹에서 시각화·다운로드 가능
무료: https://cellxgene.cziscience.com

스타팅 포인트 추천: 처음 시작이면 Allen Brain Cell Atlas — 가장 정돈됨, 튜토리얼 풍부

표준 분석 파이프라인 (2026)

8단계로 구성:

1. Raw reads (FASTQ)
   ↓ Cell Ranger / STARsolo / kallisto|bustools
2. Cell × Gene matrix (UMI count)
   ↓ Seurat / Scanpy
3. Quality Control (QC)
   ↓
4. Normalization & Scaling
   ↓
5. Dimensionality Reduction (PCA → UMAP)
   ↓
6. Clustering (Leiden / Louvain)
   ↓
7. Cell Type Annotation
   ↓
8. Downstream (DEG, trajectory, cell-cell communication)

Tool 비교: Seurat (R) vs Scanpy (Python)

항목	Seurat (R)	Scanpy (Python)
사용자층	임상 연구자 多	머신러닝 연구자 多
통합 (multi-sample)	Harmony, Seurat integration	scVI, Scanorama
GPU 지원	제한적	강함 (cuPy/RAPIDS)
대용량 (>100만 세포)	어려움	우수 (AnnData, sparse)
통합 도구 생태계	Bioconductor	Squidpy, CellRank, scVI
학습 곡선	완만 (R 사용 시)	완만 (Python 사용 시)

선택 가이드:

1만-10만 세포, 표준 분석, 통계 익숙: Seurat
50만+ 세포, ML 통합, 빠른 처리: Scanpy

2026 트렌드: Scanpy + AnnData가 점차 우세. Foundation model 도구들도 대부분 Python.

실전 코드 — Scanpy 기준

설치:

pip install scanpy anndata leidenalg python-igraph harmonypy

데이터 로드 (Allen Brain Atlas):

import scanpy as sc
import anndata as ad

# Load from h5ad (standard scRNA-seq format)
adata = sc.read_h5ad('allen_brain_motor_cortex.h5ad')
print(adata)  # AnnData object: 100,000 cells × 30,000 genes

Step 1 — QC

뇌 snRNA-seq에서 자주 보는 문제:

빈 droplets: UMI count 매우 낮음 (< 500)
Doublets: 두 세포가 한 droplet에 → UMI count 비정상적 높음
Stressed cells: 미토콘드리아 비율 높음 (>5% — 뇌에서는 1% 기준 적용도 많음)

# QC metrics
sc.pp.calculate_qc_metrics(adata, percent_top=None, log1p=False, inplace=True)

# 미토콘드리아 유전자 마킹
adata.var['mt'] = adata.var_names.str.startswith('MT-')  # 사람
sc.pp.calculate_qc_metrics(adata, qc_vars=['mt'], percent_top=None, log1p=False, inplace=True)

# 필터링 (뇌 snRNA-seq 기준)
sc.pp.filter_cells(adata, min_genes=500)      # 핵당 최소 500 유전자
sc.pp.filter_genes(adata, min_cells=10)       # 유전자가 최소 10 세포에 있어야
adata = adata[adata.obs['pct_counts_mt'] < 5, :]  # 미토 비율 5% 미만

Step 2 — Doublet detection

import scrublet as scr
scrub = scr.Scrublet(adata.X)
doublet_scores, predicted_doublets = scrub.scrub_doublets()
adata.obs['predicted_doublet'] = predicted_doublets
adata = adata[~adata.obs['predicted_doublet']]

Step 3 — Normalization

# Log-normalize (표준)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)

# 또는 SCTransform-style (Seurat 권장)
# Scanpy에서는 sc.experimental.pp.normalize_pearson_residuals()

Step 4 — Highly Variable Genes + PCA

sc.pp.highly_variable_genes(adata, n_top_genes=3000, flavor='seurat_v3')
adata.raw = adata
adata = adata[:, adata.var.highly_variable]

sc.pp.scale(adata, max_value=10)
sc.tl.pca(adata, n_comps=50)

Step 5 — Integration (multi-sample)

샘플 간 batch effect 보정:

# Harmony (간단)
sc.external.pp.harmony_integrate(adata, key='sample_id')

# 또는 scVI (deep learning, 더 강력)
import scvi
scvi.model.SCVI.setup_anndata(adata, batch_key='sample_id')
model = scvi.model.SCVI(adata, n_latent=30)
model.train(max_epochs=100)
adata.obsm['X_scVI'] = model.get_latent_representation()

Step 6 — UMAP + Clustering

# Neighbors → UMAP → Leiden
sc.pp.neighbors(adata, n_neighbors=15, use_rep='X_pca_harmony')
sc.tl.umap(adata)
sc.tl.leiden(adata, resolution=0.5)
sc.pl.umap(adata, color=['leiden', 'n_genes_by_counts'])

Step 7 — Cell type annotation

# 뇌 marker genes (간단 예시)
brain_markers = {
    'Excitatory neuron': ['SLC17A7', 'SLC17A6', 'NRGN'],
    'Inhibitory neuron': ['GAD1', 'GAD2', 'SLC32A1'],
    'Astrocyte': ['GFAP', 'AQP4', 'SLC1A2'],
    'Microglia': ['CX3CR1', 'P2RY12', 'TMEM119'],
    'Oligodendrocyte': ['MBP', 'PLP1', 'MOG'],
    'OPC': ['PDGFRA', 'CSPG4'],
    'Endothelial': ['CLDN5', 'PECAM1'],
}

sc.pl.dotplot(adata, brain_markers, groupby='leiden')
# 각 cluster별 dotplot 보고 수동 annotation

자동화 옵션:

CellTypist: 사람 뇌 reference로 학습된 모델
scANVI: scVI 기반 supervised
scGPT (2026 trend): foundation model

# CellTypist 예시
import celltypist
predictions = celltypist.annotate(adata, model='Adult_Human_Brain.pkl')

Step 8 — Downstream

# DEG between clusters
sc.tl.rank_genes_groups(adata, 'leiden', method='wilcoxon')
sc.pl.rank_genes_groups(adata, n_genes=10, sharey=False)

# Trajectory (lineage 발달)
sc.tl.paga(adata, groups='cell_type')
sc.pl.paga(adata)

# Cell-cell communication (CellChat, scTalk 등)
# 별도 도구 필요

2026 트렌드 — Foundation Models for scRNA-seq

scGPT (Cui et al., 2023, Nature Methods)

1,000만 세포 데이터로 사전학습된 transformer
Zero-shot cell type prediction, batch correction, gene perturbation 예측
장점: 새 데이터에 reference 없이 적용 가능
단점: GPU 필요 (큰 모델), 도메인 specific 미세조정 필요할 수 있음

Geneformer

3천만 세포로 학습된 transformer
유전자 dosage 효과 예측에 강함

scFoundation (Hao et al., 2024)

1억 세포로 학습 (현재 최대)
다중 downstream task 적용 가능

언제 쓸까:

기존 도구로 안 풀리는 까다로운 cell type
새 종이나 새 조직에 reference 없을 때
Perturbation 효과 예측

언제 안 쓸까:

표준 분석은 Seurat/Scanpy로 충분
소규모 데이터(<10만 세포) — 오히려 과대적합

뇌 질환 응용 사례

알츠하이머

Mathys et al. (2019, Nature) — 첫 인간 알츠하이머 brain snRNA-seq:

48명 (24 AD + 24 정상), DLPFC
80,660 핵
마이크로글리아 활성화 subtype 발견 — 알츠하이머 특이적
희소돌기아교세포 손상 시그니처 — myelin 손실과 연결

후속 연구들:

ROSMAP cohort 확장 (500+ 명)
Spatial transcriptomics 통합 (Visium)
Multi-omics (snRNA + snATAC) 통합

파킨슨

Smajic et al. (2022, Brain): 흑질(substantia nigra)의 dopamine neuron 손실을 단일세포 해상도로 시각화. 알파-시뉴클레인 응집과 microglia 활성화 시그니처 발견.

자폐 (PsychENCODE)

Velmeshev et al. (2019, Science): 자폐 환자 뇌 41,000 핵. 상층(upper-layer) 뉴런과 microglia에서 특이 변화. 시냅스 발달 유전자 disruption.

일반적 함정 — 시작 시 흔히 빠지는 것

이 분야 시작 시 자주 듣는 실수:

QC를 너무 느슨하게: doublet, dying cell 미제거 → 가짜 cluster
Batch effect 무시: 두 샘플을 그냥 합치면 batch가 cell type처럼 보임
너무 미세한 클러스터링: resolution을 너무 높이면 노이즈 cluster 생김. 0.3-0.8이 일반적 sweet spot
Marker gene 단일 의존: GFAP는 astrocyte 마커지만 spinal cord 일부 ependymal cell도 발현. 3-5개 마커 조합 필수
Bulk와 직접 비교: scRNA-seq은 dropout(zero-inflation)이 많음 → 직접 비교 어려움

💡 멀티오믹스 통합 관점은 sbmlab에서 다룬 Park et al. 2026 cross-species ECM proteomics 재현 가이드와 비슷한 reproducibility 함정이 있다.

시작하기 — 일주일 학습 로드맵

본인이 시작하려면:

Day 1-2: Scanpy 공식 튜토리얼 따라하기 (PBMC 3K) — 기본 워크플로 이해 Day 3: Allen Brain Atlas에서 작은 데이터셋 다운로드 → 같은 워크플로 적용 Day 4-5: PsychENCODE 또는 ROSMAP 데이터로 본인 연구 주제 탐색 Day 6: Integration (Harmony 또는 scVI) 실습 Day 7: Cell type annotation 자동화 (CellTypist 또는 scGPT)

추천 자료:

Scanpy tutorial: https://scanpy.readthedocs.io
Single Cell Best Practices: https://www.sc-best-practices.org (책 무료 공개)
10x Genomics Analysis Guides: https://www.10xgenomics.com/analysis-guides

자주 묻는 질문

Q: GPU 없이도 가능한가요? 가능. 10만 세포 이하는 CPU로도 충분 (몇 시간 단위). 50만 이상 + scVI 같은 deep learning은 GPU 권장.

Q: 한국에서 scRNA-seq 데이터 받는 비용은? 2026년 기준 외주 (Macrogen, 마크로젠 등): 샘플당 100-300만원. 학교/연구소 핵심시설(KAIST, 서울대 등)은 더 저렴.

Q: 데이터 분석 외주 가능한가요? 가능. Macrogen, EONE, 일부 IT 업체에서 분석 서비스 제공. 그러나 본인이 도메인 지식 가지고 분석에 참여하는 게 결과 품질 결정적.

Q: bulk RNA-seq을 안 해도 되나요? 경우에 따라. bulk는 신호 검출력이 강해서 변화 크기 측정에는 더 정확. scRNA-seq는 어느 세포가 변하는지 알아냄. 보완적. 가장 좋은 디자인은 둘 다.

Q: scRNA-seq 데이터로 어떤 논문급 결과 낼 수 있나요? 한 실험실에서 50-100명 sample을 분석 → 새 cell subtype 발견 / 질병 특이 시그니처 도출 → Nature/Cell/Cell Reports 급 가능. 단, 정확한 annotation + reproducibility가 핵심.

결론 — 핵심 정리

뇌는 단일 cell type 아님 — bulk RNA-seq의 평균은 신호 희석
snRNA-seq + 10x Genomics가 2026 표준 (특히 사후 뇌 조직)
Allen Brain Atlas, PsychENCODE, BICCN, ROSMAP이 핵심 공개 데이터셋
Seurat (R) vs Scanpy (Python) — 둘 다 OK, 데이터 크기·인프라에 따라 선택
scGPT 같은 foundation model — 2026 trend, 새 시나리오에 강점
알츠하이머·파킨슨·자폐 모두 scRNA-seq로 새 인사이트 얻은 분야
QC + batch correction + 신중한 annotation이 결과 품질 좌우

뇌과학을 데이터로 한 단계 더 깊이 들여다보고 싶다면, scRNA-seq는 더 이상 옵션이 아니라 표준이다. 일주일 정도 투자해서 기본 워크플로 익히면 본인 연구에 새로운 차원이 열린다.

관련 글:

참고 문헌:

Mathys, H. et al. (2019). Single-cell transcriptomic analysis of Alzheimer's disease. Nature, 570, 332-337.
Velmeshev, D. et al. (2019). Single-cell genomics identifies cell type-specific molecular changes in autism. Science, 364, 685-689.
Smajic, S. et al. (2022). Single-cell sequencing of human midbrain reveals glial activation and Parkinson's disease–specific neurons. Brain, 145, 964-978.
Cui, H. et al. (2023). scGPT. Nature Methods.
Hao, Y. et al. (2024). scFoundation. Nature.