뇌질환 바이오마커 DB를 만들면서 알게 된 것들
BioAI Market의 바이오마커 데이터베이스에 뇌질환(알츠하이머, 파킨슨) 관련 데이터를 구축하면서 배운 점들을 공유한다.
뇌질환 바이오마커에 관심을 갖게 된 계기
BioAI Market의 바이오마커 DB를 구축하면서, 초기에는 암 관련 바이오마커에 집중했다. PSA, CEA, AFP, CA-125 같은 잘 알려진 종양 마커들이었다. 그런데 DB를 확장하면서 뇌질환 바이오마커의 세계가 열렸다.
뇌질환 바이오마커가 특별한 이유는, 진단의 어려움 때문이다. 암은 조직 생검으로 확진할 수 있지만, 알츠하이머는 살아있는 환자의 뇌 조직을 떼어낼 수 없다. 전통적으로 뇌척수액(CSF) 검사로 진단했지만, 요추 천자(lumbar puncture)는 침습적이고 환자에게 고통스럽다. 그래서 혈액 기반 바이오마커의 발견이 혁명적인 것이다.
알츠하이머 바이오마커
DB에 입력한 알츠하이머 관련 주요 바이오마커들:
Aβ42 (Amyloid Beta 42)
알츠하이머의 핵심 병리인 아밀로이드 플라크의 구성 요소다. CSF에서 Aβ42가 감소하면 알츠하이머 위험이 높다. 뇌에 플라크로 침착되면서 CSF 수준이 떨어지기 때문이다.
INSERT INTO biomarkers (name, description, category, specimen_type)
VALUES ('Aβ42', 'Amyloid Beta 42 peptide, 알츠하이머 핵심 바이오마커. CSF에서 감소 시 아밀로이드 병리 존재를 시사', 'Peptide', 'CSF')
ON CONFLICT (name, owner_id) DO NOTHING;
p-tau181과 p-tau217
인산화 타우(phosphorylated tau)는 알츠하이머의 또 다른 핵심 병리인 **타우 엉킴(neurofibrillary tangles)**과 관련된다.
p-tau217이 최근 가장 주목받는 바이오마커다. 이유는:
- 혈액에서 측정 가능 — CSF 채취 불필요
- 높은 정확도 — 아밀로이드 PET 스캔과의 일치율 90% 이상
- 조기 발견 — 증상 발현 20년 전부터 변화 감지 가능
INSERT INTO biomarkers (name, description, category, specimen_type)
VALUES ('p-tau217', 'Phosphorylated Tau 217, 혈액 기반 알츠하이머 바이오마커. 아밀로이드 PET과 90%+ 일치율', 'Protein', 'Blood')
ON CONFLICT (name, owner_id) DO NOTHING;
INSERT INTO biomarker_diseases (biomarker_id, disease_id, relationship_type, evidence_level, pubmed_id)
VALUES (
(SELECT id FROM biomarkers WHERE name = 'p-tau217'),
(SELECT id FROM diseases WHERE name = 'Alzheimer Disease'),
'Diagnostic', 'Validated', '35771652'
)
ON CONFLICT (biomarker_id, disease_id) DO NOTHING;
Palmqvist et al., 2023에서 p-tau217의 혈액 검사 정확도가 상세히 보고되었다.
NfL (Neurofilament Light Chain)
NfL은 신경세포 손상의 일반적인 마커다. 알츠하이머뿐 아니라 파킨슨, 다발성 경화증, ALS 등 다양한 신경퇴행성 질환에서 상승한다. 질병 특이성은 낮지만, 신경 손상 정도를 모니터링하는 데 유용하다.
INSERT INTO biomarkers (name, description, category, specimen_type)
VALUES ('NfL', 'Neurofilament Light Chain, 신경세포 손상 범용 마커. 혈액에서 측정 가능', 'Protein', 'Blood')
ON CONFLICT (name, owner_id) DO NOTHING;
파킨슨 바이오마커
파킨슨 질환의 바이오마커는 알츠하이머보다 발굴이 더 어려웠다.
α-synuclein
파킨슨의 핵심 병리 단백질이다. 뇌에 **루이체(Lewy body)**로 축적된다. 최근 CSF에서 seed amplification assay(SAA)로 미세량의 비정상 α-synuclein을 검출하는 기술이 개발되어, 진단 정확도가 크게 향상되었다.
DJ-1과 GCase
DJ-1은 산화 스트레스 방어에 관여하는 단백질로, 파킨슨 환자의 CSF에서 변화를 보인다. GCase(Glucocerebrosidase) 활성도는 GBA 유전자 변이와 관련된 파킨슨 위험을 반영한다.
INSERT INTO biomarkers (name, description, category, specimen_type)
VALUES
('α-synuclein', 'Alpha-Synuclein, 파킨슨 핵심 병리 단백질. CSF SAA로 검출', 'Protein', 'CSF'),
('DJ-1', 'DJ-1/PARK7, 산화 스트레스 방어 관련 파킨슨 바이오마커', 'Protein', 'CSF'),
('GCase', 'Glucocerebrosidase, GBA 관련 파킨슨 위험 마커', 'Enzyme', 'Blood')
ON CONFLICT (name, owner_id) DO NOTHING;
DB 설계에서 배운 것
연관 테이블의 중요성
바이오마커와 질병은 다대다(many-to-many) 관계다. NfL 하나가 알츠하이머, 파킨슨, MS, ALS 등 여러 질병과 연관되고, 알츠하이머 하나에도 Aβ42, p-tau181, p-tau217, NfL 등 여러 바이오마커가 연관된다.
이 관계를 biomarker_diseases 연관 테이블로 표현했다. 각 연관에는 relationship_type(Diagnostic, Prognostic, Predictive)과 evidence_level(Validated, Research, Exploratory)을 기록했다.
-- 같은 바이오마커, 여러 질병
SELECT b.name, d.name AS disease, bd.evidence_level
FROM biomarker_diseases bd
JOIN biomarkers b ON bd.biomarker_id = b.id
JOIN diseases d ON bd.disease_id = d.id
WHERE b.name = 'NfL';
-- 결과:
-- NfL | Alzheimer Disease | Validated
-- NfL | Parkinson Disease | Research
-- NfL | Multiple Sclerosis | Validated
-- NfL | ALS | Validated
ON CONFLICT 패턴
DB를 반복적으로 업데이트할 때, 중복 삽입을 방지하는 ON CONFLICT 패턴이 생명이었다:
-- 같은 스크립트를 10번 실행해도 안전
INSERT INTO biomarkers (name, description, category, specimen_type, owner_id)
VALUES ('p-tau217', '...', 'Protein', 'Blood', NULL)
ON CONFLICT (name, owner_id) DO NOTHING;
DO NOTHING 대신 DO UPDATE SET description = EXCLUDED.description으로 하면 기존 레코드를 업데이트할 수도 있다. 우리는 초기에는 DO NOTHING으로 보수적으로 운영하다가, 데이터 품질이 안정된 후에 DO UPDATE로 전환했다.
Garbage In, Garbage Out
가장 뼈저리게 느낀 교훈이다. 초기에 논문을 대충 읽고 바이오마커를 입력했더니, 잘못된 disease association이 DB에 들어갔다. "AFP가 간세포암의 Validated 마커"라고 입력했는데, 실제로는 AFP 단독으로는 sensitivity가 낮아 "Research" 수준에 가까웠다.
이 잘못된 데이터가 RAG를 통해 AI 챗봇의 답변에 그대로 반영되었다. DB 데이터가 부정확하면 AI도 부정확하다. 당연한 이야기지만, 직접 겪으니 무게감이 달랐다.
그 이후로 DB에 데이터를 입력할 때는 반드시 PubMed 논문의 PMID를 함께 기록하고, evidence level을 엄격하게 평가하도록 프로세스를 바꿨다.
혈액 기반 바이오마커의 미래
뇌질환 바이오마커 분야는 혈액 검사로 빠르게 전환되고 있다. p-tau217이 그 선두주자고, α-synuclein도 혈액 검출 기술이 발전하고 있다. National Institute on Aging의 AT(N) 프레임워크는 Amyloid, Tau, Neurodegeneration의 바이오마커 기반 진단 체계를 제시한다.
BioAI Market에서 이런 바이오마커들의 검증과 분석을 지원하는 것이 목표다. 혈액 프로테오믹스 데이터에서 뇌질환 관련 proteoform 변화를 추적할 수 있다면, 진정한 조기 진단이 가능해질 것이다.
💡 바이오마커 DB 구축의 전체 과정은 genobalance.com의 바이오마커 데이터베이스 구축기에서 자세히 다루었다.