AI로 생물학 논문 100편 읽고 정리한 방법

Research papers and coffee on a desk

왜 논문을 100편이나 읽어야 했나

BioAI Market을 개발하려면, 프로테오믹스와 바이오마커에 대한 깊은 이해가 필요했다. 나는 프로테오믹스/바이오인포매틱스 전문가이지만, AI와 결합된 최신 트렌드는 빠르게 변하고 있었다. 특히 Blood Top-Down Proteomics, DIA 기반 정량, AI 기반 스펙트럼 예측 같은 분야는 2020년 이후 논문이 쏟아지고 있었다.

그래서 약 2주 동안 100편 이상의 논문을 스크리닝하고, 그중 핵심 논문 20여 편을 정독했다. 이 과정에서 AI(Ollama)를 활용한 경험을 정리한다.

논문 수집 파이프라인

Step 1: PubMed 키워드 검색

PubMed에서 다음 키워드 조합으로 검색했다:

"top-down proteomics" AND "blood" → 47 results
"DIA proteomics" AND "biomarker" → 312 results
"AI" AND "mass spectrometry" AND "proteomics" → 189 results
"proteoform" AND "clinical" → 78 results

총 626편의 검색 결과 중, 제목과 초록을 훑어보며 관련성 높은 논문을 선별했다.

Step 2: 초록 스크리닝

626편의 초록을 일일이 읽는 건 비현실적이어서, 빠르게 훑으며 카테고리를 분류했다:

A급 (정독 필수): 직접적으로 관련된 방법론/리뷰 논문 — 약 20편
B급 (참고): 간접적으로 관련된 응용 논문 — 약 40편
C급 (스킵): 관련성 낮은 논문 — 나머지

스크리닝 기준은 명확했다:

혈액 시료를 사용했는가?
Top-Down 또는 DIA 방법론인가?
AI/ML을 적용했는가?
임상 바이오마커 검증이 포함되었는가?

Step 3: AI 요약 시도

A급 20편의 논문을 정독하기 전에, Ollama(qwen3:30b)로 초록 요약을 시도했다.

ollama run qwen3:30b "다음 논문 초록을 한국어로 요약해줘. 핵심 방법론, 결과, 한계점을 구분해서 정리해줘:

[초록 텍스트 붙여넣기]"

초록 요약은 꽤 잘 됐다. 핵심 포인트를 추출하고 구조화하는 데 유용했다. 하지만 본문 전체를 요약하라고 하면 환각이 시작됐다. 구체적 수치(p-value, sample size)를 날조하거나, 논문에 없는 결론을 만들어냈다.

결국 AI는 초록 요약과 키워드 추출에만 사용하고, 핵심 내용은 직접 읽었다.

논문 정리 체계

읽은 논문들을 주제별로 분류했다:

Category 1: Top-Down Proteomics (TDP)

Blood Proteoform Atlas — 혈액에서 30,000+ proteoform 발견
Tiambeng et al. 2020 — TDP 최신 방법론 리뷰
Toby et al. 2019 — 혈액 TDP 시료 전처리

Category 2: Biomarker Discovery

FDA-approved 바이오마커 목록 및 검증 기준
혈액 기반 바이오마커의 임상 활용 사례
p-tau217 치매 바이오마커 최신 연구

Category 3: DIA Proteomics

DIA-NN 논문 (Demichev et al., 2020) — 딥러닝 기반 DIA 분석
MaxLFQ 정량 알고리즘
DIA vs DDA 비교 연구

Category 4: AI + Proteomics

Prosit — 딥러닝 기반 스펙트럼 예측
AlphaPept — end-to-end DIA 분석
DeepLC — 딥러닝 기반 retention time 예측

각 논문에 대해 다음 형식으로 정리했다:

## [논문 제목]
- **저자**: First Author et al., Year
- **저널**: Journal Name
- **PMID**: 12345678
- **핵심 방법론**: 
- **주요 결과**: 
- **한계점**: 
- **BioAI Market 적용 가능성**:

핵심 교훈: 양보다 질

100편을 스크리닝했지만, 실제로 BioAI Market의 방향을 결정한 건 핵심 3~5편이었다.

Blood Proteoform Atlas → 혈액 TDP 연구 기획의 출발점
DIA-NN 논문 → DIA 파이프라인 통합 결정
Prosit → AI 스펙트럼 예측 모델의 영감
p-tau217 임상 연구 → 뇌질환 바이오마커 DB 구축 동기

나머지 95편은 배경 지식을 채워주는 역할이었다. 물론 그 배경 지식이 없었으면 핵심 5편의 의미를 제대로 이해하지 못했을 것이다.

RAG에 논문 지식 반영

읽은 논문의 지식을 BioAI Market에 반영하는 구체적인 방법:

-- 논문에서 확인된 바이오마커-질병 연관성을 DB에 추가
INSERT INTO biomarker_diseases (biomarker_id, disease_id, relationship_type, evidence_level, pubmed_id)
VALUES
  ((SELECT id FROM biomarkers WHERE name = 'p-tau217'),
   (SELECT id FROM diseases WHERE name = 'Alzheimer Disease'),
   'Diagnostic', 'Validated', '35771652')
ON CONFLICT (biomarker_id, disease_id) DO NOTHING;

이렇게 입력된 데이터는 RAG 파이프라인을 통해 AI 챗봇의 답변에 반영된다. "p-tau217은 어떤 질병과 관련 있어?"라고 물으면, DB에 있는 정확한 정보를 기반으로 답변한다.

효율적인 논문 추적 팁

지속적으로 논문을 추적하기 위해 사용한 도구들:

Google Scholar Alerts — 키워드 등록하면 새 논문 알림
PubMed RSS — 특정 검색 쿼리의 RSS 피드 구독
저자 추적 — 핵심 논문의 corresponding author를 Google Scholar에서 팔로우
주간 리뷰 — 매주 월요일 30분간 새 알림 확인

특히 저자 추적이 효과적이었다. Kelleher 그룹의 새 논문이 나오면 바로 확인했고, 이를 통해 혈액 TDP의 최신 동향을 놓치지 않을 수 있었다.

💡 논문에서 얻은 지식을 RAG 시스템에 반영하는 과정은 다음 글: RAG 시스템으로 바이오 지식 검색 엔진 만들기에서 자세히 다룬다.

BioAI Market의 바이오마커 DB 구축 과정은 genobalance.com의 바이오마커 데이터베이스 구축기에서 확인할 수 있다.