AI로 생물학 논문 100편 읽고 정리한 방법
BioAI Market 개발을 위해 프로테오믹스/바이오마커 논문 100편을 체계적으로 리서치하고 AI로 정리한 경험을 공유한다.
왜 논문을 100편이나 읽어야 했나
BioAI Market을 개발하려면, 프로테오믹스와 바이오마커에 대한 깊은 이해가 필요했다. 나는 프로테오믹스/바이오인포매틱스 전문가이지만, AI와 결합된 최신 트렌드는 빠르게 변하고 있었다. 특히 Blood Top-Down Proteomics, DIA 기반 정량, AI 기반 스펙트럼 예측 같은 분야는 2020년 이후 논문이 쏟아지고 있었다.
그래서 약 2주 동안 100편 이상의 논문을 스크리닝하고, 그중 핵심 논문 20여 편을 정독했다. 이 과정에서 AI(Ollama)를 활용한 경험을 정리한다.
논문 수집 파이프라인
Step 1: PubMed 키워드 검색
PubMed에서 다음 키워드 조합으로 검색했다:
"top-down proteomics" AND "blood" → 47 results
"DIA proteomics" AND "biomarker" → 312 results
"AI" AND "mass spectrometry" AND "proteomics" → 189 results
"proteoform" AND "clinical" → 78 results
총 626편의 검색 결과 중, 제목과 초록을 훑어보며 관련성 높은 논문을 선별했다.
Step 2: 초록 스크리닝
626편의 초록을 일일이 읽는 건 비현실적이어서, 빠르게 훑으며 카테고리를 분류했다:
- A급 (정독 필수): 직접적으로 관련된 방법론/리뷰 논문 — 약 20편
- B급 (참고): 간접적으로 관련된 응용 논문 — 약 40편
- C급 (스킵): 관련성 낮은 논문 — 나머지
스크리닝 기준은 명확했다:
- 혈액 시료를 사용했는가?
- Top-Down 또는 DIA 방법론인가?
- AI/ML을 적용했는가?
- 임상 바이오마커 검증이 포함되었는가?
Step 3: AI 요약 시도
A급 20편의 논문을 정독하기 전에, Ollama(qwen3:30b)로 초록 요약을 시도했다.
ollama run qwen3:30b "다음 논문 초록을 한국어로 요약해줘. 핵심 방법론, 결과, 한계점을 구분해서 정리해줘:
[초록 텍스트 붙여넣기]"
초록 요약은 꽤 잘 됐다. 핵심 포인트를 추출하고 구조화하는 데 유용했다. 하지만 본문 전체를 요약하라고 하면 환각이 시작됐다. 구체적 수치(p-value, sample size)를 날조하거나, 논문에 없는 결론을 만들어냈다.
결국 AI는 초록 요약과 키워드 추출에만 사용하고, 핵심 내용은 직접 읽었다.
논문 정리 체계
읽은 논문들을 주제별로 분류했다:
Category 1: Top-Down Proteomics (TDP)
- Blood Proteoform Atlas — 혈액에서 30,000+ proteoform 발견
- Tiambeng et al. 2020 — TDP 최신 방법론 리뷰
- Toby et al. 2019 — 혈액 TDP 시료 전처리
Category 2: Biomarker Discovery
- FDA-approved 바이오마커 목록 및 검증 기준
- 혈액 기반 바이오마커의 임상 활용 사례
- p-tau217 치매 바이오마커 최신 연구
Category 3: DIA Proteomics
- DIA-NN 논문 (Demichev et al., 2020) — 딥러닝 기반 DIA 분석
- MaxLFQ 정량 알고리즘
- DIA vs DDA 비교 연구
Category 4: AI + Proteomics
- Prosit — 딥러닝 기반 스펙트럼 예측
- AlphaPept — end-to-end DIA 분석
- DeepLC — 딥러닝 기반 retention time 예측
각 논문에 대해 다음 형식으로 정리했다:
## [논문 제목]
- **저자**: First Author et al., Year
- **저널**: Journal Name
- **PMID**: 12345678
- **핵심 방법론**:
- **주요 결과**:
- **한계점**:
- **BioAI Market 적용 가능성**:
핵심 교훈: 양보다 질
100편을 스크리닝했지만, 실제로 BioAI Market의 방향을 결정한 건 핵심 3~5편이었다.
- Blood Proteoform Atlas → 혈액 TDP 연구 기획의 출발점
- DIA-NN 논문 → DIA 파이프라인 통합 결정
- Prosit → AI 스펙트럼 예측 모델의 영감
- p-tau217 임상 연구 → 뇌질환 바이오마커 DB 구축 동기
나머지 95편은 배경 지식을 채워주는 역할이었다. 물론 그 배경 지식이 없었으면 핵심 5편의 의미를 제대로 이해하지 못했을 것이다.
RAG에 논문 지식 반영
읽은 논문의 지식을 BioAI Market에 반영하는 구체적인 방법:
-- 논문에서 확인된 바이오마커-질병 연관성을 DB에 추가
INSERT INTO biomarker_diseases (biomarker_id, disease_id, relationship_type, evidence_level, pubmed_id)
VALUES
((SELECT id FROM biomarkers WHERE name = 'p-tau217'),
(SELECT id FROM diseases WHERE name = 'Alzheimer Disease'),
'Diagnostic', 'Validated', '35771652')
ON CONFLICT (biomarker_id, disease_id) DO NOTHING;
이렇게 입력된 데이터는 RAG 파이프라인을 통해 AI 챗봇의 답변에 반영된다. "p-tau217은 어떤 질병과 관련 있어?"라고 물으면, DB에 있는 정확한 정보를 기반으로 답변한다.
효율적인 논문 추적 팁
지속적으로 논문을 추적하기 위해 사용한 도구들:
- Google Scholar Alerts — 키워드 등록하면 새 논문 알림
- PubMed RSS — 특정 검색 쿼리의 RSS 피드 구독
- 저자 추적 — 핵심 논문의 corresponding author를 Google Scholar에서 팔로우
- 주간 리뷰 — 매주 월요일 30분간 새 알림 확인
특히 저자 추적이 효과적이었다. Kelleher 그룹의 새 논문이 나오면 바로 확인했고, 이를 통해 혈액 TDP의 최신 동향을 놓치지 않을 수 있었다.
💡 논문에서 얻은 지식을 RAG 시스템에 반영하는 과정은 다음 글: RAG 시스템으로 바이오 지식 검색 엔진 만들기에서 자세히 다룬다.
BioAI Market의 바이오마커 DB 구축 과정은 genobalance.com의 바이오마커 데이터베이스 구축기에서 확인할 수 있다.