메뉴 바로가기 본문 바로가기 하단 바로가기

Conpair

0.2

Conpair는 인간 종양-정상(Tumor-Normal) 쌍 연구를 위해 특별히 설계된 빠르고 견고한 방법론으로, concordance 검증(동일 개체 유래 확인)과 교차 개체 오염 수준 추정을 전장 유전체 및 엑솜 시퀀싱 실험에서 수행합니다. 이 도구의 가장 중요한 특징은 종양 샘플의 오염 추정 방법이 복제수 변화(copy number changes)에 영향받지 않으며, 0.1%라는 매우 낮은 오염 수준까지 검출할 수 있다는 점입니다. Conpair는 New York Genome Center에서 개발된 도구로, 미리 선택된 유전체 위치의 집합을 기반으로 작동합니다. 이 마커들은 1000 Genomes Project Phase 3 데이터에서 선별된 것으로, MAF(Minor Allele Frequency) ≥ 0.4, LD(Linkage Disequilibrium) ≤ 0.8 기준을 충족하는 고품질 SNV들입니다. 두 단계 프로세스를 통해 작동하는데, 먼저 GATK를 사용하여 각 샘플에 대해 미리 정의된 마커 위치에서 pileup을 생성하고, 그 다음 이 pileup 데이터를 분석하여 concordance와 contamination을 계산합니다. 특히 임상 응용에서 중요한 점은 종양 샘플에서 0.5%라는 매우 낮은 오염 수준도 체세포 변이 호출(somatic mutation calling)에 심각한 영향을 미쳐 특이도를 크게 감소시킨다는 것입니다. 반면 정상 샘플의 교차 개체 오염은 체세포 변이 호출에 상대적으로 경미한 영향을 미칩니다.

#conpair #contamination #tumor-normal #qc #concordance #gatk
  • 카테고리Quality Control > BAM/SAM QC
  • 수정일2025-09-17
실행 횟수 0 회

Mosdepth

0.3

Mosdepth는 전장 유전체 시퀀싱(WGS), 엑솜 시퀀싱, 표적 시퀀싱을 위한 고속 BAM/CRAM 커버리지 계산 도구입니다. Nim 언어로 개발되어 기존 도구들보다 월등히 빠른 성능을 제공하며, 메모리 효율적인 알고리즘을 통해 대용량 시퀀싱 데이터의 커버리지 분석을 신속하게 수행합니다. 이 도구는 독특한 염색체별 배열 기반 알고리즘을 사용합니다. 각 염색체에 대해 배열을 생성하고, 리드의 시작 위치에서는 값을 증가시키고 끝 위치에서는 감소시킨 후, 누적합을 계산하여 각 위치의 커버리지를 구합니다. 이 방법은 CIGAR 연산을 정확히 추적하여 리드의 정렬된 모든 부분을 포함하며, 겹치는 mate-pair를 이중 계산하지 않는 정교한 커버리지 측정을 제공합니다. Mosdepth는 단순한 커버리지 계산을 넘어서 다양한 고급 기능을 제공합니다. 윈도우 기반 분석, BED 파일 기반 영역별 분석, 임계값 기반 커버리지 통계, 그리고 quantize 기능을 통한 커버리지 구간 분할 등이 가능합니다. 특히 분포 계산은 런타임 증가 없이 자동으로 수행되며, 다중 스레드를 활용한 압축 해제 최적화로 대규모 데이터셋에서도 뛰어난 성능을 발휘합니다.

#mosdepth #coverage #depth #qc #wgs #exome #targeted sequencing
  • 카테고리Quality Control > BAM/SAM QC
  • 수정일2025-09-17
실행 횟수 0 회

VerifyBamID

2.0.1

VerifyBamID2는 시퀀싱 데이터(BAM/CRAM 파일)에서 DNA 오염도(contamination)를 정확하게 추정하기 위한 차세대 품질 관리 도구입니다. 혈통에 무관한(ancestry-agnostic) 방법을 사용하여 다양한 인종 배경의 샘플에서도 일관되고 신뢰할 수 있는 오염도 측정을 제공합니다. 이 도구는 주성분 분석(Principal Component Analysis, PCA)과 특이값 분해(Singular Value Decomposition, SVD) 기법을 활용하여 의도된 샘플(intended sample)과 오염 소스(contaminating sample)의 유전적 특성을 각각 추정합니다. VerifyBamID2는 베이지안 최적화 알고리즘을 통해 두 소스의 주성분 좌표(PC coordinates)를 동시에 추정하고, 최대우도법(Maximum Likelihood Estimation)을 사용하여 오염 수준(Alpha)을 정량화합니다. VerifyBamID2의 핵심 혁신은 집단 구조(population structure)에 의존하지 않는 분석 방법입니다. 기존 도구들이 특정 인종 집단의 참조 패널에 의존했던 것과 달리, 이 도구는 SVD 기반의 차원 축소를 통해 샘플의 유전적 배경을 자동으로 추론하고 보정합니다. 이를 통해 혼혈 샘플이나 희귀 집단에서도 정확한 오염도 측정이 가능하며, 대규모 다인종 코호트 연구에서 특히 유용합니다. 특히 종양-정상 쌍 분석에서 VerifyBamID2는 정상 샘플에 종양 세포가 혼입되었는지, 또는 종양 샘플에 정상 세포가 과도하게 포함되었는지를 정량적으로 평가할 수 있습니다. 또한 샘플 라벨링 오류, 교차 오염(cross-contamination), 그리고 액체 생검(liquid biopsy)에서의 순환 종양 DNA(ctDNA) 비율 추정에도 활용됩니다.

#verifybamid2 #contamination #qc #bam
  • 카테고리Quality Control > BAM/SAM QC
  • 수정일2025-09-17
실행 횟수 0 회

Somalier

0.2.15

Somalier는 유전체 데이터의 샘플 간 관련성을 분석하고 확인하는 분석 도구입니다. 주로 샘플의 신원을 확인하고 유전체 데이터에서 샘플 간의 혼합이나 오류를 탐지하는 데 사용됩니다. BAM, CRAM, VCF 파일에서 정보 추출을 수행하며, 샘플 간의 유사도 매트릭스를 계산하여 시각화할 수 있습니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 Somalier는 입력(input) 데이터로 BAM 파일, Reference sequence FASTA 파일과 추출할 variant의 sites인 VCF 파일을 사용합니다. 출력(output) 데이터로는 추출된 샘플 정보가 포함된 JSON 형식의 .somalier 파일입니다.

#somalier #sample qc #relatedness #vcfSomalier
  • 카테고리Quality Control > BAM/SAM QC
  • 수정일2025-09-17
실행 횟수 0 회