- 카테고리 Genomics > Large-genome-assembly
- 수정일2025-11-07 19:02:31
- 레퍼런스
Bacterial Genome Assembly Pipeline은 bacterial WGS 데이터를 기반으로 QC부터 annotation까지 원스텝으로 분석을 수행할 수 있는 자동화 파이프라인입니다. 해당 Pipeline은 ZGA라는 프로그램을 기반으로 수행되며, read QC, read processing, de novo assembly, genome polishing, assembly QC, annotation 단계로 구성되어 있습니다. 또한, 분석자가 시각점과 끝나는 단계를 지정해서 분석을 수행할 수 있는 장점도 존재합니다.
파이프라인의 초기 단계(Read QC, read processing)에서는 실험 데이터의 품질 평가와 정제가 이루어집니다. fastp를 사용하여 실험 데이터의 품질을 검사하고 평가하며, BBtools의 BBDuk을 활용하여 시퀀싱 어댑터 및 낮은 품질의 리드를 효과적으로 정제합니다. 또한, BBtools의 BBMerge 단계에서 각 paired-reads를 미리 overlap하여 assembly의 효율을 증가시킵니다. 마지막으로 사용자의 선택에 따라 Mash를 사용하여 예상되는 genome size를 예측할 수 있습니다.
두 번째 단계(de novo assembly, genome polishing)에서는 Unicycler, SPAdes, Flye라는 3개의 assembly tool 중에서 하나를 선정하여 de novo assembly를 수행합니다. 그 후, 각 assembly tool에 내장된 기능을 바탕으로 assembled sequence를 polishing하여 genome의 품질을 향상시킵니다.
이어지는 단계(Assembly QC, annotation)에서는 checkM을 이용하여 genome completeness, contamination, heterogeneity를 확인하여 assembled genome의 품질을 확인합니다. 마지막으로 Bakta를 이용하여 assembled genome에 대한 annotation을 수행하는 것으로 Bacterial Genome Assembly Pipeline은 종료됩니다.
전체적으로, 최상위 입력 데이터인 fastq 형식의 bacteria WGS raw data로부터 시작하여 QC, de novo assembly, assembly QC, annotation까지 분석하실 수 있습니다.
파이프라인 모듈
ZGA
ZGA (Prokaryotic Genome Assembly and Annotation Pipeline)는 박테리아와 고세균의 유전제 조립에 필요한 복잡한 생물정보학 분석 과정을 통합해 제공하는 Python 기반의 자동화 도구입니다.
구체적으로 raw data에 대한 전처리부터 품질 검사(Quality Control, QC), 유전체 조립(genome assembly), 품질 평가, 게놈에 대한 주석(annotation) 단계를 수행할 수 있습니다.
ZGA는 현재 널리 사용되는 다양한 시퀀싱 플랫폼의 데이터 입력을 지원하고 있습니다. 예를 들어 Illumina와 같은 숏-리드 (short-read) 데이터를 비롯해 Nanopore, PacBio와 같은 롱-리드 (long-read) 데이터, 그리고 이들을 같이 사용하는 하이브리드 어셈블리 (hybrid assembly) 기능도 지원합니다. 해당 파이프라인에서는 박테리아의WGS (Whole genome sequencing) 데이터를 사용했습니다.
실행 명령어 예시
./zga_bash.sh \ in_short_dir="./short_dir" \ in_long_dir="./long_dir" \ longread_type="nanopore" \ output="./zga_bah/output"
실행 스크립트
파라미터
| 옵션 | 유형 | 명칭 | 값 | 설명 | 필수값 |
|---|---|---|---|---|---|
| Input | Folder | in_shrot_dir | ./short_dir | 숏-리드 시퀀싱으로 생산된 FASTQ 형식의 파일이 있는 디렉토리 경로 | |
| Input | Folder | in_long_dir | ./long_dir | 롱-리드 시퀀싱으로 생산된 FASTQ 형식의 파일이 있는 디렉토리 경로 | |
| Output | Folder | output_dir | ./zga_bah/output | 실행 후 결과물을 저장할 디렉토리 경로 | |
| Option | String | longread_type | nanopore | 롱-리드 플랫폼 유형 (기본값: 나노포어). 시퀀서 유형이 Pacbio인 경우 값 'pacbio'를 입력해야 함. |