국가생명연구자원정보센터(KOBIC)

추천 검색어

#BioProject
#NGS
#Single cell
#CLOSHA
#RNA-seq

Bacteria Assembly pipeline

카테고리 Genomics > Large-genome-assembly
수정일2025-11-07 19:02:31
레퍼런스
https://github.com/Ecogenomics/GTDBTk

https://www.biorxiv.org/content/10.1101/2021.04.27.441618v2

Bacteriaassemblyde novo assembly

Bacterial Genome Assembly Pipeline은 bacterial WGS 데이터를 기반으로 QC부터 annotation까지 원스텝으로 분석을 수행할 수 있는 자동화 파이프라인입니다. 해당 Pipeline은 ZGA라는 프로그램을 기반으로 수행되며, read QC, read processing, de novo assembly, genome polishing, assembly QC, annotation 단계로 구성되어 있습니다. 또한, 분석자가 시각점과 끝나는 단계를 지정해서 분석을 수행할 수 있는 장점도 존재합니다.

파이프라인의 초기 단계(Read QC, read processing)에서는 실험 데이터의 품질 평가와 정제가 이루어집니다. fastp를 사용하여 실험 데이터의 품질을 검사하고 평가하며, BBtools의 BBDuk을 활용하여 시퀀싱 어댑터 및 낮은 품질의 리드를 효과적으로 정제합니다. 또한, BBtools의 BBMerge 단계에서 각 paired-reads를 미리 overlap하여 assembly의 효율을 증가시킵니다. 마지막으로 사용자의 선택에 따라 Mash를 사용하여 예상되는 genome size를 예측할 수 있습니다.

두 번째 단계(de novo assembly, genome polishing)에서는 Unicycler, SPAdes, Flye라는 3개의 assembly tool 중에서 하나를 선정하여 de novo assembly를 수행합니다. 그 후, 각 assembly tool에 내장된 기능을 바탕으로 assembled sequence를 polishing하여 genome의 품질을 향상시킵니다.

이어지는 단계(Assembly QC, annotation)에서는 checkM을 이용하여 genome completeness, contamination, heterogeneity를 확인하여 assembled genome의 품질을 확인합니다. 마지막으로 Bakta를 이용하여 assembled genome에 대한 annotation을 수행하는 것으로 Bacterial Genome Assembly Pipeline은 종료됩니다.

전체적으로, 최상위 입력 데이터인 fastq 형식의 bacteria WGS raw data로부터 시작하여 QC, de novo assembly, assembly QC, annotation까지 분석하실 수 있습니다.

파이프라인 모듈

ZGA

ZGA (Prokaryotic Genome Assembly and Annotation Pipeline)는 박테리아와 고세균의 유전제 조립에 필요한 복잡한 생물정보학 분석 과정을 통합해 제공하는 Python 기반의 자동화 도구입니다.

구체적으로 raw data에 대한 전처리부터 품질 검사(Quality Control, QC), 유전체 조립(genome assembly), 품질 평가, 게놈에 대한 주석(annotation) 단계를 수행할 수 있습니다.

ZGA는 현재 널리 사용되는 다양한 시퀀싱 플랫폼의 데이터 입력을 지원하고 있습니다. 예를 들어 Illumina와 같은 숏-리드 (short-read) 데이터를 비롯해 Nanopore, PacBio와 같은 롱-리드 (long-read) 데이터, 그리고 이들을 같이 사용하는 하이브리드 어셈블리 (hybrid assembly) 기능도 지원합니다. 해당 파이프라인에서는 박테리아의WGS (Whole genome sequencing) 데이터를 사용했습니다.

실행 명령어 예시

./zga_bash.sh \ in_short_dir="./short_dir" \ in_long_dir="./long_dir" \ longread_type="nanopore" \ output="./zga_bah/output"

실행 스크립트

파라미터

파라미터 옵션 정보
옵션	유형	명칭	값	설명
Input	Folder	in_shrot_dir	./short_dir	숏-리드 시퀀싱으로 생산된 FASTQ 형식의 파일이 있는 디렉토리 경로
Input	Folder	in_long_dir	./long_dir	롱-리드 시퀀싱으로 생산된 FASTQ 형식의 파일이 있는 디렉토리 경로
Output	Folder	output_dir	./zga_bah/output	실행 후 결과물을 저장할 디렉토리 경로
Option	String	longread_type	nanopore	롱-리드 플랫폼 유형 (기본값: 나노포어). 시퀀서 유형이 Pacbio인 경우 값 'pacbio'를 입력해야 함.

결과

output 디렉토리 및 하위 디렉토리의 구조. 각 파이프라인 단계 별로 디렉토리가 생섬됨. reads에는 입력 데이터, readQC에는 그에 대한 전처리 결과, assembly에는 게놈 어셈블리 결과, polishing에는 입력 데이터를 이용한 어셈블리 보정 결과, annotation에는 최종 어셈블리 서열에 대한 주석 결과가 담겨 있음.

버전1.0
마지막 업데이트9시간 전
기여자

파이프라인 모듈

궁금한 점이 있으신가요? 문의하기