ROSE
ChIP-Seq 데이터를 기반으로 일반 인핸서와 슈퍼 인핸서를 구분하는 도구임. 가까운 인핸서를 스티칭하고 신호 세기를 기준으로 랭킹하여 세포 정체성과 관련된 조절 요소를 찾는 데 활용됨.
Augustus[optimize_augustus]
특정 종의 예측 정확도를 높이기 위해 파라미터를 반복적으로 조정하는 최적화 스크립트임. 여러 차례 설정을 변경하고 성능을 평가하면서 점진적으로 모델 품질을 개선하며, 이를 통해 해당 종의 유전체에 특화된 더 정확한 예측 결과를 제공함
Augustus[new_species]
새로운 종에 대해 학습을 시작할 수 있도록 디렉터리와 파라미터 템플릿을 생성하는 스크립트임. 이를 통해 연구자는 해당 종의 유전체 특성에 맞는 맞춤형 모델을 구축할 수 있으며, 이후 보다 정확한 유전자 예측을 수행하는 기반을 마련함
Augustus[randomSplit]
학습 데이터를 무작위로 분할하여 교차 검증에 사용하는 스크립트임. 학습용과 테스트용 데이터를 분리해 모델의 성능을 객관적으로 평가할 수 있으며, 과적합을 방지하고 파라미터 최적화 과정에서 활용됨
Augustus[join_aug_pred]
여러 개의 AUGUSTUS 예측 결과 파일을 하나의 통합 파일로 병합하는 스크립트임. 유전체를 분할하여 별도로 분석한 결과를 합쳐 최종적으로 일관된 annotation 세트를 구성하는 데 사용되며, 전체 유전체 수준의 분석에 유용함
Augustus[filterGenesIn]
예측된 유전자 모델을 길이, 구조적 완전성, 다른 feature와의 겹침 여부에 따라 필터링하는 스크립트임. 이 과정을 통해 낮은 품질의 예측을 제거하고, 생물학적으로 의미 있는 모델만 남겨 downstream 분석의 정확성과 신뢰성을 높일 수 있음
Augustus[getAnnoFasta]
AUGUSTUS의 GFF 출력에서 CDS, 단백질, DNA 서열을 추출하는 스크립트임. 추출된 결과는 FASTA 형식으로 변환되어 downstream 분석, 기능 연구, 종 간 비교 유전체학 등 다양한 후속 연구에 활용 가능함
Augustus[gtf2gff]
GTF 형식 annotation을 GFF 형식으로 변환하는 스크립트임. GFF는 AUGUSTUS와 다양한 분석 툴에서 요구되는 표준 형식으로, 변환 과정을 통해 입력 데이터를 예측 파이프라인에 맞추고 호환성을 높일 수 있음
Augustus[prepareAlign]
alignment 데이터를 전처리하여 AUGUSTUS 파이프라인에서 활용할 수 있도록 포맷을 정리함
Augustus[pp_simScore]
단백질 프로파일 또는 정렬 간의 유사도를 계산하여 비교 annotation에 활용함
Augustus[load2sqlitedb]
예측 결과를 SQLite 데이터베이스에 로드하여 간단한 환경에서 활용 가능함
Augustus[load2db]
예측 결과를 MySQL이나 Postgres 데이터베이스에 로드하여 저장과 검색을 지원함
Augustus[joingenes]
여러 스캐폴드 또는 증거 소스의 예측 결과를 통합하여 종합적인 유전자 모델을 생성함
Augustus[homGeneMapping]
상동성을 기반으로 예측된 유전자를 다른 종이나 어셈블리에 매핑함
Augustus[getSeq]
데이터베이스 또는 레퍼런스에서 유전체 서열을 추출하여 FASTA 형식으로 제공함
Augustus[filterBam]
BAM 정렬을 매핑 퀄리티나 스플라이스 리드 조건에 따라 필터링함
Augustus[fastBlockSearch]
유전체 간 synteny 블록을 검색하여 상동성 기반 예측에 활용함
Augustus[etraining]
알려진 유전자 모델을 이용해 파라미터를 학습하는 프로그램으로 새로운 species 설정 시 필수임
Augustus[compileSpliceCands]
증거 데이터에서 스플라이스 후보 지점을 추출하여 힌트 기반 예측을 보조함
Augustus[bam2wig]
BAM 파일을 WIG 포맷으로 변환하여 read depth와 coverage 확인에 활용함
Augustus[bam2hints]
RNA-Seq BAM 정렬에서 인트론과 엑손 경계 힌트를 생성하여 예측 정확도를 높이는 데 사용함
Augustus[augustus]
- 메인 유전자 예측 프로그램 - 엑손, 인트론, UTR 등 구조 예측 - species 모델 및 힌트 파일 사용 가능
Augustus[aln2wig]
정렬 데이터를 WIG 포맷으로 변환하여 커버리지 시각화에 활용함
GeneMark-ETP
RNA-Seq, 단백질 서열, 기존 유전자 구조 정보를 통합적으로 활용해 유전체 상의 유전자를 정확히 예측하고 주석화하는 데 사용되는 고정밀 자동 예측 파이프라인.
BRAKER
RNA-seq 기반의 스플라이싱 정보와 단백질 서열 정보를 통합하여 학습 없이 유전체 내 유전자 구조를 자동으로 예측하고 주석하는 비지도 유전자 예측 파이프라인.
Augustus
히든 마르코프 모델 기반 알고리즘을 활용해 복잡한 진핵 유전체 내 유전자 구조를 정밀 예측하고 CDS, UTR, 엑손 등의 전사 영역을 식별하는 유전자 예측 도구.