메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

ChIP-seq Analysis Pipeline

Bio-Express ChIP-seq Analysis Pipeline은 크로마틴 면역침전 시퀀싱(Chromatin Immunoprecipitation Sequencing) 데이터로부터 단백질-DNA 결합 부위를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력으로 사용하고, 전사인자 결합 사이트, 히스톤 변형 영역, 크로마틴 구조 분석을 기반으로 하는 포괄적인 후성유전학적 결합 부위 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, FASTX-Toolkit을 사용하여 저품질 염기 필터링을 진행하고, Bowtie2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 SAM 형식의 정렬 파일을 생성합니다. 이후 전처리가 완료된 정렬 파일을 활용하여 후성유전학적 신호 분석 단계로 진입합니다. MACS2(Model-based Analysis of ChIP-Seq)를 통한 통계적으로 유의한 피크 호출을 수행하여 단백질-DNA 결합 부위를 정확히 식별하고, narrowPeak 형식으로 고해상도 결합 영역을 제공합니다. 최종적으로 Homer를 활용한 포괄적인 후속 분석 단계를 수행합니다. annotatePeaks 기능을 통해 검출된 피크의 게놈 위치 주석과 주변 유전자 정보를 제공하고, makeUCSCfile을 사용하여 UCSC 게놈 브라우저와 호환되는 bedGraph 형식의 시각화 파일을 생성하여 크로마틴 면역침전 신호의 게놈 전체 분포 패턴을 직관적으로 확인할 수 있습니다. > 기본 참조 게놈: hg38 [중요] 샘플 유형 식별 방법: - 컨트롤 파일: "CONTROL_"로 시작 필수 (자동 식별을 위한 필수 접두사) - 처리/ChIP 파일: 특별한 파일명 규칙 없음 (예시) CONTROL_input_R1.fastq.gz # 유효한 컨트롤, Read 1 CONTROL_input_R2.fastq.gz # 유효한 컨트롤, Read 2 ChIP_H3K4me3_R1.fastq.gz # 유효한 처리군, Read 1 ChIP_H3K4me3_R2.fastq.gz # 유효한 처리군, Read 2
#chip-seq
#protein-dna binding
#epigenomics
#tfbs
#transcription factor binding sites
#histone modification
#chromatin structure

Single-Cell-RNA-Sequencing-Pipeline

Whole Genome Sequencing Somatic Variant Analysis Pipeline

Bio-Express Somatic WGS Pipeline은 전장 유전체 시퀀싱 데이터로부터 체세포 변이를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력 데이터로 사용하고, 종양-정상 쌍 분석을 기반으로 하는 포괄적인 체세포 변이 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, Cutadapt로 어댑터 제거 및 품질 트리밍을 수행하고, BWA-MEM2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 BAM 형식의 정렬 파일을 생성합니다. 이후 GATK 파이프라인을 통해 중복 제거, 매핑 품질 평가, 그리고 저품질 read에 대한 필터링을 수행하며 모든 페어 정보가 일치하는지 확인합니다. SAMtools를 활용한 좌표 기준 정렬과 GATK MarkDuplicates를 통한 PCR 중복 제거를 거쳐, GATK BaseRecalibrator와 ApplyBQSR을 사용하여 알려진 변이 사이트 정보를 공변량으로 활용한 염기 품질 점수 재보정을 수행합니다. 재보정이 완료된 BAM 파일에 대해 먼저 포괄적인 품질 관리 및 샘플 검증 단계를 수행합니다. Somalier를 통한 샘플 관계 검증, SNPmatch를 활용한 변이-SNP마커 통합 분석을 통한 샘플 정체성 확인, VerifyBamID2를 통한 샘플 오염도 평가, 그리고 Mosdepth를 사용한 커버리지 분석을 통해 시퀀싱 데이터의 품질과 신뢰성을 종합적으로 평가합니다. 이어서 종양-정상 쌍 분석 단계로 진입하며, Conpair를 통한 Normal-Tumor 페어 적합성 검증과 교차 개체 오염 수준 추정을 수행합니다. 그 다음 Strelka2와 Mutect2를 통한 단일 염기 변이 및 삽입/결손 변이 검출을 병행하여 체세포 변이의 민감도와 특이도를 극대화합니다. 마지막으로 TINC를 통한 종양 순도 분석과 Manta를 사용한 구조 변이 호출, Canvas를 이용한 복제수 변이 분석으로 포괄적인 체세포 유전체 변화를 정량화하여 암 유전체학 연구와 정밀 의학에 필수적인 정보를 제공합니다. > 기본 참조 게놈: hg38 [중요] 샘플 유형 식별 방법: - 종양 조직 샘플: FASTQ 파일명에 "_T" 포함 필수 - 정상 조직 샘플: FASTQ 파일명에 "_N" 포함 필수 (예시) patient001_T_R1.fastq.gz # 종양 샘플, Read 1 patient001_T_R2.fastq.gz # 종양 샘플, Read 2 patient001_N_R1.fastq.gz # 정상 샘플, Read 1 patient001_N_R2.fastq.gz # 정상 샘플, Read 2
#wgs
#whole-genome sequencing
#somatic mutation
#tumor-normal pair analysis
#cancer genomics
#precision medicine

Single-Cell-RNA-Sequencing-Pipeline

Whole Genome Sequencing Germline Variant Analysis Pipeline

Bio-Express Germline WGS Pipeline은 전장 유전체 시퀀싱 데이터로부터 생식세포 변이를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력으로 사용하고, 개체 유전체 분석을 기반으로 허눈 포괄적인 생식세포 변이 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, Cutadapt로 어댑터 제거 및 품질 트리밍을 수행하고, BWA-MEM2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 BAM 형식의 정렬 파일을 생성합니다. 이후 GATK 파이프라인을 통해 중복 제거, 매핑 품질 평가, 그리고 저품질 read 필터링을 수행하며 모든 페어 정보가 일치하는지 확인합니다. SAMtools를 활용한 좌표 기준 정렬과 GATK MarkDuplicates를 통한 PCR 중복 제거를 거쳐, GATK BaseRecalibrator와 ApplyBQSR을 사용하여 알려진 변이 사이트 정보를 공변량으로 활용한 염기 품질 점수 재보정을 수행합니다. 재보정이 완료된 BAM 파일에 대해 먼저 포괄적인 품질 관리 및 샘플 검증 단계를 수행합니다. Somalier를 통한 샘플 관계 검증, VerifyBamID2를 통한 샘플 오염도 평가, 그리고 Mosdepth를 사용한 커버리지 분석을 통해 시퀀싱 데이터의 품질과 신뢰성을 종합적으로 평가합니다. 이어서 GATK HaplotypeCaller를 이용한 GVCF 파일 생성 및 GenotypeGVCFs를 활용한 표준 VCF 형태의 생식세포 SNV/Indel 변이 탐지를 실행합니다. 후속적으로 BCFtools를 적용한 종합적인 변이 통계 해석을 진행하며, Manta 도구를 통해 구조적 변이를 검출합니다. > 기본 참조 게놈: hg38
#wgs
#whole-genome sequencing
#germline mutation
#individual genomic analysis
KOBICian's Story
생물학계에 놀라운 생명 현상이 발견되었습니다. 이베리아반도에 서식하는 특정 수확개미 종에서 한 여왕개미가 두 가지 서로 다른 종의 수컷을 생산하는 '제노페리티(Xenoparity)'라는 현상이 관찰된 것입니다. 이는 생명의 진화와 번식 전략에 대한 우리의 이해를 근본적으로 뒤바꿀 가능성을 내포하고 있어 학계에 뜨거운 관심을 받고 있습니다.개미의 수컷(n)은 수정되지 않은 알에서 단성생식으로 생겨나는 반면, 일개미(2n)는 수정된 알에서 발생한 생식 능력 없는 암컷이라는 기본 상식을 일단 기억해 두시면 좋을 것입니다. 이 모든 이야기는 이베리아반도에서 발견되는 '이베리아 수확개미'(학명 Messor ibericus)에 대한 연구에서 시작되었습니다. 연구진은 유럽 전역에서 개미를 채집하여 유전적 다양성을 분석하던 중, 예기치 않게 충격적인 데이터를 발견하였습니다. 일반적으로 개미 집단 내에서는 유전적 이형 접합성(heterozygosity)이 낮게 나타나는 것이 보통입니다. 이는 같은 종 내에서의 번식을 통해 유전자가 유사하게 유지되기 때문입니다. 그러나 이베리아 수확개미 중 일부 일개미 집단에서 유독 비정상적으로 높은 이형 접합성이 관찰되었습니다. 이는 엄마와 아빠로부터 물려받은 유전자가 현저하게 다르다는 것을 의미합니다. 이러한 유전자 분석 결과는 이들 일개미가 순종이 아닌 '잡종 일개미'일 가능성을 말하며, 더욱 놀라운 사실은 이베리아 수확개미의 일개미는 100% 잡종으로만 발견되며, 순종 일개미는 전혀 없다는 점이었습니다. 반면 여왕개미는 예외 없이 순종으로만 존재하였습니다. 연구진은 이 잡종 일개미들이 누구로부터 태어났는지 추적하기 위해 DNA 분석을 진행하였습니다. 그 결과, 잡종 일개미의 엄마는 이베리아 수확개미이고, 아빠는 '스트럭터 수확개미'(학명 Messor structor)인 것으로 밝혀졌습니다. 즉, 두 가지 서로 다른 종의 개미가 교배하여 잡종 일개미를 만들어낸다는 것이 DNA 서열 분석을 통해 확인된 것입니다. 여기서 또 다른 미스터리가 발생했습니다. 잡종 일개미가 발견되는 지역의 분포를 살펴보니, 이베리아 수확개미와 스트럭터 수확개미가 모두 서식하는 지역뿐만 아니라, 아빠 종인 스트럭터 수확개미가 전혀 발견되지 않는 시칠리아 같은 지역에서도 잡종 일개미가 무더기로 발견된 것입니다. 마치 호랑이가 없는 동물원에서 라이거(숫사자와 암범의 종간 잡종)가 태어난 것과 같은 상황이었습니다. 그렇다면, 스트럭터 수확개미가 없는 지역에서 이 잡종 일개미는 어떻게 태어났을까? 연구진은 이 의문점을 해결하기 위해서 26개의 이베리아 수확개미 군집 내에서 수컷 132마리를 채집하여 조사하였습니다. 그 결과, 44%의 수컷은 털이 많은 형태였으며 나머지 56%는 거의 털이 없는 뚜렷한 형태적 이형성(morphological dimorphism)이 관찰되었고, 계통 분석(phylogenetic analyses)으로도 털이 많은 수컷은 '이베리아 수확개미'(M. ibericus) 그룹에, 털이 없는 수컷은 '스트럭터 수확개미'(M. structor) 그룹에 속하였습니다. 이로써 스트럭터 수확개미 수컷이 이베리아 수확개미 군집 내에 존재한다는 것이 밝혀졌습니다. 하지만, 스트럭터 수확개미 수컷이 어떻게 이베리아 수확개미 군집 내에서 발견되었는지 또다시 의문이 생겼습니다. 연구진은 스트럭터 수확개미 수컷의 분자 분석(molecular analyses)을 통해 비밀을 밝혀냅니다. 분석 결과, 스트럭터 수확개미 수컷은 군집 내의 이베리아 수확개미 개체들과 동일한 미토콘드리아를 공유하고 있었습니다. 이는 군집 전체가 공통의 이베리아 수확개미 어미로부터 기원했음을 의미하며, 이베리아 수확개미 여왕이 두 종의 수컷을 모두 생산한다는 것을 보여주는 충격적인 증거였습니다. 앞서 설명했듯이 수컷 개미는 수정되지 않은 알을 통해 모계로부터만 유전자를 상속받는 반수체(haploid) 입니다. 그렇기 때문에 수컷 개미는 모계의 DNA만을 가지고 있게 되지만, 이베리아 수확개미 여왕이 낳은 스트럭터 수확개미 수컷의 핵에는 엄마인 이베리아 수확개미 여왕의 DNA는 없고, 아빠인 스트럭터 수확개미의 DNA만 가지고 있었습니다. 이러한 현상은 다른 생물군에서도 관찰된 바 있으며, 무핵 난자 수정 또는 모계 유전체 제거로 인해 발생한다고 알려져 있습니다. 하지만 이번 연구 결과는 이러한 현상이 종 간의 장벽을 넘어 다른 종의 정자로부터 수컷을 생산하는 것을 보여주는 또 다른 발견입니다. 연구진은 이 새로운 번식 시스템을 '제노페리티'(Xenoparity)라고 일컬었습니다. '제노(Xeno)'는 '다른, 이상한, 외부의'라는 뜻이고, '패리티(parity)'는 '생식한다, 번식한다'는 뜻으로, '다른 종의 새끼를 낳는다'는 의미입니다. 맨 처음에는 이베리아 수확개미 여왕도 실제 야생계통(wild-type lineage)의 스트럭터 수확개미 수컷과 교배를 통해 잡종 일개미를 생산했을 것입니다. 그렇게 타종의 수컷이 꼭 필요하게 되었을 것이며, 의존하는 시스템이 되어버렸을 것입니다. 그 이후 '정자 기생' 단계를 넘어 그 종의 수컷을 복제할 수 있는 방향으로 자연 선택되었고 제노패리티 시스템이 진화하게 된 것으로 보입니다. 하지만 구체적으로 어떤 세포·유전학적 기전으로 이러한 현상이 일어나는지는 미스테리입니다. 이베리아 수확개미의 이러한 독특한 번식 시스템은 생명의 경이로움과 진화의 무한한 창조력을 다시금 일깨워줍니다. 생명의 진화는 인간의 생각보다 훨씬 더 복잡하고 창의적인 것 같습니다. <참고 자료>Juvé, Y., Lutrat, C., Ha, A. et al. One mother for two species via obligate cross-species cloning in ants. Nature 646, 372–377 (2025). https://doi.org/10.1038/s41586-025-09425-w 사이언스지의 뉴스(https://www.science.org/content/article/ant-queen-lays-eggs-hatch-two-species)Smithsonian Magazine 기사(https://www.smithsonianmag.com/smart-news/these-ant-queens-seem-to-defy-biology-they-lay-eggs-that-hatch-into-another-species-180987292/)GeekNews(https://news.hada.io/topic?id=23186)

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

- CLOSHA : 클라우드 기반 대용량 유전체 분석 플랫폼 - GBOX : 대용량 데이터 고속 전송 서비스 - SFTP : 보안 (SSH) 프로토콜 기반 데이터 전송 서비스

6,288

누적 사용자

91,287

누적 건수
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,371

    바이오프로젝트
  • 161,127

    바이오샘플
  • 2,390,695

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr