메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Metagenome Assembled Genome Analysis pipeline

MAG(Metagenome-Assembled Genome) 분석 파이프라인은 복합 미생물 군집의 시퀀싱 데이터를 이용하여 배양되지 않은 미생물의 유전체를 복원하고, 이를 계통학적 및 기능적으로 분석하기 위한 통합 분석 절차입니다. 이 파이프라인은 원시 시퀀싱 데이터로부터 품질 관리(QC), 어셈블리(assembly), binning, 품질 평가(QC of bins), 계통 분류(taxonomic classification) 및 기능 주석(annotation) 단계로 구성됩니다. 우선 품질 과정 단계를 통해 시퀀싱 데이터의 품질을 확인하고 저품질 리드 및 숙주 서열을 필터링하여 제거합니다. 이후 MEGAHIT를 이용해 정제된 리드로부터 contig를 조립하고, metaQUAST로 어셈블리 품질을 평가합니다. 어셈블리된 contig는 MetaBAT2, MaxBin2, CONCOCT를 이용해 유사한 염기 조성과 커버리지 패턴을 기준으로 유전체 단위(bin)으로 분류됩니다. 그 후 DAS Tool을 이용하여 각 도구의 binning 결과를 통합함으로써 중복을 제거하고 완전도와 정확도를 향상시킨 MAG 세트를 확보합니다. 생성된 MAG에 대해서는 CheckM2를 통해 완전도와 오염도를 평가하고 GTDB-Tk로 계통 분류를 수행합니다. 마지막으로 Prokka를 이용해 예측된 유전자에 대한 기능 주석을 수행합니다. 본 파이프라인은 시료별(single-sample)로 독립 수행되며, MAG 확보와 기능적 해석을 위한 절차로 활용됩니다.
#MAG

Single-Cell-RNA-Sequencing-Pipeline

Transcriptomic Alternative Splicing Analysis Pipeline

RNA-seq Analysis Pipeline은 RNA-Seq 데이터를 처리하고 유전자 발현에 대한 통계적 분석을 수행하는 것을 목표로 합니다. 이 파이프라인은 유전자의 발현 수준을 이해하고 해석하기 위해 실험 데이터의 품질을 평가하고 정제하며, 정렬, 발현 수준 계산, 통계적 분석, 결과 시각화로 구성되어 있습니다.파이프라인의 초기 단계에서는 실험 데이터의 품질 평가와 정제가 이루어집니다. FastQC를 사용하여 실험 데이터의 품질을 검사하고 평가하며, Cutadapt를 활용하여 시퀀싱 어댑터 및 낮은 품질의 리드를 효과적으로 정제합니다.다음으로, STAR 2를 이용하여 리드를 정확하게 유전체에 정렬하고, 각 유전자의 발현 위치를 정밀하게 파악합니다. 그 후, Rsubread 라이브러리의 FeatureCounts를 활용하여 정렬된 리드를 각 유전자에 할당하여 발현 수준을 정량화하고 Count Matrix를 생성합니다.이어지는 단계에서는 R 기반의 edgeR과 limma를 사용하여 발현 수준의 통계적 차이를 식별하고 각 유전자의 발현 변동을 분석합니다. 이 과정에서 control과 test 샘플에는 각각 최소 두 개 이상의 생물학적 복제 샘플이 포함되어야 통계적 분석이 가능하다는 점에 유의해야 합니다. 복제가 없는 경우 잔차 유도가 0이 되어 분석이 실패하거나 결과가 신뢰성을 잃을 수 있습니다. 또한, R 기반의 fgsea를 활용하여 gene set 간의 풍부도를 평가하고, 다양한 시각화 도구를 활용하여 효과적으로 표현합니다. 마지막으로, fgsea의 결과 파일을 이용하여 여러 R 패키지를 통해 데이터 시각화, 그래픽 생성 등 실험 결과를 자세히 분석하고 시각화합니다.전체적으로, 최상위 입력 데이터인 fastq 형식의 RNA-seq raw data로부터 시작하여 품질 보고서인 fastqc.report.html을 생성하고, MA plot, correlation plot, network, volcano plot, heatmap 등의 다양한 시각화 자료를 통해 유전자 발현 및 풍부도를 시각적으로 확인할 수 있습니다. Bio-Express RNA-seq Alternative-splicing Pipeline (이하 AS)은 유전자 발현의 전사체 수준에서 크게 5가지 type의 splicing 양상을 확인할 수 있다.Alternative splicing은 하나의 유전자를 구성하는 복수의 exon (coding region)간의 조합에 따라 여러 transcripts (isoforms)가 생성되며, 이에 따라 하나의 유전자라도 서로 다른 구조를 갖는 단백질이 만들어짐에 따라 기능이 다른 유전자로써 역할을 하게된다. 이러한 메커니즘을 통해 단백질의 폭넓은 capacity 를 확보할 수 있으며, 다양한 분자적 역할이 가능하다. (출처: From Wikipedia, the free encyclopedia) 기본적인 5가지 형태의 이벤트는 아래와 같다. 1. SE (Exon skipping cassette exon) 2. MXE (Mutually exclusive exons) 3. A5SS (Alternative donor site) 4. A3SS (Alternative acceptor site) 5. RI (Intron retention) AS 분석 파이프라인은 아래와 같은 흐름으로 진행됨. 1. Quality Control, 시퀀싱 품질 관리 (by FastQC) 2. Trimming, 아답터 및 low quality 제거 (by Cutadapt, Trimmomatic) 3. Mapping, 레퍼런스 alignment (by STAR, HISAT2) 4. AS detection, 선택적 스플라이싱 탐색 (by rMATs) 5. Visualization, AS 결과 시각화 (by ggsashimi)
#RNA-seq
#Alternative-splicing
#transcriptome

Single-Cell-RNA-Sequencing-Pipeline

Whole Genome Sequencing Somatic Variant Analysis Pipeline

Bio-Express Somatic WGS Pipeline은 전장 유전체 시퀀싱 데이터로부터 체세포 변이를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력 데이터로 사용하고, 종양-정상 쌍 분석을 기반으로 하는 포괄적인 체세포 변이 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, Cutadapt로 어댑터 제거 및 품질 트리밍을 수행하고, BWA-MEM2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 BAM 형식의 정렬 파일을 생성합니다. 이후 GATK 파이프라인을 통해 중복 제거, 매핑 품질 평가, 그리고 저품질 read에 대한 필터링을 수행하며 모든 페어 정보가 일치하는지 확인합니다. SAMtools를 활용한 좌표 기준 정렬과 GATK MarkDuplicates를 통한 PCR 중복 제거를 거쳐, GATK BaseRecalibrator와 ApplyBQSR을 사용하여 알려진 변이 사이트 정보를 공변량으로 활용한 염기 품질 점수 재보정을 수행합니다. 재보정이 완료된 BAM 파일에 대해 먼저 포괄적인 품질 관리 및 샘플 검증 단계를 수행합니다. Somalier를 통한 샘플 관계 검증, SNPmatch를 활용한 변이-SNP마커 통합 분석을 통한 샘플 정체성 확인, VerifyBamID2를 통한 샘플 오염도 평가, 그리고 Mosdepth를 사용한 커버리지 분석을 통해 시퀀싱 데이터의 품질과 신뢰성을 종합적으로 평가합니다. 이어서 종양-정상 쌍 분석 단계로 진입하며, Conpair를 통한 Normal-Tumor 페어 적합성 검증과 교차 개체 오염 수준 추정을 수행합니다. 그 다음 Strelka2와 Mutect2를 통한 단일 염기 변이 및 삽입/결손 변이 검출을 병행하여 체세포 변이의 민감도와 특이도를 극대화합니다. 마지막으로 TINC를 통한 종양 순도 분석과 Manta를 사용한 구조 변이 호출, Canvas를 이용한 복제수 변이 분석으로 포괄적인 체세포 유전체 변화를 정량화하여 암 유전체학 연구와 정밀 의학에 필수적인 정보를 제공합니다. > 기본 참조 게놈: hg38 [중요] 샘플 유형 식별 방법: - 종양 조직 샘플: FASTQ 파일명에 "_T" 포함 필수 - 정상 조직 샘플: FASTQ 파일명에 "_N" 포함 필수 (예시) patient001_T_R1.fastq.gz # 종양 샘플, Read 1 patient001_T_R2.fastq.gz # 종양 샘플, Read 2 patient001_N_R1.fastq.gz # 정상 샘플, Read 1 patient001_N_R2.fastq.gz # 정상 샘플, Read 2
#wgs
#whole-genome sequencing
#somatic mutation
#tumor-normal pair analysis
#cancer genomics
#precision medicine

Single-Cell-RNA-Sequencing-Pipeline

Whole Genome Sequencing Germline Variant Analysis Pipeline

Bio-Express Germline WGS Pipeline은 전장 유전체 시퀀싱 데이터로부터 생식세포 변이를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력으로 사용하고, 개체 유전체 분석을 기반으로 허눈 포괄적인 생식세포 변이 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, Cutadapt로 어댑터 제거 및 품질 트리밍을 수행하고, BWA-MEM2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 BAM 형식의 정렬 파일을 생성합니다. 이후 GATK 파이프라인을 통해 중복 제거, 매핑 품질 평가, 그리고 저품질 read 필터링을 수행하며 모든 페어 정보가 일치하는지 확인합니다. SAMtools를 활용한 좌표 기준 정렬과 GATK MarkDuplicates를 통한 PCR 중복 제거를 거쳐, GATK BaseRecalibrator와 ApplyBQSR을 사용하여 알려진 변이 사이트 정보를 공변량으로 활용한 염기 품질 점수 재보정을 수행합니다. 재보정이 완료된 BAM 파일에 대해 먼저 포괄적인 품질 관리 및 샘플 검증 단계를 수행합니다. Somalier를 통한 샘플 관계 검증, VerifyBamID2를 통한 샘플 오염도 평가, 그리고 Mosdepth를 사용한 커버리지 분석을 통해 시퀀싱 데이터의 품질과 신뢰성을 종합적으로 평가합니다. 이어서 GATK HaplotypeCaller를 이용한 GVCF 파일 생성 및 GenotypeGVCFs를 활용한 표준 VCF 형태의 생식세포 SNV/Indel 변이 탐지를 실행합니다. 후속적으로 BCFtools를 적용한 종합적인 변이 통계 해석을 진행하며, Manta 도구를 통해 구조적 변이를 검출합니다. > 기본 참조 게놈: hg38
#wgs
#whole-genome sequencing
#germline mutation
#individual genomic analysis

Single-Cell-RNA-Sequencing-Pipeline

ChIP-seq Analysis Pipeline

Bio-Express ChIP-seq Analysis Pipeline은 크로마틴 면역침전 시퀀싱(Chromatin Immunoprecipitation Sequencing) 데이터로부터 단백질-DNA 결합 부위를 검출하기 위한 모듈식 분석 파이프라인입니다. 이 파이프라인은 raw FASTQ 파일을 입력으로 사용하고, 전사인자 결합 사이트, 히스톤 변형 영역, 크로마틴 구조 분석을 기반으로 하는 포괄적인 후성유전학적 결합 부위 호출 결과와 품질 평가 및 시각화를 제공합니다. FastQC를 통한 시퀀싱 품질 평가 후, FASTX-Toolkit을 사용하여 저품질 염기 필터링을 진행하고, Bowtie2 정렬 도구를 사용하여 참조 유전체 서열에 매핑하여 SAM 형식의 정렬 파일을 생성합니다. 이후 전처리가 완료된 정렬 파일을 활용하여 후성유전학적 신호 분석 단계로 진입합니다. MACS2(Model-based Analysis of ChIP-Seq)를 통한 통계적으로 유의한 피크 호출을 수행하여 단백질-DNA 결합 부위를 정확히 식별하고, narrowPeak 형식으로 고해상도 결합 영역을 제공합니다. 최종적으로 Homer를 활용한 포괄적인 후속 분석 단계를 수행합니다. annotatePeaks 기능을 통해 검출된 피크의 게놈 위치 주석과 주변 유전자 정보를 제공하고, makeUCSCfile을 사용하여 UCSC 게놈 브라우저와 호환되는 bedGraph 형식의 시각화 파일을 생성하여 크로마틴 면역침전 신호의 게놈 전체 분포 패턴을 직관적으로 확인할 수 있습니다. > 기본 참조 게놈: hg38 [중요] 샘플 유형 식별 방법: - 컨트롤 파일: "CONTROL_"로 시작 필수 (자동 식별을 위한 필수 접두사) - 처리/ChIP 파일: 특별한 파일명 규칙 없음 (예시) CONTROL_input_R1.fastq.gz # 유효한 컨트롤, Read 1 CONTROL_input_R2.fastq.gz # 유효한 컨트롤, Read 2 ChIP_H3K4me3_R1.fastq.gz # 유효한 처리군, Read 1 ChIP_H3K4me3_R2.fastq.gz # 유효한 처리군, Read 2
#chip-seq
#protein-dna binding
#epigenomics
#tfbs
#transcription factor binding sites
#histone modification
#chromatin structure

Single-Cell-RNA-Sequencing-Pipeline

Bacterial Pathogen Analysis pipeline

박테리아의 유전체 어셈블리(genome assembly)가 완료된 후에도, 해당 샘플의 정확한 분류학적 위치를 파악하거나 항생제 내성 및 병원성 유전자의 존재 여부를 확인하기 위해서는 따로 후속 분석이 필요합니다. 이 파이프라인은 GTDB-Tk, MLST, ABRicate의 세 가지 도구를 사용해 이러한 기능을 제공하고 있습니다. 세 프로그램 모두 어셈블리가 완료된 유전체 서열 정보를 FASTA 형식의 파일로 입력받아 분석을 시작합니다. 종 동정(Species Identification) 분석은 GTDB-Tk를 사용하여 수행됩니다. 이 도구는 입력된 유전체 서열을 GTDB에 존재하는 방대한 박테리아 서열 정보와 비교 분석하여, 해당 샘플에 대한 종 수준의 분류학적 정보(Taxonomy)를 출력합니다. 이후 MLST 도구를 사용해 종 수준보다 하위 분류군인 균주(Strain) 정보를 확인할 수 있습니다. 해당 도구는 유전체 전체 서열이 아닌, 하우스키핑 유전자(house-keeping gene) 서열만을 활용하여 분류를 수행합니다. 마지막으로 ABRicate를 사용하여 박테리아 유전체 서열 내에 존재하는 항생제 내성 유전자 및 병원성 유전자에 대한 정보를 확인합니다. 이를 위해 CARD, ResFinder, NCBI AMRFinderPlus, VFDB 등 다양한 전문 데이터베이스의 서열 정보를 이용할 수 있습니다. 이러한 단계별 분석을 통해 단순한 서열 정로부터 taxonomy, 임상적 특성을 포괄적으로 파악할 수 있습니다.
#Bacteria
#Pathogen analysis
#speceis identification

Single-Cell-RNA-Sequencing-Pipeline

Bacterial Assembly pipeline

Bacterial Genome Assembly Pipeline은 bacterial WGS 데이터를 기반으로 QC부터 annotation까지 원스텝으로 분석을 수행할 수 있는 자동화 파이프라인입니다. 해당 Pipeline은 ZGA라는 프로그램을 기반으로 수행되며, read QC, read processing, de novo assembly, genome polishing, assembly QC, annotation 단계로 구성되어 있습니다. 또한, 분석자가 시각점과 끝나는 단계를 지정해서 분석을 수행할 수 있는 장점도 존재합니다. 파이프라인의 초기 단계(Read QC, read processing)에서는 실험 데이터의 품질 평가와 정제가 이루어집니다. fastp를 사용하여 실험 데이터의 품질을 검사하고 평가하며, BBtools의 BBDuk을 활용하여 시퀀싱 어댑터 및 낮은 품질의 리드를 효과적으로 정제합니다. 또한, BBtools의 BBMerge 단계에서 각 paired-reads를 미리 overlap하여 assembly의 효율을 증가시킵니다. 마지막으로 사용자의 선택에 따라 Mash를 사용하여 예상되는 genome size를 예측할 수 있습니다. 두 번째 단계(de novo assembly, genome polishing)에서는 Unicycler, SPAdes, Flye라는 3개의 assembly tool 중에서 하나를 선정하여 de novo assembly를 수행합니다. 그 후, 각 assembly tool에 내장된 기능을 바탕으로 assembled sequence를 polishing하여 genome의 품질을 향상시킵니다. 이어지는 단계(Assembly QC, annotation)에서는 checkM을 이용하여 genome completeness, contamination, heterogeneity를 확인하여 assembled genome의 품질을 확인합니다. 마지막으로 Bakta를 이용하여 assembled genome에 대한 annotation을 수행하는 것으로 Bacterial Genome Assembly Pipeline은 종료됩니다. 전체적으로, 최상위 입력 데이터인 fastq 형식의 bacteria WGS raw data로부터 시작하여 QC, de novo assembly, assembly QC, annotation까지 분석하실 수 있습니다.
#Bacteria
#assembly
#de novo assembly
KOBICian's Story
“국가통합바이오빅데이터구축사업”은 AI 시대 정밀의료 혁신의 중심축입니다. 21세기에는 데이터가 생명을 이해하는 언어이며, 인공지능은 그 언어를 해독하는 통역자입니다. 이 사업은 국민의 혈액, 조직, 임상정보, 유전체 및 오믹스 데이터를 통합해 국가 차원의 바이오 빅데이터 인프라를 구축하려는 대규모 국가 프로젝트입니다. 단순히 데이터를 모으는 것이 아니라, 세계적으로 인정받는 의료 시스템과 오랜 세월 축적된 개인 의료정보라는 독보적 기반 위에서 추진된다는 점에서 국제적 의미가 큽니다. 우리나라는 공공의료의 신뢰성, 기술 인프라의 완성도, 그리고 의료 데이터에 대한 국민적 신뢰라는 장점을 고루 갖춘 나라로, 바이오·헬스 AI 산업을 세계 수준으로 도약시킬 수 있는 드문 환경을 지니고 있습니다. 우리나라의 의료 시스템은 전 국민을 아우르는 건강보험 제도와 체계화된 국민건강검진 시스템이라는 강점을 갖추고 있습니다. 이를 통해 국민의 진료 기록, 질병 발생 이력, 처방 내역은 물론 정기검진에서 얻는 생체 지표와 임상정보를 장기간 축적해 왔습니다. 다른 나라들이 특정 시점의 의료 데이터를 단편적으로 보유한 데 그친다면, 우리는 국민 개개인의 생애 전반에 걸친 정밀하고 종단적인 건강 이력을 구축하고 있는 셈입니다. 이렇게 장기간에 걸쳐 구축한 데이터는 AI를 통해 질병의 발병 위험을 예측하거나, 치료의 장기적 효과를 분석하는데 필수적인 자산입니다. 우리나라의 의료 데이터는 ‘양’보다 ‘질’에서 탁월하며, 이 고유한 축적 구조가 바로 한국형 AI 정밀의료의 엔진이 됩니다. 그러나 현재 한국의 의료 데이터 활용에는 여전히 높은 규제의 벽이 존재합니다. 개인정보보호법과 생명윤리법 등은 개인의 인권과 안전을 지키기 위한 필수 장치이지만, 실제 연구나 산업 현장에서는 이 규제가 외국보다 더 엄격하게 작용하는 경우가 많습니다. 예를 들어 유럽의 GDPR은 명확한 동의 체계를 전제로 한 ‘활용 중심’의 모델을 구축했지만, 우리나라는 여전히 ‘보호 중심’ 규제에 머무르고 있습니다. 그 결과, 우수한 의료 데이터가 있음에도 불구하고 이를 연구나 산업적 혁신으로 연결하기 어렵습니다. 따라서 데이터 보호와 활용의 균형을 맞추는 정교한 제도, 즉 신뢰를 기반으로 한 데이터 개방 모델의 설계가 시급합니다. 국민이 안심하고 데이터를 제공할 수 있도록 투명성과 통제권을 보장하는 동시에, 연구자와 기업이 공익적 목적 아래 데이터를 적극적으로 활용할 수 있는 길을 열어야 합니다. 국가통합바이오빅데이터구축사업의 진정한 혁신은 임상 데이터와 유전체·오믹스 데이터를 결합함으로써 시작됩니다. 이는 단순한 데이터의 병합이 아니라, 질병의 원인 규명부터 예방, 진단, 치료까지 전 과정을 새롭게 재편하는 지식의 융합입니다. 예를 들어 대규모 개인의 유전적 특성과 생활습관, 환경 요인을 AI가 통합적으로 분석하면 질병이 발생하기 전에 위험 신호를 감지할 수 있습니다. 국내 모 병원에서 위암 환자의 유전체 변이와 장기간 임상 데이터를 AI로 분석해 생존율을 예측한 사례[참고]는, 한국형 데이터의 정밀성과 잠재력을 실증적으로 보여줍니다. 이러한 연구가 더 활발해지기 위해서는, 개인정보 비식별화 기술의 고도화와 함께 연구 목적에 따른 데이터 접근 절차의 합리화가 병행되어야 합니다. 이 방대한 데이터를 진정한 자산으로 전환하기 위해서는 고도의 전문 인력도 필요합니다. 유전체 서열을 정제하고 표준화하며 주석을 달아가는 과정에는 생명정보학자, 임상 데이터 사이언티스트, 데이터 큐레이터 등 다양한 전문가들이 협업합니다. 이들은 AI가 학습할 수 있는 고품질 데이터를 정제하는 엔지니어이자, 국가적 지식자산의 조형자입니다. AI는 인간의 노동을 대체하기보다는, 데이터를 해석·관리·활용하는 새로운 직군을 탄생시킵니다. 특히 국가통합바이오빅데이터구축사업은 한국인의 유전적 특성과 생활양식을 반영한 국민 맞춤형 생명정보 자산을 구축하여, 서구 중심의 데이터 의존도를 낮추고 생명정보 주권을 확보하고자 합니다. 이를 위해 정부는 법적·제도적 규제 개선과 함께 데이터 과학 인재 양성을 국가 전략 차원에서 병행해야 합니다. 결국 우리나라는 AI 시대 정밀의료의 실험실이자 모범국가로 자리 잡을 잠재력을 갖추고 있습니다. 독보적인 종단(장기간에 걸친) 임상 데이터, 최첨단 유전체 정보, 그리고 이를 엮어내는 국가통합바이오빅데이터구축사업이 삼위일체로 작동할 때, 우리는 단순한 기술 수용국을 넘어 글로벌 헬스 데이터 강국으로 도약할 수 있습니다. 다만 이 비전이 현실이 되기 위해서는, 데이터 활용에 대한 과도한 규제를 완화하고 신뢰 기반의 데이터 생태계를 조성하는 일이 선행되어야 합니다. 데이터의 품질과 접근성을 지키는 국가 관리 체계, 이를 운영하고 혁신으로 전환할 전문 인재 생태계가 함께 구축된다면, 그 순환 구조는 곧 한국형 의료 AI의 지속가능한 경쟁력이 될 것입니다. AI와 인간, 기술과 윤리가 조화를 이루는 미래 — 그것이 우리나라가 세계를 향해 그려가는 지능형 바이오헬스 시대의 지도입니다. 데이터로 그리는 생명의 지도!

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

- CLOSHA : 클라우드 기반 대용량 유전체 분석 플랫폼 - GBOX : 대용량 데이터 고속 전송 서비스 - SFTP : 보안 (SSH) 프로토콜 기반 데이터 전송 서비스

6,705

누적 사용자

95,172

누적 건수
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,453

    바이오프로젝트
  • 163,832

    바이오샘플
  • 2,394,042

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr