KR101857735B1

KR101857735B1 - 실험실 내 벡터 오염으로 인해 발생하는 위양 체성변이의 검출 및 제거방법

Info

Publication number: KR101857735B1
Application number: KR1020160020841A
Authority: KR
Inventors: 김상우; 김준호
Original assignee: 연세대학교 산학협력단
Priority date: 2016-02-22
Filing date: 2016-02-22
Publication date: 2018-06-20
Anticipated expiration: 2036-02-22
Also published as: KR20170098648A

Abstract

본 발명은 염기서열 분석 시 벡터 오염(vector contamination)을 동정하는 방법에 관한 것이다. 본 발명자들은 상술한 벡터 오염을 동정하기 위한 기술로서 Vecuum를 제안한다. Vecuum은 이전 방법보다 나은 결과를 내는 것뿐 만 아니라 벡터 동정 문제에 있어 계산 시간을 단축시킬 수 있다. Vecuum 은 또한 이전 기술로는 불가능했었던, 오염된 지놈 부위를 정확하게 동정하고 대부분의 false variants를 검출할 수 있다. 또한, 본 발명자들은 공지된 서열 정보를 Vecuum 에 적용하여, 포유동물의 발현 벡터, 이종이식에서의 마우스 유전자, 및 prepped mRNA (cDNA) 라이브러리를 포함하여 다양한 외부 오염원을 밝혔다. 결과적으로, Vecuum 는 외부 오염에 대한 새로운 품질 관리 방법을 제공함으로써 NGS 시퀀싱 데이터에서 낮은 빈도의 체성 변이 신호(calls)의 신뢰도(reliability)를 향상시킬 것이다.

Description

실험실 내 벡터 오염으로 인해 발생하는 위양 체성변이의 검출 및 제거방법{Methods for identifying and filtering of false somatic variants caused by laboratory vector contamination}

본 발명은 실험실 내 벡터 오염으로 인해 발생하는 위양 체성 변이의 검출 및 제거방법에 관한 것이다. 보다 상세하게는, 본 발명은 체성돌연변이(somatic mutation)를 검출하는 서열분석 과정에서 벡터 오염을 찾아 제거하는 기술에 관한 것이다.

대량 시퀀싱 데이터로부터의 체성돌연변이 검출은 지놈 연구에 있어서의 핵심이다. 최근 서열 분석기술에 있어서, 낮은-빈도의 체세포 변이(low-allelic fraction mutations)(1,2)의 검출 및 샘플 내 유전적 서브클론의 동정(identification)을 위한(3) 체성 돌연변이 검출의 정확성이 매우 향상되었다. 이러한 기술적 진보로 인하여 연구자들은 다양한 질병의 미세환경에서 작용하는 유전적 원인에 대하여 관심을 갖게 되었다. 예컨대, 신경발생학적 기형 연구에서 매우 낮은 빈도의 체성돌연변이를 유발하는 질병을 동정하였고(4-7), 반면 범유전체학에서는 발암에 대한 미생물 병원균의 소 부분집단을 밝혀내었다(8-10). 또한 일반적인 임상실험으로 검출하기 힘든 다른 유전질병을 진단하는데 있어 고효율 차세대 시퀀싱(NGS)의 임상적용의 기회가 많아졌다(11,12).

체성돌연변이 분석 범위가 넓어졌으나, 기계오류, 매핑의 모호성(mapping ambiguity), 부정확한 콜 모델 및 관찰 확률(관측과정에 있어 대체 대립인자의 불가피한 증폭 또는 감소) 등을 포함한 다양한 요인으로부터 잘못된 결과(false findings)가 나올 가능성도 높아졌다. 이들 중, 외부 샘플의 오염은 극미량이라도 연구자들을 당혹스럽게 하는 중대한 오류를 생성할 수 있는 심각한 위험요인이다. 예컨대, 다양한 지놈-시퀀싱 데이터에서 관찰되는 유전적 이상 원인은 예상치 못한 세포주 DNA 가 포함되거나(13), 제조자의 실험 키트가 바이러스 오염되었기 때문이다(14-16). 최근 연구에서는 이러한 현상들이 1000 Genomes Project (1KGP), The Cancer Genome Atlas (TGCA), Cancer Genome Characterization Initiative (CGCI), the Cancer Cell Line Encyclopedia (CCLE), 및 Genetic European Variation in Health and Disease (GEUVADIS) 와 같은 대규모의 국제 프로젝트에서도 빈번한 것임을 보여주었다(17,18). 실험적으로 조절가능한 연구에서는 외부 오염은 일회적인 사건이 아니라 샘플을 다루는데 있어서 나타나는 부수적인 오류이며, 따라서 품질 조절에 있어 보다 체계적인 계산적인 접근법이 요구된다(18).

벡터 오염은 시퀀싱 실험에서 가장 빈번하게 나타나는 문제점 중의 하나로서, PCR-기반 시퀀싱에서 NGS 시퀀싱 영역에 이르기까지 지속적으로 문제가 제기되어 왔다(19-22). 벡터는 다른 오염물들과 비교하여 특이한 문제점이 있는데, 재조합 삽입체가 있다는 것이다. 이종 지놈에서 쉽게 구별할 수 있는 벡터의 백본(backbone) 서열과 달리, 재조합 삽입체의 서열은 샘플 DNA에 일단 섞이게 되면 NGS 서열에서 homogeneous short-read mapping 을 형성하여 분리하기 어렵고; 일반적으로 재조합 삽입체는 타겟 생물체의 유전적 구조에 기반하여 형질도입(trasfection)을 위해 디자인되어 타겟 유전자를 방해하거나 타겟 세포에서 전사체를 발현할 수 있기 때문이다. 또한 인 비트로 또는 인 비보에서의 확인을 위해 벡터 삽입체는 종종 인위적인 돌연변이를 포함하고 있는데, 이는 기능성으로 중요한 부위에서 변종-유사 대체 대립유전자를 생성한다(예컨대, 도 1a, 노란색 x 표시). 이러한 false variants 는 서열분석 결과를 해석하거나 돌연변이를 유발하는 질병의 발병을 평가하는데 있어 심각한 위험을 발생시킨다. 현재 벡터-오염된 리드(reads)를 필터링하는 다양한 방법이 개발되고 사용되고 있다(23, 24). 그러나, 선행기술들은 벡터 백본 서열을 연구하는데 제한되어 있고, 벡터 삽입체로부터 생성되는 변종-포함 리드(reads)를 필터링하는 방법은 전무하다. 따라서 NGS에서 유효성있는 체성돌연변이 분석을 위해서는 전체 오염을 제거할 수 있는 신규한 접근법이 필요하다.

이에, 본 발명자들은 벡터 백본 및 재조합 삽입체를 포함하는 벡터-유래 리드(reads)를 컴퓨터로 예측하여, 내재적인 오염에 의해 유발되는 false variants를 동정할 수 있는 “Vecuum”을 제시한다.

본 명세서 전체에 걸쳐 다수의 논문 및 특허문헌이 참조되고 그 인용이 표시되어 있다. 인용된 논문 및 특허문헌의 개시 내용은 그 전체로서 본 명세서에 참조로 삽입되어 본 발명이 속하는 기술 분야의 수준 및 본 발명의 내용이 보다 명확하게 설명된다.

본 발명자들은 염기서열 분석 시 벡터 삽입체(vector insert)로부터 생성되는 변종-포함 리드(reads)를 필터링함으로써 false variants를 동정할 수 있는 기술을 개발하고자 예의 연구 노력하였다. 그 결과, 본 발명자들은 벡터 백본 및 재조합 삽입체를 포함하는 벡터-유래 리드(reads)를 컴퓨터로 예측하여, 내재적인 오염에 의해 유발되는 false variants를 동정할 수 있는 “Vecuum”을 개발하게 되었다. Vecuum 는 BWA-fastmap 초고속 스크리닝 단계에서 벡터 백본 서열을 검출함으로써 벡터 오염의 존재 및 부위(sites)를 동정한다. 이어, Vecuum 은 인트론이 없는(intron-less) 매핑 특징을 이용하여 재조합 삽입체로부터 short reads를 감지한다(엑손 연결부의 절단리드 또는 비정형 리드, 도 1a, 어두운 갈색의 비정형 리드). 최종적으로, 본 발명자들은 Vecuum가 통계 분석을 이용하여 돌연변이 대립유전자의 관측 기준에 기반하여 벡터-유래 리드에서 false variants 을 동정할 수 있을 확인함으로써 본 발명을 완성하게 되었다.

따라서, 본 발명의 목적은 염기서열 분석 시 벡터 오염(vector contamination)을 동정하는 방법을 제공하는 데 있다.

본 발명의 다른 목적은 염기서열 분석 시 벡터 오염(vector contamination)을 동정하기 위한 방법을 실시하도록 컴퓨터 프로세서를 지시하는 지시사항(instructions)이 포함된(embodied) 컴퓨터-독해가능한(computer-readable) 저장 매체를 제공하는데 있다.

본 발명의 또 다른 목적은 염기서열 분석 시 벡터 오염(vector contamination)을 동정하기 위한 시스템을 제공하는데 있다.

본 발명의 다른 목적 및 이점은 하기의 발명의 상세한 설명, 청구범위 및 도면에 의해 보다 명확하게 된다.

본 발명의 일 양태에 따르면, 본 발명은 다음을 포함하는 염기서열 분석 시 벡터 오염(vector contamination)을 동정하는 방법을 제공한다:

(a) 대상샘플의 염기서열을 분석한 후 참조 지놈(reference genome) 서열과 매칭(matching)하여 매핑(mapping)하는 단계;

(b) 상기 매핑 결과를 토대로 확인된 절단리드(clipped read) 중에서 벡터 백본 서열(vector backbone sequence)이 포함된 리드를 검출하는 단계;

(c) 상기 단계 (b)에서 검출된 리드 중, 엑손 연결부(exon junction)를 포함하는 절단리드를 수집한 후 전사체 서열(transcript sequence)에 얼라인(alignment)하여, 샘플-유래(sample-originated) 리드 및 벡터-유래(vector-originated) 리드를 판단하는 단계;

(d) 상기 단계 (c)의 벡터-유래 리드에서 변이된 대립유전자(mutated allele)를 계수하는 단계; 및

(e) 상기 변이된 대립유전자가 벡터-유래 리드 영역 내에서 우세하게 나타나는 경우 해당 변이를 벡터-유도성(vector-induced) 위양 변이(false positive variant)로 판단하는 단계.

본 발명자들은 염기서열 분석시 벡터 삽입체(vector insert)로부터 생성되는 변종-포함 리드(reads)를 필터링함으로써 false variants를 동정할 수 있는 기술을 개발하고자 예의 연구 노력하였다. 그 결과, 본 발명자들은 벡터 백본 및 재조합 삽입체를 포함하는 벡터-유래 리드(reads)를 컴퓨터로 예측하여, 내재적인 오염에 의해 유발되는 false variants를 동정할 수 있는 “Vecuum”을 개발하게 되었다. Vecuum 는 BWA-fastmap 초고속 스크리닝 단계에서 벡터 백본 서열을 검출함으로써 벡터 오염의 존재 및 부위(sites)를 동정한다. 이어, Vecuum 은 인트론이 없는(intron-less) 매핑 특징을 이용하여 재조합 삽입체로부터 short reads를 감지한다(엑손 연결부의 절단리드 또는 비정형 리드, 도 1a, 어두운 갈색의 비정형 리드); 분자클로닝을 위한 벡터 삽입체는 일반적으로 인트론 없이 cDNA로 구축된다. 최종적으로, 본 발명자들은 Vecuum가 통계 분석을 이용하여 돌연변이 대립유전자의 관측 기준에 기반하여 벡터-유래 리드에서 false variants 을 동정할 수 있음을 확인함으로써 본 발명을 완성하게 되었다.

시퀀싱 기술의 진보는 낮은 빈도의 체성변이 검출 한계를 현저히 낮추었다. 그러나, 이 범위에서의 돌연변이 신호(calling)는 여전히 환경적 오염을 포함하는 많은 요인에 의해 혼동될 수 있다. 벡터 오염은 빈번히 나타나는 문제이며, 벡터 삽입체(vector inserts)는 샘플 서열과 구별하기 매우 어렵기 때문에 특히 문제가 된다. 이러한 삽입체(inserts)는, 다형성(polymorphisms)을 내포하고 있고, 기능적인 돌연변이를 갖도록 조작되어, 해당 부위에서 false variant calls를 일으킬 수 있다. 많은 벡터 스크리닝 방법이 있지만 벡터 백본 서열에만 중점을 두고 삽입체의 오염을 다루지는 못한다. 이러한 문제를 해결하기 위하여, 본 발명자들은 새로운 방법으로서 벡터-유래의 reads 및 resultant false variants 를 동정하는 Vecuum을 고안하였다. 벡터 삽입체는 일반적으로 인트론이 없는(intron-less) cDNAs 로 구축되므로, Vecuum 는 엑손 junction에서 잘려진 패턴(clipping pattern)을 찾아냄으로써 벡터-유래의 reads를 동정한다. False variant calls 는 벡터-유래의 reads에 대한 돌연변이 대립유전자의 편향된 분포(biased distribution)에 기반한다. 가상의 spike-in 데이터에 대한 실험을 통하여, Vecuum 이 100% 정확도로서 93% 의 벡터 오염을 검출할 수 있고, 87% 의 변이-유사 false calls 를 제거해 낼 수 있음을 확인하였다. 공지된 서열 데이터를 Vecuum에 적용시킨 결과, 다양한 외부 오염원에 의해 유발되는 false variants를 검출하는데 있어 Vecuum의 유용성을 알 수 있었다.

본 명세서에서 용어 “벡터 오염(vector contamination)”은 시퀀싱 실험에서 가장 빈번하게 나타나는 문제점 중의 하나로서, 벡터 내의 재조합 삽입체(recombinant insert)에 의한 false variants 가 발생하는 경우를 의미한다. 이종 지놈에서 쉽게 구별할 수 있는 벡터의 백본(backbone) 서열과 달리, 재조합 삽입체의 서열은 샘플 DNA에 일단 섞이게 되면 NGS 서열분석에서 상동성 short-read mapping 을 형성하여 분리하기 어렵고; 일반적으로 재조합 삽입체는 타겟 생물체의 유전적 구조에 기반하여 형질도입(trasfection)을 위해 디자인되어 타겟 유전자를 방해하거나 타겟 세포에서 전사체를 발현할 수 있기 때문에 문제가 된다. 또한 인 비트로 또는 인 비보에서의 확인을 위해 벡터 삽입체는 종종 인위적인 돌연변이를 포함하고 있는데, 이는 기능성으로 중요한 부위에서 변종-유사 대체 대립유전자를 생성하기도 한다.

본 명세서에서 용어 “대상샘플”은 염기서열을 분석하고자 하는 목적대상인 샘플 DNA 및 상기 샘플 DNA의 엑손 서열을 삽입체(insert)로서 포함하고 있는 벡터 DNA를 포함하고 있는 샘플을 의미한다. 벡터 DNA는 샘플 DNA와 동일한 서열의 엑손을 포함할 수도 있으나, 조작된 변이(engineered mutation) 또는 유전적 다형성(genetic polymorphism)를 포함할 수 있으며, 이러한 서열을 포함하는 리드를 제거하는 것이 본 기술의 목적이다.

본 명세서에서 용어 “절단리드(clipped read)”는 시퀀싱 데이터에서 참조지놈(reference genome)에 시퀀스 리드가 온전히 붙지 못하고 잘려서 붙는 리드를 의미한다. 본 발명에서는 이러한 절단리드를 중심으로 벡터에서 유래된 리드들을 추정한다.

이하, 본 발명의 “염기서열 분석 시 벡터 오염(vector contamination)을 동정하는 방법”에 대하여 상세하게 설명한다.

본 발명의 방법은 크게 2 단계로 나누어 볼 수 있다(도 1b 참조): 벡터 오염을 측정하는 단계(step 1) 및 false variant 를 검출하는 단계(step 2). 본 발명의 방법 중 단계 (a) 내지 단계 (b)는 벡터 오염 측정단계에 포함되고, 단계 (c) 내지 단계 (e)는 false variant 검출단계에 포함된다.

I. 벡터 오염의 측정

단계 (a): 대상샘플의 염기서열을 분석하여 매핑(mapping)하는 단계

우선, 대상샘플의 염기서열을 분석한 후, 참조 지놈(reference genome) 서열과 매칭(matching)하여 매핑(mapping)한다.

상술한 바와 같이, 대상샘플은 샘플 DNA 및 벡터 DNA를 모두 포함하고 있으며, 염기서열의 리드 매핑(sequence read mapping)을 통해 read 패턴을 확인할 수 있다. 본 발명에서는 절단리드(clipped read)를 중심으로 벡터-유래 리드를 추정한다.

본 발명의 일 구현예에 따르면, 단계 (a)에서 염기서열 분석방법은 공지된 다양한 시퀀싱 분석방법을 사용할 수 있으며, 본 발명의 특정 구현예에 따르면, 상기 서열 분석방법은 차세대 염기서열 분석방법(Next-Generation Sequencing )이다.

한편, 일반적인 시퀀스 리드 매핑 단계에서는 절단리드(clipped read)가 잘 발생하지 않거나, 비매핑된 리드(unmapped read)로 처리될 수 있으므로, 벡터 오염 분석에 앞서 절단리드를 최대한 회복시키기 위하여 리매핑(remapping) 작업을 추가적으로 진행할 수 있다.

본 발명의 일 구현예에 따르면, 상기 단계 (a) 이후 단계 (b)를 실시하기 전에, 상기 단계 (a)의 염기서열 분석에서 비매핑된 리드(unmapped read)로 처리된 절단리드(clipped read)를 회복시켜 재매핑(remapping)하는 단계를 추가적으로 실시할 수 있다.

이러한 재매핑 단계에서는 서열 매칭 알고리즘으로서 BWA (Burrows-Wheeler Aligner)을 사용할 수 있다. BWA 는 짧은-리드 서열의 얼라인먼트(Short-Read Sequence Alignment)에 사용되는 얼라인먼트 소프트웨어(alignment software)이며, 쌍 서열정렬(pairwise sequence alignment) 및 다중 서열정렬(multiple sequence alignment)에 사용된다. BWA 는 BWA-MEM, BWA-ALN, 또는 BWA-SW 등의 알고리즘을 사용할 수 있다. 본 발명에서는 BWA-MEM를 이용하였으며 BWA-MEM 는 활성화 리드 클리핑에 의해 보다 많은 수의 plausible 벡터 리드를 커버한다.

BWA는 염기서열 리드 매핑 결과로서, BAM (Binary Alignment/Map)의 파일 형식을 제공한다. 각 염기서열 리드는 BWA를 통해 얼라인(align)되며, 이 결과가 BAM 파일에 작성된다. 특정 염기서열 리드가 잘 매치 되는지, 또는 절단 리드인지의 여부를 BAM 파일 내 정보를 통해 확인할 수 있다.

단계 (b): 벡터 서열을 포함하는 리드를 검출하는 단계

이어, 단계 (a)의 매핑 결과(또는 재매핑 결과)를 토대로 확인된 절단리드(clipped read) 중에서 벡터 백본 서열(vector backbone sequence)이 포함된 리드를 검출한다.

보다 상세하게는, 본 발명의 Vecuum 는 우선 벡터 백본 서열 삽입으로서 입력 BAM 의 전체 클리핑 리드 세트를 검사하여 벡터 제한 부위(vr-reads)로부터 생성된 리드를 수집한다. 본 발명에서는 벡터 백본 서열의 데이터베이스로서 UniVec (http://www.ncbi.nlm.nih.gov/tools/vecscreen/univec/)의 1,629 개 벡터 서열 및 AddGene (http://www.addgene.org)의 48,089 개 벡터 서열을 이용하여 구축된 custom 데이터베이스를 사용하였다.

본 발명에 따르면, 상기 단계 (b)는 절단리드 서열과 벡터 백본 서열을 포함하는 참조지놈 데이터베이스(즉, custom 데이터베이스) 서열을 얼라인(alignment)함으로써 실시한다. 본 발명의 특정 구현예에 따르면, 상기 서열 얼라인에는 초고속 short read 얼라인먼트를 수행하도록 디자인된 BWA-fastmap program 을 이용할 수 있다. BWA fastmap 는 절단리드의 서열과 벡터 백본 서열을 포함하는 참조지놈을 얼라인함으로써 매칭되는지 결정한다.

본 발명의 일 구현예에 따르면, 상기 단계 (b)의 벡터 백본 서열이 포함된 리드는 벡터 제한부위(vector restriction site)로부터 생성된 리드(vr-reads)이다.

본 발명의 일 구현예에 따르면, 상기 단계 (b) 이후 단계 (c)를 실시하기 전에, 상기 단계 (b)에서 검출된 리드의 매핑위치에 근거하여, 벡터 내 삽입체(insert)의 지놈 위치(genome position)를 예측하는 단계를 추가적으로 실시할 수 있다. 일차적으로 단계 (b)를 통해 벡터 인서트의 위치가 추정이 되면 벡터 오염된 것으로 볼 수 있다.

상기 단계 (b)에서 검출된 리드는 벡터 제한부위(vector restriction site)로부터 생성된 리드(vr-reads)이고, 상기 vr-reads 를 하기 기준에 따라 분류하여, 3 이상의 조건에 해당되는 vr-reads 를 포함하는 지놈 위치의 경우 벡터 내 삽입체의 후보 지놈 위치로 판단한다: (ⅰ) 절단길이(clipped length) ≥ 20 bp , (ⅱ) 벡터-매칭된 서브서열(vector-matched subsequence)의 길이 ≥ 20 bp, (ⅲ) 매핑 퀄리티(mapping quality) ≥ 30, (ⅳ) 리드 클리핑이 (중간부분이 아닌) 양 말단에서 나타남, (ⅴ) 절단된 서브서열(clipped subsequence)이 벡터 서열과 매칭됨, 및 (ⅵ) 메이트 리드(mate read)가 절단된 서브서열의 바깥쪽에서 매핑되지 않음. 매핑 퀄리티는 확률값에 로그를 취한 값이다(Phred scale).

분류된 vr-reads에 근거하여 추정된 벡터 삽입체의 지놈 위치는 우선 벡터 삽입체가 있는 후보지역으로 선정된다. 리드 클리핑 방향으로 후보 부위가 삽입체(inserts)의 5’ 또는 3’말단인지 결정한다. 5’ 및 3’ 후보 부위의 쌍(pair)이 유전자 내에서 검출된다면, 그 사이의 부위는 벡터 삽입체가 위치하는 장소이며, false variants 가 존재할 것이다.

벡터 삽입체의 위치가 예측되면, vecuum 은 삽입체의 5’ 및 3’ 말단에서 또 다른 vr-read search를 수행한다. 이전에 필터링과정을 거치지 않은 vr-reads (예컨대, 불충분한 길이의 clipped reads)는 clipped 위치가 삽입체 부위와 매칭되면 분석 대상으로서 회복시킨다.

종래 기술의 경우 벡터 서열을 직접 탐색하여 해당 서열을 보유하고 있는 리드를 직접 제거하는 방식으로, 벡터 내 삽입체(insert)는 전혀 제거할 수 없었다. 실제로 위양 체성 변이를 생성하는 부분은 샘플과 동일한 시퀀스를 지닌 삽입체 부분이며 본 발명자들은 이에 착안하여, 엑손 연결부(exon junction)에서의 리드 클리핑(read clipping) 패턴을 활용하여 벡터 내 삽입체까지 제거할 수 있는 기법을 고안한 것이다.

Ⅱ. False variant 검출

단계 (c): 샘플 유래 또는 벡터 유래 리드를 구분하는 단계

단계 (c)는 샘플 유래 리드와 벡터 유래 리드를 구분하여 기록하는 단계로서, 이후 단계에서 variant를 가지고 있는 리드가 샘플 유래인지 아니면 벡터 유래인지 확인할 수 있다.

본 단계에서는, 상기 단계 (b)에서 예측된 벡터 삽입체 위치 내에 포함되는 리드 중 엑손 연결부(exon junction)를 포함하는 절단리드를 수집한 후 전사체 서열(transcript sequence)에 얼라인(alignment)하여, 샘플-유래(sample-originated) 리드 및 벡터-유래(vector-originated) 리드를 판단한다. 상기 전사체 서열은 DNA에서 전사 (transcription)되어 만들어진 mRNA의 집합 및 그들의 서열을 모두 포함한다. 벡터 삽입체는 상기 mRNA 집합 중 어느 하나의 서열을 포함할 수 있다.

상기 단계 (c)는 다음의 방법으로 실시된다: (ⅰ) 상기 얼라인 결과, 절단리드가 클리핑(clipping)없이 완전히 복원되어 매핑되는 경우 해당 절단리드를 벡터-유래 리드로 판단하고; 및 (ⅱ) 얼라인 결과, 절단리드가 엑손과 인트론 서열을 동시에 포함하거나 인트론 서열만을 포함하는 경우 해당 절단리드를 샘플-유래 리드로 판단한다.

한편, 단계 (c)는 엑손 서열만을 포함하고 엑손 연결부(exon junction)의 서열을 포함하지 않는 리드에 대하여 판단을 보류하는 단계를 추가적으로 실시할 수도 있다. 이 경우, 벡터 삽입체 부위 내에서 매핑된 각 리드를 예측 소스 DNA에 따라 3가지로 분류하게 된다: (i) 샘플 DNA로부터의 리드, (ⅱ) 벡터 삽입체로부터의 리드(ve-read), 및 (ⅲ) 미지의 소스로부터의 리드; 벡터 삽입체 서열은 스플라이싱된(spliced) 것이므로 인트론 서열을 포함하지 않기 때문이다. 샘플과 벡터 모두 엑손 내 완전히 매핑된 리드 페어를 생성할 수 있기 때문에(도 2a, uncolored reads), 이러한 리드는 미지의 origin으로 표시한다.

본 발명의 일 구현예에 따르면, 상기 단계 (c)의 벡터-유래 리드는 벡터 제한부위(vector restriction site)로부터 생성된 리드(vr-reads) 및 벡터 엑손 경계(vector exonic border)로부터 생성된 리드(ve-reads)를 포함한다.

상기 단계 (b) 이후 단계 (c)를 실시하기 전에, 벡터 내 삽입체(insert)의 지놈 위치(genome position)를 예측한 경우, 상기 단계 (c)는 상기 “예측된 지놈 위치에 포함되는 리드” 중에서 엑손 연결부(exon junction)를 포함하는 절단리드를 수집한 후 전사체 서열(transcript sequence)에 얼라인(alignment)함으로써 샘플-유래(sample-originated) 리드 및 벡터-유래(vector-originated) 리드를 판단한다.

단계 (d): 변이된 대립유전자(mutated allele)를 계수하는 단계

이어, 상기 단계 (c)의 벡터-유래 리드에서 변이된 대립유전자(mutated allele)를 계수한다. 변이여부는 참조 유전체 (reference sequence)를 기준으로 해당 위치의 염기가 참조 유전체의 염기와 다른 경우 변이 후보로 판단한다. 이것이 참 돌연변이인지 또는 벡터유도성 위양 변이인지는 단계 (e)에서 판단한다.

본 발명에 따르면, 동정된 벡터 삽입체 내의 각 엑손에서, 우선 비-참조 뉴클레오타이드(B alleles)로부터 미스매치가 있는 리드의 수를 카운팅함으로써 가능한 변이 위치를 스크리닝 한다. 본 발명에서는 염기 퀄리티 ≥ 20 인 3 이상의 B alleles 을 가진 지놈 위치를 우선적으로 고려하였다.

본 명세서에서 용어 "B allele"은 참조 유전체(reference genome)를 기준으로 보았을 때 참조 유전체의 서열과 다른 염기(base)를 의미한다. 예컨대, 참조 유전체에서 염색체 1번의 10000번째 위치의 염기가 “A”인데 실제 검사한 샘플에서 “T”가 나왔다면 10000번째 위치에 대해 염기 T를 B allele 로 본다.

본 발명의 일 구현예에 따르면, 상기 단계 (d)는 상기 엑손 서열 내에서 비-참조(non-reference) 뉴클레오타이드(B alleles)와 미스매치(mismatch)를 나타내는 리드 수를 카운팅함으로써 참(true) 돌연변이 및 벡터-유도성 위양 변이(vector-induced false variants)의 위치를 스크리닝한다.

단계 (e): 벡터-유도성(vector-induced) 위양 변이를 검출하는 단계

마지막으로, 상기 변이된 대립유전자가 벡터-유래 리드 영역 내에서 우세하게 나타나는 경우, 해당 변이를 벡터-유도성(vector-induced) 위양 변이(false positive variant)로 판단한다.

본 발명자들은 false variant의 경우, B alleles의 분포가 벡터 기원의 리드(이전 섹션에서 동정된) 쪽으로 현저히 편향될 것이라 가정하였다. 분포 편향(distribution bias)의 유의성(p-value)은 one-tailed Fisher’s exact test 을 이용하여 측정할 수 있다.

본 발명의 특정 구현예에 따르면, 다음의 모든 조건들이 충족되는 경우 위양 변이 (false positive variant)로 판단하였다: (i) B allele 을 가진 plausible 벡터 리드(vr-read 및 ve-read)의 수가 > 3 이고, 벡터 리드에 대한 BAF (B allele frequency)가 > 0.01 인 경우, (ⅱ) B allele 을 가진 샘플-유래 리드의 수가 ≤ 3 이거나, 또는 샘플 리드 BAF 가 ≤ 0.01 인 경우, (ⅲ) reference allele 을 가진 샘플-유래 리드의 수가 ≥ 5 인 경우 및 (ⅳ) one-tailed Fisher’s exact test의 p-value < 0.01 이거나, 또는 모든 샘플-유래 리드가 reference allele을 포함하는 경우.

본 발명의 다른 양태에 따르면, 본 발명은 염기서열 분석 시 벡터 오염(vector contamination)을 동정하기 위하여, 하기의 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항(instructions)이 포함된(embodied) 컴퓨터-독해가능한(computer-readable) 저장 매체를 제공한다:

본 발명의 저장매체는 상술한 본 발명의 “염기서열 분석 시 벡터 오염(vector contamination)을 동정하는 방법”을 수행하는 것으로서, 이 둘 사이에 공통된 내용은 본 명세서의 과도한 복합성을 피하기 위하여, 그 기재를 생략한다.

본 발명의 저장 매체는 당업계에 공지된 다양한 저장 매체, 예컨대, CD-R, CD-ROM, DVD, 플래쉬 메모리, 플로피 디스크, 하드 드라이브, 마그네틱 테이프, MINIDISC, 비휘발성 메모리 카드, EEPROM, 광학 디스크, 광학 저장매체, RAM, ROM, 시스템 메모리 및 웹 서버를 포함한다. 본 발명의 일 구현예에 따르면, 상기 저장 매체는 웹 서버이다. 본 발명의 저장 매체는 염기서열 분석 시 벡터 오염(vector contamination)을 동정하기 위하여 컴퓨터 프로세서를 지시하는 지시사항을 포함하고 있다.

본 발명의 또 다른 양태에 따르면, 본 발명은 다음을 포함하는 염기서열 분석 시 벡터 오염(vector contamination)을 동정하기 위한 시스템을 제공한다: (a) 컴퓨터 프로세서; 및 (b) 본 발명의 컴퓨터-독해가능한(computer-readable) 저장 매체.

본 발명의 시스템은 상술한 본 발명의 저장매체를 포함하는 것으로서, 이 둘 사이에 공통된 내용은 본 명세서의 과도한 복합성을 피하기 위하여, 그 기재를 생략한다.

본 발명의 시스템은 다양한 요소(element)를 포함할 수 있으며, 예를 들어, 벡터 유래 서열정보 데이터베이스, 데이터베이스에 기반한 관련 검색결과를 추출하는 프로세서, 쿼리 서열과 매칭되는 서열을 포함하는 리드를 추출하는 프로세서, 쿼리 서열과 매칭되는 서열을 포함하는 리드 중 일정조건에 합치되는 리드를 추출하는 프로세서, 리드의 지놈위치를 예측하는 프로세서, 샘플과 벡터 유래 리드를 구분하는 프로세서, 벡터 유래 리드로의 편향성을 보이는 변이를 검출하는 프로세서 등을 포함하도록 구축할 수 있다.

본 발명의 특징 및 이점을 요약하면 다음과 같다:

(a) 본 발명은 염기서열 분석 시 벡터 오염(vector contamination)을 동정하는 방법에 관한 것이다.

(b) 본 발명자들은 상술한 벡터 오염을 동정하기 위한 기술로서 Vecuum를 제안한다. Vecuum은 이전 방법보다 나은 결과를 내는 것뿐 만 아니라 벡터 동정 문제에 있어 계산 시간을 단축시킬 수 있다.

(c) Vecuum 은 또한 이전 기술로는 불가능했었던, 오염된 지놈 부위를 정확하게 동정하고 대부분의 false variants를 검출할 수 있다.

(d) 또한, 본 발명자들은 공지된 서열 정보를 Vecuum 에 적용하여, 포유동물의 발현 벡터, 이종이식에서의 마우스 유전자, 및 prepped mRNA (cDNA) 라이브러리를 포함하여 다양한 외부 오염원을 밝혔다.

(d) 결과적으로, Vecuum 는 외부 오염에 대한 새로운 품질 관리 방법을 제공함으로써 NGS 시퀀싱 데이터에서 낮은 빈도의 체성 변이 신호(calls)의 신뢰도(reliability)를 향상시킬 것이다.

도 1a-1b 는 Vecuum 의 전체적인 작업 흐름도(workflow)를 보여준다. (1a) 서로 다른 기원의 샘플(회색) 및 재조합 벡터(밝은 갈색 및 어두운 갈색) DNA로 구성된 오염된 조직의 시퀀스 리드(sequence reads). 벡터 삽입체 리드의 일반적인 매핑으로 인해, 조작된 돌연변이는 낮은 빈도의 변이로서 관찰될 수 있다(노란색 마크). 재조합 삽입체는 일반적으로 인트론 서열을 포함하지 않으므로, 엑손 연결부위(exon junctions)에서 벡터-유래의 리드로 인해 특이한 매핑 패턴을 만들어 내며(clipped and discordant reads), 이는 false variants를 동정하기 위한 단서를 제공한다. (1b) 분석과정은 크게 2단계로 구성되며, 각각 세부적인 단계(sub-processes)를 포함한다. 벡터 오염 측정 단계에서, Vecuum 는 벡터 오염을 체크하고 삽입 부위를 예상한다. 다음 단계에서 예상된 삽입 부위 내에서 False variants 를 측정하였다. 확률 스코어(probability score)가 있는 false variants 가 결과로서 제공되었다.
도 2a-2b 는 리드 오리진(read origin) 예측 및 false variant 검출에 관한 것이다. (2a) 삽입부위의 모든 리드는 엑손 연결부에서의 매핑 패턴에 따라 벡터(갈색 리드) 및 샘플(회색 리드) 유래 리드로 분류되었다. 엑손 연결부에서 끊어지는/절단된(clipped) 또는 비정형(discordant) 리드는 매핑 패턴이 표준 전사체 매핑(reference transcriptome mapping)을 나타내는 정상 패턴으로 회복된다면 ve - reads 로서 간주된다. 엑손 내에서 완전히 매핑된 리드페어(read pairs)는 미지(unknown)의 것으로 표시하였다(uncolored reads). (2b) False variants 벡터-유래의 리드에 대하여 돌연변이 유전자의 편향된 분포에 기반하여 검출되었고, one-tailed Fisher’s exact test로 평가하였다. 검출된 돌연변이는 위치에 따라 1차 및 2차 변이로 분류되었고, 절단된(clipped) 또는 비정형(discordant)의 변칙적인(anomalous) 리드가 변종을 나타내는 것인지 결정하였다.
도 3a-3c 는 벡터-유래 리드의 동정을 위한 비교실험을 나타낸다. (3a) 검출된 벡터-유래 리드의 precision, recall, 및 F-score 를 측정하였다. Vecuum 은 ve-reads 검출에 따른 recall에 있어 다른 기술보다 뛰어나다. (3b) 실제(practical) recalls 은 이론적으로 분리될 수 없는 미지의 reads를 제거함으로써 재평가되었다. Vecuum 은 검출가능한 대부분의 리드를 성공적으로 표시하였으나, 다른 툴들은 이를 감지하지 못했다. (3c) 벡터-유래 리드를 검출하는 각각의 방법에 의한 백만 리드 당 계산시간. 전체 시뮬레이션된 세트로부터 2,000 개 datasets 를 무작위로 선별하여 실험하였다. 동일한 작업수행을 배교하기 위하여, 벡터 서열을 포함하는 리드를 검출하는 Vecuum의 세부과정(subprocess)에 의한 시간을 추가적으로 측정하여 비교하였다(annotated as Vecuum (partial)).
도 4a-4g 는 가상의 데이터세트를 위한 false variant 검출을 수행한 것이다. (4a) 11,546 개의 가상 돌연변이(벡터-삽입체 포함)와 9,665 개의 MuTect calls 간의 BAF 분포 비교. 가상 돌연변이의 대부분은 BAF 와 관계없이 MuTect에 의해 나타났다. (4b) Vecuum에 의해 검출된 false variants의 Precision, recall, 및 F-score (청색 막대). 매뉴얼 큐레이션으로, 모든 false positive calls (의도적으로 삽입되지 않은 신호)는 벡터-유도성 돌연변이로 확인되었다(도 4b-E 참조). 참값(true answers)으 추가적인 벡터-유도성 돌연변이를 고려하여, Vecuum은 high recall value 로서 완벽한 정확도를 실현하였다(오렌지색 막대). (4c) Vecuum calls의 p-value 로 그려진 ROC 커브(AUC=0.911). (4d) 각 BAF 범위에 대한 검출 false variants 의 precision, recall, 및 F-scores. 큐레이션된 응답을 추가적으로 표시하였다(오렌지색 막대). 오염부위가 잘못 예측되었기 때문에 BAF 로서 0.1 이하의 상대적으로 낮은 recalls 이 관측되었다. (4e) 가상 데이터세트의 called false variants의 3가지 다른 유형. 가상(조작된) 돌연변이 외에, 유전적 다형성 및 클리핑 에러(clipping errors)에 의해 false variants가 추가적으로 유도되었다(실험결과 참조). 이러한 클리핑 에러는 read-depth 감소를 동반하였는데, 대부분의 ve/vr-reads가 해당 부위에서 적절히 잘렸기 때문이다. (4f) 1차(primary) 및 2차(secondary) 변이의 비교. 대부분의 false negatives 는 2차 변이에 의해 생성되었다. (4g) 주어진 라이브러리 크기에 따른 전체 엑손 비율. 약 86%의 인간 엑손은 170 bp (점선)의 가상 라이브러리 크기를 모두 커버할 수 있다. BAF, B allele frequency; ROC, receiver operating characteristic; AUC, area under the curve.

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.

실시예

실험방법

실험방법의 개요

벡터 오염 및 resultant false variants 을 검출하기 위한 전체적인 작업흐름도를 도 1에 표시하였다. 일반적으로 벡터-유래 리드(vector-originated reads)는 샘플 기원, 특히 같은 생물종 내의(intra-species) 오염에 의한 리드와 구별하기 어렵다. 그럼에도 불구하고, 매핑된 리드의 일부는 2가지 증거에 의해 벡터-유래의 것으로 생각된다. 첫째, 벡터의 제한부위(restriction site)에서 생성된 리드는 벡터 백본 서열이 삽입된 것으로 볼 수 있어 잘려지기 쉽다(도 1a, 밝은 갈색 리드). 둘째, 벡터 삽입체 내에서 엑손 경계를 가로지르는 리드는 엑손 연결부(exon junction sites)(w.r.t. 참고 지놈)에서 잘려지기 쉽고, 및/또는 인트론 서열이 없으므로 비정형의 paired-end 매핑(2개 말단 사이의 거리)을 형성한다(도 1a, 어두운 갈색의 절단된/비정형 리드). 리드 타입 및 이들의 메이트(mates)는 타당해 보이는 벡터 리드이며, Vecuum 의 전체적인 과정에서 중요한 역할을 한다.

Vecuum 은 입력(input)으로서 잠재적으로 오염된 샘플로부터의 paired-end sequencing (BAM) 얼라인먼트(alignment)를 이용한다. 얼라인먼트 데이터는 리드 분류 (w.r.t. genomic coordinates), 중복 제거 및 인덱싱(indexing)을 포함하여 적절히 전처리된(pre-processed) 것으로 추정된다. 상기 분석은 연속된 2 단계로 구성된다: i) 벡터 오염 평가 및 ⅱ) false variant 검출. 벡터오염 평가 단계에서, Vecuum 는 우선 벡터 백본 서열을 포함하도록 입력 BAM 의 전체 클리핑 리드 세트를 검사하여 벡터 제한 부위로부터 생성된 리드(vr-reads)를 수집한다. vr-reads의 클리핑되지 않은(정렬된, aligned) 부분은 벡터 삽입체의 지놈부위에 위치한다. 만약 잠재적인 삽입 부위에서 vr-reads 의 수가 충분히 확보되면, Vecuum 는 벡터 오염을 확인하고, false variant 검출 단계로 이동한다. 일단 벡터 삽입체의 위치가 결정되면, 벡터 엑손 경계로부터 생성된 리드(ve-reads)는 리드 클리핑 및 전사체 매핑에 근거하여 삽입 부위에서 추출된다(하기 실험방법 참조). vr-reads 및 ve-reads 는 최종적으로 타당하다고 생각되는(plausible) 벡터 리드를 포함한다. 수집된 plausible vector reads를 이용하여, Vecuum 는 삽입부위 내 모든 매핑된 리드를 매핑 패턴에 따라 벡터- 및 샘플-유래로 분류한다. 마지막으로, Vecuum 는 벡터 유래 false variants를 동정하기 위하여 미스매치가 벡터 유래로 편향된 것인지 분석한다.

BWA-MEM 를 이용한 매핑되지 않은 리드의 재매핑(remapping)

벡터 오염 및 false mutations 의 검출은 수집된 plausible 벡터 리드에 의해 가능하다. 따라서 수집 과정(collection process)을 최적화하는 것은 최상의 성과를 위해 가장 중요한 준비단계라 할 수 있다. 모든 short-read aligner 는 조작 미스매치에서 서로 다른 전략을 가지며, 이는 plausible 벡터 리드 써치에서 감응도(sensitivity)에 영향을 준다; 더 엄격한 aligner 는 불완전한 얼라인먼트한 대부분의 vr- 및 ve-reads 를 제거하며, 다른 서열을 포함할 수도 있는 일부 얼라인된 리드가 남아서 돌연변이 신호(calls)를 나타낸다. 이는 단지 벡터 오염 정보를 상실한 것뿐만 아니라 완전히 검출불가능한 false mutations를 생성한 것이다. 따라서, 가능한 한 많은 plausible 벡터를 수집하기 위하여 관대한(lenient) aligner가 첫 번째 단계에서 사용되어야 한다.

BWA-MEM 는 보다 유연한 리드 클리핑을 통하여 참조 서열에 대한 최대 일치(match)를 찾아내도록 하고, 다른 aligner와 비교하여 clipped alignment에 대하여 우수한 성능을 보여준다(25). 같은 용도로서 BWA 의 이전 버전인 BWA-ALN (26)와 비교하여, BWA-MEM 는 활성화 리드 클리핑에 의해 보다 많은 수의 plausible 벡터 리드를 커버한다. 다수의 이용가능한 서열 얼라인먼트 데이터가 비(non) BWA-MEM aligner로 프로세싱되므로, Vecuum 는 가능한 제거된 plausible 벡터 리드를 회복시키기 위하여 입력 데이터로부터 모든 비매핑된 리드를 재매핑하였다.

벡터 삽입부위의 추정

이 단계에서 Vecuum 는 벡터 오염의 존재 및 해당 지놈 위치를 결정하기 위해 입력 데이터를 검사한다. 우선, Vecuum 는 모든 클리핑된 리드를 수집하고, custom vector 데이터베이스에 이들의 전체 서열을 문의하여 벡터 백본 서열을 포함한 리드를 찾는다. custom database 는 UniVec (http://www.ncbi.nlm.nih.gov/tools/vecscreen/univec/)의 1,629 개 벡터 서열 및 AddGene (http://www.addgene.org)의 48,089 개 벡터 서열을 이용하여 구축되었다.

지속적인 수요에 따라, 많은 방법이 개발되었고 low to high 처리 시퀀싱 데이터에서 벡터 서열 동정에 적용되었다(23,24). 대부분의 방법은 뉴클레오타이드 BLAST (BLASTN)에 기반한 서열 쿼리(벡터 서열에 대한) 모듈을 수행하는데 이는 시간이 많이 소요된다. 이러한 방법 대신, 본 발명자들은 gaps 을 허용하지 않고 특별히 초고속 short read 얼라인먼트를 수행하도록 디자인된 BWA-fastmap program (27)을 이용하였다. 개념적으로 custom vector database 는 참조 지놈 (많은 contigs를 가진)으로 사용되며, 쿼리 서열과 얼라인함으로써 매칭되는지 결정한다. 쿼리를 수행한 후, 벡터 제한 부위의 리드(vr-reads)를 다음 기준에 따라 구분한다: (ⅰ) 절단길이(clipped length) ≥ 20 , (ⅱ) 벡터-매칭된 서브서열(vector-matched subsequence)의 길이 ≥ 20, (ⅲ) 매핑 퀄리티(mapping quality) ≥ 30, (ⅳ) 리드 클리핑이 (중간부분이 아닌) 양 말단에서 나타남, (ⅴ) 절단된 서브서열(clipped subsequence)이 벡터 서열과 매칭됨, 및 (ⅵ) 메이트 리드(mate read)가 절단된 서브서열의 바깥쪽에서 매핑되지 않음. 최종 조건은 부분적으로 벡터 서열과 상동인 샘플 리드의 오분류(misclassification)를 피하기 위한 메이트 제한(mate constraint)이다. 모든 기준치(thresholds)는 사용자의 입력에 의해 조절가능하다.

분류된 vr-reads에 근거하여, 벡터 삽입체의 지놈 위치를 추정한다. 3 이상의 vr-reads에 의해 뒷받침되는 클리핑 위치는 처음에는 벡터 삽입 부위의 후보로 판단한다. 리드 클리핑 방향은 후보 부위가 삽입체(inserts)의 5’ 또는 3’말단인지 결정한다. 5’ 및 3’ 후보 부위의 쌍(pair)이 유전자 내에서 검출된다면, 그 사이의 부위는 벡터 삽입체가 위치하는 장소이며, false variants 가 존재할 것이다. 하나의 삽입체 말단 (5’ 또는 3’)을 가지는 부위는 false 표시로 간주한다.

벡터 삽입 부위가 예측되면, Vecuum는 5’ 및 3’ 삽입체 말단에서 또 다른 vr-read search를 수행한다. 이전에 필터링과정을 거치지 않은 vr-reads (예컨대, 불충분한 clipped 길이)는 clipped 위치가 삽입체 부위와 매칭되면 회복된다(see Supplementary Figure S3). 매핑 퀄리티 및 메이트 리드 제한은 샘플 리드의 오분류 예방에서 보존된다.

벡터 및 샘플-유래 리드의 분리

벡터 삽입체 부위 내에서 매핑된 각 리드를 예측 소스 DNA에 따라 3가지로 분류하였다: (i) 샘플 DNA로부터의 리드, (ⅱ) 벡터 삽입체로부터의 리드(ve-read), 및 (ⅲ) 미지의 소스로부터의 리드. > 5 bp 의 인트론으로 매핑된 리드는 샘플-유래인 것으로 판단하였다(도 2a, 회색 리드). 벡터 삽입체 서열은 스플라이싱된(spliced) 것이므로 인트론 서열을 포함하지 않기 때문이다. 본 발명자들은 ve-reads를 동정하기 위하여 2가지 다른 표시(signatures)를 이용하였다(도 2a, 어두운 갈색 리드). 우선, 엑손-연결부에서 모든 clipped reads를 참조 전사체(reference transcriptome)에 얼라인하였다. 전체 서열이 클리핑없이 매핑되는 경우 clipped read를 ve-read로 판단하였다. 이와 유사하게, 평균 삽입체 크기로부터 3 표준편차 범위 내에 있는 전사체 매핑에서 회복된 비정형 리드 페어(discordant read pairs) 또한 ve-reads로 판단하였다.

어떤 소스(샘플 또는 벡터)는 엑손 내에서 완전히 매핑된 리드 페어를 생성할 수 있기 때문에(도 2a, uncolored reads), 분류는 그 자체로 이용할 수 없다. 이러한 리드는 미지의 origin으로 표시하였다.

벡터-유도된 false variants의 검출

동정된 벡터 삽입체 내의 각 엑손에서, 우선 비-참조 뉴클레오타이드(B alleles)로부터 미스매치가 있는 리드 수를 카운팅함으로써 가능한 변이 위치를 스크리닝 하였다. 디폴트에 의해, 염기 퀄리티 ≥ 20 인 3 이상의 B alleles 을 가진 지놈 위치를 우선적으로 고려하였다; 이러한 위치는 참(true) 돌연변이 또는 벡터-유도성 false variants 이다. 본 발명자들은 false variant의 경우, B alleles의 분포가 벡터 기원의 리드(이전 섹션에서 동정된) 쪽으로 현저히 편향될 것이라 가정하였다. 분포 편향(distribution bias)의 유의성(p-value)은 one-tailed Fisher’s exact test 을 이용하여 측정하였다. 본 발명자들은 해당 지놈 위치에서 다음의 모든 조건들이 충족된다면 변이(variant)가 잘못 유도된 것으로 정의하였다: (i) B allele 을 가진 plausible 벡터 리드(vr-read 및 ve-read)의 수가 > 3 이고, 벡터 리드에 대한 BAF (B allele frequency)가 > 0.01 인 경우, (ⅱ) B allele 을 가진 샘플-유래 리드의 수가 ≤ 3 이거나, 또는 샘플 리드 BAF 가 ≤ 0.01 인 경우, (ⅲ) reference allele 을 가진 샘플-유래 리드의 수가 ≥ 5 인 경우 및 (ⅳ) one-tailed Fisher’s exact test의 p-value < 0.01 이거나, 또는 모든 샘플-유래 리드가 reference allele을 포함하는 경우. 조건 (i) 및 (ⅱ)의 기준치(thresholds)는 시퀀싱 오류로부터의 false calls를 제외하도록 세팅된다(6). 샘플-유래 리드 및 plausible 벡터 리드의 최소 컷-오프 값은 Fisher’s exact test에서 유의성 레벨 < 0.01을 만족하도록 결정된다. 미지 기원의 B allele의 리드는 초기 유의성 실험에서는 제외하였지만, 이후에 위치가 false variant로서 나오는 경우 plausible 벡터 리드로 보았다.

Vecuum 은 입증 자료에 따라 두 가지 다른 타입의 false variants 를 생성한다(calls). 엑손 연결부(exon junctions)에서 하나의 리드 길이 내에 있는 변이는 clipped 리드 및 discordant 리드에 의해 모두 커버된다(도 2b, 적색 음영 부분), 반면 양쪽 엑손 연결부에서 1 리드 길이 이상 떨어져 위치한 변이는 단지 discordant 리드에 의해서만 커버된다(도 2b, 노란색 음영 부분). 증거 레벨은 이전에 형성된 것 보다 높기 때문에 본 발명자들은 2가지 증거를 각각 1차 및 2차로 보았다. 최종적으로 Vecuum은 증거레벨로서 아노테이션된 벡터 오염 및 예상 false variants 의 지놈 위치 리스트를 기록한다. 깔끔한 얼라인먼트(BAM)는 선택적으로 입력 데이터로부터의 모든 벡터-유래 리드를 필터링 함으로써 제공된다.

검증을 위한 데이터 준비(Data preparation for validation)

(i) 가상 데이터(simulated data) Vecuum 성능을 시험하기 위해, 벡터 오염과 유사한 가상 데이터세트를 생성하였다. 우선, “in silico cloning workflow”에 따라 CLC Genomics Workbench (http://www.clcbio.com) 를 이용하여 인위적인 재조합 벡터를 구축하였다. 전체 19개 포유류 발현 벡터 백본이 51 개의 종양 억제자(tumour suppressor) 및 종양유전자(oncogenes)와 재조합되어 969 개 초기 재조합 벡터를 형성하였다. 이들 중 7개는 적절한 제한부위(restriction sites)가 없어 제외시키고 962 개 벡터를 실험에 사용하였다. 각각의 재조합 벡터는 유전자 부위(벡터 삽입체) 내의 무작위적인 위치에서 하나의 점 돌연변이(point mutation)를 포함하도록 구성되었다. 돌연변이 시뮬레이션은 각 재조합 벡터에 대하여 독립적으로 2번 반복되었고, 특이 돌연변이를 포함하는 1,924 개 인공 재조합 벡터를 생성하였다.

정상 혈액 샘플 (~250X coverage)의 WES (paired-end whole-exome sequencing) 데이터를 준비하여 샘플 DNA로서 제공되었다. 각 재조합 벡터 서열을 위해, 샘플 WES 데이터에서와 같이(101 x 2 bp 리드 길이 및 170 bp ± 60 bp 단편 크기) 같은 리드 길이 및 단편 크기를 갖도록 가상의 paired-end 리드를 생성하였다. GemSim (28)을 이용하여 추가 동정을 위해 모든 리드명에 해당 벡터 ID를 태깅한 Illumina paired-end 오류 모델을 가지는 -1,000X 커버리지(다운샘플링에 충분한 커버리지)를 위한 가상 리드를 생성하였다. 하나의 재조합 벡터로부터의 각 가상 리드 세트를 위하여, 본 발명자들은 다른 다운샘플링 비율로서 10회에 걸쳐 리드 서브세트를 무작위작으로 추출하였다. 10개의 리드 서브세트를 정장 WES 데이터와 각각 혼합하여 다른 레벨로 오염시켰으며, 인위적으로 오염된 샘플의 19,240 개 얼라인먼트 데이터(BAM)를 구축하였다. 본 발명자들은 7,694 개를 추가로 필터링하였고, 돌연변이 부위에서 B alleles 을 가진 3개 이하의 리드가 매핑되었다; 이러한 샘플의 오염레벨은 NGS 실험에 한정되고, 변이 calling에 영향을 주지 않는다. 마지막으로, 성능 평가를 위해 전체 11,546 개 인공 오염 데이터를 준비하였다.

(ⅱ) Real spike-in data 의도적으로 벡터를 대조군 샘플과 혼합하여 Spike-in 데이터를 준비하였다. 특이 돌연변이를 포함하는 10개 재조합 플라스미드 벡터를 정상 혈액 샘플의 gDNA에 첨가하였다(표 1). 저 레벨 오염과 유사하도록, 재조합 벡터를 1:30 으로 희석하였고, 혈액 gDNA에 대하여 1:200 의 비율이 되도록 하였다. 오염된 DNA는 제조사의 프로토콜에 따라 Illumina HiSeq 2000 를 이용하여 시퀀싱하였다.

실험데이터로 사용된 삽입 돌연변이를 가진 재조합 벡터 정보

Chr	위치(position)	Ref	Alt	유전자	단백질 변이	플라스미드 백본
1	11,174,395	T	C	MTOR	L2427P	pCIG
1	11,174,419	A	G	MTOR	E2419G	pcDNA
1	11,174,420	G	A	MTOR	E2419K	pCIG
1	11,217,230	G	A	MTOR	C1483Y	pCIG
1	11,217,231	T	C	MTOR	C1483R	pcDNA
1	243,736,307	G	A	AKT3	R247H	pcDNA
3	178,951,997	G	A	PIK3CA	D1018N	pBI
9	135,797,259	C	T	TSC1	R204C	pcDNA
9	135,804,196	C	T	TSC1	R22W	pcDNA
11	8,016,630	C	A	EIF3F	L283M	pcDNA

(ⅲ) 공개 서열 데이터 Lim et al. (6)의 Deep WES 데이터세트를 Sequence Read Archive (SRP055482)로부터 다운로드 받았고, 저자들의 허가 후에 Vecuum으로 평가하였다. 마우스 이종이식 연구에서 생성된 2가지 WES 데이터세트는 SRA (SRP056402 및 SRP060313)에서 다운로드 받았다. 익명으로부터의 cDNA 오염이 예상되는 One in-house WES 데이터세트를 이용하여다른 타입의 오염에 의한 false variants 분석을 수행하였다.

실험결과

가상 데이터를 이용한 성능 시험

본 발명자들은 11,546 개 in silico 시뮬레이션 데이터를 이용하여 벡터 오염 및 잘못 유도된 돌연변이를 동정하는데 있어 Vecuum 의 성능을 시험하였다.

시뮬레이션을 신중히 디자인하여 조작된 돌연변이를 포함하고 있는 발현벡터의 실제 구조를 반영하도록 하였다. 정확도(Accuracy) 및 계산시간을 계산하고, 최종 성능에 영향을 주는 여러 요인에 대하여 추가 분석을 요하는 종래의 기술들과 비교하였다.

(ⅰ) 벡터 오염 평가에 대한 성능시험

본 발명자들은 먼저 벡터-유래 리드 검출의 정확성을 평가하였다(도 3). 가상 데이터에서 리드의 유래(true origins)를 아노테이션함으로써, Vecuum 및 다른 툴(VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html), SeqClean (https://sourceforge.net/projects/seqclean/), SeqTrimNext (23) 및 DeconSeq (24))의 precision (call 된 true 벡터리드의 수(#)/ call 된 벡터리드의 수), recall (call 된 true 벡터리드의 수/ 전체 true 벡터리드의 수) 및 F-score (2 x precision x recall / (precision + recall)) 를 계산하였다.

Vecuum은 거의 완벽한 정확도를 보여주었고(0.999), 이는 벡터-유래로서 분류된 거의 모든 리드가 실제 벡터-유래임을 의미한다. 다른 툴은 약간의 false 검출값을 포함하였는데 샘플-유래 리드가 벡터-유래로 잘못 분류된 것이다(precision 0.955-0.995). 일반적으로 BLAST (VecScreen, SeqClean, and SeqTrimNext) 기반의 툴은 BWA (DeconSeq) 기반의 툴보다 정확도가 더 높다. 이에 본 발명자들은 BLASTN 기반 방법이 경험적으로 미세조정(fine-tuned) 파라미터에 의해 벡터 서열 동정에 보다 최적화될 수 있을 것이라 예상하였다. BWA 을 기반으로 함에도 불구하고, Vecuum 은 리드-클리핑 방향 및 메이트-리드 매핑과 같은 특정 필터에 의해 오분류(mis-classification)를 예방할 수 있다.

Vecuum 및 다른 툴들 간의 수행 격차(performance gap)는 recall에서 더욱 두드러진다(도 3a). 다른 툴들은 벡터 제한부위만을 고려함으로써 매핑된 벡터-유래 리드(recall = 0.069-0.109)의 약 10%를 동정할 수 있다. 반면, Vecuum은 절반 이상의 true 벡터 리드를 성공적으로 검출하였다(recall=0.513). 외견상 불완전한 성능은, 단일 엑손 내에서 양 말단이 완전히 매핑되지 않은 미지-유래의 리드 페어로 인한 것이다(도 2a, uncoloured reads). 추가적인 서열 변이가 포함되지 않는다면 이러한 리드는 이론적으로 불가분적인 것이다. 즉, 돌연변이 신호(calling)에서, 리드 페어가 완벽히 매핑된 불가분적이고 무해한 신호는 데이터 상에 남아있더라도 서열 분석에 영향을 주지 않는다. 이러한 신호들은 배제하였을 때, Vecuum에서 practical recall은 0.802 로 증가하였고, 다른 툴에 의한 recall은 여전히 0.2 이하였다(도 3b).

이어, 분석에 필요한 계산시간을 측정하였다(도 3c). 11,546 개 가상 데이터로부터 무작위적으로 2,000개 샘플을 선별한 후 백만(million) 매핑 리드 당 평균 작업시간(run time)을 측정하였다. Vecuum 에는 매핑되지 않은 리드 검색 및 재매핑(remapping) 등 단순한 서열 검색보다 훨씬 많은 분석이 요구되지만, clipped read 추출, fastq-BAM conversion 및 false mutation calling, 전체적인 계신시간 등이 BLASTN 기반 툴 보다 훨씬 적다(512.8 vs. 1244.6-8454.3, 2.4-16.5 배 감소). 향상된 계산 효율의 핵심은 벡터 서열 매칭에서 BWA-fastmap를 사용한 것이다. 서열 검색만을 수행하는 Vecuum 의 일부를 이용하는 추가 분석에서, 전체 소요시간은 30 - 200 배 감소하였다(도 3c, Vecuum(partial)로 표시함).

마지막으로, 오염 부위의 지놈 위치 측정을 위한 성능을 평가하였다. 이전에는 이러한 정보를 제공하는 방법이 없었기 때문에, Vecuum에서만 정확도가 측정될 수 있다. 본 발명자들은 예상 부위의 지놈 위치가 해당 true 코딩 서열을 완전히 커버하는 경우 예상 부위가 정확한 것으로 판단하였다. 11,546 개 벡터 삽입체에서, Vecuum 은 wrong calls 없이 10,748 개 삽입체의 지놈 위치를 정확히 예측하였다(precision=1.0, recall = 0.931). 대부분의 false-negatives 는, 데이터 생성 단계에서 충분하지 않은 vr-reads 가 섞인 샘플에서 생성되었음을 알게 되었다(혼합물 비율은 무작위적으로 각 샘플에 할당되었다). 각 제한부위에서의 상기 3가지 vr-reads 를 이용하여, Vecuum 은 >99% 의 샘플에서 정확한 지놈 위치를 동정할 수 있었다.

(ⅱ) false 변이 검출에 대한 성능시험

가상 데이터세트에서 false 변이를 검출하기 전, 우선 체성돌연변이 신호 상에서 벡터-삽입체 포함 효과를 체크하였다. 11,546 개 변이부위에서, 인위적으로 바뀐 서열 각각은 각 가상 세트에 포함되었고, 11,502 (~99.6%) 개는 모든 필터를 통과한 9,665 (~83.7%) 개를 포함하여 MuTect (1)에 의해 체성 변이로 나타났던 것을 알게 되었다. 9,665 변이의 평균 변이 allele 빈도는 0.013 - 0.796 의 범위 내인 0.443 였고, 벡터 삽입체의 오염으로 인해 낮은-빈도임에도 체성변이의 false discovery 가 나타났다(도 4a).

이어, 본 발명자들은 11,546 개 가상 데이터세트에서 Vecuum 을 수행하여 galse calls의 검출 능력을 평가하였다. Vecuum에서, false 변이 검출은 기본적으로 벡터 오염된 구역으로서 동정된 부위에 시도된다. 따라서, 비동정된(unidentified) 벡터 오염원에 의한 798 개 변이는 제외시켰고, 평가에서는 “failure”로 보았다. 결과를 예정된(intended) 변이 부위와 비교하여 정확도(precision), recall 및 F-score를 측정하였다. 11,546 개 변이에서, 10,150 개 변이가, 예정된 변이 리스트에 포함되지 않은 430 calls 만 포함하는 Vecuum (recall = 0.879)에 의해 성공적으로 검출되었고(precision = 0.959) (도 4b, 청색 막대), 이들은 추가 분석에 의해 최종적으로 true 벡터-유래 변이로 확인되었다(하기 참조). ROC 커브(receiver operation characteristic)는 신호(calls)의 p-value 값으로 그려졌고, 0.911 AUC (area under curve)로 높은 분류 능력(high classification power)을 확인하였다.

추가적으로 본 발명자들은 변이부위에서 검출능(detection performance)과 BAF (B allele frequency) 간의 관련성을 평가하였다. 변이는 BAF 값(0.0-0.1 내지 0.7-0.8, 최대 BAF 는 < 0.8)에 의해 6 bins로 나누어졌고, 각 bin에서 성능을 평가하였다(도 4d, 청색 막대). 정확도(precision)는 BAF > 0.1 인 변이에서 거의 완벽한 것으로 나타났고, 대부분의 비예정(unintended) calls는 BAF < 0.1에서 관찰되었다(precision=0.770). BAF 및 recall 간에는 약한 양의 상관관계가 나타났으나, Vecuum 는 오염 부위의 잘못된 판단으로 인해 BAF < 0.1 (recall=0.725)에서 비교적 낮은 recall을 나타냈지만, BAF > 0.1 (recall=0.868 to 0.930)에서 신뢰성있는 recall 비율을 나타내었다.

Vecuum에 의해 나타난 430 개 변이(잘못 유도된 변이)의 소스(source)를 확인하였으나 가상 데이터의 준비과정에서 인위적으로 생성되지 않았다. 흥미로운 것은 430 개의 모든 변이가 벡터 유래라는 것이다. 수동 검사방법으로부터, 벡터 오염에 의해 false 변이를 생성할 수 있는 2가지 추가적인 메카니즘을 발견하였다(조작된 변이 외에)(도 4e). 첫 번째는 벡터 삽입체의 구축에 사용되었던 샘플 유전자와 cDNA 간의 서열 다형성(polymorphism)이다. 이러한 다형성(대부분은 SNPs 이다)은 의도적인 것을 제외하고는 본질적으로 조작된 변이를 가진 것과 동일하다. 다른 메커니즘은 정확한 clipping 지점을 결정하는데 있어서 얼라인먼트 오류(alignment error)이다(도 4e, 우측). 스플라이싱 또는 제한부위로부터 생성된 벡터 리드는 보통 얼라인먼트 동안 클리핑된다. 클리핑된 염기쌍의 수가 적을 때(예컨대 1), 그러나, 간혹 aligner는 클리핑보다는 미스패치(mismatch)를 선호하고; 미스매치는 또한 리드의 말단에서 잘 나타난다. 정확히 클리핑된 벡터리드의 대부분에서, 미스매치는 signature과 유사한 체성 변이를 형성한다. 2가지 추가적인 메커니즘은 430 개 미예정된 calls를 모두 설명해주며, 이로써 모든 BAF 범위에서 단일 wrong call은 없음을 확인하였다(도 4b 및 4d, 오렌지색 바).

이후, 본 발명자들은 false negatives의 원인을 분석하었다. 대부분의 false negatives 는 1 리드 길이이상 엑손에서 멀리 떨어진 곳에 위치한 2차 변이에 의해 생성되었다(도 4f). 1,396 개 false negatives 에서, 798 개 변이는 미검출된 구역에 위치하였다. 나머지 598 개 변이 중에서 384 개는 2차 변이이고, 엑손을 포함하는 변이의 크기가 큰 이유로 이들 중 대부분은 변이에 이르지 못한 것으로 나타났다. Vecuum 는 예상 벡터 리드에 기반하여 false 변이를 검출하므로, 라이브러리 크기에 따른 false 변이의 검출한계가 있다. 2차 변이의 called 결과는 감응성(sensitivity)이 너무 낮은 것으로 보인다; 그러나 384 개 2차 변이 중 52 개는 특이한 것이고, 나머지는 다른 오염 레벨을 가진 동정된 변이였다. 또한 2차 변이의 전체 수는 1차 변이의 수와 비교하여 상당히 적었고(각각 901개 및 10645개), 이는 인간 엑손 대부분이 일반적인 리드 및 라이브러리 크기에 의해 모두 커버되기 때문이다. 본 발명자들은 주어진 라이브러리 크기에 의해 전체적으로 커버되는 엑손의 비율을 계산할 수 있엇으며, 그 결과 86%의 엑손이 현재 가상의 사이즈에 의해 커버되었다(도 4g). 일반적인 시퀀싱 디자인에 비하여 더 작은 크기의 가상 라이브러리 및 클로닝 사이즈 한계를 고려했을 때, 본 발명자들은 벡터 오염의 경우에서 false 변이 검출의 성능을 뒷받침할 것이라 예상할 수 있었다.

상기 내용을 종합하면, Vecuum 은 벡터 오염을 성공적으로 검출하고 오염된 지놈 위치를 정확하게 예측할 수 있다. Vecuum은 또한 유전적 다형성 및 클리핑 오류를 포함한 인식되지 않은 변이와 더불어, false 변이 검출 성능이 매우 우수함을 보여주었다.

실험데이터를 이용한 성능 시험

실제 시퀀싱 데이터를 이용한 Vecuum 시험을 위하여, 본 발명자들은 전체-진유전체 시퀀싱을 위한 예상(intended) 벡터-오염된 DNA 샘플을 준비하였다. 각 특정 변이를 가진 재조합 벡터를 준비하고 정상 혈액 샘플의 gDNA를 더하였다(상기 표 1 참조). Vecuum 프로세싱 없이 MuTect에 의해 10개 부위 모두 체성변이를 나타내었다. 라이브러리 크기, 리드 길이 및 커버리지 등을 포함하는 시퀀싱 디자인은 가변성을 나타내는 다른 소스를 조절하기 위해 동등하게 가상 데이터세트를 포함하였다.

우선, 오염 부위의 지놈 위치를 예측하는 성능을 평가하였다. Vecuum은 5개의 유전자에 위치한 삽입체(inserts)의 6개 예상 부위를 나타내었다(표 2). 모든 삽입 유전자는 false positive calls 없이 Vecuum에 의해 정확히 예측되었고, 결론적으로 벡터 오염 평가에서 신뢰할만한 성능을 나타내었다. 벡터 서열을 가진 엑손 33의 미세상동성(microhomology)으로 인하여, MTOR의 예측은 엑손 34 말단에서 2 부분으로 나누어져 나타났다.

실험적 시퀀싱 데이터에 대한 Vecuum의 벡터 삽입체 예측 지점

Chr	Start	End	유전자
1	11,167,437	11,204,813	MTOR
1	11,205,063	11,319,466	MTOR
1	243,668,550	243,859,019	AKT3
3	178,947,792	178,952,155	PIK3CA
9	135,771,620	135,804,255	TSC1
11	8,008,900	8,017,567	EIF3F

마지막으로 실험 데이터의 false 변이 검출 정확성을 평가하였다(표 3). 간단히 말하면, Vecuum은 wrong call 없이 유도된 모든 변이를 성공적으로 검출하였다. 또한 1개 추가 부위가 Vecuum에 의해 검출되었으며, 이는 리드 클리핑 인공물(artifact)에 의한 false mutation call인 것으로 나타났다. 가상 데이터에서와 마찬가지로, 조작된 돌연변이 외에 false calling의 다양한 원인이 있음을 다시 알게 되었으며, 이는 Vecuum에 의해 해결될 수 있었다. 다른 흥미로운 점은 돌연변이체 allele 중 BAF 의 큰 분산값(variance)이다(BAF=0.07-1.0, stdev=0.35). 각 플라스미드 오염물의 양은 동일하게 조절된다(-5 ng/plasmid). 본 발명자들은 큰 분산이 혼성화에서의 서로다른 효율성 때문이라고 예상한다. 따라서, 서열 데이터에서 주어진 오염 레벨은 샘플 준비 및 시퀀싱 과정에서 예측하기 매우 여렵다. BAF 의 매우 높은 레벨(변이 allele 을 가진 28,000X 커버리지까지)이 단지 5 ng의 벡터 DNA에 의해 나타날 수 있음을 고려하면, 더 낮은 allele 빈도의 false 변이가 매우 적은 벡터 오염으로 인해 생길 수도 있다.

실험적 시퀀싱 데이터를 통한 false variants callling

Chr	Position	Ref	Alt	유전자	P value	Support type	BAF
1	11,174,395	A	G	MTOR	3.06E-13	Primary	0.28
1	11,174,419	T	C	MTOR	7.91E-05	Primary	0.14
1	11,174,420	C	T	MTOR	3.56E-06	Primary	0.17
1	11,217,230	C	T	MTOR	5.75E-02	Primary	0.07
1	11,217,231	A	G	MTOR	1.61E-03	Primary	0.14
1	243,736,307	C	T	AKT3	1.37E-163	Primary	1.00^a
3	178,951,997	G	A	PIK3CA	1.78E-52	Secondary	1.00^b
9	135,771,620	C	T	TSC1	2.61E-94	Primary	0.46
9	135,797,259	G	A	TSC1	7.86E-03	Primary	0.35
9	135,804,196	G	A	TSC1	8.06E-21	Primary	0.62

^a0.9958에서 반올림

^b0.9979에서 반올림

공개 데이터세트의 적용

본 발명자들은 Vecuum 을 최근 공개된 deep WES datasets에 적용하였다. 이 데이터세트는 중심 대뇌피질 형성이상(focal cortical dysplasia, FCD) 환자에서 시퀀싱되었다(6). FCD는 피질 이상 및 난치성 간질이 나타나는 신경발달 장애로서, 체성 돌연변이에 의해 나타난다(6, 7, 29). 선행연구에서, 본 발명자들은 심층 바이오정보 분석 및 인 비트로/인 비보 기능적 검증을 통하여 낮은 allelic 빈도를 가지는 여러 뇌 체성 돌연변이를 밝혔다. 한편, 인트론과 엑손부위를 모두 커버하는 프라이머 세트를 이용한 deep targeted amplicon sequencing에서 이들을 제외시킴으로써, 샘플 일부에서 기능적인 체성 돌연변이와 유사한 여러 false positive 변이가 함께 존재함을 확인하였다.

이러한 false positive 변이가 본 발명자들의 QC 절차에 따라 최종 리포트에서 엄격히 제외되었음에도 불구하고, 본 발명자들은 이러한 인공물(artefacts)이 지놈 DNA의 준비과정, 특히 벡터와 관련하여 영향을 줄 것이라 생각했다. false positive 변이를 포함하는 포유류의 발현 벡터는 인 비트로 기능 분석을 위해 구축되었기 때문이다.

상기 가능성을 시험하기 위하여, Vecuum (SRP055482) 로 WES의 8개 서열 데이터세트를 실험하였다. 본 발명자들은 8개 deep WES 데이터 외에, 3 개가 벡터-오염된 것으로 검출되었다.(SRR1819827, SRR1819829, 및 SRR1819831). 벡터 삽입체의 예상 위치는 MTOR에서 3개 샘플 모두 동일하였다(chr1:11,167,437-11,319,466). SRR1819827 및 SRR1819829 는 2개의 동일한 false 변이를 보여주었고, 이는 서로 다른 재조합 벡터에 의해 나타났다. SRR1819831 는 2개 변이 중 하나로서, soft-clipped 리드를 포함하는 변이의 부재 때문에 사라졌다. 2개의 추가 false 변이는 2개의 SNP 부위에 있는 SRR1819831에서 나왔고, 다른 샘플의 서로 다른 유전자형에 따라 검출되었다. False 변이의 BAF 는 0.01 내지 0.25 의 범위에 있으며, 이전의 다양한 신경학적 질병연구에서 보고된 true 뇌-특이적 변이의 범위와 매우 유사하며(4-7), 분리과정에서 모호성이 증가하였다. 실험 데이터세트에서 5 ng 의 벡터 DNA에 의해 나타나는 높은 BAF와 비교하여, low-allele frequency (~1%) 는 매우 적은 양의 벡터 DNA에 의한 것으로 보인다(즉, 파이페팅과 같은 실험 작업에 의해 생성되는 에어로졸). 한편, 이러한 결과는 특히 다른 플랫폼에서 생물학적/시퀀싱 복제품과 같은 시퀀싱 확인의 중요성을 보여준다; 이전연구에서는, 혼성-캡쳐 시퀀싱에서는 모든 벡터-유도된 변이가 체성 돌연변이로 나타났지만, 앰플리콘-기반 시퀀싱에서는 나타나지 않았다.

본 발명자들은 Vecuum에 다른 공지 서열 데이터를 적용하여 보다 가능성 있는 오염원을 조사하였다. 이를 위하여, Vecuum 은 벡터 오염 및 오염된 위치의 측정 없이(선택적으로 가능) false 변이 검색을 수행할 수 있다. 전립선 암 연구(SRP060313)에서, 본 발명자들은 13개 샘플 중 10개 샘플에서 651 내지 8,439 의 많은 false 변이를 발견하였다. false 변이가 있는 10개 샘플은 이종이식-유래였으며, 반면, 다른 3개 샘플은 인간 조직 유래였다. called false variants 가 배양된 마우스 세포에서 유래된 것인지 확인하기 위하여, false 변이를 포함하는 리드를 마우스 참조 지놈으로 다시 매핑하였으며, 이들 대부분과 정확히 매칭되는 것을 확인하였다. 인간과 마우스 간, 엑손 서열은 인트론보다 훨씬 보존되어 있기 때문에, 마우스 엑손 경계에서 생성된 서열 리드 일부는 인간 참조서열에 대하여 얼라인먼트시 엑손 연결부에서 클리핑되었고, 결과적으로 false 변이가 생성되었다. 적어도 하나의 false 변이 call을 가지는 413 개 유전자 중에서, 393개는 Metaphor database (30)에 의해 아노테이션된 마우스 오쏠로그(ortholog) 유전자를 가진다. 조합된 참조 지놈(인간+마우스)을 매핑에 사용하였을 때 모든 false 변이가 사라져, 이의 필요성을 확인할 수 있었다(31). 이와 유사하게, 본 발명자들은 같은 메커니즘을 가지고 있는 다른 이종이식-유래 데이터세트(SRP056402)에서 42개 샘플의 전체 5,149 false 변이를 동정하였다. 상기 결과에 기반하여, 보다 공지된 또는 실험실 레벨의 데이터가 유사한 위험성을 가지고 있을 것이며, 추가 검사가 필요하다고 판단하였다.

마지막으로, 본 발명자들은 다른 미지의 샘플에 의한 오염으로 추정되는 익명 개체의 WES 데이터에 Vecuum을 적용시켰다. 이는 비이상적으로 많은 수의 체성변이 calls에 기반한 데이터-제공자로서 알려졌으며, 폐 특이적 유전자(즉, 표면활성 유전자, surfactant gene)에 많고, 본래 조직은 폐에서 수득할 수 없다. 본 발명자들은

엑손 연결부에서 리드 클리핑 패턴에 기반한 prepped mRNA 라이브러리 (cDNA)의 잠재적인 오염을 예측하였다. cDNA 인트론을 포함하지 않기 때문에, 벡터 삽입체와 유사하게, Vecuum 은 즉각적으로 false 변이 검색에 적용될 수 있다. 샘플에서 2,204 개 false 변이를 발견하였고, 이 중 1,626 (~74%) 개는 dbSNP 및 1000 지놈 데이터베이스에 의해 아노테이션되었다. 따라서, 아마도 샘플 준비 과정중, Vecuum을 이용하여 다른 개체로부터의 cDNA 오염이 있는 사건을 재구성할 수 있었다.

결론적으로, 일련의 적용으로 가능한 외부 오염원의 다양성(예컨대, 벡터, 이종이식 지놈 및 cDNA), false 변이 메커니즘의 다양성(예컨대, 벡터 삽입체 및 리드 클리핑 결과물 내의 조작된 변이 및 다형성) 및 샘플의 조작 및 회복에 있어서의 Vecuum의 유용성 등을 재확인하였다.

논의

본 발명자들은 벡터 오염에 의해 나타나는 false 변이를 검출하기 위해 새로운 계산방법인 Vecuum을 개발하였으며, 본 발명의 방법은 이전 방법에 의해서는 불가능한 것이다. 본 발명자들은 엑손 연결부에서 특정 매핑 패턴에 기반한 벡터-유래 리드를 예측하였고, 예측된 벡터 리드에 대한 변이 allele의 비대칭도(skewness)에 기반한 false 변이를 동정하였다. 가상 및 실험적 오염 데이터세트를 이용한 확인은 벡터오염의 일반적인 평가 방법과 비교하여 Vecuum의 우월성을 보여주었을 뿐만 아니라, false 변이 검출에 대한 신뢰도를 보여주었다.

외부 오염에 의한 false somatic calls 발생이 종종 보고되었다. 그러나, 체성 변이 분석에서의 많은 초기 변이가 특별한 이유없이 Sanger 시퀀싱, targeted deep 시퀀싱 및/또는 질량-분광분석 기반의 패널(32) 과 같은 확인단계에서 다시 생성되지 않는데, 이에 대해서는 보고된 바 없다. 이는 오염이 보여지는 것 보다 더 많은 빈도로 존재함을 나타낸다. 또한, high-depth 시퀀싱은 소량의 오염을 동정하는데 필요하다. 낮은-빈도의 체성 변이 분석을 대중화하고 이에 대한 시퀀싱 비용을 현저히 줄이는 것이 오염 문제에 관심을 가져오고, Vecuum은 이에 대한 훌륭한 대비책이 될 것이다.

공개 데이터세트에 대한 적용은 다양한 오염원에 대한 Vecuum의 유용성을 보여주었다. 우리가 볼 수 있는 외부 오염뿐 만 아니라, Vecuum은 내재적인 유사유전자(pseudogenes)에 의한 false 변이도 검출하였다. 본 발명자들이 아는 한, Vecuum 은 false 변이를 검출할 수 있는 유일한 도구이다. 밸리데이션에서 나타난 false 변이 검출의 정확성으로 판단하건대, Vecuum에 의해 동정된 false 변이는 이들의 기원과 무관하게 높은 신뢰도를 가지는 것으로 판단되며, 이는 체성 변이 분석의 품질관리(quality control)에 적용될 수 있을 것이다.

이상으로 본 발명의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적인 기술은 단지 바람직한 구현 예일 뿐이며, 이에 본 발명의 범위가 제한되는 것이 아닌 점은 명백하다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항과 그의 등가물에 의하여 정의된다고 할 것이다.

참조문헌

1. Cibulskis, K., Lawrence, M.S., Carter, S.L., Sivachenko, A., Jaffe, D., Sougnez, C., Gabriel, S., Meyerson, M., Lander, E.S. and Getz, G. (2013) Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nature biotechnology, 31, 213-219.

2. Kim, S., Jeong, K., Bhutani, K., Lee, J., Patel, A., Scott, E., Nam, H., Lee, H., Gleeson, J.G. and Bafna, V. (2013) Virmid: accurate detection of somatic mutations with sample impurity inference. Genome biology, 14, R90.

3. Roth, A., Khattra, J., Yap, D., Wan, A., Laks, E., Biele, J., Ha, G., Aparicio, S., Bouchard-Cote, A. and Shah, S.P. (2014) PyClone: statistical inference of clonal population structure in cancer. Nature methods, 11, 396-398.

4. Jamuar, S.S., Lam, A.T., Kircher, M., D'Gama, A.M., Wang, J., Barry, B.J., Zhang, X., Hill, R.S., Partlow, J.N., Rozzo, A. et al. (2014) Somatic mutations in cerebral cortical malformations. The New England journal of medicine, 371, 733-743.

5. Lee, J.H., Huynh, M., Silhavy, J.L., Kim, S., Dixon-Salazar, T., Heiberg, A., Scott, E., Bafna, V., Hill, K.J., Collazo, A. et al. (2012) De novo somatic mutations in components of the PI3K-AKT3-mTOR pathway cause hemimegalencephaly. Nature genetics, 44, 941-945.

6. Lim, J.S., Kim, W.I., Kang, H.C., Kim, S.H., Park, A.H., Park, E.K., Cho, Y.W., Kim, S., Kim, H.M., Kim, J.A. et al. (2015) Brain somatic mutations in MTOR cause focal cortical dysplasia type II leading to intractable epilepsy. Nature medicine, 21, 395-400.

7. Poduri, A., Evrony, G.D., Cai, X. and Walsh, C.A. (2013) Somatic mutation, genomic variation, and neurological disease. Science, 341, 1237758.

8. Salyakina, D. and Tsinoremas, N.F. (2013) Viral expression associated with gastrointestinal adenocarcinomas in TCGA high-throughput sequencing data. Human genomics, 7, 23.

9. Castellarin, M., Warren, R.L., Freeman, J.D., Dreolini, L., Krzywinski, M., Strauss, J., Barnes, R., Watson, P., Allen-Vercoe, E. and Moore, R.A. (2012) Fusobacterium nucleatum infection is prevalent in human colorectal carcinoma. Genome research, 22, 299-306.

10. Kostic, A.D., Gevers, D., Pedamallu, C.S., Michaud, M., Duke, F., Earl, A.M., Ojesina, A.I., Jung, J., Bass, A.J., Tabernero, J. et al. (2012) Genomic analysis identifies association of Fusobacterium with colorectal carcinoma. Genome research, 22, 292-298.

11. Shirley, M.D., Tang, H., Gallione, C.J., Baugher, J.D., Frelin, L.P., Cohen, B., North, P.E., Marchuk, D.A., Comi, A.M. and Pevsner, J. (2013) Sturge-Weber syndrome and port-wine stains caused by somatic mutation in GNAQ. The New England journal of medicine, 368, 1971-1979.

12. Wilson, M.R., Naccache, S.N., Samayoa, E., Biagtan, M., Bashir, H., Yu, G., Salamat, S.M., Somasekar, S., Federman, S., Miller, S. et al. (2014) Actionable diagnosis of neuroleptospirosis by next-generation sequencing. The New England journal of medicine, 370, 2408-2417.

13. Cantalupo, P.G., Katz, J.P. and Pipas, J.M. (2015) HeLa nucleic acid contamination in the cancer genome atlas leads to the misidentification of human papillomavirus 18. Journal of virology, 89, 4051-4057.

14. Naccache, S.N., Hackett, J., Jr., Delwart, E.L. and Chiu, C.Y. (2014) Concerns over the origin of NIH-CQV, a novel virus discovered in Chinese patients with seronegative hepatitis. Proceedings of the National Academy of Sciences of the United States of America, 111, E976.

15. Xu, B., Zhi, N., Hu, G., Wan, Z., Zheng, X., Liu, X., Wong, S., Kajigaya, S., Zhao, K., Mao, Q. et al. (2013) Hybrid DNA virus in Chinese patients with seronegative hepatitis discovered by deep sequencing. Proceedings of the National Academy of Sciences of the United States of America, 110, 10264-10269.

16. Zhi, N., Hu, G., Wong, S., Zhao, K., Mao, Q. and Young, N.S. (2014) Reply to Naccache et al: Viral sequences of NIH-CQV virus, a contamination of DNA extraction method. Proceedings of the National Academy of Sciences of the United States of America, 111, E977.

17. Laurence, M., Hatzis, C. and Brash, D.E. (2014) Common contaminants in next-generation sequencing that hinder discovery of low-abundance microbes. PloS one, 9, e97876.

18. Strong, M.J., Xu, G., Morici, L., Splinter Bon-Durant, S., Baddoo, M., Lin, Z., Fewell, C., Taylor, C.M. and Flemington, E.K. (2014) Microbial contamination in next generation sequencing: implications for sequence-based analysis of clinical samples. PLoS pathogens, 10, e1004437.

19. Borst, A., Box, A.T. and Fluit, A.C. (2004) False-positive results and contamination in nucleic acid amplification assays: suggestions for a prevent and destroy strategy. European journal of clinical microbiology & infectious diseases : official publication of the European Society of Clinical Microbiology, 23, 289-299.

20. Lopez-Rios, F., Illei, P.B., Rusch, V. and Ladanyi, M. (2004) Evidence against a role for SV40 infection in human mesotheliomas and high risk of false-positive PCR results owing to presence of SV40 sequences in common laboratory plasmids. Lancet, 364, 1157-1166.

21. Tang, K.W., Alaei-Mahabadi, B., Samuelsson, T., Lindh, M. and Larsson, E. (2013) The landscape of viral expression and host gene fusion and adaptation in human cancer. Nature communications, 4, 2513.

22. Tao, Z.Y., Sui, X., Jun, C., Culleton, R., Fang, Q., Xia, H. and Gao, Q. (2015) Vector sequence contamination of the Plasmodium vivax sequence database in PlasmoDB and In silico correction of 26 parasite sequences. Parasites & vectors, 8, 318.

23. Falgueras, J., Lara, A.J., Fernandez-Pozo, N., Canton, F.R., Perez-Trabado, G. and Claros, M.G. (2010) SeqTrim: a high-throughput pipeline for pre-processing any type of sequence read. BMC bioinformatics, 11, 38.

24. Schmieder, R. and Edwards, R. (2011) Fast identification and removal of sequence contamination from genomic and metagenomic datasets. PloS one, 6, e17288.

25. Li, H. (2013) Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv preprint arXiv:1303.3997.

26. Li, H. and Durbin, R. (2009) Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics, 25, 1754-1760.

27. Li, H. (2012) Exploring single-sample SNP and INDEL calling with whole-genome de novo assembly. Bioinformatics, 28, 1838-1844.

28. McElroy, K.E., Luciani, F. and Thomas, T. (2012) GemSIM: general, error-model based simulator of next-generation sequencing data. BMC genomics, 13, 74.

29. Crino, P.B. (2009) Focal brain malformations: seizures, signaling, sequencing. Epilepsia, 50 Suppl 9, 3-8.

30. van der Veen, B.E., Harris, H.M., O'Toole, P.W. and Claesson, M.J. (2014) Metaphor: finding bi-directional best hit homology relationships in (meta)genomic datasets. Genomics, 104, 459-463.

31. Tso, K.Y., Lee, S.D., Lo, K.W. and Yip, K.Y. (2014) Are special read alignment strategies necessary and cost-effective when handling sequencing reads from patient-derived tumor xenografts? BMC genomics, 15, 1172.

32. Pearce, M., Cullinan, A., Hogg, G., Hosseini, D. and Ehrich, M. (2009) Mutation profiling in tumor samples using the Sequenom OncoCarta™ Panel. Nature methods, 6.

Claims

염기서열 분석 시 벡터 오염(vector contamination)을 동정하기 위하여, 하기의 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항(instructions)이 포함된(embodied) 컴퓨터-독해가능한(computer-readable) 저장 매체:
(a) 대상샘플의 염기서열을 분석한 후 참조 지놈(reference genome) 서열과 매칭(matching)하여 매핑(mapping)하는 단계;
(b) 상기 매핑 결과를 토대로 확인된 절단리드(clipped read) 중에서 벡터 백본 서열(vector backbone sequence)이 포함된 리드를 검출하는 단계;
(c) 상기 단계 (b)에서 검출된 리드 중, 엑손 연결부(exon junction)를 포함하는 절단리드를 수집한 후 전사체 서열(transcript sequence)에 얼라인(alignment)하여, 샘플-유래(sample-originated) 리드 및 벡터-유래(vector-originated) 리드를 판단하는 단계;
(d) 상기 단계 (c)의 벡터-유래 리드에서 변이된 대립유전자(mutated allele)를 계수하는 단계; 및
(e) 상기 변이된 대립유전자가 벡터-유래 리드 영역 내에서 우세하게 나타나는 경우 해당 변이를 벡터-유도성(vector-induced) 위양 변이(false positive variant)로 판단하는 단계.
제 1 항에 있어서, 상기 단계 (a)에서 염기서열 분석방법은 차세대 염기서열 분석방법인 것을 특징으로 하는 저장매체.
제 1 항에 있어서, 상기 단계 (a) 이후 단계 (b)를 실시하기 전에, 상기 단계 (a)의 염기서열 분석에서 비매핑된 리드(unmapped read)로 처리된 절단리드(clipped read)를 회복시켜 재매핑(remapping)하는 단계를 추가적으로 실시하는 것을 특징으로 하는 저장매체.
제 3 항에 있어서, 상기 재매핑은 서열 매칭 알고리즘으로서 Burrows-Wheeler Aligner (BWA)을 사용하는 것을 특징으로 하는 저장매체.
제 1 항에 있어서, 상기 단계 (b)는 절단리드 서열과 벡터 백본 서열을 포함하는 참조지놈 데이터베이스 서열을 얼라인(alignment)함으로써 실시하는 것을 특징으로 하는 저장매체.
제 1 항에 있어서, 상기 단계 (b)의 벡터 백본 서열이 포함된 리드는 벡터 제한부위(vector restriction site)로부터 생성된 리드(vr-reads)인 것을 특징으로 하는 저장매체.
제 1 항에 있어서, 상기 단계 (c)는 다음의 방법으로 실시되는 것을 특징으로 하는 저장매체: (ⅰ) 상기 얼라인 결과, 절단리드가 클리핑(clipping)없이 완전히 복원되어 매핑되는 경우 해당 절단리드를 벡터-유래 리드로 판단하고; 및 (ⅱ) 얼라인 결과, 절단리드가 엑손과 인트론 서열을 동시에 포함하거나 인트론 서열만을 포함하는 경우 해당 절단리드를 샘플-유래 리드로 판단한다.
제 1 항에 있어서, 상기 단계 (c)는 엑손 서열만을 포함하고 엑손 연결부(exon junction)의 서열을 포함하지 않는 절단리드에 대하여 판단을 보류하는 단계를 추가적으로 실시하는 것을 특징으로 하는 저장매체.
제 1 항에 있어서, 상기 단계 (c)의 벡터-유래 리드는 벡터 제한부위(vector restriction site)로부터 생성된 리드(vr-reads) 및 벡터 엑손 경계(vector exonic border)로부터 생성된 리드(ve-reads)인 것을 특징으로 하는 저장매체.
제 1 항에 있어서, 상기 단계 (b) 이후 단계 (c)를 실시하기 전에, 상기 단계 (b)에서 검출된 리드의 매핑위치에 근거하여, 벡터 내 삽입체(insert)의 지놈 위치(genome position)를 예측하는 단계를 추가적으로 실시하는 것을 특징으로 하는 저장매체.
제 10 항에 있어서, 상기 단계 (b)에서 검출된 리드는 벡터 제한부위(vector restriction site)로부터 생성된 리드(vr-reads)이고, 상기 vr-reads 를 하기 기준에 따라 분류하여, 3 이상의 조건에 해당되는 vr-reads 를 포함하는 지놈 위치의 경우 벡터 내 삽입체의 후보 지놈 위치로 판단하는 것을 특징으로 하는 저장매체: (ⅰ) 절단길이(clipped length) ≥ 20 , (ⅱ) 벡터-매칭된 서브서열(vector-matched subsequence)의 길이 ≥ 20, (ⅲ) 매핑 퀄리티(mapping quality) ≥ 30, (ⅳ) 리드 클리핑이 (중간부분이 아닌) 양 말단에서 나타남, (ⅴ) 절단된 서브서열(clipped subsequence)이 벡터 서열과 매칭됨, 및 (ⅵ) 메이트 리드(mate read)가 절단된 서브서열의 바깥쪽에서 매핑되지 않음.
제 10 항에 있어서, 상기 단계 (c)는 상기 예측된 지놈 위치에 포함되는 리드 중에서 엑손 연결부(exon junction)를 포함하는 절단리드를 수집한 후 전사체 서열(transcript sequence)에 얼라인(alignment)함으로써 샘플-유래(sample-originated) 리드 및 벡터-유래(vector-originated) 리드를 판단하는 것을 특징으로 하는 저장매체.
제 10 항에 있어서, 상기 단계 (d)는 엑손 서열 내에서 비-참조(non-reference) 뉴클레오타이드(B alleles)와 미스매치(mismatch)를 나타내는 리드 수를 카운팅함으로써 참(true) 돌연변이 및 벡터-유도성 위양 변이(vector-induced false variants)의 위치를 스크리닝하는 것을 특징으로 하는 저장매체.
삭제
다음을 포함하는 염기서열 분석 시 벡터 오염(vector contamination)을 동정하기 위한 시스템:
(a) 컴퓨터 프로세서; 및
(b) 제 1 항 내지 제 13 항 중 어느 한 항의 컴퓨터-독해가능한(computer-readable) 저장 매체.