이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.
실시예
실험방법
실험방법의 개요
벡터 오염 및 resultant false variants 을 검출하기 위한 전체적인 작업흐름도를 도 1에 표시하였다. 일반적으로 벡터-유래 리드(vector-originated reads)는 샘플 기원, 특히 같은 생물종 내의(intra-species) 오염에 의한 리드와 구별하기 어렵다. 그럼에도 불구하고, 매핑된 리드의 일부는 2가지 증거에 의해 벡터-유래의 것으로 생각된다. 첫째, 벡터의 제한부위(restriction site)에서 생성된 리드는 벡터 백본 서열이 삽입된 것으로 볼 수 있어 잘려지기 쉽다(도 1a, 밝은 갈색 리드). 둘째, 벡터 삽입체 내에서 엑손 경계를 가로지르는 리드는 엑손 연결부(exon junction sites)(w.r.t. 참고 지놈)에서 잘려지기 쉽고, 및/또는 인트론 서열이 없으므로 비정형의 paired-end 매핑(2개 말단 사이의 거리)을 형성한다(도 1a, 어두운 갈색의 절단된/비정형 리드). 리드 타입 및 이들의 메이트(mates)는 타당해 보이는 벡터 리드이며, Vecuum 의 전체적인 과정에서 중요한 역할을 한다.
Vecuum 은 입력(input)으로서 잠재적으로 오염된 샘플로부터의 paired-end sequencing (BAM) 얼라인먼트(alignment)를 이용한다. 얼라인먼트 데이터는 리드 분류 (w.r.t. genomic coordinates), 중복 제거 및 인덱싱(indexing)을 포함하여 적절히 전처리된(pre-processed) 것으로 추정된다. 상기 분석은 연속된 2 단계로 구성된다: i) 벡터 오염 평가 및 ⅱ) false variant 검출. 벡터오염 평가 단계에서, Vecuum 는 우선 벡터 백본 서열을 포함하도록 입력 BAM 의 전체 클리핑 리드 세트를 검사하여 벡터 제한 부위로부터 생성된 리드(vr-reads)를 수집한다. vr-reads의 클리핑되지 않은(정렬된, aligned) 부분은 벡터 삽입체의 지놈부위에 위치한다. 만약 잠재적인 삽입 부위에서 vr-reads 의 수가 충분히 확보되면, Vecuum 는 벡터 오염을 확인하고, false variant 검출 단계로 이동한다. 일단 벡터 삽입체의 위치가 결정되면, 벡터 엑손 경계로부터 생성된 리드(ve-reads)는 리드 클리핑 및 전사체 매핑에 근거하여 삽입 부위에서 추출된다(하기 실험방법 참조). vr-reads 및 ve-reads 는 최종적으로 타당하다고 생각되는(plausible) 벡터 리드를 포함한다. 수집된 plausible vector reads를 이용하여, Vecuum 는 삽입부위 내 모든 매핑된 리드를 매핑 패턴에 따라 벡터- 및 샘플-유래로 분류한다. 마지막으로, Vecuum 는 벡터 유래 false variants를 동정하기 위하여 미스매치가 벡터 유래로 편향된 것인지 분석한다.
BWA-MEM 를 이용한 매핑되지 않은 리드의 재매핑(remapping)
벡터 오염 및 false mutations 의 검출은 수집된 plausible 벡터 리드에 의해 가능하다. 따라서 수집 과정(collection process)을 최적화하는 것은 최상의 성과를 위해 가장 중요한 준비단계라 할 수 있다. 모든 short-read aligner 는 조작 미스매치에서 서로 다른 전략을 가지며, 이는 plausible 벡터 리드 써치에서 감응도(sensitivity)에 영향을 준다; 더 엄격한 aligner 는 불완전한 얼라인먼트한 대부분의 vr- 및 ve-reads 를 제거하며, 다른 서열을 포함할 수도 있는 일부 얼라인된 리드가 남아서 돌연변이 신호(calls)를 나타낸다. 이는 단지 벡터 오염 정보를 상실한 것뿐만 아니라 완전히 검출불가능한 false mutations를 생성한 것이다. 따라서, 가능한 한 많은 plausible 벡터를 수집하기 위하여 관대한(lenient) aligner가 첫 번째 단계에서 사용되어야 한다.
BWA-MEM 는 보다 유연한 리드 클리핑을 통하여 참조 서열에 대한 최대 일치(match)를 찾아내도록 하고, 다른 aligner와 비교하여 clipped alignment에 대하여 우수한 성능을 보여준다(25). 같은 용도로서 BWA 의 이전 버전인 BWA-ALN (26)와 비교하여, BWA-MEM 는 활성화 리드 클리핑에 의해 보다 많은 수의 plausible 벡터 리드를 커버한다. 다수의 이용가능한 서열 얼라인먼트 데이터가 비(non) BWA-MEM aligner로 프로세싱되므로, Vecuum 는 가능한 제거된 plausible 벡터 리드를 회복시키기 위하여 입력 데이터로부터 모든 비매핑된 리드를 재매핑하였다.
벡터 삽입부위의 추정
이 단계에서 Vecuum 는 벡터 오염의 존재 및 해당 지놈 위치를 결정하기 위해 입력 데이터를 검사한다. 우선, Vecuum 는 모든 클리핑된 리드를 수집하고, custom vector 데이터베이스에 이들의 전체 서열을 문의하여 벡터 백본 서열을 포함한 리드를 찾는다. custom database 는 UniVec (http://www.ncbi.nlm.nih.gov/tools/vecscreen/univec/)의 1,629 개 벡터 서열 및 AddGene (http://www.addgene.org)의 48,089 개 벡터 서열을 이용하여 구축되었다.
지속적인 수요에 따라, 많은 방법이 개발되었고 low to high 처리 시퀀싱 데이터에서 벡터 서열 동정에 적용되었다(23,24). 대부분의 방법은 뉴클레오타이드 BLAST (BLASTN)에 기반한 서열 쿼리(벡터 서열에 대한) 모듈을 수행하는데 이는 시간이 많이 소요된다. 이러한 방법 대신, 본 발명자들은 gaps 을 허용하지 않고 특별히 초고속 short read 얼라인먼트를 수행하도록 디자인된 BWA-fastmap program (27)을 이용하였다. 개념적으로 custom vector database 는 참조 지놈 (많은 contigs를 가진)으로 사용되며, 쿼리 서열과 얼라인함으로써 매칭되는지 결정한다. 쿼리를 수행한 후, 벡터 제한 부위의 리드(vr-reads)를 다음 기준에 따라 구분한다: (ⅰ) 절단길이(clipped length) ≥ 20 , (ⅱ) 벡터-매칭된 서브서열(vector-matched subsequence)의 길이 ≥ 20, (ⅲ) 매핑 퀄리티(mapping quality) ≥ 30, (ⅳ) 리드 클리핑이 (중간부분이 아닌) 양 말단에서 나타남, (ⅴ) 절단된 서브서열(clipped subsequence)이 벡터 서열과 매칭됨, 및 (ⅵ) 메이트 리드(mate read)가 절단된 서브서열의 바깥쪽에서 매핑되지 않음. 최종 조건은 부분적으로 벡터 서열과 상동인 샘플 리드의 오분류(misclassification)를 피하기 위한 메이트 제한(mate constraint)이다. 모든 기준치(thresholds)는 사용자의 입력에 의해 조절가능하다.
분류된 vr-reads에 근거하여, 벡터 삽입체의 지놈 위치를 추정한다. 3 이상의 vr-reads에 의해 뒷받침되는 클리핑 위치는 처음에는 벡터 삽입 부위의 후보로 판단한다. 리드 클리핑 방향은 후보 부위가 삽입체(inserts)의 5’ 또는 3’말단인지 결정한다. 5’ 및 3’ 후보 부위의 쌍(pair)이 유전자 내에서 검출된다면, 그 사이의 부위는 벡터 삽입체가 위치하는 장소이며, false variants 가 존재할 것이다. 하나의 삽입체 말단 (5’ 또는 3’)을 가지는 부위는 false 표시로 간주한다.
벡터 삽입 부위가 예측되면, Vecuum는 5’ 및 3’ 삽입체 말단에서 또 다른 vr-read search를 수행한다. 이전에 필터링과정을 거치지 않은 vr-reads (예컨대, 불충분한 clipped 길이)는 clipped 위치가 삽입체 부위와 매칭되면 회복된다(see Supplementary Figure S3). 매핑 퀄리티 및 메이트 리드 제한은 샘플 리드의 오분류 예방에서 보존된다.
벡터 및 샘플-유래 리드의 분리
벡터 삽입체 부위 내에서 매핑된 각 리드를 예측 소스 DNA에 따라 3가지로 분류하였다: (i) 샘플 DNA로부터의 리드, (ⅱ) 벡터 삽입체로부터의 리드(ve-read), 및 (ⅲ) 미지의 소스로부터의 리드. > 5 bp 의 인트론으로 매핑된 리드는 샘플-유래인 것으로 판단하였다(도 2a, 회색 리드). 벡터 삽입체 서열은 스플라이싱된(spliced) 것이므로 인트론 서열을 포함하지 않기 때문이다. 본 발명자들은 ve-reads를 동정하기 위하여 2가지 다른 표시(signatures)를 이용하였다(도 2a, 어두운 갈색 리드). 우선, 엑손-연결부에서 모든 clipped reads를 참조 전사체(reference transcriptome)에 얼라인하였다. 전체 서열이 클리핑없이 매핑되는 경우 clipped read를 ve-read로 판단하였다. 이와 유사하게, 평균 삽입체 크기로부터 3 표준편차 범위 내에 있는 전사체 매핑에서 회복된 비정형 리드 페어(discordant read pairs) 또한 ve-reads로 판단하였다.
어떤 소스(샘플 또는 벡터)는 엑손 내에서 완전히 매핑된 리드 페어를 생성할 수 있기 때문에(도 2a, uncolored reads), 분류는 그 자체로 이용할 수 없다. 이러한 리드는 미지의 origin으로 표시하였다.
벡터-유도된 false variants의 검출
동정된 벡터 삽입체 내의 각 엑손에서, 우선 비-참조 뉴클레오타이드(B alleles)로부터 미스매치가 있는 리드 수를 카운팅함으로써 가능한 변이 위치를 스크리닝 하였다. 디폴트에 의해, 염기 퀄리티 ≥ 20 인 3 이상의 B alleles 을 가진 지놈 위치를 우선적으로 고려하였다; 이러한 위치는 참(true) 돌연변이 또는 벡터-유도성 false variants 이다. 본 발명자들은 false variant의 경우, B alleles의 분포가 벡터 기원의 리드(이전 섹션에서 동정된) 쪽으로 현저히 편향될 것이라 가정하였다. 분포 편향(distribution bias)의 유의성(p-value)은 one-tailed Fisher’s exact test 을 이용하여 측정하였다. 본 발명자들은 해당 지놈 위치에서 다음의 모든 조건들이 충족된다면 변이(variant)가 잘못 유도된 것으로 정의하였다: (i) B allele 을 가진 plausible 벡터 리드(vr-read 및 ve-read)의 수가 > 3 이고, 벡터 리드에 대한 BAF (B allele frequency)가 > 0.01 인 경우, (ⅱ) B allele 을 가진 샘플-유래 리드의 수가 ≤ 3 이거나, 또는 샘플 리드 BAF 가 ≤ 0.01 인 경우, (ⅲ) reference allele 을 가진 샘플-유래 리드의 수가 ≥ 5 인 경우 및 (ⅳ) one-tailed Fisher’s exact test의 p-value < 0.01 이거나, 또는 모든 샘플-유래 리드가 reference allele을 포함하는 경우. 조건 (i) 및 (ⅱ)의 기준치(thresholds)는 시퀀싱 오류로부터의 false calls를 제외하도록 세팅된다(6). 샘플-유래 리드 및 plausible 벡터 리드의 최소 컷-오프 값은 Fisher’s exact test에서 유의성 레벨 < 0.01을 만족하도록 결정된다. 미지 기원의 B allele의 리드는 초기 유의성 실험에서는 제외하였지만, 이후에 위치가 false variant로서 나오는 경우 plausible 벡터 리드로 보았다.
Vecuum 은 입증 자료에 따라 두 가지 다른 타입의 false variants 를 생성한다(calls). 엑손 연결부(exon junctions)에서 하나의 리드 길이 내에 있는 변이는 clipped 리드 및 discordant 리드에 의해 모두 커버된다(도 2b, 적색 음영 부분), 반면 양쪽 엑손 연결부에서 1 리드 길이 이상 떨어져 위치한 변이는 단지 discordant 리드에 의해서만 커버된다(도 2b, 노란색 음영 부분). 증거 레벨은 이전에 형성된 것 보다 높기 때문에 본 발명자들은 2가지 증거를 각각 1차 및 2차로 보았다. 최종적으로 Vecuum은 증거레벨로서 아노테이션된 벡터 오염 및 예상 false variants 의 지놈 위치 리스트를 기록한다. 깔끔한 얼라인먼트(BAM)는 선택적으로 입력 데이터로부터의 모든 벡터-유래 리드를 필터링 함으로써 제공된다.
검증을 위한 데이터 준비(Data preparation for validation)
(i) 가상 데이터(simulated data) Vecuum 성능을 시험하기 위해, 벡터 오염과 유사한 가상 데이터세트를 생성하였다. 우선, “in silico cloning workflow”에 따라 CLC Genomics Workbench (http://www.clcbio.com) 를 이용하여 인위적인 재조합 벡터를 구축하였다. 전체 19개 포유류 발현 벡터 백본이 51 개의 종양 억제자(tumour suppressor) 및 종양유전자(oncogenes)와 재조합되어 969 개 초기 재조합 벡터를 형성하였다. 이들 중 7개는 적절한 제한부위(restriction sites)가 없어 제외시키고 962 개 벡터를 실험에 사용하였다. 각각의 재조합 벡터는 유전자 부위(벡터 삽입체) 내의 무작위적인 위치에서 하나의 점 돌연변이(point mutation)를 포함하도록 구성되었다. 돌연변이 시뮬레이션은 각 재조합 벡터에 대하여 독립적으로 2번 반복되었고, 특이 돌연변이를 포함하는 1,924 개 인공 재조합 벡터를 생성하였다.
정상 혈액 샘플 (~250X coverage)의 WES (paired-end whole-exome sequencing) 데이터를 준비하여 샘플 DNA로서 제공되었다. 각 재조합 벡터 서열을 위해, 샘플 WES 데이터에서와 같이(101 x 2 bp 리드 길이 및 170 bp ± 60 bp 단편 크기) 같은 리드 길이 및 단편 크기를 갖도록 가상의 paired-end 리드를 생성하였다. GemSim (28)을 이용하여 추가 동정을 위해 모든 리드명에 해당 벡터 ID를 태깅한 Illumina paired-end 오류 모델을 가지는 -1,000X 커버리지(다운샘플링에 충분한 커버리지)를 위한 가상 리드를 생성하였다. 하나의 재조합 벡터로부터의 각 가상 리드 세트를 위하여, 본 발명자들은 다른 다운샘플링 비율로서 10회에 걸쳐 리드 서브세트를 무작위작으로 추출하였다. 10개의 리드 서브세트를 정장 WES 데이터와 각각 혼합하여 다른 레벨로 오염시켰으며, 인위적으로 오염된 샘플의 19,240 개 얼라인먼트 데이터(BAM)를 구축하였다. 본 발명자들은 7,694 개를 추가로 필터링하였고, 돌연변이 부위에서 B alleles 을 가진 3개 이하의 리드가 매핑되었다; 이러한 샘플의 오염레벨은 NGS 실험에 한정되고, 변이 calling에 영향을 주지 않는다. 마지막으로, 성능 평가를 위해 전체 11,546 개 인공 오염 데이터를 준비하였다.
(ⅱ) Real spike-in data 의도적으로 벡터를 대조군 샘플과 혼합하여 Spike-in 데이터를 준비하였다. 특이 돌연변이를 포함하는 10개 재조합 플라스미드 벡터를 정상 혈액 샘플의 gDNA에 첨가하였다(표 1). 저 레벨 오염과 유사하도록, 재조합 벡터를 1:30 으로 희석하였고, 혈액 gDNA에 대하여 1:200 의 비율이 되도록 하였다. 오염된 DNA는 제조사의 프로토콜에 따라 Illumina HiSeq 2000 를 이용하여 시퀀싱하였다.
실험데이터로 사용된 삽입 돌연변이를 가진 재조합 벡터 정보
| Chr |
위치(position) |
Ref |
Alt |
유전자 |
단백질 변이 |
플라스미드 백본 |
| 1 |
11,174,395 |
T |
C |
MTOR |
L2427P |
pCIG |
| 1 |
11,174,419 |
A |
G |
MTOR |
E2419G |
pcDNA |
| 1 |
11,174,420 |
G |
A |
MTOR |
E2419K |
pCIG |
| 1 |
11,217,230 |
G |
A |
MTOR |
C1483Y |
pCIG |
| 1 |
11,217,231 |
T |
C |
MTOR |
C1483R |
pcDNA |
| 1 |
243,736,307 |
G |
A |
AKT3 |
R247H |
pcDNA |
| 3 |
178,951,997 |
G |
A |
PIK3CA |
D1018N |
pBI |
| 9 |
135,797,259 |
C |
T |
TSC1 |
R204C |
pcDNA |
| 9 |
135,804,196 |
C |
T |
TSC1 |
R22W |
pcDNA |
| 11 |
8,016,630 |
C |
A |
EIF3F |
L283M |
pcDNA |
(ⅲ) 공개 서열 데이터 Lim et al. (6)의 Deep WES 데이터세트를 Sequence Read Archive (SRP055482)로부터 다운로드 받았고, 저자들의 허가 후에 Vecuum으로 평가하였다. 마우스 이종이식 연구에서 생성된 2가지 WES 데이터세트는 SRA (SRP056402 및 SRP060313)에서 다운로드 받았다. 익명으로부터의 cDNA 오염이 예상되는 One in-house WES 데이터세트를 이용하여다른 타입의 오염에 의한 false variants 분석을 수행하였다.
실험결과
가상 데이터를 이용한 성능 시험
본 발명자들은 11,546 개 in silico 시뮬레이션 데이터를 이용하여 벡터 오염 및 잘못 유도된 돌연변이를 동정하는데 있어 Vecuum 의 성능을 시험하였다.
시뮬레이션을 신중히 디자인하여 조작된 돌연변이를 포함하고 있는 발현벡터의 실제 구조를 반영하도록 하였다. 정확도(Accuracy) 및 계산시간을 계산하고, 최종 성능에 영향을 주는 여러 요인에 대하여 추가 분석을 요하는 종래의 기술들과 비교하였다.
(ⅰ) 벡터 오염 평가에 대한 성능시험
본 발명자들은 먼저 벡터-유래 리드 검출의 정확성을 평가하였다(도 3). 가상 데이터에서 리드의 유래(true origins)를 아노테이션함으로써, Vecuum 및 다른 툴(VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html), SeqClean (https://sourceforge.net/projects/seqclean/), SeqTrimNext (23) 및 DeconSeq (24))의 precision (call 된 true 벡터리드의 수(#)/ call 된 벡터리드의 수), recall (call 된 true 벡터리드의 수/ 전체 true 벡터리드의 수) 및 F-score (2 x precision x recall / (precision + recall)) 를 계산하였다.
Vecuum은 거의 완벽한 정확도를 보여주었고(0.999), 이는 벡터-유래로서 분류된 거의 모든 리드가 실제 벡터-유래임을 의미한다. 다른 툴은 약간의 false 검출값을 포함하였는데 샘플-유래 리드가 벡터-유래로 잘못 분류된 것이다(precision 0.955-0.995). 일반적으로 BLAST (VecScreen, SeqClean, and SeqTrimNext) 기반의 툴은 BWA (DeconSeq) 기반의 툴보다 정확도가 더 높다. 이에 본 발명자들은 BLASTN 기반 방법이 경험적으로 미세조정(fine-tuned) 파라미터에 의해 벡터 서열 동정에 보다 최적화될 수 있을 것이라 예상하였다. BWA 을 기반으로 함에도 불구하고, Vecuum 은 리드-클리핑 방향 및 메이트-리드 매핑과 같은 특정 필터에 의해 오분류(mis-classification)를 예방할 수 있다.
Vecuum 및 다른 툴들 간의 수행 격차(performance gap)는 recall에서 더욱 두드러진다(도 3a). 다른 툴들은 벡터 제한부위만을 고려함으로써 매핑된 벡터-유래 리드(recall = 0.069-0.109)의 약 10%를 동정할 수 있다. 반면, Vecuum은 절반 이상의 true 벡터 리드를 성공적으로 검출하였다(recall=0.513). 외견상 불완전한 성능은, 단일 엑손 내에서 양 말단이 완전히 매핑되지 않은 미지-유래의 리드 페어로 인한 것이다(도 2a, uncoloured reads). 추가적인 서열 변이가 포함되지 않는다면 이러한 리드는 이론적으로 불가분적인 것이다. 즉, 돌연변이 신호(calling)에서, 리드 페어가 완벽히 매핑된 불가분적이고 무해한 신호는 데이터 상에 남아있더라도 서열 분석에 영향을 주지 않는다. 이러한 신호들은 배제하였을 때, Vecuum에서 practical recall은 0.802 로 증가하였고, 다른 툴에 의한 recall은 여전히 0.2 이하였다(도 3b).
이어, 분석에 필요한 계산시간을 측정하였다(도 3c). 11,546 개 가상 데이터로부터 무작위적으로 2,000개 샘플을 선별한 후 백만(million) 매핑 리드 당 평균 작업시간(run time)을 측정하였다. Vecuum 에는 매핑되지 않은 리드 검색 및 재매핑(remapping) 등 단순한 서열 검색보다 훨씬 많은 분석이 요구되지만, clipped read 추출, fastq-BAM conversion 및 false mutation calling, 전체적인 계신시간 등이 BLASTN 기반 툴 보다 훨씬 적다(512.8 vs. 1244.6-8454.3, 2.4-16.5 배 감소). 향상된 계산 효율의 핵심은 벡터 서열 매칭에서 BWA-fastmap를 사용한 것이다. 서열 검색만을 수행하는 Vecuum 의 일부를 이용하는 추가 분석에서, 전체 소요시간은 30 - 200 배 감소하였다(도 3c, Vecuum(partial)로 표시함).
마지막으로, 오염 부위의 지놈 위치 측정을 위한 성능을 평가하였다. 이전에는 이러한 정보를 제공하는 방법이 없었기 때문에, Vecuum에서만 정확도가 측정될 수 있다. 본 발명자들은 예상 부위의 지놈 위치가 해당 true 코딩 서열을 완전히 커버하는 경우 예상 부위가 정확한 것으로 판단하였다. 11,546 개 벡터 삽입체에서, Vecuum 은 wrong calls 없이 10,748 개 삽입체의 지놈 위치를 정확히 예측하였다(precision=1.0, recall = 0.931). 대부분의 false-negatives 는, 데이터 생성 단계에서 충분하지 않은 vr-reads 가 섞인 샘플에서 생성되었음을 알게 되었다(혼합물 비율은 무작위적으로 각 샘플에 할당되었다). 각 제한부위에서의 상기 3가지 vr-reads 를 이용하여, Vecuum 은 >99% 의 샘플에서 정확한 지놈 위치를 동정할 수 있었다.
(ⅱ) false 변이 검출에 대한 성능시험
가상 데이터세트에서 false 변이를 검출하기 전, 우선 체성돌연변이 신호 상에서 벡터-삽입체 포함 효과를 체크하였다. 11,546 개 변이부위에서, 인위적으로 바뀐 서열 각각은 각 가상 세트에 포함되었고, 11,502 (~99.6%) 개는 모든 필터를 통과한 9,665 (~83.7%) 개를 포함하여 MuTect (1)에 의해 체성 변이로 나타났던 것을 알게 되었다. 9,665 변이의 평균 변이 allele 빈도는 0.013 - 0.796 의 범위 내인 0.443 였고, 벡터 삽입체의 오염으로 인해 낮은-빈도임에도 체성변이의 false discovery 가 나타났다(도 4a).
이어, 본 발명자들은 11,546 개 가상 데이터세트에서 Vecuum 을 수행하여 galse calls의 검출 능력을 평가하였다. Vecuum에서, false 변이 검출은 기본적으로 벡터 오염된 구역으로서 동정된 부위에 시도된다. 따라서, 비동정된(unidentified) 벡터 오염원에 의한 798 개 변이는 제외시켰고, 평가에서는 “failure”로 보았다. 결과를 예정된(intended) 변이 부위와 비교하여 정확도(precision), recall 및 F-score를 측정하였다. 11,546 개 변이에서, 10,150 개 변이가, 예정된 변이 리스트에 포함되지 않은 430 calls 만 포함하는 Vecuum (recall = 0.879)에 의해 성공적으로 검출되었고(precision = 0.959) (도 4b, 청색 막대), 이들은 추가 분석에 의해 최종적으로 true 벡터-유래 변이로 확인되었다(하기 참조). ROC 커브(receiver operation characteristic)는 신호(calls)의 p-value 값으로 그려졌고, 0.911 AUC (area under curve)로 높은 분류 능력(high classification power)을 확인하였다.
추가적으로 본 발명자들은 변이부위에서 검출능(detection performance)과 BAF (B allele frequency) 간의 관련성을 평가하였다. 변이는 BAF 값(0.0-0.1 내지 0.7-0.8, 최대 BAF 는 < 0.8)에 의해 6 bins로 나누어졌고, 각 bin에서 성능을 평가하였다(도 4d, 청색 막대). 정확도(precision)는 BAF > 0.1 인 변이에서 거의 완벽한 것으로 나타났고, 대부분의 비예정(unintended) calls는 BAF < 0.1에서 관찰되었다(precision=0.770). BAF 및 recall 간에는 약한 양의 상관관계가 나타났으나, Vecuum 는 오염 부위의 잘못된 판단으로 인해 BAF < 0.1 (recall=0.725)에서 비교적 낮은 recall을 나타냈지만, BAF > 0.1 (recall=0.868 to 0.930)에서 신뢰성있는 recall 비율을 나타내었다.
Vecuum에 의해 나타난 430 개 변이(잘못 유도된 변이)의 소스(source)를 확인하였으나 가상 데이터의 준비과정에서 인위적으로 생성되지 않았다. 흥미로운 것은 430 개의 모든 변이가 벡터 유래라는 것이다. 수동 검사방법으로부터, 벡터 오염에 의해 false 변이를 생성할 수 있는 2가지 추가적인 메카니즘을 발견하였다(조작된 변이 외에)(도 4e). 첫 번째는 벡터 삽입체의 구축에 사용되었던 샘플 유전자와 cDNA 간의 서열 다형성(polymorphism)이다. 이러한 다형성(대부분은 SNPs 이다)은 의도적인 것을 제외하고는 본질적으로 조작된 변이를 가진 것과 동일하다. 다른 메커니즘은 정확한 clipping 지점을 결정하는데 있어서 얼라인먼트 오류(alignment error)이다(도 4e, 우측). 스플라이싱 또는 제한부위로부터 생성된 벡터 리드는 보통 얼라인먼트 동안 클리핑된다. 클리핑된 염기쌍의 수가 적을 때(예컨대 1), 그러나, 간혹 aligner는 클리핑보다는 미스패치(mismatch)를 선호하고; 미스매치는 또한 리드의 말단에서 잘 나타난다. 정확히 클리핑된 벡터리드의 대부분에서, 미스매치는 signature과 유사한 체성 변이를 형성한다. 2가지 추가적인 메커니즘은 430 개 미예정된 calls를 모두 설명해주며, 이로써 모든 BAF 범위에서 단일 wrong call은 없음을 확인하였다(도 4b 및 4d, 오렌지색 바).
이후, 본 발명자들은 false negatives의 원인을 분석하었다. 대부분의 false negatives 는 1 리드 길이이상 엑손에서 멀리 떨어진 곳에 위치한 2차 변이에 의해 생성되었다(도 4f). 1,396 개 false negatives 에서, 798 개 변이는 미검출된 구역에 위치하였다. 나머지 598 개 변이 중에서 384 개는 2차 변이이고, 엑손을 포함하는 변이의 크기가 큰 이유로 이들 중 대부분은 변이에 이르지 못한 것으로 나타났다. Vecuum 는 예상 벡터 리드에 기반하여 false 변이를 검출하므로, 라이브러리 크기에 따른 false 변이의 검출한계가 있다. 2차 변이의 called 결과는 감응성(sensitivity)이 너무 낮은 것으로 보인다; 그러나 384 개 2차 변이 중 52 개는 특이한 것이고, 나머지는 다른 오염 레벨을 가진 동정된 변이였다. 또한 2차 변이의 전체 수는 1차 변이의 수와 비교하여 상당히 적었고(각각 901개 및 10645개), 이는 인간 엑손 대부분이 일반적인 리드 및 라이브러리 크기에 의해 모두 커버되기 때문이다. 본 발명자들은 주어진 라이브러리 크기에 의해 전체적으로 커버되는 엑손의 비율을 계산할 수 있엇으며, 그 결과 86%의 엑손이 현재 가상의 사이즈에 의해 커버되었다(도 4g). 일반적인 시퀀싱 디자인에 비하여 더 작은 크기의 가상 라이브러리 및 클로닝 사이즈 한계를 고려했을 때, 본 발명자들은 벡터 오염의 경우에서 false 변이 검출의 성능을 뒷받침할 것이라 예상할 수 있었다.
상기 내용을 종합하면, Vecuum 은 벡터 오염을 성공적으로 검출하고 오염된 지놈 위치를 정확하게 예측할 수 있다. Vecuum은 또한 유전적 다형성 및 클리핑 오류를 포함한 인식되지 않은 변이와 더불어, false 변이 검출 성능이 매우 우수함을 보여주었다.
실험데이터를 이용한 성능 시험
실제 시퀀싱 데이터를 이용한 Vecuum 시험을 위하여, 본 발명자들은 전체-진유전체 시퀀싱을 위한 예상(intended) 벡터-오염된 DNA 샘플을 준비하였다. 각 특정 변이를 가진 재조합 벡터를 준비하고 정상 혈액 샘플의 gDNA를 더하였다(상기 표 1 참조). Vecuum 프로세싱 없이 MuTect에 의해 10개 부위 모두 체성변이를 나타내었다. 라이브러리 크기, 리드 길이 및 커버리지 등을 포함하는 시퀀싱 디자인은 가변성을 나타내는 다른 소스를 조절하기 위해 동등하게 가상 데이터세트를 포함하였다.
우선, 오염 부위의 지놈 위치를 예측하는 성능을 평가하였다. Vecuum은 5개의 유전자에 위치한 삽입체(inserts)의 6개 예상 부위를 나타내었다(표 2). 모든 삽입 유전자는 false positive calls 없이 Vecuum에 의해 정확히 예측되었고, 결론적으로 벡터 오염 평가에서 신뢰할만한 성능을 나타내었다. 벡터 서열을 가진 엑손 33의 미세상동성(microhomology)으로 인하여, MTOR의 예측은 엑손 34 말단에서 2 부분으로 나누어져 나타났다.
실험적 시퀀싱 데이터에 대한 Vecuum의 벡터 삽입체 예측 지점
| Chr |
Start |
End |
유전자 |
| 1 |
11,167,437 |
11,204,813 |
MTOR |
| 1 |
11,205,063 |
11,319,466 |
MTOR |
| 1 |
243,668,550 |
243,859,019 |
AKT3 |
| 3 |
178,947,792 |
178,952,155 |
PIK3CA |
| 9 |
135,771,620 |
135,804,255 |
TSC1 |
| 11 |
8,008,900 |
8,017,567 |
EIF3F |
마지막으로 실험 데이터의 false 변이 검출 정확성을 평가하였다(표 3). 간단히 말하면, Vecuum은 wrong call 없이 유도된 모든 변이를 성공적으로 검출하였다. 또한 1개 추가 부위가 Vecuum에 의해 검출되었으며, 이는 리드 클리핑 인공물(artifact)에 의한 false mutation call인 것으로 나타났다. 가상 데이터에서와 마찬가지로, 조작된 돌연변이 외에 false calling의 다양한 원인이 있음을 다시 알게 되었으며, 이는 Vecuum에 의해 해결될 수 있었다. 다른 흥미로운 점은 돌연변이체 allele 중 BAF 의 큰 분산값(variance)이다(BAF=0.07-1.0, stdev=0.35). 각 플라스미드 오염물의 양은 동일하게 조절된다(-5 ng/plasmid). 본 발명자들은 큰 분산이 혼성화에서의 서로다른 효율성 때문이라고 예상한다. 따라서, 서열 데이터에서 주어진 오염 레벨은 샘플 준비 및 시퀀싱 과정에서 예측하기 매우 여렵다. BAF 의 매우 높은 레벨(변이 allele 을 가진 28,000X 커버리지까지)이 단지 5 ng의 벡터 DNA에 의해 나타날 수 있음을 고려하면, 더 낮은 allele 빈도의 false 변이가 매우 적은 벡터 오염으로 인해 생길 수도 있다.
실험적 시퀀싱 데이터를 통한 false variants callling
| Chr |
Position |
Ref |
Alt |
유전자 |
P value |
Support type |
BAF |
| 1 |
11,174,395 |
A |
G |
MTOR |
3.06E-13 |
Primary |
0.28 |
| 1 |
11,174,419 |
T |
C |
MTOR |
7.91E-05 |
Primary |
0.14 |
| 1 |
11,174,420 |
C |
T |
MTOR |
3.56E-06 |
Primary |
0.17 |
| 1 |
11,217,230 |
C |
T |
MTOR |
5.75E-02 |
Primary |
0.07 |
| 1 |
11,217,231 |
A |
G |
MTOR |
1.61E-03 |
Primary |
0.14 |
| 1 |
243,736,307 |
C |
T |
AKT3 |
1.37E-163 |
Primary |
1.00a |
| 3 |
178,951,997 |
G |
A |
PIK3CA |
1.78E-52 |
Secondary |
1.00b |
| 9 |
135,771,620 |
C |
T |
TSC1 |
2.61E-94 |
Primary |
0.46 |
| 9 |
135,797,259 |
G |
A |
TSC1 |
7.86E-03 |
Primary |
0.35 |
| 9 |
135,804,196 |
G |
A |
TSC1 |
8.06E-21 |
Primary |
0.62 |
a 0.9958에서 반올림
b 0.9979에서 반올림
공개 데이터세트의 적용
본 발명자들은 Vecuum 을 최근 공개된 deep WES datasets에 적용하였다. 이 데이터세트는 중심 대뇌피질 형성이상(focal cortical dysplasia, FCD) 환자에서 시퀀싱되었다(6). FCD는 피질 이상 및 난치성 간질이 나타나는 신경발달 장애로서, 체성 돌연변이에 의해 나타난다(6, 7, 29). 선행연구에서, 본 발명자들은 심층 바이오정보 분석 및 인 비트로/인 비보 기능적 검증을 통하여 낮은 allelic 빈도를 가지는 여러 뇌 체성 돌연변이를 밝혔다. 한편, 인트론과 엑손부위를 모두 커버하는 프라이머 세트를 이용한 deep targeted amplicon sequencing에서 이들을 제외시킴으로써, 샘플 일부에서 기능적인 체성 돌연변이와 유사한 여러 false positive 변이가 함께 존재함을 확인하였다.
이러한 false positive 변이가 본 발명자들의 QC 절차에 따라 최종 리포트에서 엄격히 제외되었음에도 불구하고, 본 발명자들은 이러한 인공물(artefacts)이 지놈 DNA의 준비과정, 특히 벡터와 관련하여 영향을 줄 것이라 생각했다. false positive 변이를 포함하는 포유류의 발현 벡터는 인 비트로 기능 분석을 위해 구축되었기 때문이다.
상기 가능성을 시험하기 위하여, Vecuum (SRP055482) 로 WES의 8개 서열 데이터세트를 실험하였다. 본 발명자들은 8개 deep WES 데이터 외에, 3 개가 벡터-오염된 것으로 검출되었다.(SRR1819827, SRR1819829, 및 SRR1819831). 벡터 삽입체의 예상 위치는 MTOR에서 3개 샘플 모두 동일하였다(chr1:11,167,437-11,319,466). SRR1819827 및 SRR1819829 는 2개의 동일한 false 변이를 보여주었고, 이는 서로 다른 재조합 벡터에 의해 나타났다. SRR1819831 는 2개 변이 중 하나로서, soft-clipped 리드를 포함하는 변이의 부재 때문에 사라졌다. 2개의 추가 false 변이는 2개의 SNP 부위에 있는 SRR1819831에서 나왔고, 다른 샘플의 서로 다른 유전자형에 따라 검출되었다. False 변이의 BAF 는 0.01 내지 0.25 의 범위에 있으며, 이전의 다양한 신경학적 질병연구에서 보고된 true 뇌-특이적 변이의 범위와 매우 유사하며(4-7), 분리과정에서 모호성이 증가하였다. 실험 데이터세트에서 5 ng 의 벡터 DNA에 의해 나타나는 높은 BAF와 비교하여, low-allele frequency (~1%) 는 매우 적은 양의 벡터 DNA에 의한 것으로 보인다(즉, 파이페팅과 같은 실험 작업에 의해 생성되는 에어로졸). 한편, 이러한 결과는 특히 다른 플랫폼에서 생물학적/시퀀싱 복제품과 같은 시퀀싱 확인의 중요성을 보여준다; 이전연구에서는, 혼성-캡쳐 시퀀싱에서는 모든 벡터-유도된 변이가 체성 돌연변이로 나타났지만, 앰플리콘-기반 시퀀싱에서는 나타나지 않았다.
본 발명자들은 Vecuum에 다른 공지 서열 데이터를 적용하여 보다 가능성 있는 오염원을 조사하였다. 이를 위하여, Vecuum 은 벡터 오염 및 오염된 위치의 측정 없이(선택적으로 가능) false 변이 검색을 수행할 수 있다. 전립선 암 연구(SRP060313)에서, 본 발명자들은 13개 샘플 중 10개 샘플에서 651 내지 8,439 의 많은 false 변이를 발견하였다. false 변이가 있는 10개 샘플은 이종이식-유래였으며, 반면, 다른 3개 샘플은 인간 조직 유래였다. called false variants 가 배양된 마우스 세포에서 유래된 것인지 확인하기 위하여, false 변이를 포함하는 리드를 마우스 참조 지놈으로 다시 매핑하였으며, 이들 대부분과 정확히 매칭되는 것을 확인하였다. 인간과 마우스 간, 엑손 서열은 인트론보다 훨씬 보존되어 있기 때문에, 마우스 엑손 경계에서 생성된 서열 리드 일부는 인간 참조서열에 대하여 얼라인먼트시 엑손 연결부에서 클리핑되었고, 결과적으로 false 변이가 생성되었다. 적어도 하나의 false 변이 call을 가지는 413 개 유전자 중에서, 393개는 Metaphor database (30)에 의해 아노테이션된 마우스 오쏠로그(ortholog) 유전자를 가진다. 조합된 참조 지놈(인간+마우스)을 매핑에 사용하였을 때 모든 false 변이가 사라져, 이의 필요성을 확인할 수 있었다(31). 이와 유사하게, 본 발명자들은 같은 메커니즘을 가지고 있는 다른 이종이식-유래 데이터세트(SRP056402)에서 42개 샘플의 전체 5,149 false 변이를 동정하였다. 상기 결과에 기반하여, 보다 공지된 또는 실험실 레벨의 데이터가 유사한 위험성을 가지고 있을 것이며, 추가 검사가 필요하다고 판단하였다.
마지막으로, 본 발명자들은 다른 미지의 샘플에 의한 오염으로 추정되는 익명 개체의 WES 데이터에 Vecuum을 적용시켰다. 이는 비이상적으로 많은 수의 체성변이 calls에 기반한 데이터-제공자로서 알려졌으며, 폐 특이적 유전자(즉, 표면활성 유전자, surfactant gene)에 많고, 본래 조직은 폐에서 수득할 수 없다. 본 발명자들은
엑손 연결부에서 리드 클리핑 패턴에 기반한 prepped mRNA 라이브러리 (cDNA)의 잠재적인 오염을 예측하였다. cDNA 인트론을 포함하지 않기 때문에, 벡터 삽입체와 유사하게, Vecuum 은 즉각적으로 false 변이 검색에 적용될 수 있다. 샘플에서 2,204 개 false 변이를 발견하였고, 이 중 1,626 (~74%) 개는 dbSNP 및 1000 지놈 데이터베이스에 의해 아노테이션되었다. 따라서, 아마도 샘플 준비 과정중, Vecuum을 이용하여 다른 개체로부터의 cDNA 오염이 있는 사건을 재구성할 수 있었다.
결론적으로, 일련의 적용으로 가능한 외부 오염원의 다양성(예컨대, 벡터, 이종이식 지놈 및 cDNA), false 변이 메커니즘의 다양성(예컨대, 벡터 삽입체 및 리드 클리핑 결과물 내의 조작된 변이 및 다형성) 및 샘플의 조작 및 회복에 있어서의 Vecuum의 유용성 등을 재확인하였다.
논의
본 발명자들은 벡터 오염에 의해 나타나는 false 변이를 검출하기 위해 새로운 계산방법인 Vecuum을 개발하였으며, 본 발명의 방법은 이전 방법에 의해서는 불가능한 것이다. 본 발명자들은 엑손 연결부에서 특정 매핑 패턴에 기반한 벡터-유래 리드를 예측하였고, 예측된 벡터 리드에 대한 변이 allele의 비대칭도(skewness)에 기반한 false 변이를 동정하였다. 가상 및 실험적 오염 데이터세트를 이용한 확인은 벡터오염의 일반적인 평가 방법과 비교하여 Vecuum의 우월성을 보여주었을 뿐만 아니라, false 변이 검출에 대한 신뢰도를 보여주었다.
외부 오염에 의한 false somatic calls 발생이 종종 보고되었다. 그러나, 체성 변이 분석에서의 많은 초기 변이가 특별한 이유없이 Sanger 시퀀싱, targeted deep 시퀀싱 및/또는 질량-분광분석 기반의 패널(32) 과 같은 확인단계에서 다시 생성되지 않는데, 이에 대해서는 보고된 바 없다. 이는 오염이 보여지는 것 보다 더 많은 빈도로 존재함을 나타낸다. 또한, high-depth 시퀀싱은 소량의 오염을 동정하는데 필요하다. 낮은-빈도의 체성 변이 분석을 대중화하고 이에 대한 시퀀싱 비용을 현저히 줄이는 것이 오염 문제에 관심을 가져오고, Vecuum은 이에 대한 훌륭한 대비책이 될 것이다.
공개 데이터세트에 대한 적용은 다양한 오염원에 대한 Vecuum의 유용성을 보여주었다. 우리가 볼 수 있는 외부 오염뿐 만 아니라, Vecuum은 내재적인 유사유전자(pseudogenes)에 의한 false 변이도 검출하였다. 본 발명자들이 아는 한, Vecuum 은 false 변이를 검출할 수 있는 유일한 도구이다. 밸리데이션에서 나타난 false 변이 검출의 정확성으로 판단하건대, Vecuum에 의해 동정된 false 변이는 이들의 기원과 무관하게 높은 신뢰도를 가지는 것으로 판단되며, 이는 체성 변이 분석의 품질관리(quality control)에 적용될 수 있을 것이다.
이상으로 본 발명의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적인 기술은 단지 바람직한 구현 예일 뿐이며, 이에 본 발명의 범위가 제한되는 것이 아닌 점은 명백하다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항과 그의 등가물에 의하여 정의된다고 할 것이다.
참조문헌
1. Cibulskis, K., Lawrence, M.S., Carter, S.L., Sivachenko, A., Jaffe, D., Sougnez, C., Gabriel, S., Meyerson, M., Lander, E.S. and Getz, G. (2013) Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nature biotechnology, 31, 213-219.
2. Kim, S., Jeong, K., Bhutani, K., Lee, J., Patel, A., Scott, E., Nam, H., Lee, H., Gleeson, J.G. and Bafna, V. (2013) Virmid: accurate detection of somatic mutations with sample impurity inference. Genome biology, 14, R90.
3. Roth, A., Khattra, J., Yap, D., Wan, A., Laks, E., Biele, J., Ha, G., Aparicio, S., Bouchard-Cote, A. and Shah, S.P. (2014) PyClone: statistical inference of clonal population structure in cancer. Nature methods, 11, 396-398.
4. Jamuar, S.S., Lam, A.T., Kircher, M., D'Gama, A.M., Wang, J., Barry, B.J., Zhang, X., Hill, R.S., Partlow, J.N., Rozzo, A. et al. (2014) Somatic mutations in cerebral cortical malformations. The New England journal of medicine, 371, 733-743.
5. Lee, J.H., Huynh, M., Silhavy, J.L., Kim, S., Dixon-Salazar, T., Heiberg, A., Scott, E., Bafna, V., Hill, K.J., Collazo, A. et al. (2012) De novo somatic mutations in components of the PI3K-AKT3-mTOR pathway cause hemimegalencephaly. Nature genetics, 44, 941-945.
6. Lim, J.S., Kim, W.I., Kang, H.C., Kim, S.H., Park, A.H., Park, E.K., Cho, Y.W., Kim, S., Kim, H.M., Kim, J.A. et al. (2015) Brain somatic mutations in MTOR cause focal cortical dysplasia type II leading to intractable epilepsy. Nature medicine, 21, 395-400.
7. Poduri, A., Evrony, G.D., Cai, X. and Walsh, C.A. (2013) Somatic mutation, genomic variation, and neurological disease. Science, 341, 1237758.
8. Salyakina, D. and Tsinoremas, N.F. (2013) Viral expression associated with gastrointestinal adenocarcinomas in TCGA high-throughput sequencing data. Human genomics, 7, 23.
9. Castellarin, M., Warren, R.L., Freeman, J.D., Dreolini, L., Krzywinski, M., Strauss, J., Barnes, R., Watson, P., Allen-Vercoe, E. and Moore, R.A. (2012) Fusobacterium nucleatum infection is prevalent in human colorectal carcinoma. Genome research, 22, 299-306.
10. Kostic, A.D., Gevers, D., Pedamallu, C.S., Michaud, M., Duke, F., Earl, A.M., Ojesina, A.I., Jung, J., Bass, A.J., Tabernero, J. et al. (2012) Genomic analysis identifies association of Fusobacterium with colorectal carcinoma. Genome research, 22, 292-298.
11. Shirley, M.D., Tang, H., Gallione, C.J., Baugher, J.D., Frelin, L.P., Cohen, B., North, P.E., Marchuk, D.A., Comi, A.M. and Pevsner, J. (2013) Sturge-Weber syndrome and port-wine stains caused by somatic mutation in GNAQ. The New England journal of medicine, 368, 1971-1979.
12. Wilson, M.R., Naccache, S.N., Samayoa, E., Biagtan, M., Bashir, H., Yu, G., Salamat, S.M., Somasekar, S., Federman, S., Miller, S. et al. (2014) Actionable diagnosis of neuroleptospirosis by next-generation sequencing. The New England journal of medicine, 370, 2408-2417.
13. Cantalupo, P.G., Katz, J.P. and Pipas, J.M. (2015) HeLa nucleic acid contamination in the cancer genome atlas leads to the misidentification of human papillomavirus 18. Journal of virology, 89, 4051-4057.
14. Naccache, S.N., Hackett, J., Jr., Delwart, E.L. and Chiu, C.Y. (2014) Concerns over the origin of NIH-CQV, a novel virus discovered in Chinese patients with seronegative hepatitis. Proceedings of the National Academy of Sciences of the United States of America, 111, E976.
15. Xu, B., Zhi, N., Hu, G., Wan, Z., Zheng, X., Liu, X., Wong, S., Kajigaya, S., Zhao, K., Mao, Q. et al. (2013) Hybrid DNA virus in Chinese patients with seronegative hepatitis discovered by deep sequencing. Proceedings of the National Academy of Sciences of the United States of America, 110, 10264-10269.
16. Zhi, N., Hu, G., Wong, S., Zhao, K., Mao, Q. and Young, N.S. (2014) Reply to Naccache et al: Viral sequences of NIH-CQV virus, a contamination of DNA extraction method. Proceedings of the National Academy of Sciences of the United States of America, 111, E977.
17. Laurence, M., Hatzis, C. and Brash, D.E. (2014) Common contaminants in next-generation sequencing that hinder discovery of low-abundance microbes. PloS one, 9, e97876.
18. Strong, M.J., Xu, G., Morici, L., Splinter Bon-Durant, S., Baddoo, M., Lin, Z., Fewell, C., Taylor, C.M. and Flemington, E.K. (2014) Microbial contamination in next generation sequencing: implications for sequence-based analysis of clinical samples. PLoS pathogens, 10, e1004437.
19. Borst, A., Box, A.T. and Fluit, A.C. (2004) False-positive results and contamination in nucleic acid amplification assays: suggestions for a prevent and destroy strategy. European journal of clinical microbiology & infectious diseases : official publication of the European Society of Clinical Microbiology, 23, 289-299.
20. Lopez-Rios, F., Illei, P.B., Rusch, V. and Ladanyi, M. (2004) Evidence against a role for SV40 infection in human mesotheliomas and high risk of false-positive PCR results owing to presence of SV40 sequences in common laboratory plasmids. Lancet, 364, 1157-1166.
21. Tang, K.W., Alaei-Mahabadi, B., Samuelsson, T., Lindh, M. and Larsson, E. (2013) The landscape of viral expression and host gene fusion and adaptation in human cancer. Nature communications, 4, 2513.
22. Tao, Z.Y., Sui, X., Jun, C., Culleton, R., Fang, Q., Xia, H. and Gao, Q. (2015) Vector sequence contamination of the Plasmodium vivax sequence database in PlasmoDB and In silico correction of 26 parasite sequences. Parasites & vectors, 8, 318.
23. Falgueras, J., Lara, A.J., Fernandez-Pozo, N., Canton, F.R., Perez-Trabado, G. and Claros, M.G. (2010) SeqTrim: a high-throughput pipeline for pre-processing any type of sequence read. BMC bioinformatics, 11, 38.
24. Schmieder, R. and Edwards, R. (2011) Fast identification and removal of sequence contamination from genomic and metagenomic datasets. PloS one, 6, e17288.
25. Li, H. (2013) Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv preprint arXiv:1303.3997.
26. Li, H. and Durbin, R. (2009) Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics, 25, 1754-1760.
27. Li, H. (2012) Exploring single-sample SNP and INDEL calling with whole-genome de novo assembly. Bioinformatics, 28, 1838-1844.
28. McElroy, K.E., Luciani, F. and Thomas, T. (2012) GemSIM: general, error-model based simulator of next-generation sequencing data. BMC genomics, 13, 74.
29. Crino, P.B. (2009) Focal brain malformations: seizures, signaling, sequencing. Epilepsia, 50 Suppl 9, 3-8.
30. van der Veen, B.E., Harris, H.M., O'Toole, P.W. and Claesson, M.J. (2014) Metaphor: finding bi-directional best hit homology relationships in (meta)genomic datasets. Genomics, 104, 459-463.
31. Tso, K.Y., Lee, S.D., Lo, K.W. and Yip, K.Y. (2014) Are special read alignment strategies necessary and cost-effective when handling sequencing reads from patient-derived tumor xenografts? BMC genomics, 15, 1172.
32. Pearce, M., Cullinan, A., Hogg, G., Hosseini, D. and Ehrich, M. (2009) Mutation profiling in tumor samples using the Sequenom OncoCarta™ Panel. Nature methods, 6.