본 개시내용은 특정 샘플 게놈에 대해 맞춤형 하플로타입 경로를 갖는 그래프 참조 게놈을 생성할 수 있고 맞춤형 그래프 참조 게놈을 활용하여 샘플 게놈에 대한 뉴클레오티드-염기 결정을 결정할 수 있는 맞춤형 시퀀싱 시스템의 하나 이상의 구현예를 설명한다. 예를 들어, 맞춤형 시퀀싱 시스템은 단일 뉴클레오티드 다형성(SNP) 또는 샘플 게놈의 표적 게놈 영역을 둘러싸는 다른 변이-뉴클레오티드-염기 결정을 결정할 수 있고, 이어서 주변 변이 뉴클레오티드-염기 결정에 기반하여 게놈 영역에 대응하는 하플로타입을 대치할 수 있다. 이러한 대치된 하플로타입 및 선형 참조 게놈으로부터, 맞춤형 시퀀싱 시스템은, 샘플 게놈에 대해, 대치된 하플로타입을 나타내는 경로를 포함하는 그래프 참조 게놈을 생성할 수 있다. 표적 게놈 영역에 대해 대치된 하플로타입을 나타내는 경로와 샘플 게놈의 뉴클레오티드-단편 리드, 및 그래프 참조 게놈의 다른 이러한 영역을 비교하는 것에 기반하여, 개시된 시스템은 게놈 영역 및 다른 이러한 영역 내에서 뉴클레오티드-염기 결정을 결정할 수 있다. 일부 경우에, 맞춤형 시퀀싱 시스템은 또한 뉴클레오티드-단편 리드를 맞춤형 그래프 참조 게놈에 포함된 선형 참조 게놈에 맞춰 조정함으로써 뉴클레오티드-염기 결정을 결정한다.
이러한 표적 게놈 영역을 확인하기 전에, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 시퀀싱 기계에 의해 시퀀싱된 샘플 게놈에 대한 뉴클레오티드-단편 리드를 나타내는 데이터를 수신한다. 뉴클레오티드-단편 리드에 대한 그러한 데이터는 시퀀싱 기계에 의해 결정된 뉴클레오티드-염기 결정의 서열을 포함한다. 리드 데이터를 수신한 후에, 맞춤형 시퀀싱 시스템은 뉴클레오티드-단편 리드를 선형 참조 게놈에 맞춰 조정할 수 있다. 조정된 뉴클레오티드-단편 리드에 기반하여, 맞춤형 시퀀싱 시스템은 선형 참조 게놈에 대한 반응으로 게놈 좌표 및 샘플 게놈의 영역에 대한 직접-뉴클레오티드-염기 결정을 결정할 수 있다.
상기에 나타낸 바와 같이, 뉴클레오티드-염기 결정을 결정할 때, 일부 검출하기 어려운 게놈 영역은 다른 시퀀싱 과제들 중에서도 조정-정확도 또는 염기-결정-정확도 문제를 나타낼 수 있다. 일부 구현예에서, 맞춤형 시퀀싱 시스템은 표적 게놈 영역으로서 샘플 게놈 내에서 검출하기 어려운 게놈 영역(및 때때로 어렵지 않은 게놈 영역)을 확인한다. 예를 들어, 맞춤형 시퀀싱 시스템은 불량한 품질의 게놈 영역, 예컨대 저-신뢰도-결정 게놈 영역을 확인하며, 여기서 뉴클레오티드-염기 결정 및/또는 뉴클레오티드-단편 리드는 대응하는 임계치 미만의 불량한 염기-결정-품질 메트릭스, 맵핑-품질 메트릭스, 및/또는 깊이 메트릭스를 나타낸다. 추가의 예로서, 맞춤형 시퀀싱 시스템은 게놈 영역의 일부(또는 전부)를 커버하는 뉴클레오티드-단편 리드가 결여된 게놈 영역을 확인할 수 있다.
확인된 표적 게놈 영역을 갖는 것으로, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 각각의 표적 게놈 영역을 둘러싸는 변이-뉴클레오티드 염기 결정을 결정한다. 예를 들어, 맞춤형 시퀀싱 시스템은 표적 게놈 영역의 임계 거리 내에서 변이 검출을 결정한다. 설명하기 위해, 맞춤형 시퀀싱 시스템은 표적 게놈 영역으로부터 임계 수의 염기쌍(예를 들어, 600개의 염기쌍, 10,000개의 염기쌍, 또는 50,000개의 염기쌍) 내에서 SNP 또는 다른 변이를 결정할 수 있다. 아래에서 추가로 설명되는 바와 같이, 맞춤형 시퀀싱 시스템은 표적 게놈 영역에 대응하는 하나 이상의 하플로타입의 일부인 SNP(또는 다른 변이)를 결정할 수 있다.
변이-뉴클레오티드-염기 결정에 기반하여, 맞춤형 시퀀싱 시스템은 각각의 표적 영역에 대해 하플로타입을 대치한다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 표적 게놈 영역 측면에 위치하는 변이 뉴클레오티드-염기 결정에 기반하여 하플로타입 데이터베이스로부터의 표적 영역에 대한 하플로타입을 통계적으로 추론한다. 예를 들어, 맞춤형 시퀀싱 시스템은 SNP 또는 다른 변이-뉴클레오티드-염기 결정에 기반하여 데이터베이스에서 대응하는 하플로타입 참조 패널로부터 검출하기 어려운 영역(예컨대, 저-신뢰도-결정 영역)에 대해 하플로타입을 대치한다. 따라서, 맞춤형 시퀀싱 시스템은 SNP 또는 다른 변이-뉴클레오티드 염기 결정을 하플로타입 참조 패널과 비교하여, 표적 게놈 영역에 대응할 가능성이 있는 하플로타입을 확인할 수 있다.
게놈 영역에 대한 대치된 하플로타입에 기반하여, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 샘플 게놈에 대해 맞춤형 그래프 참조 게놈을 생성한다. 설명하기 위해, 맞춤형 시퀀싱 시스템은 선형 참조 게놈 및 위에서 논의된 표적 게놈 영역에 대한 대치된 하플로타입을 나타내는 경로 둘 모두를 포함하는 그래프 참조 게놈을 생성할 수 있다. 검출하기 어려운 영역에 더하여, 그래프 참조 게놈은 또한 어렵지 않은 게놈 영역에 대해 대치된 하플로타입을 나타내는 경로를 추가 또는 포함할 수 있다.
맞춤형 그래프 참조 게놈을 사용함으로써, 맞춤형 시퀀싱 시스템은 샘플 게놈의 표적 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정할 수 있다. 그렇게 하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 뉴클레오티드-단편 리드를 그래프 참조 게놈에 맞춰 조정한다. 예를 들어, 맞춤형 시퀀싱 시스템은, 대응하는 뉴클레오티드-단편 리드에 대한 최고 품질 맵핑 메트릭스를 갖는, 선형 참조 게놈의 일부 또는 그래프 참조 게놈의 경로에 맞춰 뉴클레오티드-단편 리드를 조정할 수 있다. 일부 구현예에서, 맞춤형 시퀀싱 시스템은 그래프 참조 게놈에 포함된 선형 참조 게놈의 부분 또는 표적 게놈 영역에 대한 대치된 하플로타입을 나타내는 어느 경로로 정렬된 뉴클레오티드-단편 리드에 기반하여 샘플 게놈의 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정을 결정한다.
상기에 언급된 바와 같이, 맞춤형 그래프 참조 게놈을 사용하는 것에 추가적으로 또는 대안적으로, 맞춤형 시퀀싱 시스템은 직접 뉴클레오티드-염기 결정, 대응하는 시퀀싱 메트릭스, 및 대치 뉴클레오티드-염기 결정에 기반하여 최종 뉴클레오티드-염기 결정을 결정할 수 있다. 예를 들어, 맞춤형 시퀀싱 시스템은 선형 또는 그래프 참조 게놈과 정렬된 뉴클레오티드-단편 리드에 기반하여 직접 뉴클레오티드-염기 결정(및 대응하는 시퀀싱 메트릭스)을 결정할 수 있다. 이러한 직접 뉴클레오티드-염기 결정은 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정을 포함할 수 있다. 변이-뉴클레오티드-염기 결정에 기반하여, 맞춤형 시퀀싱 시스템은 게놈 영역에 대해 하플로타입을 대치할 수 있고, 대치된 하플로타입에 기반하여 대치 뉴클레오티드-염기 결정을 결정할 수 있다. 상기에 나타낸 바와 같이, 일부 경우에, 맞춤형 시퀀싱 시스템은 대치된 하플로타입을 나타내는 경로를 갖는 그래프 참조 게놈을 추가로 생성하고, 그래프 참조 게놈을 사용하여 샘플 게놈에 대한 직접 뉴클레오티드-염기 결정을 추가로 결정한다. 직접 뉴클레오티드-염기 결정, 대응하는 시퀀싱 메트릭스, 및 대치 뉴클레오티드-염기 결정에 기반하여, 개시된 시스템은 최종 뉴클레오티드-염기 결정을 결정한다. 예를 들어, 맞춤형 시퀀싱 시스템은 가중된 모델 또는 염기-결정-기계-학습 모델을 활용하여 샘플 게놈에 대한 최종 뉴클레오티드-염기 결정을 결정하기 위해 직접 및 대치 뉴클레오티드-염기 결정 둘 모두에 가중치를 할당할 수 있다.
상기에 단지 나타낸 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템은 뉴클레오티드-단편 리드를 참조 게놈에 맞춰 조정하고, 정렬된 뉴클레오티드-단편 리드에 기초한 샘플 게놈에 대한 직접 뉴클레오티드-염기 결정을 결정한다. 예를 들어, 맞춤형 시퀀싱 시스템은 뉴클레오티드-단편 리드를 선형 참조 게놈 또는 그래프 참조 게놈에 맞춰 조정하는 것에 기반하여 직접 뉴클레오티드-염기 결정을 결정한다. 게놈 좌표를 커버하는 정렬된 뉴클레오티드-단편 리드의 염기 결정으로부터, 일부 경우에, 맞춤형 시퀀싱 시스템은 확률적 모델(예컨대, 베이지안(Bayesian) 확률적 모델)을 적용하여, 샘플 게놈의 게놈 좌표에 대한 직접 뉴클레오티드-염기 결정(예를 들어, 직접 변이-뉴클레오티드 염기 결정)을 결정한다.
직접 뉴클레오티드-염기 결정을 결정하는 동안, 맞춤형 시퀀싱 시스템은 직접 뉴클레오티드-염기 결정에 대응하는 다양한 시퀀싱 메트릭스를 결정하고 활용할 수 있다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 샘플 게놈의 게놈 좌표에서 뉴클레오티드-염기 결정의 리드 깊이를 정량화하는 깊이 메트릭스를 결정한다. 다른 예로서, 일부 구현예에서, 맞춤형 시퀀싱 시스템은 참조 게놈과 뉴클레오티드-단편 리드의 정렬의 품질을 정량화하는 맵핑-품질 메트릭스를 결정한다. 또 다른 예로서, 맞춤형 시퀀싱 시스템은 뉴클레오티드-염기 결정의 품질 또는 신뢰도를 요약하는 결정-데이터-품질 메트릭스를 결정할 수 있다.
참조 게놈에 기반한 직접 뉴클레오티드-염기 결정에 더하여, 맞춤형 시퀀싱 시스템은 하나 이상의 게놈 영역에 대응하는 대치된 하플로타입에 기반하여 대치 뉴클레오티드-염기 결정을 결정할 수 있다. 전술한 바와 같이, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 샘플 게놈의 게놈 영역을 둘러싸는 SNP(또는 다른 변이-뉴클레오티드 염기 결정)를 결정하고, 주변 변이 뉴클레오티드-염기 결정에 기반하여 게놈 영역에 대응하는 하플로타입을 대치한다. 대치된 하플로타입에 기반하여, 특정 경우에, 맞춤형 시퀀싱 시스템은 게놈 영역에 대한 대치 뉴클레오티드-염기 결정을 결정하기 위해 가능성이 있는 하플로타입을 통계적으로 추론한다.
직접 뉴클레오티드-염기 결정, 대응하는 시퀀싱 메트릭스, 및 대치 뉴클레오티드-염기 결정에 기반하여, 개시된 시스템은 최종 뉴클레오티드-염기 결정을 결정한다. 하나 이상의 구현예에서, 예를 들어, 맞춤형 시퀀싱 시스템은 가중 모델을 활용하여 직접 뉴클레오티드-염기 결정 및 대치 뉴클레오티드-염기 결정에 대한 각각의 가중치를 결정한다. 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 직접 뉴클레오티드-염기 결정 및 후술되는 다른 인자에 대응하는 시퀀싱 메트릭스에 기반하여 가중치를 결정할 수 있다. 게놈 좌표에 대한 가중된 직접 및 대치 뉴클레오티드 염기 결정으로부터, 맞춤형 시퀀싱 시스템은 최종 뉴클레오티드-염기 결정을 선택하거나 달리 결정할 수 있다. 예를 들어, 일부 경우에, 맞춤형 시퀀싱 시스템은 염기-결정-기계-학습 모델을 사용하여 직접 및 대치 뉴클레오티드-염기 결정으로부터(예를 들어, 가중치에 의해) 최종 뉴클레오티드-염기 결정을 결정한다.
위에서 제시한 바와 같이, 맞춤형 시퀀싱 시스템은 기존의 시퀀싱 시스템 및 방법에 비해 몇몇 기술적 장점 및 이점을 제공한다. 예를 들어, 맞춤형 시퀀싱 시스템은 샘플 게놈에 대해 맞춤형 그래프 참조 게놈을 활용함으로써 리드 정렬 및 뉴클레오티드 염기-결정 정확도의 정확도를 개선한다. 보다 구체적으로, 맞춤형 시퀀싱 시스템은 샘플 게놈의 게놈 영역에 대한 대치된 하플로타입을 나타내는 경로를 포함하는 그래프 참조 게놈을 생성한다. 특정 샘플에 대해 선택된 대안적인 콘티그에 대한 경로로 그래프 참조 게놈을 활용함으로써, 맞춤형 시퀀싱 시스템은, 무관하거나 너무 많은 대안적인 경로로 어수선한 일반적인 그래프 참조 게놈보다, 특히 더 복잡하거나 "어려운" 영역(예를 들어, 저-신뢰도-결정 영역)에 대해 뉴클레오티드-단편 리드를 그래프 참조 게놈에 맞춰 더 정확하게 조정할 수 있다. 맞춤형 그래프 참조 게놈에 대한 개선된 정렬 때문에, 맞춤형 시퀀싱 시스템은 또한 이러한 결정이 기존의 시퀀싱 시스템보다 참조 게놈의 참조 염기와 매치하거나 상이하다는 더 높은 신뢰도를 가진 더 정확한 뉴클레오티드-염기 결정을 결정할 수 있다.
정렬 및 염기 결정 정확도를 개선하는 것에 더하여, 맞춤형 시퀀싱 시스템은 그래프 참조 게놈을 사용하여 시퀀싱 시스템의 컴퓨팅 속도 및 메모리를 개선한다. 무관하거나 과도한 대립유전자들에 대한 경로를 포함하는 일반적인 그래프 참조 게놈과 대조적으로, 맞춤형 시퀀싱 시스템은 샘플 게놈의 변이에 기반하여 대치된 하플로타입을 나타내는 더 적은 경로를 갖는 상당히 더 작은 그래프 참조 게놈을 저장하는 데 필요한 메모리를 감소시킨다. 일반적인 하플로타입 경로 또는 대립유전자 경로와 과도한 수의 가능한 리드-정렬 매칭 사이를 결정하는 데 있어서, 프로세싱 및 메모리 저장소와 같은 컴퓨팅 리소스를 비효율적으로 사용하는 것이 아니라 오히려, 맞춤형 시퀀싱 시스템은 샘플의 게놈 영역에 대한 대치된 하플로타입 및 더 적은 경로 매치로 인한 더 효율적인 맵핑을 나타내는 더 적은(그리고 더 관련이 있는) 경로를 갖는 맞춤형 그래프 참조 게놈을 사용함으로써 컴퓨팅 프로세싱 및 다른 자원을 절약한다.
개선된 정확도에 더하여, 맞춤형 시퀀싱 시스템은 종래의 그래프 게놈보다 더 가요성인 맞춤형 그래프 게놈을 생성할 수 있다. 위에서 제시한 바와 같이, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 변이 검출 파일(예를 들어, VCF)로부터 선택된 변이-검출 데이터에 기반하여 하플로타입을 대치한다. 설명하기 위해, 일부 경우에서, 맞춤형 시퀀싱 시스템은 맞춤형 그래프 참조 게놈의 경로를 나타내는 데 대치하기 위한 하플로타입을 기준으로서, 다른 게놈 영역이 아닌, VCF로부터 검출하기 어려운 영역(예를 들어, 저-신뢰도-검출 영역)을 둘러싸는 변이-뉴클레오티드-염기 결정을 선택적으로 확인한다. 일부 기존의 시퀀싱 시스템이 그러하듯이, 그래프 참조 게놈을 생성하기 위해 변이 검출 파일로부터 각각의 변이-뉴클레오티드-염기 결정을 사용하기보다는, 맞춤형 시퀀싱 시스템은 그래프 참조 게놈을 맞춤화할 변이-검출 데이터를 보다 선택적으로 확인할 수 있다.
추가적으로 또는 대안적으로, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은, 직접 및 대치 뉴클레오티드-염기 결정에 기반하여 최종 뉴클레오티드-염기 결정을 결정할 때, 검출하기 어려운 게놈 영역, 비-리드-커버리지 게놈 영역, 또는 다른 게놈 영역에서 기존의 시퀀싱 시스템에 걸쳐 염기 결정을 결정하는 정확도를 개선한다. 직접 뉴클레오티드-염기 결정과 대치 뉴클레오티드-염기 결정 사이에서 가중하고 선택함으로써, 맞춤형 시퀀싱 시스템은 품질 임계치 미만의 시퀀싱 메트릭스를 나타내는 직접 뉴클레오티드-염기 결정을 특정 게놈 좌표 또는 영역에서 정확할 가능성이 더 큰 대치 뉴클레오티드-염기 결정으로 대체할 수 있다. 상기에 언급된 바와 같이, 맞춤형 시퀀싱 시스템은 표적 게놈 영역에 대한 통계적으로 추론된 하플로타입에 기반하여 표적 게놈 영역에 대한 이러한 대치 뉴클레오티드-염기 결정을 결정할 수 있다. 유사하게, 일부 경우에, 맞춤형 시퀀싱 시스템은 뉴클레오티드-단편 리드에 의해 커버리지가 거의 없거나 전혀 없는 게놈 영역에 대해 (직접 뉴클레오티드-염기 결정보다는) 대치 뉴클레오티드-염기 결정을 결정하고 선택함으로써 정확도를 개선할 수 있다. 직접 및 대치 뉴클레오티드-염기 결정에 의존하는 것에 더하여, 일부 경우에, 맞춤형 시퀀싱 시스템은 기존의 시퀀싱 시스템이 고려되지 않는 국소 변이, 대치된 하플로타입, 및 변이 빈도와 같은 추가적인 간접 증거에 의존함으로써 게놈 영역에 대한 최종 뉴클레오티드-염기 결정의 정확도를 개선할 수 있다.
위에서 제시한 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템은 직접 및 대치 뉴클레오티드-염기 결정 둘 모두를 분석하는 그 종류의 제1의 염기-결정-기계-학습 모델을 활용함으로써 최종 뉴클레오티드-염기 결정의 정확도를 개선한다. 설명하기 위해, 염기-결정-기계-학습 모델은 게놈 좌표에 대한 대치 뉴클레오티드-염기 결정 또는 직접 뉴클레오티드-염기 결정이 훈련 샘플 게놈 및 대응하는 지상-실측 염기 결정에 대한 시퀀싱 메트릭스에 기반하여 더 정확한지 여부를 구별하도록 훈련될 수 있다. 보다 구체적으로, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 직접 뉴클레오티드-염기 결정, 시퀀싱 메트릭스, 및 대치된 뉴클레오티드-염기 결정에 기반하여 최종 뉴클레오티드-염기 결정을 결정하기 위해 염기-결정-기계-학습 모델을 훈련한다. 따라서, 맞춤형 시퀀싱 시스템은, 위에서 논의된 다양한 데이터 유형을 포함하여, 다양한 데이터에 기반하여 최종 뉴클레오티드-염기 결정을 효율적이고 정확하게 결정하기 위해 염기-결정-기계-학습 모델을 활용할 수 있다.
전술한 논의에 의해 설명된 바와 같이, 본 개시내용은 맞춤형 시퀀싱 시스템의 특징 및 이점을 설명하기 위해 다양한 용어를 활용한다. 이제 그러한 용어의 의미에 관한 추가적인 세부사항이 제공된다. 예를 들어, 본원에 사용되는 바와 같이, 용어 "뉴클레오티드-단편 리드" 또는 간단히 "리드"는 샘플 뉴클레오티드 서열의 전부 또는 일부로부터의 하나 이상의 뉴클레오티드 염기(또는 뉴클레오티드-염기쌍)의 추론된 서열을 지칭한다. 특히, 뉴클레오티드-단편 리드는 게놈 샘플에 대응하는 시퀀싱 라이브러리로부터의 뉴클레오티드 단편(또는 단일클론 뉴클레오티드 단편들의 군)에 대한 뉴클레오티드-염기 결정의 결정된 또는 예측된 서열을 포함한다. 예를 들어, 일부 경우에, 시퀀싱 장치는 형광 태그를 통해 결정되거나 유동 셀 내의 웰로부터 결정된 뉴클레오티드-샘플 슬라이드의 나노기공을 통과한 뉴클레오티드 염기에 대한 뉴클레오티드-염기 결정을 생성함으로써 뉴클레오티드-단편 리드를 결정한다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "뉴클레오티드-염기 결정"(또는 때때로 간단히 "염기 결정")은 시퀀싱 사이클 동안 샘플 게놈의 게놈 좌표 또는 올리고뉴클레오티드에 대한 특정 뉴클레오티드 염기(또는 뉴클레오티드-염기쌍)의 결정 또는 예측을 지칭한다. 특히, 뉴클레오티드-염기 결정은 (i) 뉴클레오티드-샘플 슬라이드 상의 올리고뉴클레오티드 내에 혼입된 뉴클레오티드 염기의 유형의 결정 또는 예측(예를 들어, 리드-기반 뉴클레오티드-염기 결정) 또는 (ii) 디지털 출력 파일에서 변이 검출 또는 비-변이 검출을 포함하는 샘플 게놈 내의 게놈 좌표 또는 영역에 존재하는 뉴클레오티드 염기의 유형의 결정 또는 예측을 나타낼 수 있다. 일부 경우에, 뉴클레오티드-단편 리드에 대해, 뉴클레오티드-염기 결정은 뉴클레오티드-샘플 슬라이드의(예를 들어, 유동 셀의 웰에서) 올리고뉴클레오티드에 첨가되는 형광-태그된 뉴클레오티드로부터 기인한 강도 값에 기반한 뉴클레오티드 염기의 결정 또는 예측을 포함한다. 대안적으로, 뉴클레오티드-염기 결정은 뉴클레오티드-샘플 슬라이드의 나노기공을 통과하는 뉴클레오티드로 인해 발생하는 크로마토그램 피크 또는 전류 변화로부터의 뉴클레오티드 염기의 결정 또는 예측을 포함한다. 대조적으로, 뉴클레오티드-염기 결정은 또한 게놈 좌표 또는 대치된 하플로타입에 대응하는 뉴클레오티드-단편 리드에 기반하여, 변이 검출 파일 또는 다른 염기-결정-출력 파일에 대한 샘플 게놈의 게놈 좌표에서의 뉴클레오티드 염기의 최종 예측을 포함할 수 있다. 따라서, 뉴클레오티드-염기 결정은 참조 게놈에 대응하는 특정 위치에서의 변이 또는 비-변이의 표시와 같은, 게놈 좌표 및 참조 게놈에 대응하는 염기 결정을 포함할 수 있다. 실제로, 뉴클레오티드-염기 결정은 구조적 변이의 일부인 단일 뉴클레오티드 다형성(SNP), 삽입 또는 결실(삽입-결실), 또는 염기 결정을 포함하지만 이로 한정되지 않는 변이 검출을 지칭할 수 있다. 상기에 제시한 바와 같이, 단일 뉴클레오티드-염기 결정은 RNA(U로 약칭됨)에 대한 DNA(A, C, G, T로 약칭됨) 또는 우라실 결정(티민 결정 대신)에 대한 아데닌 결정, 사이토신 결정, 구아닌 결정, 또는 티민 결정을 포함할 수 있다.
본원에 사용되는 바와 같이, 용어 "직접 증거"는 참조 게놈과 정렬된 뉴클레오티드-단편 리드로부터 결정된 염기-결정 데이터를 지칭한다. 예를 들어, 직접 증거는 뉴클레오티드-단편 리드, 대응하는 시퀀싱 메트릭스, 또는 뉴클레오티드-염기 결정에 대응하는 표적 게놈 좌표 또는 영역에서 참조 게놈과 정렬된 뉴클레오티드-단편 리드에 기반하여 결정된 다른 염기-결정 데이터에 대한 뉴클레오티드-염기 결정을 포함한다. 대조적으로, 용어 "간접 증거"는 표적 게놈 좌표 또는 영역의 주변 또는 이웃하는 게놈 영역에 관한 염기-결정 데이터 또는 게놈 데이터를 나타낸다. 이러한 간접 증거는 표적 게놈 좌표 또는 게놈 영역 및 대치된 하플로타입, 변이 대립유전자 빈도, 및/또는 게놈 좌표 또는 영역에 대응하는 모집단 하플로타입을 둘러싸는 변이-뉴클레오티드-염기 결정을 포함하지만 이로 한정되지 않는다. 간접 증거는 표적 게놈 좌표 또는 영역에서 참조 게놈에 직접 비교된 뉴클레오티드-단편 리드로부터의 염기-결정 데이터를 포함하지 않는다.
이와 관련하여, 본원에 사용되는 바와 같이, 용어 "변이-뉴클레오티드-염기 결정"은 참조 게놈의 참조 염기(또는 참조 염기들)와 상이하거나 변화하는 뉴클레오티드-염기 결정을 지칭한다. 설명하기 위해, 변이-뉴클레오티드-염기 결정은 참조 게놈의 하나 이상의 참조 염기와는 상이한 SNP, 삽입-결실, 또는 구조적 변이(또는 이의 일부)를 포함할 수 있다. 추가적으로, 본원에 사용되는 바와 같이, 용어 "직접 뉴클레오티드-염기 결정"은 뉴클레오티드-단편 리드 및 참조 게놈(예를 들어, 선형 참조 게놈 또는 그래프 참조 게놈)의 비교에 기반하여 결정된 뉴클레오티드-염기 결정을 지칭한다. 따라서, 직접 뉴클레오티드-염기 결정은 게놈 좌표 및 대응하는 시퀀싱 메트릭스를 커버하는 뉴클레오티드-단편 리드에 기반하여 샘플 게놈 내의 게놈 좌표 또는 영역에 존재하는 뉴클레오티드 염기의 유형의 결정 또는 예측을 포함한다. 또한, 본원에 사용되는 바와 같이, 용어 "직접 불변-뉴클레오티드 염기 결정"은 뉴클레오티드-단편 리드 및 참조 게놈의 비교에 기반하여 참조 게놈으로부터의 참조 염기와 매치되는 뉴클레오티드-염기 결정을 지칭한다. 설명하기 위해, 맞춤형 시퀀싱 시스템은 뉴클레오티드-염기 결정에 대응하는 게놈 좌표에서 참조 게놈에 맞춰 직접 조정된 뉴클레오티드-단편 리드에 기반하여 직접 불변-뉴클레오티드 염기 결정을 결정할 수 있다.
본원에 사용되는 바와 같이, 용어 "대치하다"는 게놈 좌표 또는 게놈 영역에 대한 유전자형을 통계적으로 추론하거나 추정하는 것을 지칭한다. 보다 구체적으로, 대치는 샘플 게놈의 게놈 영역에 대응하는 하플로타입을 통계적으로 추론하는 것을 지칭할 수 있다. 예를 들어, 대치는 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정을 활용하여 그 게놈 영역에 대응하는 하플로타입을 결정하는 것을 지칭할 수 있다. 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템은 또한 하플로타입을 대치하기 위해 하플로타입 데이터베이스 및 은닉 마르코프(Hidden Markov) 모델로부터의 참조 패널을 활용한다. 본원에 추가로 기재된 바와 같이, 맞춤형 시퀀싱 시스템은 표적 게놈 영역을 둘러싸거나 측면에 위치할 뿐만 아니라 표적 게놈 영역에 대응하는 하나 이상의 하플로타입의 일부인, SNP(또는 다른 변이)에 기반하여 표적 게놈 영역에 대해 하플로타입을 대치할 수 있다. 예를 들어, 20개의 SNP가 표적 게놈 영역에서 하플로타입을 형성하는 경우, 맞춤형 시퀀싱 시스템은 표적 게놈 영역에 대해 결정된 15개의 그러한 SNP를 사용하여 어떤 하플로타입이 샘플 게놈에 존재하는지 확인하고, 이에 의해 표적 게놈 영역에 대한 하나 이상의 하플로타입의 나머지 5개의 SNP를 대치할 수 있다.
또한, 본원에 사용되는 바와 같이, 용어 "대치 뉴클레오티드-염기 결정"은 대치된 하플로타입 및/또는 변이 빈도에 기반하여 결정된 게놈 좌표에 대한 뉴클레오티드-염기 결정을 지칭한다. 예를 들어, 대치 뉴클레오티드-염기 결정은 게놈 좌표 또는 영역 및 통계적 추론을 둘러싸거나 측면에 있는 변이-뉴클레오티드-염기 결정에 기반하여 샘플 게놈 내의 게놈 좌표 또는 영역에 존재하는 뉴클레오티드 염기의 유형의 결정 또는 예측을 포함한다. 일부 경우에, 대치 뉴클레오티드-염기 결정은 대치에 의해 결정된 가장 가능성 있거나 가능한 하플로타입으로부터의 게놈 좌표 또는 게놈 영역에 대한 뉴클레오티드 염기를 나타낸다. 추가로 설명하기 위해, 일부 구현예에서, 대치 뉴클레오티드-염기 결정은 변이 빈도, 국소 변이 뉴클레오티드-염기 결정, 및/또는 게놈 좌표 또는 영역에 대응하는 모집단 하플로타입을 반영하는 샘플 게놈의 게놈 좌표 또는 영역에 대한 추론되거나 예측된 뉴클레오티드 염기를 포함한다.
또한, 본원에 사용되는 바와 같이, 용어 "최종 뉴클레오티드-염기 결정"은 게놈 좌표에 대해 결정되고 염기-결정-출력 파일(예를 들어, 변이 검출 파일)에 포함되거나 사용되는 뉴클레오티드-염기 결정을 지칭한다. 설명을 위해, 하나 이상의 구현예에서, 용어 최종 뉴클레오티드-염기 결정은 (i) 변이 검출 파일에서 변이-뉴클레오티드-염기 결정과 같은, 게놈 좌표에 대한 염기-결정-출력 파일에 포함된 뉴클레오티드-염기 결정, 또는 (ii) 뉴클레오티드-염기 결정이 참조 염기와 동일하기 때문에 변이 검출 파일로부터 뉴클레오티드-염기 결정을 배제하는 최종 결정과 같은, 염기-결정-출력 파일에 포함되거나 배제되고 참조 염기와 같은 게놈 좌표에 대한 뉴클레오티드-염기 결정을 포함한다. 후술되는 바와 같이, 맞춤형 시퀀싱 시스템은 직접 뉴클레오티드-염기 결정 및 동일한 게놈 좌표에 대응하는 대치 뉴클레오티드-염기 결정으로부터(또는 그에 기반하여) 최종 뉴클레오티드-염기 결정을 선택할 수 있다.
또한, 본원에 사용되는 바와 같이, 용어 "샘플 게놈"은 표적 게놈 또는 시퀀싱을 겪는 게놈의 일부를 지칭한다. 예를 들어, 샘플 게놈은 샘플 유기체로부터 단리되거나 추출된 뉴클레오티드의 서열(또는 그러한 단리된 또는 추출된 서열의 카피)을 포함한다. 특히, 샘플 게놈은 샘플 유기체로부터 (전체적으로 또는 부분적으로) 단리되거나 추출되고 질소성 헤테로사이클릭 염기로 구성된 전체 게놈을 포함한다. 샘플 게놈은 데옥시리보핵산(DNA), 리보핵산(RNA), 또는 핵산의 다른 중합체 형태 또는 아래에 언급된 핵산의 키메라 또는 혼성 형태의 세그먼트를 포함할 수 있다. 일부 경우에, 샘플 게놈은 키트에 의해 제조되거나 단리되고 시퀀싱 장치에 의해 수용된 샘플에서 발견된다.
또한 본원에 사용되는 바와 같이, 용어 "하플로타입"은 유기체에 존재하는(또는 모집단으로부터의 유기체에 존재하는) 그리고 하나 이상의 조상으로부터 유전되는 뉴클레오티드 서열을 지칭한다. 특히, 하플로타입은 단일 부모로부터 각각 그러한 유기체에 의해 함께 유전되고 모집단의 유기체에 존재하는 대립유전자 또는 다른 뉴클레오티드 서열을 포함할 수 있다. 하나 이상의 구현예에서, 하플로타입은 함께 유전되는 경향이 있는 동일한 염색체 상의 SNP의 세트를 포함한다. 일부 경우들에서, 하플로타입 또는 상이한 하플로타입의 세트를 나타내는 데이터는 하플로타입 데이터베이스 상에서 저장되거나 달리 액세스 가능하다. 또한, "대치된 하플로타입"은 샘플 게놈에 존재하는 것으로 추정되거나 통계적으로 추론된 하플로타입을 지칭한다. 예를 들어, 대치된 하플로타입은 게놈 좌표 또는 영역을 둘러싸거나 측면에 위치하는 SNP에 기반하여 게놈 좌표 또는 영역에 대한 통계적으로 추론된 하플로타입일 수 있다. 상기에 나타낸 바와 같이, 대치된 하플로타입은 표적 게놈 영역을 둘러싸고 맞춤형 시퀀싱 시스템이 하플로타입을 대치하게 하는 SNP 또는 다른 변이-뉴클레오티드 염기 결정을 포함할 수 있다. 이와 관련하여, "모집단 하플로타입"은 특정 또는 정의된 모집단 내에 존재하는 하플로타입을 지칭한다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "게놈 좌표"는 게놈(예를 들어, 유기체의 게놈 또는 참조 게놈) 내의 뉴클레오티드 염기의 특정 위치 또는 위치를 지칭한다. 일부 경우에, 게놈 좌표는 게놈의 특정 염색체에 대한 식별자 및 특정 염색체 내의 뉴클레오티드 염기의 위치에 대한 식별자를 포함한다. 예를 들어, 게놈 좌표 또는 좌표들은 염색체(예컨대, chr1 또는 chrX)에 대한 수, 이름, 또는 다른 식별자 및 염색체에 대한 식별자에 따른 번호가 매겨진 위치(예컨대, chr1:1234570 또는 chr1:1234570-1234870)와 같은 특정 위치 또는 위치들을 포함할 수 있다. 또한, 특정 구현예에서, 게놈 좌표는 참조 게놈의 소스(예를 들어, 미토콘드리아 DNA 참조 게놈에 대한 mt 또는 SARS-CoV-2 바이러스에 대한 참조 게놈에 대한 SARS-CoV-2) 및 참조 게놈에 대한 소스 내의 뉴클레오티드-염기의 위치(예를 들어, mt:16568 또는 SARS-CoV-2:29001)를 지칭한다. 대조적으로, 특정 경우에, 게놈 좌표는 염색체 또는 소스(예를 들어, 29727)를 참조하지 않는 참조 게놈 내의 뉴클레오티드-염기의 위치를 지칭한다.
또한, 본원에 사용되는 바와 같이, "게놈 영역"은 게놈 좌표의 범위를 지칭한다. 게놈 좌표와 마찬가지로, 특정 구현예에서, 게놈 영역은 염색체에 대한 식별자 및 염색체에 대한 식별자에 따른 번호가 매겨진 위치(예컨대, chr1:1234570-1234870)와 같은 특정 위치 또는 위치들에 의해 확인될 수 있다.
위에서 언급된 바와 같이, 게놈 좌표는 참조 게놈 내의 위치를 포함한다. 이러한 위치는 특정 참조 게놈 내에 있을 수 있다. 본원에 사용되는 바와 같이, 용어 "참조 게놈"은 유기체에 대한 유전자의 대표적인 예시(또는 대표적인 예시들)로서 조립된 디지털 핵산 서열을 지칭한다. 서열 길이에 관계없이, 일부 경우에, 참조 게놈은 특정 종의 유기체의 대표로서 과학자들 또는 통계적 모델들에 의해 결정된 디지털 핵산 시퀀스 내의 핵산 시퀀스의 세트 또는 유전자의 세트의 예를 나타낸다. 예를 들어, 선형 인간 참조 게놈은 GRCh38 또는 게놈 참조 컨소시엄으로부터의 참조 게놈의 다른 버전일 수 있다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "그래프 참조 게놈"은 선형 참조 게놈 및 하플로타입 또는 다른 대안적인 핵산 서열을 나타내는 경로 둘 모두를 포함하는 참조 게놈을 포함할 수 있다. 특히, 그래프 참조 게놈은 선형 참조 게놈 및 하플로타입 데이터베이스로부터의 특정 샘플 게놈에 대해 확인된 대치된 하플로타입에 대응하는 경로를 포함할 수 있다. 하나의 예로서, 그래프 참조 게놈은 Illumina DRAGEN 그래프 참조 게놈 hg19를 포함할 수 있다. 대조적으로, 본 개시내용은 또한 선형 참조 게놈 및 샘플 게놈에 대해 선택되거나 맞춤형 대치된 하플로타입을 나타내는 경로를 포함하는 그래프 참조 게놈을 기술한다.
또한, 본원에 사용되는 바와 같이, 용어"저-신뢰도-결정 영역"은 대응하는 시퀀싱 메트릭스에 대한 하나 이상의 임계치들을 만족하지 않는 하나 이상의 시퀀싱 메트릭스에 대응하는 게놈 좌표의 범위를 지칭한다. 특히, 저-신뢰도 결정 영역은 대응하는 품질 메트릭스 또는 품질 또는 정렬에 대한 임계치를 만족하지 않는 다른 시퀀싱 메트릭스를 갖는 게놈 좌표의 범위를 포함할 수 있다. 설명하기 위해, 저-신뢰도 결정 영역은 (전체 또는 부분적으로) VNTR, 큰 삽입 또는 결실, 다양한 상이한 변이를 갖는 영역, 및/또는 다른 유형들의 게놈 변이를 포함하는 게놈 영역을 포함할 수 있다.
또한, 본원에 사용되는 바와 같이, 용어 "시퀀싱 메트릭스"는 개별 뉴클레오티드-염기 결정(또는 뉴클레오티드-염기 결정의 서열)이 참조 게놈의 게놈 좌표 또는 게놈 영역에 대해 또는 뉴클레오티드-단편 리드로부터의 뉴클레오티드-염기 결정에 대해 정렬되거나, 비교되거나, 정량화되는 정도를 나타내는 정량적 측정 또는 점수를 지칭한다. 예를 들어, 시퀀싱 메트릭스는 (i) 개별 뉴클레오티드-염기 결정이 참조 게놈의 게놈 좌표 또는 참조 염기를 정렬, 맵핑, 또는 커버하거나 (ii) 뉴클레오티드-염기 결정을 매핑, 미스매치, 염기-결정 품질, 또는 다른 원시 시퀀싱 메트릭스에 관하여 참조 또는 대안적인 뉴클레오티드 리드와 비교하는 정도를 나타내는 정량적 측정 또는 점수를 포함한다. 아래에서 설명되는 바와 같이, 시퀀싱 메트릭스는 상이한 유형의 품질 메트릭스를 포함할 수 있다.
단지 나타낸 바와 같이, 용어 "품질 메트릭스"는 하나 이상의 게놈 좌표에 대응하는 뉴클레오티드-염기 결정 또는 뉴클레오티드-단편 리드의 정확도, 신뢰도, 또는 양을 나타내는 메트릭스 또는 다른 정량적 측정을 지칭한다. 특히, 품질 메트릭스는 하나 이상의 예측된 뉴클레오티드-염기 결정이 부정확하거나 뉴클레오티드-단편 리드가 오정렬되거나 정량적 임계치(예를 들어, 깊이) 미만인 가능성을 나타내는 값을 포함한다. 예를 들어, 특정 시행예에서, 품질 메트릭스는 아래에서 추가로 설명되는 바와 같이 결정-데이터-품질 메트릭스, 리드-데이터-품질 메트릭스, 또는 맵핑-품질 메트릭스를 포함할 수 있다.
또한, 본원에 사용되는 바와 같이, 용어 "리드-데이터-품질 메트릭스"는 뉴클레오티드-단편 리드에 대응하는 품질 및/또는 확실성을 정량화하는 메트릭스 또는 다른 측정치를 지칭한다. 특히, 리드-데이터 품질 메트릭스는 다수의 리드(예를 들어, 특정 게놈 좌표와 중첩되는 모든 리드)에 걸친 또는 다수의 사이클(예를 들어, 모든 사이클)에 걸친 특정 게놈 좌표에서 예시적인 핵산 서열(예를 들어, 참조 게놈 또는 대치된 하플로타입)의 뉴클레오티드-염기와 매치하지 않는 뉴클레오티드-염기의 총 수를 반영하는 메트릭스를 포함할 수 있다. 추가적으로, 또는 대안적으로, 리드-데이터-품질 메트릭스는, 예를 들어 게놈 좌표를 커버하는 뉴클레오티드-염기의 시퀀싱 리드 내의 평균 또는 중간 위치를 결정함으로써 샘플 핵산 서열에 대한 리드-위치 메트릭스를 반영하는 메트릭스를 포함할 수 있다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "결정-데이터-품질 메트릭스"는 뉴클레오티드-염기 결정의 정확도 또는 확실성을 정량화하는 메트릭스 또는 다른 측정치를 지칭한다. 결정-데이터-품질 메트릭스는, 예를 들어, 염기-결정-품질 메트릭스, 결정가능성 메트릭스, 또는 체세포-품질 메트릭스를 포함할 수 있다. 초기 예에 대한 것으로서, "염기-결정-품질 메트릭스"는 뉴클레오티드-염기 결정의 정확도를 나타내는 특정 점수 또는 다른 측정치를 지칭한다. 특히, 염기-결정-품질 메트릭스는 게놈 좌표에 대한 하나 이상의 예측된 뉴클레오티드-염기-결정이 에러를 내포할 가능성을 나타내는 값을 포함한다. 예를 들어, 특정 시행예에서, 염기-결정-품질 메트릭스는 임의의 주어진 뉴클레오티드-염기 결정의 에러 확률을 예측하는 Q 점수(예를 들어, Phred 품질 점수)를 포함할 수 있다. 설명하기 위해, 품질 점수(또는 Q 점수)는 게놈 좌표에서 부정확한 뉴클레오티드-염기 결정의 확률이 Q20 점수에 대해 100분의 1, Q30 점수에 대해 1000분의 1, Q40 점수에 대해 10,000분의 1 등등과 동일함을 나타낼 수 있다.
또한, 본원에 사용되는 바와 같이, 용어 "결정가능성 메트릭스"는 게놈 좌표에서 정확한 뉴클레오티드-염기 결정(예를 들어, 변이-뉴클레오티드-염기 결정)을 나타내는 정량화하는 메트릭스 또는 다른 측정치를 지칭한다. 설명하기 위해, 결정가능성 메트릭스는 Illumina, Inc에 의해 시행되는 바와 같이 통과 유전자형 결정을 갖는 비-N 참조 위치의 분율 또는 백분율을 포함할 수 있다. 또한, 일부 시행예에서, 맞춤형 시퀀싱 시스템(104)은 결정가능성 메트릭스를 결정하기 위해 게놈 분석 툴키트(GATK)의 버전을 사용한다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "체세포-품질 메트릭스"는 종양 샘플 게놈에서 다수의 이례적인 뉴클레오티드-단편 리드를 결정할 확률을 추정하는 메트릭스 또는 다른 측정치를 지칭한다. 예를 들어, 체세포-품질 메트릭스는 종양 및 정상 BAM 파일의 비정상 및 정상 리드 수가 주어진 경우, 피셔 정확 시험(Fisher Exact Test)을 사용하여 종양 샘플 게놈에서 주어진(또는 더 극단적인) 비정상 리드 수를 결정할 확률의 추정치를 나타낼 수 있다. 일부 경우에서, 체세포-품질 메트릭스를 결정하기 위해 Phred 알고리즘을 사용하는 맞춤형 시퀀싱 시스템(104)은 체세포-품질 메트릭스를 0 내지 60 범위의 품질 점수(또는 Q 점수)와 같은 Phred-scale 점수로서 표현한다. 그러한 품질 점수는 -10 log10과 동일할 수 있다(확률 변이는 체세포적이다).
또한, 본원에 사용되는 바와 같이, 용어 "맵핑-품질 메트릭스"는 참조 게놈을 갖는 뉴클레오티드-단편 리드 또는 다른 샘플 뉴클레오티드 서열의 정렬의 품질 또는 확실성을 정량화하는 메트릭스 또는 다른 측정치를 지칭한다. 특히, 용어 맵핑-품질 메트릭스는 게놈 좌표에서 뉴클레오티드-염기 결정에 대한 맵핑 품질(MAPQ) 점수를 포함할 수 있으며, 여기서 MAPQ 점수는 -10 log10 Pr{맵핑 위치가 잘못됨}로 나타나고, 가장 가까운 정수로 반올림된다. 평균 또는 중앙값 맵핑 품질에 대한 대안에서, 일부 구현예에서, 맵핑-품질 메트릭스는 게놈 좌표에서 참조 게놈과 정렬하는 모든 뉴클레오티드-단편 리드에 대한 맵핑 품질의 전체 분포를 지칭한다.
본원에 추가로 사용되는 바와 같이, 용어 "깊이 메트릭스"는 샘플 게놈 또는 다른 핵산 서열의 게놈 좌표에 대응하거나 중첩되는 뉴클레오티드-단편 리드의 수(또는 뉴클레오티드-단편 리드로부터의 뉴클레오티드-염기 결정의 수)를 정량화하는 메트릭스를 지칭한다. 예를 들어, 깊이 메트릭스는 시퀀싱 동안 게놈 좌표에서 결정되고 정렬된 뉴클레오티드-염기 결정의 수를 정량화할 수 있다. 일부 경우에, 맞춤형 시퀀싱 시스템은 1의 정규화된 깊이가 이배체를 지칭하고 0.5의 정규화된 깊이가 반수체를 지칭하는 스케일을 사용한다. 추가적으로 또는 대안적으로, 맞춤형 시퀀싱 시스템은 게놈 좌표 또는 게놈 영역에서 예상 또는 임계 깊이 커버리지 미만의 뉴클레오티드-염기 결정의 수를 정량화하는 깊이 메트릭스를 활용할 수 있다.
또한, 본원에 사용되는 바와 같이, 용어 "유전자형 가변성"은 특정 게놈 영역에 대한 뉴클레오티드 염기에 대한 유전자형의 변이 정도를 지칭한다. 특히, 유전자형 가변성은 게놈 영역 및/또는 하플로타입이 그래프 참조 게놈과 정렬될 가능성을 정량화하는 메트릭스 또는 측정치를 포함할 수 있다. 추가적으로, 하나 이상의 구현예에서, 유전자형 가변성은 참조 게놈에 대한 특정 게놈 영역에서 가능한 뉴클레오티드 염기(또는 뉴클레오티드-염기 서열)의 수 또는 폭을 반영할 수 있다.
하기 단락들은 예시적인 구현예 및 시행예를 묘사하는 예시적인 수치에 관해 맞춤형 시퀀싱 시스템을 기술한다. 예를 들어, 도 1은 맞춤형 시퀀싱 시스템(104)이 하나 이상의 구현예에 따라 동작하는 시스템 환경(또는 "환경")(100)의 개략도를 설명한다. 설명된 바와 같이, 환경(100)은 네트워크(112)를 통해 사용자 클라이언트 장치(108) 및 시퀀싱 장치(114)에 연결된 하나 이상의 서버 장치(들)(102)를 포함한다. 도 1은 맞춤형 시퀀싱 시스템(104)의 구현예를 나타내지만, 본 개시내용은 아래의 대안적인 구현예 및 구성을 기술한다.
도 1에 도시된 바와 같이, 서버 장치(들)(102), 사용자 클라이언트 장치(108), 및 시퀀싱 장치(114)는 네트워크(112)를 통해 연결된다. 따라서, 환경(100)의 각각의 구성요소는 네트워크(112)를 통해 통신할 수 있다. 네트워크(112)는 컴퓨팅 장치가 통신할 수 있는 임의의 적합한 네트워크를 포함한다. 예시적인 네트워크는 도 11과 관련하여 아래에서 추가로 자세히 논의된다.
도 1에 나타낸 바와 같이, 시퀀싱 장치(114)는 샘플 게놈 또는 핵산 중합체를 시퀀싱하기 위한 장치를 포함한다. 일부 구현예에서, 시퀀싱 장치(114)는 샘플로부터 추출된 핵산 세그먼트 또는 올리고뉴클레오티드를 분석하여 시퀀싱 장치(114)에서 직접적으로 또는 간접적으로 컴퓨터 구현 방법 및 시스템(본원에 기술됨)을 활용하여 데이터를 생성한다. 보다 구체적으로, 시퀀싱 장치(114)는 뉴클레오티드-샘플 슬라이드(예컨대, 유동 셀) 내에서 샘플로부터 추출된 핵산 서열을 수신 및 분석한다. 하나 이상의 구현예에서, 시퀀싱 장치(114)는 SBS를 활용하여 샘플 게놈 또는 다른 핵산 중합체를 시퀀싱한다. 네트워크(112)를 통한 통신에 추가적으로 또는 대안적으로, 일부 구현예에서 시퀀싱 장치(114)는 네트워크(112)를 우회하고 사용자 클라이언트 장치(108)와 직접 통신한다. 추가적으로, 도 1에 도시된 바와 같이, 하나 이상의 구현예에서, 시퀀싱 디바이스(114)는 맞춤형 시퀀싱 시스템(104)을 포함한다.
도 1에 추가로 나타낸 바와 같이, 서버 장치(들)(102)는 뉴클레오티드-염기 결정 또는 시퀀싱 핵산 중합체에 대한 데이터와 같은 디지털 데이터를 생성, 수신, 분석, 저장, 및 전송할 수 있다. 도 1에 도시된 바와 같이, 시퀀싱 장치(114)는 뉴클레오티드-단편 리드를 나타내는 데이터를 포함하여, 시퀀싱 장치(114)로부터 다양한 데이터를 송신(및 서버 장치(들)(102)가 수신)할 수 있다. 서버 장치(들)(102)는 또한 사용자 클라이언트 장치(108)와 통신할 수 있다. 특히, 서버 장치(들)(102)는 뉴클레오티드-단편 리드, 직접 뉴클레오티드-염기 결정, 대치 뉴클레오티드-염기 결정, 및/또는 시퀀싱 메트릭스에 대한 데이터를 사용자 클라이언트 장치(108)로 전송할 수 있다. 도 1에 추가로 도시된 바와 같이, 서버 장치(들)(102)는 맞춤형 시퀀싱 시스템(104)을 포함할 수 있다. 하나 이상의 구현예에서, 아래에서 추가로 설명되는 바와 같이, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대해 맞춤화된 그래프 참조 게놈(106)을 생성한다. 따라서, 서버 장치(들)(102)는 또한 그래프 참조 게놈(106)을 사용자 클라이언트 장치(108)로 전송할 수 있다.
일부 구현예에서, 서버 장치(들)(102)는 네트워크(112)에 걸쳐 분산되고 동일하거나 상이한 물리적 위치에 위치한 다수의 서버 장치를 포함하는 서버들의 분산된 컬렉션을 포함한다. 또한, 서버 장치(들)(102)는 콘텐츠 서버, 애플리케이션 서버, 통신 서버, 웹 호스팅 서버, 또는 다른 유형의 서버를 포함할 수 있다.
도 1에 추가로 예시되고 나타낸 바와 같이, 사용자 클라이언트 장치(108)는 디지털 데이터를 생성, 저장, 수신 및 전송할 수 있다. 특히, 사용자 클라이언트 장치(108)는 서버 장치(들)(102) 및/또는 시퀀싱 장치(114)로부터 뉴클레오티드-단편 리드, 직접 뉴클레오티드-염기 결정, 대치 뉴클레오티드-염기 결정, 시퀀싱 메트릭스, 및/또는 그래프 참조 게놈에 대한 데이터를 수신할 수 있다. 따라서 사용자 클라이언트 장치(108)는 사용자 클라이언트 장치(108)와 연관된 사용자에게 그래픽 사용자 인터페이스 내 최종 뉴클레오티드-단편 리드를 제시할 수 있다.
도 1에 예시된 사용자 클라이언트 장치(108)는 다양한 유형의 클라이언트 장치를 포함할 수 있다. 예를 들어, 일부 구현예에서, 사용자 클라이언트 장치(108)는 데스크톱 컴퓨터 또는 서버와 같은 비-모바일 장치, 또는 다른 유형의 클라이언트 장치를 포함한다. 또 다른 구현예에서, 사용자 클라이언트 장치(108)는 랩톱, 태블릿, 휴대폰 또는 스마트폰과 같은 모바일 장치를 포함한다. 사용자 클라이언트 장치(108)에 관한 추가 세부사항은 도 11과 관련하여 아래에서 논의된다.
도 1에 추가로 예시된 바와 같이, 사용자 클라이언트 장치(108)는 시퀀싱 애플리케이션(110)을 포함한다. 시퀀싱 애플리케이션(110)은 사용자 클라이언트 장치(108)에 저장되고 실행되는 웹 애플리케이션 또는 네이티브(native) 애플리케이션(예를 들어, 모바일 애플리케이션, 데스크톱 애플리케이션)일 수 있다. 시퀀싱 애플리케이션(110)은 (실행될 때) 사용자 클라이언트 장치(108)가 맞춤형 시퀀싱 시스템(104)으로부터 데이터를 수신하고 시퀀싱 장치(114) 및/또는 서버 장치(들)(102)로부터 데이터를 제시하게 하는 명령어를 포함할 수 있다. 또한, 시퀀싱 애플리케이션(110)은 사용자 클라이언트 장치(108)에게 변이 검출 파일로부터의 변이-뉴클레오티드-염기 결정과 같은 그래프 참조 게놈에 관한 뉴클레오티드-염기 결정에 대한 데이터를 디스플레이하도록 지시할 수 있다.
도 1에 추가로 예시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 애플리케이션(110)의 일부로서 사용자 클라이언트 장치(108)에 또는 시퀀싱 장치(114)에 위치할 수 있다. 따라서 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 사용자 클라이언트 장치(108)에 의해 구현된다(예를 들어, 전체적으로 또는 부분적으로 위치함). 언급된 바와 같이, 또 다른 구현예에서, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 장치(114)와 같은 환경(100)의 하나 이상의 다른 구성요소에 의해 구현된다. 특히, 맞춤형 시퀀싱 시스템(104)은 서버 장치(들)(102), 네트워크(112), 사용자 클라이언트 장치(108) 및 시퀀싱 장치(114)에 걸쳐 다양한 방식으로 구현될 수 있다.
비록 도 1은 네트워크(112)를 통해 통신하는 환경(100)의 구성요소를 설명하지만, 특정 시행예에서 환경(100)의 구성요소는 또한 네트워크를 우회하여 서로 직접 통신할 수도 있다. 예를 들어, 앞서 언급한 바와 같이, 일부 시행예에서, 사용자 클라이언트 장치(108)는 시퀀싱 장치(114)와 직접 통신한다. 추가적으로, 일부 구현예에서, 사용자 클라이언트 장치(108)는 맞춤형 시퀀싱 시스템(104)과 직접 통신한다. 더욱이, 맞춤형 시퀀싱 시스템(104)은 서버 장치(들)(102) 또는 환경(100)의 다른 곳에 수용되거나 이에 의해 액세스되는 하나 이상의 데이터베이스에 액세스할 수 있다.
상기에 나타낸 바와 같이, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈(또는 샘플 게놈들의 군)에 맞춤화된 그래프 참조 게놈을 생성할 수 있고 그래프 참조 게놈을 사용하여 샘플 게놈에 대한 뉴클레오티드-염기 결정을 결정할 수 있다. 도 2a는 그러한 맞춤형 그래프 참조 게놈을 생성 및 활용하기 위한 공정(200)의 개요를 설명한다. 도 2a에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈 내의 특정 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정을 결정한다. 맞춤형 시퀀싱 시스템(104)은 후속적으로 변이-뉴클레오티드-염기 결정을 활용하여 게놈 영역에 대응하는 하플로타입을 대치한다. 맞춤형 시퀀싱 시스템(104)은 대치된 하플로타입을 나타내는 경로를 포함하는 맞춤형 그래프 참조 게놈을 추가로 생성한다. 일부 구현예에서, 이어서 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 대한 뉴클레오티드-단편 리드를 그래프 참조 게놈 내의 경로와 비교함으로써 샘플 게놈에 대한 뉴클레오티드-염기 결정을 결정한다.
도 2a에 단지 표시되고 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정을 결정하는 작용(202)을 수행할 수 있다. 이러한 게놈 영역을 확인하기 위해, 일부 경우에, 맞춤형 시퀀싱 시스템(104)은 (예를 들어, 하나 이상의 시퀀싱 사이클로부터) 샘플 게놈에 대한 뉴클레오티드-단편 리드를 나타내는 데이터를 시퀀싱하거나 수신한다. 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드와 참조 게놈(예를 들어, 선형 참조 게놈)의 비교에 기반하여 변이-뉴클레오티드-염기 결정(또는 다른 뉴클레오티드-염기 결정) 및 시퀀싱 메트릭스를 추가로 결정한다. 결정된 뉴클레오티드-염기 결정을 갖는, 맞춤형 시퀀싱 시스템(104)은 대응하는 품질 임계치 미만의 시퀀싱 메트릭스를 나타내는 뉴클레오티드-염기 결정을 갖는 표적 게놈 영역을 확인한다.
표적 게놈 영역을 확인할 때, 맞춤형 시퀀싱 시스템(104)은 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정을 확인할 수 있다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 변이-뉴클레오티드-염기 결정에 대해 게놈 영역으로부터 미리 결정된 수의 염기쌍 내에서 검색한다. 구체적으로, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 영역(예를 들어, 게놈 영역으로부터의 10,000 내지 50,000개의 염기쌍) 내의 염기쌍의 임계 수 내에서 SNP 또는 다른 변이-뉴클레오티드 염기 결정을 확인한다. 상기에 언급된 바와 같이, 그러한 확인된 SNP(또는 다른 변이-뉴클레오티드-염기 결정)는 표적 게놈 영역에 존재하는 바와 같이 맞춤형 시퀀싱 시스템(104)이 대치한 하플로타입의 일부일 수 있다. SNP에 대한 대안에서, 일부 경우에, 맞춤형 시퀀싱 시스템(104)은 삽입, 결실, 또는 역전과 같은 게놈 영역을 둘러싸는 다른 변이 유형을 확인한다.
도 2a에 추가로 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 변이-뉴클레오티드-염기 결정에 기반하여 게놈 영역에 대한 하플로타입을 대치하는 작용(204)을 수행할 수 있다. 설명하기 위해, 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정을 결정할 때, 맞춤형 시퀀싱 시스템(104)은 하플로타입 데이터베이스(206)로부터 게놈 영역에 대한 하플로타입을 대치할 수 있다. 하나 이상의 구현예에서, 하플로타입 데이터베이스(206)는 하플로타입의 뉴클레오티드-염기 서열을 나타내는 데이터 및 하플로타입에 대한 대응 게놈 좌표, 하플로타입에 대해 공통된 주변 변이-뉴클레오티드-염기 결정, 및/또는 하플로타입과 연관된 모집단과 같은 하플로타입에 대응하는 다른 데이터를 포함한다.
하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 존재할 가능성이 있는 하플로타입을 통계적 확률로 통계적으로 추론함으로써 게놈 영역에 대한 하플로타입을 대치한다. 보다 구체적으로, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정을 특정 하플로타입과 연관된 공통 변이-뉴클레오티드 염기 결정과 비교함으로써 하플로타입을 대치한다. 맞춤형 시퀀싱 시스템(104)은 게놈 영역을 둘러싸는 SNP를 하플로타입 데이터베이스(206) 내의 하플로타입과 연관된 SNP와 비교할 수 있다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 게놈 영역과 하플로타입 데이터베이스(206)의 하플로타입 사이에서 공통인 SNP를 결정할 수 있다. 따라서, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 통계적 추론 및 공유 변이-뉴클레오티드-염기 결정(예를 들어, SNP)의 양을 활용하여, 게놈 영역에 존재할 가능성이 있는 하플로타입 데이터베이스(206)로부터 하플로타입을 확인한다.
하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 대한 대치된 하플로타입을 활용하여 맞춤형 그래프 참조 게놈을 생성한다. 설명하기 위해, 도 2a에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 변이-뉴클레오티드-염기 결정에 기반하여 게놈 영역에 대한 대치된 하플로타입의 경로를 포함하는 그래프 참조 게놈을 생성하는 작용(208)을 수행할 수 있다. 보다 구체적으로, 맞춤형 시퀀싱 시스템(104)은 그래프 참조 게놈을 포함하기 위한 게놈 영역에 대응하는 대치된 하플로타입을 나타내는 경로를 추가 또는 생성할 수 있다. 실제로, 맞춤형 시퀀싱 시스템(104)은 그래프 참조 게놈에서 다수의 표적 게놈 영역에 대한 그러한 경로를 추가할 수 있다.
하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 은닉 마르코프 모델을 활용하여 관련 유전자형들을 확인함으로써 하플로타입을 대치한다. 설명하기 위해, 일부 구현예에서, 은닉 마르코프 모델은 하플로타입이 게놈 영역에 대응할 가능성을 결정함으로써 하플로타입을 확인한다. 보다 구체적으로, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 대응하는 하플로타입을 확인하기 위해 하플로타입 데이터베이스 및 하플로타입 패턴(예를 들어, 주변 변이-뉴클레오티드-염기 결정)을 활용하는 은닉 마르코프 모델(HMM)을 활용할 수 있다.
HMM 대치를 구현할 때, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 Na Li and Matthew Stephens, "Modeling Linkage Disequilibrium and Identifying Recombination Hotspots Using Single-Nucleotide Polymorphism Data," 165 Genetics 2213-2233 (2003)에 기재된 접근법을 기반으로 대치 모델을 활용할 수 있으며, 이의 내용은 전체적으로 본원에 참고로 포함된다. 설명하기 위해, 일부 경우에, 맞춤형 시퀀싱 시스템(104)은 표적 게놈 영역 또는 좌표에서 참조 패널로부터의 하플로타입의 모자이크로서 샘플 게놈의 유전자형을 모델링한다. 맞춤형 시퀀싱 시스템(104)은 샘플 게놈이 표적 게놈 영역 또는 좌표를 둘러싸거나 측면에 위치하는 결정된 변이 뉴클레오티드-염기 결정(예를 들어, SNP)에 기반하여 표적 게놈 영역 또는 좌표에 한 쌍의 하플로타입을 포함할 확률을 추가로 결정한다. 일부 그러한 경우에서, 맞춤형 시퀀싱 시스템(104)은 관찰된 변이 뉴클레오티드-염기 결정 및 인근 게놈 영역 또는 좌표에서 추론된 하플로타입의 유사성에 기반하여 하플로타입이 표적 게놈 영역 또는 좌표에 존재할 확률을 결정함으로써 (i) 표적 게놈 영역 또는 좌표와 (ii) 인근 게놈 영역 또는 좌표 사이의 잠재적인 연계를 설명한다. 하플로타입의 쌍에 대한 결정된 확률을 갖는, 일부 경우에서, 맞춤형 시퀀싱 시스템(104)은 가장 높은 확률 및/또는 임계 확률 초과를 나타내는 하플로타입을 표적 게놈 영역 또는 좌표에 대한 대치된 하플로타입으로서 선택한다. 본 개시내용은 도 3a 및 도 3b를 참조하여 하기 하플로타입 대치의 추가 실시예 및 설명을 제공한다.
전술한 바와 같이, 맞춤형 시퀀싱 시스템(104)은 맞춤형 그래프 참조 게놈을 활용하여 게놈 영역에 대한 뉴클레오티드-염기 결정을 결정할 수 있다. 설명하기 위해, 도 2a에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈의 뉴클레오티드-단편 리드를 그래프 참조 게놈 내의 대치된 하플로타입을 나타내는 경로와 비교함으로써 부분적으로 게놈 영역에 대한 뉴클레오티드-염기 결정을 결정하는 작용(210)을 수행한다. 위에서 제안된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 마찬가지로 샘플 게놈의 뉴클레오티드-단편 리드를 그래프 참조 게놈 내의 선형 참조 게놈의 일부분이나 대치된 하플로타입을 나타내는 어느 경로와 비교함으로써 샘플 게놈 내의 다른 게놈 영역에 대한 뉴클레오티드-염기 결정을 결정할 수 있다.
단지 언급된 바와 같이, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 직접 변이-뉴클레오티드-염기 결정 또는 직접 불변-뉴클레오티드-염기 결정을 결정하기 위해 뉴클레오티드-단편 리드를 선형 참조 게놈 또는 대치된 하플로타입을 나타내는 경로에 맞춰 조정한다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 그래프 참조 게놈으로부터 참조 염기와 매치하는 뉴클레오티드-염기 결정에 맞춰 뉴클레오티드-단편 리드를 조정할 수 있다. 보다 구체적으로, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-염기 결정에 대응하는 게놈 좌표 또는 영역에서 참조 게놈과 직접 정렬된 뉴클레오티드-단편 리드에 기반하여 직접 불변-뉴클레오티드-염기 결정을 결정한다. 맞춤형 시퀀싱 시스템(104)은 그래프 참조 게놈에 포함된 상이한 가능한 하플로타입 경로를 결정하기 위해 통계적 추론을 활용하기 때문에, 맞춤형 시퀀싱 시스템(104)은 저-신뢰도-결정 영역, 뉴클레오티드-단편 리드에 의한 커버리지가 거의 또는 전혀 없는 게놈 영역, 또는 샘플 내의 다른 게놈 영역에 대해 변이-뉴클레오티드-염기 결정(또는 다른 뉴클레오티드-염기 결정)을 더 정확하게 결정할 수 있다.
정렬된 뉴클레오티드-단편 리드에 기반하여 직접 뉴클레오티드-염기 결정을 더 정확하게 결정하는 것을 결정하는 것에 더하여, 맞춤형 시퀀싱 시스템(104)은 또한 대치 뉴클레오티드-염기 결정을 결정하고 고려할 수 있다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 표적 게놈 영역, 모집단 하플로타입, 및/또는 변이 빈도 주위의 또는 측면에 위치하는 변이 뉴클레오티드-염기 결정과 같은 간접 증거에 기반하여 뉴클레오티드-염기 결정을 결정할 수 있다. 도 2b는 참조 게놈, 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스, 및 샘플 게놈의 특정 게놈 영역에 대한 대치 뉴클레오티드-염기 결정에 대한 직접 뉴클레오티드-염기 결정에 기반하여 샘플 게놈의 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정을 결정하는 맞춤형 시퀀싱 시스템(104)의 개요(220)를 설명한다.
도 2b에 도시된 바와 같이, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 직접 뉴클레오티드-염기 결정 및 시퀀싱 메트릭스를 결정하는 작용(222)을 수행한다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대응하는 뉴클레오티드-단편 리드를 수신하거나 결정한다. 예를 들어, 일부 경우에, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 장치(114)에서 SBS를 수행하여 뉴클레오티드-샘플 슬라이드(예를 들어, 유동 셀) 내의 클러스터에 대응하는 뉴클레오티드-단편 리드에 대한 뉴클레오티드-염기 결정을 결정한다. 대안적으로, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대한 그러한 뉴클레오티드-단편 리드에 대한 뉴클레오티드-염기 결정을 나타내는 시퀀싱 장치로부터 데이터를 수신한다.
맞춤형 시퀀싱 시스템(104)이 뉴클레오티드-단편 리드에 대한 데이터를 수신하는 방법에 관계없이, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드를 참조 게놈에 정렬시킴으로써 샘플 게놈의 게놈 좌표 또는 영역에 대한 직접 뉴클레오티드-염기 결정을 결정한다. 설명하기 위해, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 서열에 대한 뉴클레오티드-단편 리드를 참조 게놈에 맵핑하고 확률적 모델(예를 들어, 베이지안 확률적 모델)을 적용하여, 샘플 게놈의 게놈 좌표에 대한 직접 뉴클레오티드-염기 결정(예를 들어, 변이-뉴클레오티드-염기 결정)을 결정한다. 아래에서 추가로 설명되는 바와 같이, 맞춤형 시퀀싱 시스템(104)은 후속적으로 변이-뉴클레오티드-염기 결정을 주변 게놈 영역에 대한 하플로타입을 대치하기 위한 염기로서 또는 최종 뉴클레오티드-염기 결정을 결정하기 위한 염기로서 이용할 수 있다.
직접 뉴클레오티드-염기 결정을 결정하는 것 외에도, 맞춤형 시퀀싱 시스템(104)은 또한 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스를 수신 또는 결정할 수 있다. 그러한 시퀀싱 메트릭스는 뉴클레오티드-단편 리드(예를 들어, 깊이 메트릭스, 리드-데이터-품질 메트릭스, 맵핑 데이터 품질 메트릭스)에 대응하는 다양한 정확도 및/또는 확실성 메트릭스를 나타낼 수 있다. 추가적으로, 그러한 시퀀싱 메트릭스는 직접 뉴클레오티드-염기 결정의 확실성 또는 품질(예를 들어, 결정-데이터-품질 메트릭스, 염기 품질 저하(BQD) 점수)을 나타낼 수 있다.
도 2b에 추가로 도시된 바와 같이, 하나 이상의 구현예에서, 작용(222)은 직접 뉴클레오티드-염기 결정을 결정하기 위해 선형 참조 게놈을 활용하는 작용(224) 또는 그래프 참조 게놈을 활용하는 작용(226)을 포함한다. 언급된 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대응하는 뉴클레오티드-단편 리드를 수신하거나 결정한다. 따라서, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드를 선형 참조 게놈 또는 그래프 참조 게놈에 정렬하여 직접 뉴클레오티드-염기 결정을 결정할 수 있다.
직접 변이-뉴클레오티드 염기 결정(또는 다른 뉴클레오티드-염기 결정)을 결정하는 것에 더하여, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 대치 뉴클레오티드-염기 결정을 결정한다. 설명하기 위해, 도 2b에 도시된 바와 같이, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 대응하는 하플로타입을 대치하는 작용(228)을 수행한다. 도 2a와 관련하여 위에서 논의된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 게놈 영역을 둘러싸거나 측면에 위치하는 변이-뉴클레오티드-염기 결정에 기반하여 게놈 영역의 게놈 좌표에 대응하는 하플로타입을 대치할 수 있다.
하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 또한 변이 빈도를 활용하는 것을 포함하여, 하플로타입을 대치하기 위해 다른 인자를 활용한다. 일부 구현예에서, 변이 빈도는 특정 하플로타입이 표적 게놈 좌표 또는 영역에서 발생할 가능성을 표시한다. 위에서 추가로 제안된 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대응하는 특정 모집단 및/또는 민족 집단에 공통인 게놈 변이를 표시하는 "국소(local)" 변이-뉴클레오티드-염기 결정 데이터 상의 게놈 영역 염기에 대해 가장 가능성이 있는 하플로타입을 대치한다. 맞춤형 시퀀싱 시스템(104)은 SNP 또는 다른 변이-뉴클레오티드 염기 결정에 기반하여 게놈 영역에 대해 가장 가능성이 있는 하플로타입을 표적 게놈 영역의 임계 염기쌍 거리 내에서 필터링하거나 좁힐 수 있다.
추가로 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 모집단 하플로타입 빈도를 활용하여 샘플 게놈에 대응하는 모집단에 대해 더 가능성이 높은(또는 더 일반적인) 하플로타입을 대치한다. 따라서, 맞춤형 시퀀싱 시스템(104)은 대치된 하플로타입을 결정하기 위해 하플로타입이 발생할 가능성을 표시하는 다양한 빈도 및/또는 모집단 데이터를 활용할 수 있다.
도 2b에 추가로 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 대치 뉴클레오티드-염기 결정을 결정하는 작용(230)을 수행한다. 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 대해 대부분 가능한 하플로타입으로부터 게놈 영역 내의 각각의 게놈 좌표에 대한 뉴클레오티드-염기 결정을 확인함으로써 대치 뉴클레오티드-염기 결정을 결정한다. 일부 경우에, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 대해 대치된 하플로타입의 순위를 매기고, 대치 뉴클레오티드-염기 결정을 확인할 가장 높은 순위가 매겨진 대치된 하플로타입을 선택한다.
추가적으로, 도 2b에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 임의로 직접 뉴클레오티드-염기 결정을 결정하는 작용(232)을 수행할 수 있으며, 여기서 작용(232)은 맞춤형 그래프 참조 게놈을 활용하는 작용(234)을 포함한다. 도 2a에 관하여 위에서 논의된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 맞춤형 그래프 참조 게놈을 생성 및 활용할 수 있다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드를 맞춤형 그래프 참조 게놈에 정렬하여 직접 뉴클레오티드-염기 결정을 결정한다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 직접 뉴클레오티드-염기 결정을 결정하기 위해 맞춤형 그래프 참조 내의 선형 그래프 게놈 또는 맞춤형 그래프 참조 게놈 내의 대치된 하플로타입 경로에 뉴클레오티드-단편 리드를 정렬한다. 이러한 구현예에서, 맞춤형 시퀀싱 시스템(104)은 최종 뉴클레오티드-염기 결정을 결정하기 위한 기준으로서, 작용(222)에서 결정된 직접 뉴클레오티드-염기 결정보다는, 맞춤형 그래프 참조 게놈을 갖는 작용(232)에서 결정된 직접 뉴클레오티드-염기 결정을 사용한다.
도 2b에 추가로 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 또한 대치 뉴클레오티드-염기 결정, 직접 뉴클레오티드-염기 결정, 및 시퀀싱 메트릭스에 기반하여 최종 뉴클레오티드-염기 결정을 결정하는 작용(236)을 수행한다. 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 메트릭스를 활용하여 직접 뉴클레오티드-염기 결정 또는 대치 뉴클레오티드-염기 결정으로부터의 특정 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정을 선택한다. 대치 뉴클레오티드-염기 결정이 특정 표적 게놈 영역으로 제한될 수 있지만, 일부 경우에, 맞춤형 시퀀싱 시스템(104)은 직접 뉴클레오티드-염기 결정 또는 대치 뉴클레오티드-염기 결정으로부터 샘플 게놈 내의 각각의 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정을 선택할 수 있다.
위에서 언급된 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 최종 뉴클레오티드-염기 결정을 결정하기 위해 가중된 모델을 활용한다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-염기 결정이 기반하는 뉴클레오티드-단편 리드 및/또는 직접 뉴클레오티드-염기 결정의 품질을 반영하는 시퀀싱 메트릭스에 기반하여 직접 뉴클레오티드-염기 결정을 가중한다. 또한, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 대치 뉴클레오티드-염기 결정을 결정하는 데 사용되는 하플로타입의 가변성 및/또는 빈도에 기반하여 대치 뉴클레오티드-염기 결정을 가중한다.
가중 모델에 추가적으로 또는 대안적으로, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 최종 뉴클레오티드-염기 결정을 결정하기 위해 기계 학습 모델을 활용한다. 하기에 추가로 기재되는 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 염기-결정-기계-학습 모델을 활용하여 직접 뉴클레오티드-염기 결정, 시퀀싱 메트릭스, 및 대치 뉴클레오티드-염기 결정에 기반하여 뉴클레오티드-염기 결정을 결정한다. 맞춤형 시퀀싱 시스템(104)은 직접 뉴클레오티드-염기 결정 또는 게놈 좌표에 대한 대치 뉴클레오티드-염기 결정의 선택에 의한 최종 뉴클레오티드-염기 결정을 예측하기 위해 염기-결정-기계-학습 모델을 훈련할 수 있다.
전술한 바와 같이, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈의 게놈 영역에 대한 하플로타입을 대치한다. 도 3a 및 도 3b는, 게놈 영역에 대한 하플로타입을 대치할지 그리고 (일부 경우들에서) 선형 참조 게놈에 대해 표적 게놈 영역에 대한 하플로타입을 대치할지 여부를 결정하는 맞춤형 시퀀싱 시스템(104)을 설명한다. 더 구체적으로, 도 3a는 표적 게놈 영역을 둘러싸는 뉴클레오티드-단편 리드 및 대응하는 변이 뉴클레오티드-염기 결정의 불충분한 깊이에 기반하여 하플로타입을 대치하지 않도록 결정하는 맞춤형 시퀀싱 시스템(104)을 설명한다. 대조적으로, 도 3a는 또한, 표적 게놈 영역을 둘러싸는 변이 뉴클레오티드-염기 결정(뉴클레오티드-단편 리드로부터 유래됨)에 기반하여 표적 영역에 대한 하플로타입을 대치하도록 결정하는 맞춤형 시퀀싱 시스템(104)을 설명한다.
도 3a에 의해 제안된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 장치를 활용하여 샘플 게놈에 대한 뉴클레오티드-단편 리드를 결정하거나 샘플 게놈에 대한 뉴클레오티드-단편 리드를 나타내는 데이터를 수신한다. 맞춤형 시퀀싱 시스템(104)은 추가로 뉴클레오티드-단편 리드를 선형 그래프 참조 게놈에 맞춰 조정한다. 따라서, 도 3a는 선형 그래프 참조 게놈에 정렬된 샘플 게놈의 뉴클레오티드-단편 리드의 저-깊이-영역 시각화(300)를 설명한다. 유사하게, 도 3a는 선형 그래프 참조 게놈에 정렬된 동일한(또는 상이한) 샘플 게놈의 뉴클레오티드-단편 리드의 고-깊이-영역 시각화(308)를 설명한다.
도 3a에 도시된 바와 같이, 저-깊이-영역 시각화(300)는 저-신뢰도-결정 영역(302) 및 게놈 영역(306)을 포함한다. 대조적으로, 고-깊이-영역 시각화(308)는 저-신뢰도-결정 영역(310) 및 게놈 영역(312)을 포함한다. 설명의 목적을 위해, 저-깊이-영역 시각화(300) 및 고-깊이-영역 시각화(308)는 선형 참조 게놈의 부분에 대한 샘플 게놈에 대한 샘플 게놈 영역(그러나 모든 게놈 영역은 아님)을 도시한다.
도 3a에 추가로 제안된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 동안 결정되고 선형 참조 게놈의 게놈 좌표에서 정렬된 뉴클레오티드-단편 리드의 뉴클레오티드-염기 결정에 대응하는 깊이 메트릭스 및 다른 시퀀싱 메트릭스를 결정한다. 맞춤형 시퀀싱 시스템(104)은 다양한 스케일 및 유형을 이용하여 깊이 메트릭스를 결정할 수 있다. 일부 구현예에서, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 각각의 게놈 좌표에 중첩하거나 대응하는 뉴클레오티드-단편 리드의 수를 정량화함으로써 깊이 메트릭스를 결정한다. 도 3a에 의해 제안된 바와 같이, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 (i) 저-깊이-영역 시각화(300) 내의 게놈 좌표는 게놈 좌표당 1x 내지 15x의 깊이를 갖고 (ii) 고-깊이-영역 시각화(308) 내의 게놈 좌표는 게놈 좌표당 30x(또는 그 초과)의 깊이를 갖는 것을 결정한다. 또한, 저-깊이-영역 시각화(300)는 더 짧은 뉴클레오티드-단편 리드를 포함한다.
결정된 깊이 메트릭스, 다른 시퀀싱 메트릭스, 또는 아래에서 설명되는 다른 인자에 기반하여, 맞춤형 시퀀싱 시스템(104)은 대치를 위한 표적 게놈 영역으로서 샘플 게놈으로부터 저-신뢰도-결정 영역 또는 다른 게놈 영역을 확인할 수 있다. 설명하기 위해, 특정 구현예에서, 맞춤형 시퀀싱 시스템(104)은 품질 임계치를 만족하지 못하는 맵핑-품질 메트릭스를 갖는 뉴클레오티드-단편 리드에 대응하는 저-신뢰도-결정 영역을 확인한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 MAPQ 점수의 분포에 기반하여 상대 임계치 미만인 MAPQ 점수를 갖는 게놈 영역을 확인하는 것과 같이, 저-신뢰도-결정 영역으로서 임계 MAPQ 미만인 MAPQ 점수를 갖는 뉴클레오티드-단편 리드를 갖는 게놈 영역을 확인할 수 있다.
추가적으로 또는 대안적으로, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 임계 결정-데이터-품질 메트릭스를 만족하지 않는 결정-데이터-품질 메트릭스를 갖는 뉴클레오티드-염기 결정에 대응하는 저-신뢰도-결정 영역을 확인한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 임계 염기-결정-품질 메트릭스(예를 들어, Q20, Q30) 미만인 염기-결정-품질 메트릭스를 갖는 뉴클레오티드-염기 결정을 갖는 게놈 영역을 확인할 수 있다. 유사하게, 맞춤형 시퀀싱 시스템(104)은 임계 결정가능성 메트릭스 또는 임계 체세포-품질 메트릭스 미만인 결정가능성 메트릭스 또는 체세포-품질 메트릭스를 각각 갖는 뉴클레오티드-염기 결정을 갖는 게놈 영역을 확인할 수 있다.
맵핑-품질 메트릭스 또는 결정-데이터-품질 메트릭스에 추가로(또는 대안적으로), 일부 경우에서, 맞춤형 시퀀싱 시스템(104)은 게놈 영역을 커버하거나 중첩하는 뉴클레오티드-단편 리드가 임계 깊이 메트릭스를 만족하지 못하는 깊이 메트릭스를 나타낼 때 게놈 영역을 저-신뢰도-결정 영역으로서 확인한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 게놈 영역과 커버하거나 중첩하는 뉴클레오티드-단편 리드가 깊이의 20개 또는 30개의 뉴클레오티드-단편 리드의 평균 미만인 깊이 메트릭스를 갖는 경우 게놈 영역을 저-신뢰도-결정 영역으로서 확인할 수 있다.
위에서 제안된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 또한 품질 메트릭스의 조합에 기반하여 게놈 영역을 저-신뢰도-결정 영역으로서 확인할 수 있다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 대응하는 뉴클레오티드-단편 리드 또는 뉴클레오티드-염기 결정의 일부, 백분율 또는 범위가 임계 품질 메트릭스의 임계 부분(예를 들어, 2/3) 또는 임계 품질 메트릭스의 세트(예를 들어, 임계 맵핑-품질 메트릭스, 임계 결정-데이터-품질 메트릭스, 임계 깊이 메트릭스)로부터의 각각의 임계 품질 메트릭스를 만족하지 못할 때 게놈 영역을 저-신뢰-결정 영역으로서 확인한다. 전술한 품질 메트릭스 및 대응하는 임계 품질 메트릭스 중 하나 이상에 기반하여, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 저-깊이-영역 시각화(300)에 도시된 저-신뢰도-결정 영역(302) 및 고-깊이-영역 시각화(308)에 도시된 저-신뢰도-결정 영역(310)을 확인한다.
저-신뢰도-결정 영역에 더하여, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 대치하기 위한 또는 대안적인 하플로타입을 확인하기 위한 다른 표적 게놈 영역을 확인한다. 예를 들어, 일부 경우에서, 맞춤형 시퀀싱 시스템(104)은 종종, 시퀀싱 기계 또는 시퀀싱 파이프라인이 임계치 품질 메트릭스를 만족하지 않거나 임계 백분율(예를 들어, 대안적인 하플로타입을 나타내는 샘플 게놈의 20% 또는 30%)을 초과하는 역사적으로 확인된 대안적인 하플로타입을 갖는 역사적으로 생성된 시퀀싱 매트릭스를 갖는 게놈 영역을 (표적 게놈 영역으로서) 확인한다. 추가적인 예로서, 맞춤형 시퀀싱 시스템(104)은 종종, 임계 품질 메트릭스를 만족하지 않거나 임계 백분율을 초과하는 역사적으로 확인된 대체 하플로타입을 갖는 역사적으로 생성된 시퀀싱 메트릭스를 갖는 특정 민족성 또는 지리적 영역의 샘플 게놈으로부터 게놈 영역을 (표적 게놈 영역으로서) 확인한다.
예를 들어, 맞춤형 시퀀싱 시스템(104)은 전술한 이력 인자 중 하나 이상에 기반하여, 저-깊이-영역 시각화(300)에 도시된 유전체 영역(304) 및 고-깊이-영역 시각화(308)에 도시된 유전체 영역(312)을 (표적 유전체 영역으로서) 확인한다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 특정 지리적 영역, 하플로타입 그룹, 민족도 등에 대응하는 역사적인 시퀀싱 데이터를 이용한다. 따라서, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 기계가 품질 메트릭스 임계치, 맵핑 품질 임계치, 또는 다른 대응하는 품질 임계치 미만의 시퀀싱 메트릭스를 갖는 뉴클레오티드-염기 결정을 생성한 저-신뢰도-결정 영역을 확인할 수 있다. 따라서, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 현재 게놈 샘플이 그러한 게놈 영역에서 낮은 품질을 나타내지 않더라도, 역사적으로 저-신뢰도-결정 영역에 대한 대치된 하플로타입을 나타내는 맞춤형 그래프 게놈에서 하나 이상의 경로를 포함한다.
그러나, 깊이 메트릭스의 차이 때문에, 저-깊이-영역 시각화(300) 및 고-깊이-영역 시각화(308)는 맞춤형 시퀀싱 시스템(104)이 일부 경우에 하플로타입을 대치할 수 있지만 다른 경우에 하플로타입을 대치할 수 없는 게놈 영역을 포함한다. 예를 들어, 샘플 게놈에 대한 저-깊이-영역 시각화(300)는 하플로타입 대치를 수행하는 변이-뉴클레오티드-변이 검출에 대응하는 뉴클레오티드-단편 리드에 대한 불충분한 깊이를 나타낸다. 특히, 저-신뢰도-결정 영역(302)을 둘러싸는 뉴클레오티드-변이 결정 301a, 301b, 및 301c에 대응하는(또는 커버하는) 뉴클레오티드-단편 리드, 및 게놈 영역(304)을 둘러싸는 뉴클레오티드-변이 검출 301c 및 301d에 대응하는(또는 커버하는) 뉴클레오티드-단편 리드는 불충분한 깊이를 갖는다. 다시 말하면, 저-깊이-영역 시각화(300)는 SNP 또는 저-신뢰도-결정 영역(302)을 둘러싸는 변이-뉴클레오티드-염기 결정 또는 게놈 영역(304)에서 하플로타입을 대치하기에 충분한 깊이(예를 들어, 30x 초과)가 부족하다.
대조적으로, 샘플 게놈에 대한 고-깊이-영역 시각화(308)는 저-신뢰도-결정 영역(310)에 대한 하플로타입을 대치하는 데 변이-뉴클레오티드-변이 검출에 대응하는 뉴클레오티드-단편 리드를 위한 충분한 깊이를 나타낸다. 특히, 저-신뢰도-결정 영역(310)을 둘러싸는 뉴클레오티드-변이 검출 301e, 301f, 및 301g에 대응하는(또는 커버하는) 뉴클레오티드-단편 리드, 및 게놈 영역(312)을 둘러싸는 뉴클레오티드-변이 검출 301g 및 301h에 대응하는(또는 커버하는) 뉴클레오티드-단편 리드는 충분한 깊이를 나타낸다. 다시 말하면, 고-깊이-영역 시각화(308)는 SNP 또는 저-신뢰도-결정 영역(310)을 둘러싸는 변이-뉴클레오티드-염기 결정 및 게놈 영역(312)에서 하플로타입을 대치하기에 충분한 깊이(예를 들어, 30x 초과)를 나타낸다.
설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드를 선형 참조 게놈에 정렬하여, 하플로타입 데이터베이스로부터의 가능성 있는 하플로타입의 세트에 대한 기초로서 변이-뉴클레오티드-염기 결정을 결정한다. 정렬된 뉴클레오티드-단편 리드에 기반하여, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 30x 리드 커버리지를 갖는 샘플 게놈으로부터 또는 시퀀스 데이터의 초기 리드를 활용함으로써 SNP를 결정한다. 초기 리드를 사용하는 예로서, 2x150 염기쌍 시퀀싱 실행의 제1 또는 초기 50개 염기쌍은 정상적인 35x 전체 게놈 시퀀싱 실행에 대한 대략 6x 리드 커버리지와 동일할 것이다. 일단 그러한 시퀀싱 실행의 제1 또는 초기 50개의 염기쌍이 결정되면, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 표적 게놈 영역에 대해 하플로타입을 대치할 수 있고, 따라서 특정 샘플 게놈에 대해 맞춤화된 그래프 참조 게놈을 생성할 수 있다. 위에서 개괄된 바와 같은 그러한 커버리지에 의해, 맞춤형 시퀀싱 시스템(104)은 하플로타입을 대치하기 위해 대략 1x 리드 깊이까지 저-통과 대치를 수행할 수 있다. 따라서, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 초기 리드를 활용하여 저-통과 하플로타입 대치를 수행할 수 있다.
저-신뢰도-결정 영역(310) 및 게놈 영역(312)을 표적 게놈 영역으로서 확인하고 대치하기 충분한 대응하는 깊이 메트릭스를 결정한 후에, 맞춤형 시퀀싱 시스템(104)은 하플로타입을 대치하는 작용(316)을 수행하기 위해 하플로타입 데이터베이스(314)를 활용할 수 있다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 하플로타입 데이터베이스(314)를 활용하여 저-신뢰도-결정 영역(310)에 대한 하플로타입을 대치하지만, 게놈 영역(312)은 아니다. 대조적으로, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 하플로타입 데이터베이스(314)를 활용하여, 저-신뢰도-결정 영역(310) 및 게놈 영역(312) 둘 모두에 대한 하플로타입을 결정한다.
하나 이상의 구현예에서, 하플로타입 데이터베이스(314)는 다양한 하플로타입 및 연관된 데이터를 포함한다. 설명하기 위해, 하플로타입 데이터베이스(314)는 하플로타입 게놈 서열 및 대응하는 게놈 좌표를 포함한다. 또한, 일부 구현예에서, 하플로타입 데이터베이스(314)는 또한 하플로타입 및/또는 하플로타입에 대한 다른 데이터와 연관된 하플로타입, 모집단 또는 민족 집단에 공통인 주변 변이-뉴클레오티드-염기 결정과 같은, 하플로타입 서열에 대응하는 메타데이터를 포함한다.
언급된 바와 같이, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 하플로타입을 대치하기 위해 하플로타입 데이터베이스(314)를 활용한다. 보다 구체적으로, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 존재할 충분한 가능성을 갖는 하플로타입 데이터베이스(314)로부터 하플로타입을 확인함으로써 게놈 영역에 대한 하플로타입을 대치할 수 있다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 저-신뢰도-결정 영역(310)을 둘러싸는 변이-뉴클레오티드-염기 결정을 하플로타입 데이터베이스(314) 내의 하플로타입과 연관된 변이-뉴클레오티드-염기 결정과 비교할 수 있다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 저-신뢰도-결정 영역(310)과 하플로타입 데이터베이스(314)의 하플로타입 사이에서 공통인 SNP를 결정할 수 있다. 저-신뢰도-결정 영역(310) 및 후보 하플로타입 사이에서 공통인 SNP(또는 다른 변이-뉴클레오티드-염기 결정)에 기반하여, 맞춤형 시퀀싱 시스템(104)은 통계적으로 하플로타입이 저-신뢰도-결정 영역(310)에 존재할 가능성이 더 크다고 추론한다.
예를 들어, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 은닉 마르코프 모델(HMM)을 적용하여 저-신뢰도-결정 영역(310)에 대한 하플로타입을 대치한다. 설명하기 위해, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 은닉 마르코프 모델을 활용하여 하플로타입 데이터베이스(314)로부터 대치된 하플로타입을 확인할 수 있다. 보다 구체적으로, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 대응하는 하플로타입 패턴(예를 들어, 주변 변이-뉴클레오티드-염기 결정)과 하플로타입 데이터베이스(314) 내의 하플로타입을 비교하여 게놈 영역에 대응할 가능성이 있는 하플로타입을 확인하기 위해 은닉 마르코프 모델을 활용할 수 있다. 일부 구현예에서, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 하플로타입을 대치하기 위해 Genetic Variants Predictive of Cancer Risk, WO 2013/035/114 A1 (published Mar. 14, 2013), 또는 by A. Kong et al., Detection of Sharing by Descent, Long-Range Phasing and Haplotype Imputation, Nat. Genet. 40, 1068-75 (2008)에 기재된 대로 은닉 마르코프 모델을 사용하며, 이 둘의 내용은 전체적으로 본원에 참고로 포함된다. 추가적으로 또는 대안적으로, 맞춤형 시퀀싱 시스템(104)은 사용 가능한 소프트웨어, 예컨대 fastPHASE, BEAGLE, MACH, 또는 IMPUTE를 사용하여 하플로타입을 대치하기 위해 은닉 마르코프 모델을 사용한다.
하플로타입을 대치하는 것에 더하여, 도 3a에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 추가적인 하플로타입을 확인하는 작용(318)을 수행한다. 보다 구체적으로, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 영역(312)에서 게놈 영역(312) 내의 대립유전자에 대해 하플로타입 데이터베이스(314)로부터 대안적인 하플로타입을 확인한다. 예를 들어, 하나 이상의 구현예에서, 시스템은 그래프 참조 게놈에 포함되기 위해 게놈 영역(312)에 대해 고도로 일반적인 하플로타입을 확인한다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대응하는 하나 이상의 민족 및/또는 지리적 영역에 대해 특정 임계치(예컨대, 20% 또는 30%) 초과로 존재하는 하플로타입을 확인한다.
위에서 언급된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 다양한 게놈 영역에 대해 하플로타입을 대치할 수 있다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 (전체적으로 또는 부분적으로) VNTR, 구조적 변이, 삽입, 결실, 또는 반전을 포함하는 게놈 영역에 대한 하플로타입을 대치할 수 있다. 따라서, 표적 게놈 영역은 VNTR, 구조적 변이, 삽입, 결실, 또는 반전을 대응하거나 나타내는 뉴클레오티드 염기 세트(또는 누락된 뉴클레오티드 염기의 세트) 중 일부 또는 전부를 포함할 수 있다. 도 3b는 맞춤형 시퀀싱 시스템(104)이 하플로타입을 대치하는 저-신뢰도-결정 영역의 예를 설명한다. 더 구체적으로, 도 3b는 샘플 게놈(321)의 일부에 대한 참조 데이터 및 시퀀싱 메트릭스를 설명한다. 특히, 도 3b는 샘플 게놈(321)의 부분 및 샘플 게놈(321)의 일부에 대응하는 선형 참조 게놈으로부터의 유전자-인코딩 영역(324)에 대응하는 선형 참조 게놈으로부터의 게놈-좌표 마커(322)를 설명한다. 게놈-좌표 마커(322)에 의해 나타낸 바와 같이, 샘플 게놈(321)의 일부는 대략 킬로베이스 155,180 내지 킬로베이스 155,200의 범위의 게놈 좌표를 갖는 20 킬로베이스 길이이다. 이 범위 내에서, 참조 게놈은 TRIM46에 대한 유전자 326a, MUC1에 대한 유전자 326b, MIR92B에 대한 유전자 326c, 및 THBS3에 대한 유전자 326d를 포함한다.
참조 데이터에 더하여, 도 3b는 염기-결정-품질 메트릭스에 대한 염기-결정-품질 그래픽(328) 및 샘플 게놈(321)의 부분에 대응하는 맵핑-품질 메트릭스에 대한 맵핑-품질 그래픽(332)을 설명한다. 설명하기 위해, 염기-결정-품질 그래픽(328)은 임계 메트릭스(예를 들어, Q30 또는 Q37)를 만족하는 샘플 게놈(321)의 부분 내에서 뉴클레오티드-염기 결정의 분율 또는 백분율을 나타내며, 여기서 어두운 바의 길이는 임계 메트릭스를 만족하지 못하는 염기-결정-품질 메트릭스를 갖는 뉴클레오티드-염기 결정의 더 큰 분율 또는 백분율을 나타낸다. 염기-결정-품질 그래픽(328)에 더하여, 도 3b는 맵핑-품질 그래픽(332)을 설명한다. 맵핑-품질 그래픽(332)은 임계 메트릭스(예를 들어, 상대 MAPQ 점수 또는 MAPQ 40)를 만족하는 샘플 게놈(321)의 일부분에 대응하는 뉴클레오티드-단편 리드의 분율 또는 백분율을 나타내며, 여기서 어두운 바의 길이는 임계 메트릭스를 만족하지 못하는 맵핑-품질 메트릭스를 갖는 뉴클레오티드-단편 리드의 더 큰 분율 또는 백분율을 나타낸다.
위에 나타낸 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 염기-결정-품질 메트릭스 및/또는 맵핑-품질 메트릭스를 활용하여 하나 이상의 불량한 품질 메트릭스에 대응하는 저-신뢰도-결정 영역을 확인할 수 있다. 도 3b에 도시된 바와 같이, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 염기-결정-품질 메트릭스 및 맵핑-품질 메트릭스 둘 모두에 대한 더 낮은 품질의 메트릭스에 대응하는 저-신뢰도-결정 영역(330)을 확인한다. 구체적으로, 저-신뢰도-결정 영역(330)은 (전체적으로 또는 부분적으로) MUC1에 대한 유전자(326b) 내의 VNTR을 포함한다.
위에서 제안된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 저-신뢰도-결정 영역(330)에 대한 하플로타입을 대치하는 작용(316)을 수행하기 위해 하플로타입 데이터베이스(314)를 활용할 수 있다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 저-신뢰도-결정 영역(330)에 존재할 가능성이 있는 하플로타입 데이터베이스(314)로부터 하플로타입을 결정함으로써 저-신뢰도-결정 영역(330)에 대한 하플로타입을 대치할 수 있다. 전술한 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 저-신뢰도-결정 영역(330)에(또는 영역에 대한 게놈 좌표 내에서) 대응하는 하플로타입 데이터베이스(314)의 하플로타입 및 저-신뢰도-결정 영역(330) 둘 모두를 둘러싸는 SNP(또는 다른 변이-뉴클레오티드-염기 결정)를 결정할 수 있다. 저-신뢰도-결정 영역(330)의 염기쌍의 임계 수 내의 그리고 하플로타입 데이터베이스(314)로부터의 하플로타입과 매치하는 SNP에 기반하여, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 저-신뢰도-결정 영역(330)에 대해 하플로타입을 대치한다.
전술한 바와 같이, 맞춤형 시퀀싱 시스템(104)은 표적 게놈 영역에 대한 대치된 하플로타입을 사용함으로써 특정 샘플 게놈에 대한 맞춤형 그래프 참조 게놈을 생성할 수 있다. 도 4a는 특정 샘플 게놈에 대한 그러한 맞춤형 그래프 참조 게놈을 생성하는 맞춤형 시퀀싱 시스템(104)의 개요를 설명한다. 더 구체적으로, 도 4a는 샘플 게놈의 다양한 게놈 영역에 대응하는 대치된 하플로타입을 나타내는 경로(404a 내지 404d) 및 선형 참조 게놈(400) 둘 모두를 포함하는 그래프 참조 게놈(402)을 생성하는 맞춤형 시퀀싱 시스템(104)을 설명한다.
단지 언급된 바와 같이, 그래프 참조 게놈(402)은 선형 참조 게놈(400)을 포함한다. 따라서, 맞춤형 시퀀싱 시스템(104)은 후방 호환성을 위한 기준선으로서 선형 참조 게놈(400)을 사용하여 그래프 참조 게놈(402)을 생성한다. 다시 말하면, 맞춤형 시퀀싱 시스템(104)은 최종 뉴클레오티드-염기 결정을 결정하기 전에 샘플 게놈으로부터의 뉴클레오티드-단편 리드를 선형 참조 게놈(400)의 임의의 부분에 맞춰 조정할 수 있다.
선형 참조 게놈(400)에 더하여, 그래프 참조 게놈(402)은 게놈 영역에 대응하는 하플로타입을 나타내는 경로(404a 내지 404d)를 포함한다. 따라서, 경로(404a 내지 404d)는 특정 게놈 영역에 대해 선형 참조 게놈(400) 내에 이미 존재하는 하플로타입과 상이한 대치된 하플로타입을 나타낸다. 설명하기 위해, 경로(404a)는 선형 참조 게놈(400)에 대한 결실을 나타내고, 경로(404b)는 선형 참조 게놈(400)의 참조 염기와 상이한 단일 뉴클레오티드 변이를 포함하고, 경로(404c)는 선형 참조 게놈(400)으로부터의 뉴클레오티드 서브시퀀스(또는 뉴클레오티드 서브시퀀스로부터 복제체의 삽입)의 복제를 포함하고, 경로(404d)는 선형 참조 게놈(400)으로부터의 뉴클레오티드 서브시퀀스의 반전을 포함한다. 따라서, 경로(404a 내지 404d) 각각은 선형 참조 게놈(400) 내에 이미 존재하는 하플로타입으로부터 변하는 게놈 영역에 대한 대치된 하플로타입을 나타낸다.
도 4a에 도시된 바와 같이, 경로(404a 내지 404d)는 예시의 방법으로 도시되고, 맞춤형 시퀀싱 시스템(104)은 다양한 대치된 하플로타입으로부터 다양한 경로를 결정할 수 있다. 도 4a에 도시되지 않았지만, 맞춤형 시퀀싱 시스템(104)은 그래프 참조 게놈 내의 단일 게놈 영역에 대한 상이한 대치된 하플로타입을 나타내는 경로를 포함할 수 있다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에 대한 2개 또는 3개의 가장 가능성이 있는 대안적인 하플로타입을 포함할 수 있다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 제1 하플로타입 및 제2 하플로타입이 샘플 게놈에서 관찰된 동일한 주변 변이-뉴클레오티드-염기 결정을 갖는 샘플 게놈의 30%에 각각 존재한다고 결정한다. 맞춤형 시퀀싱 시스템(104)은 변이-뉴클레오티드-염기 결정의 경우 그들의 각각의 확률에 기반하여 제1 하플로타입 및 제2 하플로타입을 나타내는 그래프 참조 게놈에서의 경로를 포함할 수 있다.
전술한 바와 같이, 맞춤형 시퀀싱 시스템(104)은 그래프 참조 게놈(402)에 맞춰 샘플 게놈으로부터의 뉴클레오티드-단편 리드를 조정하여 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정할 수 있다. 그래프 참조 게놈(402)은 선형 참조 게놈 및 대치된 하플로타입에 기반한 경로(404a 내지 404d) 둘 모두를 포함하기 때문에, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드를 선형 참조 게놈(400) 또는 경로(404a 내지 404d)에 맞춰 조정할 수 있다.
도 4b는 대치된 하플로타입을 나타내는 경로를 포함하는 여러 게놈 영역을 따라 그래프 참조 게놈(402)에 맞춰 샘플 게놈으로부터의 뉴클레오티드-단편 리드를 조정하는 맞춤형 시퀀싱 시스템(104)을 설명한다. 도 4b에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드(406a 및 406b)로부터의 변이를 대치된 하플로타입에 대응하는 경로(404a 내지 404d)에 맞춰 조정함으로써 부분적으로 뉴클레오티드-단편 리드(406a 및 406b)를 그래프 참조 게놈(402)에 맞춰 조정한다.
도 4b에 의해 나타낸 바와 같이, 샘플 게놈은 일부 게놈 영역에서 이형접합성이다. 뉴클레오티드-단편 리드(406a)에 대한 정렬에 의해 나타낸 바와 같이, 샘플 게놈은 경로(404a 및 404c)와 정렬되지만, 경로(404b)와 정렬되지 않는 대립유전자를 포함한다. 대조적으로 그리고 뉴클레오티드-단편 리드(406b)에 대한 정렬에 의해 나타낸 바와 같이, 샘플 게놈은 경로(404b 및 404d)와 정렬되지만, 경로(404a 및 404c)와 정렬되지 않는 대립유전자를 포함한다. 그래프 참조 게놈(402)이 선형 참조 게놈(400) 및 경로(404a 내지 404d) 둘 모두를 포함하기 때문에, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드(406a 및 406b)로부터의 각각의 리드를 그래프 참조 게놈(402)에 맞춰 성공적으로 조정한다.
샘플 게놈이 도 4be에 도시된 게놈 좌표 또는 영역에서 상이한 대립유전자를 포함하기 때문에, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드(406a 또는 406b) 중 하나 이상을 그 자체로 선형 참조 유전체(400)와 잘못 정렬하거나 덜 정확하게 정렬할 가능성이 있다. 따라서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈의 특정 게놈 영역에 대한 대치된 하플로타입을 나타내는 경로(404a 내지 404d)을 포함하는 그래프 참조 게놈(402)을 활용함으로써 정렬을 개선한다. 그래프 참조 게놈(402)은 다른 배제된 하플로타입보다 저-신뢰도-결정 영역에서(또는 다른 게놈 영역에서) 샘플 게놈에 존재할 가능성이 더 높은 대치된 하플로타입을 포함하기 때문에, 맞춤형 시퀀싱 시스템(104)은 종래의 선형 참조 게놈에 대한 정확한 정렬의 확률을 증가시킨다.
그러한 개선된 정렬로 인해 부분적으로, 맞춤형 시퀀싱 시스템(104)은 마찬가지로 그래프 참조 게놈(402)에 대해 변이 뉴클레오티드 염기 결정(또는 다른 최종 뉴클레오티드-염기 결정)을 결정하는 신뢰도를 개선할 수 있다. 그래프 참조 게놈(402)에 맞춰 뉴클레오티드-단편 리드(406a 및 406b)를 더 양호하게 조정한 채로, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈이 선형 참조 게놈(400) 또는 경로(404a 내지 404d)에 의해 표현되는 대치된 하플로타입의 참조 염기를 변화시키거나 매치하는 뉴클레오티드 염기를 포함하는지 여부를 보다 정확하게 결정할 수 있다.
정렬 및 염기 결정 정확도를 개선하는 일부로서, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 상이한 샘플 크기로부터의 하플로타입의 패널을 포함하는 하플로타입 데이터베이스를 사용한다. 하나 이상의 구현예에 따르면, 도 5는 시퀀싱 시스템이 상이한 샘플 크기의 참조 패널에 기반하여 다양한 대립유전자 빈도의 SNP를 정확하게 대치하는 비-참조-일치율에 대한 곡선 아래 면적(AUC)을 정의하는 수신기 동작 특성(ROC) 곡선을 갖는 그래프(500)를 설명한다. 도 5에 의해 나타낸 바와 같이, ROC 곡선은, 하플로타입 데이터 베이스 내의 참조 패널의 샘플 크기가 증가함에 따라 맞춤형 시퀀싱 시스템(104)은 SNP를 보다 정확하게 대치한다는 것을 보여준다.
예를 들어, 상이한 참조 패널에 대한 대치의 정확도를 시험하기 위해, 연구자들은 시퀀싱 기계에 의해 시퀀싱된 샘플을 나타내는 데이터로부터 대략 20%의 SNP를 제거하였다. 맞춤형 시퀀싱 시스템(104)은 다양한 샘플 크기의 참조 패널에 기반하여 샘플로부터 SNP에 대한 하플로타입을 후속적으로 대치한다. 도 5에 의해 나타낸 바와 같이, 제1 참조 패널(502a)은 100개의 샘플로부터 약 200개의 하플로타입을 포함하고, 제2 참조 패널(502b)은 500개의 샘플로부터 약 1,000개의 하플로타입을 포함하고, 제3 참조 패널(502c)은 1,000개의 샘플로부터 약 2,000개의 하플로타입을 포함하고, 제4 참조 패널(502d)은 2,503개의 샘플로부터 약 5,006개의 하플로타입을 포함하였다.
그래프(500)에서 도시한 바와 같이, 100개의 샘플을 갖는 제1 참조 패널(502a)을 사용하는 맞춤형 시퀀싱 시스템(104)에 대한 ROC 곡선은 SNP에 대한 대립유전자 빈도를 걸쳐 제거된 SNP를 대치하기 위한 최저 비-참조-일치율을 나타낸다. 대조적으로, 제4 참조 패널(502d)을 2,503개의 샘플로 사용하는 맞춤형 시퀀싱 시스템(104)에 대한 ROC 곡선은 SNP에 대한 대립유전자 빈도를 걸쳐 제거된 SNP를 대치하기 위한 최고 비-참조-일치율을 나타낸다. 그러나, ROC 곡선에 관계없이, 비-참조-일치율은 대립유전자 빈도와 함께 증가하다가 0.10을 약간 넘는 대립유전자 빈도에서 최대 일치율로 안정화된다. 따라서, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 2,503개의 샘플의 참조 패널을 갖는 하플로타입 데이터베이스를 사용하여, 대치된 하플로타입의 정확도를 더욱 증가시킨다.
상기에 나타낸 바와 같이, 상대적으로 큰 샘플 크기 또는 임의의 샘플 크기의 참조 패널을 갖는 하플로타입 데이터베이스를 사용하는 것에 더하여, 맞춤형 시퀀싱 시스템(104)은 표적 유전체 영역을 둘러싸는 SNP를 갖는 게놈 좌표에 대해 뉴클레오티드-단편 리드의 깊이가 증가함에 따라 게놈 영역에 대한 하플로타입을 대치시키는 정확도를 증가시킨다. 예를 들어, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 하플로타입을 대치하기 위해 30X 깊이를 갖는 뉴클레오티드-단편 리드에 기반하여 SNP를 사용한다. 동일한 참조 패널에서도, 30X 깊이를 갖는 뉴클레오티드-단편 리드로부터의 SNP는 저 통과 전체 게놈 시퀀싱(lpWGS)보다 전체 게놈의 SBS로부터의 변이 정보의 약 3배를 제공한다.
전술한 바와 같이, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 직접 뉴클레오티드-염기 결정, 시퀀싱 메트릭스, 및 간접 뉴클레오티드-염기 결정에 기반한 샘플 게놈에 대한 최종 뉴클레오티드-염기 결정을 결정한다. 도 6은 참조 게놈에 대한 최종 뉴클레오티드-염기 결정을 결정하기 위해 가중 모델에서 직접 뉴클레오티드-염기 결정 및 대치 뉴클레오티드-염기 결정에 가중치를 부여하는 맞춤형 시퀀싱 시스템(104)의 예를 설명한다. 추가적으로, 도 7a 및 도 7b와 관련하여 아래에서 논의되는 바와 같이, 맞춤형 시퀀싱 시스템(104)은 이러한 최종 뉴클레오티드-염기 결정을 결정하기 위해 기계 학습 모델을 활용할 수 있다.
도 6에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드를 참조 게놈에 맞춰 조정하는 작용(608)을 수행할 수 있다. 도 4a 및 도 4b와 관련하여 위에서 논의된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈으로부터 시퀀싱된 뉴클레오티드-단편 리드를 선형 참조 게놈 또는 그래프 참조 게놈에 맞춰 조정할 수 있다.
위에서 제안된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 각각의 뉴클레오티드-단편을 참조 게놈에 맞춰 조정하여, 변이-뉴클레오티드-염기 결정을 포함하는 참조 게놈에 대해 직접 뉴클레오티드-염기 결정(602)을 결정한다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드 및 선형 참조 게놈 또는 그래프 참조 게놈 중 어느 하나에 대한 정렬에 기반하여 직접 뉴클레오티드-염기 결정(602)을 결정한다. 따라서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈으로부터의 "직접" 증거에 기반하여 직접 뉴클레오티드-염기 결정(602)을 결정한다. 위에서 제안된 바와 같이, 일부 구현예에서, 이러한 직접 증거는 그래프 참조 게놈에서 하플로타입을 나타내는 경로에 정렬하는 것을 포함한다.
그러한 직접 뉴클레오티드-염기 결정에 더하여, 맞춤형 시퀀싱 시스템(104)은 맵핑을 포함하는 뉴클레오티드-단편 리드 및/또는 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스(604)를 결정한다. 일부 경우에, 시퀀싱 메트릭스(604)는 뉴클레오티드-단편 리드, 뉴클레오티드-염기 결정, 및/또는 이들의 정렬의 품질 및/또는 확실성을 반영한다. 설명하기 위해, 도 6에 도시된 바와 같이, 시퀀싱 메트릭스(604)는 깊이 메트릭스(610), 리드-데이터-품질 메트릭스(612), 결정-데이터-품질 메트릭스(614), 및/또는 맵핑-품질 메트릭스(616)를 포함할 수 있다.
예를 들어, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 동안 특정 게놈 좌표에서 결정되고 정렬된 뉴클레오티드-염기 결정의 깊이의 정량화로서 깊이 메트릭스(610)를 결정할 수 있다. 실제로, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 영역 내의 게놈 좌표의 깊이의 평균에 기반하여 샘플 게놈의 게놈 영역에 대한 깊이 메트릭스(610)를 결정한다. 전술한 바와 같이, 맞춤형 시퀀싱 시스템(104)은 또한 깊이 메트릭스(610)에 대한 다양한 스케일 및 메트릭스 유형을 활용할 수 있다. 예를 들어, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 임계 깊이 커버리지 미만의 뉴클레오티드-염기 결정의 수를 정량화하는 깊이 메트릭스를 결정한다.
위에서 언급된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 또한 샘플 게놈으로부터의 뉴클레오티드-단편 리드에 대한 리드-데이터 품질 메트릭스(612)를 결정할 수 있다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 그래프 참조 게놈의 하나 이상의 경로를 포함하여, 참조 게놈의 뉴클레오티드 염기와 매치하지 않는 샘플 게놈 내의 뉴클레오티드-염기의 총 수에 기반하여 리드-데이터-품질 메트릭스(612)를 결정한다. 추가적으로 또는 대안적으로, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 동안 다수의 사이클에 걸쳐 리드-데이터-품질 메트릭스(612)를 결정할 수 있다. 또한, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈 내의 게놈 좌표를 커버하는 뉴클레오티드-단편 리드 내의 평균 또는 중간 위치를 결정함으로써 샘플 게놈에 대한 리드-위치 메트릭스에 기반하여 리드-데이터-품질 메트릭스(612)를 결정할 수 있다.
일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드 내의 뉴클레오티드 염기 또는 참조 게놈에 대한 직접 뉴클레오티드-염기 결정에 대한 뉴클레오티드-염기 결정에 대응하는 결정-데이터-품질 메트릭스(614)를 추가로 결정한다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-염기 결정에 대응하는 품질 및/또는 확실성을 정량화함으로써 결정-데이터-품질 메트릭스(614)를 결정한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 참조 게놈에 대한 게놈 좌표에 대한 임의의 주어진 직접 뉴클레오티드-염기 결정 또는 뉴클레오티드-단편 리드에 대한 시퀀싱 사이클 내의 임의의 주어진 뉴클레오티드-염기 결정의 에러 확률을 예측하는 염기-결정-품질 메트릭스(예를 들어, Phred 품질 점수 또는 Q 점수)를 결정할 수 있다. 설명하기 위해, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 Q20과 같은 임계 품질 점수를 만족하는 게놈 영역 내의 뉴클레오티드-염기 결정의 백분율 또는 서브세트로서 결정-데이터-품질 메트릭스(614)를 결정한다. 추가적으로 또는 대안적으로, 맞춤형 시퀀싱 시스템(104)은 뉴클레오티드-단편 리드 또는 직접 뉴클레오티드-염기 결정 내의 어느 하나의 뉴클레오티드 염기에 대해 결정-데이터-품질 메트릭스(614)로서 결정가능성 메트릭스 또는 체세포-품질 메트릭스를 결정한다.
위에서 추가로 언급된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈으로부터의 뉴클레오티드-단편 리드에 대한 맵핑-품질 메트릭스(616)를 결정할 수 있다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 참조 게놈을 가진 뉴클레오티드-단편 리드의 정렬의 품질 및/또는 확실성을 정량화함으로써 맵핑-품질 메트릭스(616)를 결정한다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 좌표에서 뉴클레오티드-단편 리드의 뉴클레오티드-염기 결정에 대한 맵핑 품질(MAPQ) 점수를 결정한다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 -10 log10 Pr{맵핑 위치가 잘못됨}로 나타난, 가장 가까운 정수로 반올림된 MAPQ 점수를 결정한다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 영역의 게놈 영역 내의 뉴클레오티드-단편 리드에 대한 맵핑-품질 메트릭스의 평균 또는 중간값을 결정한다.
직접 뉴클레오티드-염기 결정(602)을 결정하는 것 외에도, 맞춤형 시퀀싱 시스템(104)은 대치된 뉴클레오티드-염기 결정(606)을 결정한다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 특정 샘플 게놈에 대한 변이와 관련된 통계 정보에 대응하는 "간접" 증거에 기반하여 대치된 뉴클레오티드-염기 결정(606)을 결정한다. 도 6에 도시한 바와 같이, 하나 이상의 구현예에서, 대치된 뉴클레오티드-염기 결정(606)을 결정하는 것은 국소 뉴클레오티드-염기 결정, 모집단 하플로타입, 및 변이 빈도에 기반하여 대치된 뉴클레오티드-염기 결정(606)을 결정하는 작용(618)을 포함할 수 있다.
보다 구체적으로, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대응하는 모집단 데이터를 결정하고 활용한다. 설명하기 위해, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 특정 샘플 게놈에 대응하는 모집단 및/또는 민족 집단에 관한 데이터를 확인하거나 수신한다. 따라서, 맞춤형 시퀀싱 시스템(104)은 모집단에 대해 일반적인 국소 뉴클레오티드-염기 결정을 확인할 수 있다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대응하는 확인된 모집단 또는 민족 집단에 대응하는 참조 게놈을 활용한다. 또한, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈 내의 게놈 영역의 게놈 좌표에서 뉴클레오티드-염기 결정을 확인한다. 따라서, 맞춤형 시퀀싱 시스템(104)은 확인된 뉴클레오티드-염기 결정을 하플로타입에 대한 기준점으로서 활용하여 대치된 뉴클레오티드-염기 결정(606)을 결정할 수 있다.
위에서 단지 제안되고 언급된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대응하는 모집단 데이터를 결정하거나 수신한다. 따라서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 특이적인 모집단에 대응하는 하플로타입을 확인함으로써 샘플 게놈에 대응하는 모집단 하플로타입 빈도를 결정할 수 있다. 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 하플로타입 데이터베이스를 활용하여, 예컨대 지리적 영역 또는 민족 집단에 특정적인 참조 패널을 확인함으로써, 모집단 하플로타입을 확인한다.
추가적으로, 맞춤형 시퀀싱 시스템(104)은 변이 빈도를 활용하여 대치된 뉴클레오티드-염기 결정(606)을 결정할 수 있다. 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대해 확인된 모집단에 대응하는 게놈 변이를 확인한다. 보다 구체적으로, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈에 대해 확인된 게놈 영역(예를 들어, 저-신뢰도-결정 게놈 영역)의 게놈 좌표에 대응하는 게놈 변이를 확인할 수 있다. 따라서, 맞춤형 시퀀싱 시스템(104)은 특정 게놈 영역에서 그리고 모집단에 대한 빈번한 변이에 대응하는 뉴클레오티드-염기 결정을 확인할 수 있다. 따라서, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 확인된 변이로부터의 뉴클레오티드-염기 결정을 대치된 뉴클레오티드-염기 결정(606)으로서 활용한다.
전술한 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 모집단 하플로타입을 이용하여 참조 패널 또는 다른 집단 하플로타입에 기반한 샘플 게놈의 게놈 좌표 또는 표적 게놈 영역에 대한 하플로타입을 대치한다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 주변 변이-뉴클레오티드-염기 결정에 기반하여 게놈 영역에 대응하는 하플로타입을 대치할 수 있다. 또한, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 변이 빈도 및 모집단 데이터를 활용하여 대치된 하플로타입을 결정한다. 또한, 맞춤형 시퀀싱 시스템(104)은 대치된 하플로타입에 기반하여 대치된 뉴클레오티드-염기 결정을 결정할 수 있다. 보다 구체적으로, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 좌표 또는 영역에 대한 가능성에 따라 대치된 하플로타입에 순위를 매기고, 게놈 좌표 또는 영역에 대해 최고 순위의 하플로타입으로부터 대치된 뉴클레오티드-염기 결정을 결정한다.
일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 국소 뉴클레오티드-염기 결정에 대응하는 뉴클레오티드-염기 결정, 모집단 하플로타입에 대응하는 뉴클레오티드-염기 결정, 및 빈번한 변이에 대응하는 뉴클레오티드-염기 결정 중 하나 이상에 기반하여 대치된 뉴클레오티드 염기 결정(606)을 결정한다. 설명하기 위해, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 국소 뉴클레오티드-염기 결정, 모집단 하플로타입, 및 변이 빈도 중 하나 이상의 빈도에 기반하여 가장 높은 가능성을 갖는 뉴클레오티드-염기 결정에 기반하여 대치된 뉴클레오티드-염기 결정(606)을 선택한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 국소 뉴클레오티드-염기 결정, 모집단 하플로타입, 및 빈번한 변이 각각의 빈도를 활용하는 통계적 추론을 활용할 수 있다.
전술한 바와 같이, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 표적 게놈 영역에 대한 대치된 하플로타입을 나타내는 경로를 포함하는 맞춤형 그래프 참조 게놈을 생성한다. 따라서, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 초기에 직접 뉴클레오티드-염기 결정을 결정할 때 표적 게놈 영역을 둘러싸거나 측면에 있는 변이-뉴클레오티드-염기 결정(예를 들어, SNP)을 결정한 다음, 변이-뉴클레오티드-염기 결정을 사용하여 하플로타입을 대치한다. 일부 구현예에서, 그래프 참조 게놈은 변이 빈도, 국소 변이-뉴클레오티드 염기 결정, 및 모집단 하플로타입을 활용하여 결정된 대치된 하플로타입을 포함한다. 초기에 결정된 직접 뉴클레오티드-염기 결정을 사용하기보다는, 맞춤형 그래프 참조 게놈을 사용할 때, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈으로부터의 뉴클레오티드-단편 리드와 맞춤형 그래프 참조 게놈의 비교에 기반하여 직접 뉴클레오티드-염기 결정을 결정한다. 그러한 구현예에서, 맞춤형 시퀀싱 시스템(104)은 하기에 설명되는 바와 같이, 선형 참조 게놈 또는 일반적인 그래프 참조 게놈을 사용하여 결정된 직접 뉴클레오티드-염기 결정이 아닌, 맞춤형 그래프 참조 게놈으로 결정된 직접 뉴클레오티드-염기 결정을 최종 뉴클레오티드-염기 결정을 결정하기 위한 기초로서 사용한다.
직접 뉴클레오티드-염기 결정(602) 및 대치 뉴클레오티드-염기 결정(606)을 결정하는 것 외에도, 도 6에 추가로 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 직접 뉴클레오티드-염기 결정(602), 시퀀싱 메트릭스(604), 및 대치 뉴클레오티드-염기 결정(606)에 기반하여 최종 뉴클레오티드-염기 결정을 결정하는 작용(620)을 수행할 수 있다. 일부 경우에, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 작용(620)에서의 게놈 좌표에 대한 직접 뉴클레오티드-염기 결정 및 대치 뉴클레오티드-염기 결정의 가중치를 부여하고, 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정으로서 직접 또는 대치 뉴클레오티드-염기 결정 중 어느 하나를 선택한다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 대응하는 데이터 품질에 기반하여 직접 뉴클레오티드-염기 결정(602)을 가중하고, 게놈 영역의 변이 난이도에 기반하여 대치 뉴클레오티드-염기 결정(606)을 가중한다.
단지 제안된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 대응하는 시퀀싱 메트릭스에 기반하여 직접 뉴클레오티드-염기 결정(602)으로부터의 직접 뉴클레오티드-염기 결정을 가중할 수 있다. 설명하기 위해, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 직접 뉴클레오티드-염기 결정을 결정하는 데 사용되는 뉴클레오티드-단편 리드의 품질 및/또는 직접 뉴클레오티드-염기 결정을 결정하는 데 활용되는 결정 및 정렬 공정의 품질에 기반하여 직접 뉴클레오티드-염기 결정을 가중한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 직접 뉴클레오티드-염기 결정을 가중하기 위해 깊이 메트릭스, 리드-데이터-품질 메트릭스, 결정-데이터-품질 메트릭스, 및/또는 맵핑-품질 메트릭스를 활용할 수 있다. 도 6에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 대응하는 데이터의 품질에 비례하여 직접 뉴클레오티드-염기 결정을 가중한다. 유사하게, 맞춤형 시퀀싱 시스템(104)은 단지 기술된 방법을 사용하여 게놈 영역에서 각각의 게놈 좌표에 대해(또는 샘플 게놈에서 각각의 게놈 좌표에 대해) 직접 뉴클레오티드-염기 결정을 가중할 수 있다.
또한, 맞춤형 시퀀싱 시스템(104)은 대응하는 변이 신뢰 난이도에 기반하여 대치 뉴클레오티드-염기 결정(606)으로부터 대치 뉴클레오티드-염기 결정을 가중할 수 있다. 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 좌표 또는 게놈 영역에서의 변화 빈도, 게놈 좌표 또는 영역에서의 변이(또는 변이 유형)의 가능성, 및/또는 게놈 영역의 길이 중 하나 이상에 기반하여 게놈 좌표 또는 게놈 영역에 대응하는 변이 "신뢰 난이도"를 결정한다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 게놈 좌표 또는 영역에서의 하플로타입, 및/또는 상대적으로 큰 유전체 영역으로 표현되는 비교적 높은 정도의 변이의 다양성(또는 변이 유형)을 갖는 게놈 좌표 또는 영역에서, 대립유전자 빈도에 의해 측정된 바와 같이 상대적으로 더 빈번한 변이를 갖는 게놈 영역 또는 좌표의 뉴클레오티드-염기 결정을 정확하게 대치할 가능성이 낮다. 그러한 게놈 좌표 또는 영역에 대한 대치 뉴클레오티드-염기 결정은 상대적으로 더 높은 변이 신뢰 난이도를 나타낼 것이다. 따라서, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 게놈 좌표 또는 영역에 대응하는 변이 신뢰 난이도에 반비례하는 대치 뉴클레오티드-염기 결정을 가중한다. 유사하게, 맞춤형 시퀀싱 시스템(104)은 단지 기술된 방법을 사용하여 게놈 영역에서 각각의 게놈 좌표에 대해(또는 샘플 게놈에서 각각의 게놈 좌표에 대해) 대치 뉴클레오티드-염기 결정을 가중할 수 있다.
일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 각각의 좌표에 대한 직접 뉴클레오티드-염기 결정 및 대치 뉴클레오티드-염기 결정의 가중치에 의해 표적 게놈 영역의 각각의 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정을 결정한다. 예를 들어, 일부 경우에, 맞춤형 시퀀싱 시스템(104)은 비교적 높은 데이터 품질 및 게놈 좌표에 대한 비교적 높은 변이 신뢰 난이도에 대응하는 직접 뉴클레오티드-염기 결정을 결정한다. 이러한 예의 경우, 맞춤형 시퀀싱 시스템(104)은 높은 변이 신뢰 난이도에 대응하는 대치 뉴클레오티드-염기 결정보다는 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정으로서 높은 데이터 품질에 대응하는 직접 뉴클레오티드-염기 결정을 선택할 가능성이 있다.
다른 예에서, 맞춤형 시퀀싱 시스템(104)은 비교적 낮은 데이터 품질 및 비교적 낮은 변이 난이도에 대응하는 게놈 좌표에 대한 직접 뉴클레오티드-염기 결정을 결정한다. 이 예에서, 맞춤형 시퀀싱 시스템(104)은 낮은 데이터 품질을 나타내는 시퀀싱 메트릭스에 대응하는 직접 뉴클레오티드-염기 결정보다는 최종 뉴클레오티드-염기 결정으로서 낮은 변이 난이도에 대응하는 대치 뉴클레오티드-염기 결정을 선택할 가능성이 있다.
일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 시퀀싱 메트릭스에 대한 임계치를 구현할 수 있는데, 이는 만족되지 않는 경우 게놈 좌표에 대한 대치 뉴클레오티드-염기 결정의 자동 선택으로 이어질 것이다. 설명하기 위해, 이러한 구현예에서, 맞춤형 시퀀싱 시스템(104)은 직접 뉴클레오티드-염기 결정의 임의의 잠재적인 선택에 대한 최소 데이터 품질을 요구한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 최소 Q 점수 또는 최소 MAPQ를 결정하고 활용할 수 있다.
가중 모델에 더하여, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 최종 뉴클레오티드-염기 결정을 결정하기 위해 기계 학습 모델을 활용할 수 있다. 도 7a 및 도 7b는, 각각, 최종 뉴클레오티드-염기 결정을 결정하기 위한 염기-결정-기계-학습 모델의 훈련 및 적용을 설명한다. 보다 구체적으로, 도 7a 및 도 7b는 직접 뉴클레오티드-염기 결정, 시퀀싱 메트릭스, 및 대치 뉴클레오티드-염기 결정에 기반하여 최종 뉴클레오티드-염기 결정을 결정하기 위해 기계 학습 모델을 훈련 및 적용하는 것을 설명한다.
도 7a의 훈련의 개요로서, 맞춤형 시퀀싱 시스템(104)은 염기-결정-기계-학습 모델(708)로, 훈련 직접 뉴클레오티드-염기 결정, 훈련 직접 뉴클레오티드-염기 결정에 대응하는 훈련 시퀀싱 메트릭스, 및 게놈 좌표에 대한 훈련 대치 뉴클레오티드-염기 결정을 반복적으로 입력할 수 있다. 훈련 데이터에 기반하여, 염기-결정-기계-학습 모델은, 예컨대 게놈 좌표에 대한 직접 뉴클레오티드-염기 결정 또는 대치 뉴클레오티드-염기 결정을 선택함으로써, 각각의 훈련 반복에서 게놈 좌표에 대한 예측된 뉴클레오티드-염기 결정을 생성한다. 이어서, 맞춤형 시퀀싱 시스템(104)은 후속적으로 예측된 뉴클레오티드-염기 결정을 게놈 좌표에 대한 지상-실측 염기 결정과 비교하여 손실을 결정하고 손실에 기초하여 염기-결정-기계-학습 모델을 조정한다.
도 7a에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 게놈 좌표에 대한 훈련 직접 뉴클레오티드-염기 결정(701), 훈련 직접 뉴클레오티드-염기 결정(701)에 대응하는 훈련 시퀀싱 메트릭스(703), 및 게놈 좌표에 대한 훈련 대치 뉴클레오티드-염기 결정(705)을 수신한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 깊이 메트릭스, 리드-데이터-품질 메트릭스, 결정-데이터-품질 메트릭스, 및/또는 맵핑 품질 메트릭스를 포함하는, 도 6과 관련하여 위에서 논의된 시퀀싱 메트릭스의 유형을 활용할 수 있다.
도 7a에 추가로 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 훈련 직접 뉴클레오티드-염기 결정(701), 훈련 시퀀싱 메트릭스(703), 및 훈련 대치 뉴클레오티드-염기 결정(705)을 염기-결정-기계-학습 모델(708)에 제공한다. 도 7a에 도시된 바와 같이, 입력 결정 및 메트릭스에 기반하여, 염기-결정-기계-학습 모델은 게놈 좌표에 대해 예측된 뉴클레오티드-염기 결정(707)을 생성한다. 일부 경우에, 예를 들어, 염기-결정-기계-학습 모델은 예측된 뉴클레오티드-염기 결정(707)으로서 훈련 직접 뉴클레오티드-염기 결정(701) 또는 훈련 대치 뉴클레오티드-염기 결정(705) 중 어느 하나를 선택한다. 훈련 직접 뉴클레오티드-염기 결정(701) 또는 훈련 대치 뉴클레오티드-염기 결정(705) 중 어느 하나를 선택하기 위해, 일부 구현예에서, 염기-결정-기계-학습 모델(708)은 게놈 좌표에 대한 훈련 대치 뉴클레오티드-염기 결정과는 상이하게 훈련 직접 뉴클레오티드-염기 결정을 가중할 수 있다.
도 7a에 추가로 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 게놈 좌표에 대한 예측된 뉴클레오티드-염기 결정(707)과 게놈 좌표에 대한 지상-실측 염기 결정(710)을 비교한다. 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 예측된 뉴클레오티드-염기 결정(707)과 지상-실측 염기 결정(710)을 비교하기 위해 손실 함수(711)를 활용한다. 손실 함수(711)를 사용함으로써, 맞춤형 시퀀싱 시스템(104)은 예측된 뉴클레오티드-염기 결정(707)과 지상-실측 염기 결정(710) 사이의 차이 또는 손실을 결정한다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 염기-결정-기계-학습 모델(708) 내에서 하나 이상의 가중치를 조정하기 위해 손실을 역전파할 수 있다.
도 7a에 추가로 제안된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 훈련 반복을 실행할 수 있다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 손실 함수(711)를 활용하는 각각의 게놈 좌표에 대한 지상-실측 염기 결정에 대한 예측된 뉴클레오티드-염기 결정의 비교에 기반하여 염기-결정-기계-학습 모델(708)에 대한 가중치를 반복적으로 조정할 수 있다. 조정 후에, 염기-결정-기계-학습 모델(708)은 예측된 뉴클레오티드-염기 결정을 개선할 수 있다. 일부 경우에서, 맞춤형 시퀀싱 시스템(104)은 맞춤형 시퀀싱 시스템(104)이 손실 함수(711)로부터의 후속 손실이 최소 임계치 이내에 있거나 훈련 반복의 임계 개수에 도달했다고 결정할 때까지 훈련 반복을 실행한다.
염기-결정-기계-학습 모델(708)은 다양한 형태를 취할 수 있다. 예를 들어, 하나 이상의 구현예에서, 염기-결정-기계-학습 모델(708)은 다양한 유형의 결정 트리, 지원 벡터 기계(SVM), 베이지안 네트워크, 또는 컨볼루션 신경망(CNN)과 같은 신경망을 포함할 수 있다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 컨볼루션 심층 신경망 또는 다수의 층을 갖는 순환 신경망을 염기-결정-기계-학습 모델(708)로서 활용한다. 염기-결정-기계-학습 모델(708)이 신경망인 구현예에서, 맞춤형 시퀀싱 시스템(104)은 손실 함수(711)로서 교차 엔트로피 손실 함수, L1 손실 함수, 또는 평균 제곱 오차 손실 함수를 활용할 수 있다. 하나 이상의 추가 구현예에서, 맞춤형 시퀀싱 시스템(104)은 랜덤 포레스트 모델, 다층 퍼셉트론 또는 선형 회귀, 심층 표 학습 아키텍처, 심층 학습 트랜스포머(예를 들어, 자기 주의 기반 표 트랜스포머), 또는 로지스틱 회귀를 염기-결정-기계-학습 모델(708)로서 활용한다.
위에서 확인된 형태에 더하여, 일부 경우에서, 염기-결정-기계-학습 모델(708)은 그래디언트 부스트 트리들의 앙상블을 포함한다. 그래디언트 부스트 트리들의 후자의 구현예에 대해, 맞춤형 시퀀싱 시스템(104)은 손실 함수(711)로서 평균 제곱 에러 손실 함수(예를 들어, 회귀에 대해)를 활용할 수 있다. 추가적으로 또는 대안적으로, 맞춤형 시퀀싱 시스템(104)은 손실 함수(711)로서 로그 손실 함수(예를 들어, 분류를 위해)를 활용할 수 있다. 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 후속 트레이닝 반복에 대한 손실 함수(711)로부터의 손실의 측정을 감소시키기 위해 염기-결정-기계-학습 모델(708)에 대한 수정 또는 조정을 수행한다.
그래디언트 부스트 트리들에 대해, 예를 들어, 맞춤형 시퀀싱 시스템(104)은 손실 함수(711)에 의해 결정된 에러들의 그래디언트들 상에서 염기-결정-기계-학습 모델(708)을 훈련한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 과적합을 피하기 위해 목적을 정규화하면서 볼록 최적화 문제(예를 들어, 무한 차원)를 해결한다. 특정 구현예에서, 맞춤형 시퀀싱 시스템(104)은 (예를 들어, 직접 뉴클레오티드-염기 결정보다 훨씬 더 많은 대치 뉴클레오티드-염기 결정이 있는) 과소 표현된 클래스에 대한 보정을 강조하기 위해 그래디언트를 스케일링한다.
일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 최적화 문제를 해결하기 위한 부분으로서 각각의 연속적인 훈련 반복에 대해 염기-결정-기계-학습 모델(708)에 새로운 약한 학습자(예를 들어, 새로운 부스트 트리)를 추가한다. 예를 들어, 맞춤형 시퀀싱 시스템(104)은 손실 함수(711)로부터의 손실을 최소화하는 피처(예를 들어, 시퀀싱 메트릭스)를 찾고, 피처를 현재 반복의 트리에 추가하거나 피처와 함께 새로운 트리를 구축하기 시작한다.
추가로 훈련 또는 훈련 없이, 일부 구현예에서, 맞춤형 시퀀싱 시스템(104)은 염기-결정-기계-학습 모델(708)의 훈련된 버전을 적용한다. 도 7b는 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정(714)을 결정하기 위해 훈련된 염기-결정-기계-학습 모델(712)을 적용하는 맞춤형 시퀀싱 시스템(104)을 설명한다. 도 7b에 도시된 바와 같이, 맞춤형 시퀀싱 시스템(104)은 게놈 좌표에 대한 직접 뉴클레오티드-염기 결정(702), 직접 뉴클레오티드-염기 결정(702)에 대응하는 시퀀싱 메트릭스(704), 및 게놈 좌표에 대한 대치 뉴클레오티드-염기 결정(706)을 훈련된 염기-결정-기계-학습 모델(712)에 입력한다. 직접 뉴클레오티드-염기 결정(702), 시퀀싱 메트릭스(704), 및 대치 뉴클레오티드-염기 결정(706)에 기반하여, 훈련된 염기-결정-기계-학습 모델(712)은 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정(714)을 생성한다. 직접 뉴클레오티드-염기 결정(702) 또는 대치 뉴클레오티드-염기 결정(706) 중 어느 하나를 선택하기 위해, 일부 구현예에서, 훈련된 염기-결정-기계-학습 모델(712)은 게놈 좌표에 대한 대치 뉴클레오티드-염기 결정과는 상이하게 직접 뉴클레오티드-염기 결정을 가중할 수 있다.
도 7b에 추가로 도시된 바와 같이, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 샘플 게놈의 하나 이상의 표적 게놈 영역 내의 각각의 게놈 좌표에 대한 또는 샘플 게놈 내의 각각의 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정을 결정하기 위해 훈련된 염기-결정-기계-학습 모델(712)을 사용할 수 있다. 설명하기 위해, 맞춤형 시퀀싱 시스템(104)은 게놈 영역에서 각각의 게놈 좌표에 대한 직접 뉴클레오티드-염기 결정 및 대치 뉴클레오티드-염기 결정으로부터 선택하기 위해 훈련된 염기-결정-기계-학습 모델(712)을 활용할 수 있다. 추가적으로, 하나 이상의 구현예에서, 맞춤형 시퀀싱 시스템(104)은 훈련된 염기-결정-기계-학습 모델(712)을 활용하여 전체 샘플 게놈의 각각의 게놈 좌표에 대한 최종 염기 결정을 결정한다.
도 1 내지 도 7b, 대응 텍스트 및 실시예는 시퀀싱 시스템의 다수의 상이한 방법, 시스템, 장치, 및 비일시적 컴퓨터 판독가능 매체를 제공한다. 전술한 것 외에도, 하나 이상의 구현예는 도 8 내지 도 10에 도시된 바와 같이, 특정 결과를 달성하기 위한 작용을 포함하는 흐름도의 관점에서 설명될 수도 있다. 도 8 내지 도 10은 더 많거나 더 적은 작용으로 수행될 수 있다. 또한, 작용들은 상이한 순서로 수행될 수 있다. 또한, 본원에 설명된 작용은 서로 병행하여 또는 동일하거나 유사한 작용의 다른 경우와 병행하여 반복되거나 수행될 수 있다.
언급된 바와 같이, 도 8은 하나 이상의 구현예에 따라 뉴클레오티드-단편 리드를 그래프 참조 게놈과 비교하는 것에 기반하여 뉴클레오티드-염기 결정을 결정하기 위한 일련의 작용(800)의 흐름도를 설명한다. 도 8은 일 구현예에 따른 행위를 예시하지만, 대안적인 구현예는 도 8에 도시된 작용 중 임의의 것을 생략, 추가, 재정렬 및/또는 수정할 수 있다. 도 8의 작용은 방법의 일부로서 수행될 수 있다. 대안적으로, 비일시적 컴퓨터 판독가능 매체는 하나 이상의 프로세서에 의해 실행될 때 컴퓨팅 장치가 도 8의 작용을 수행하게 하는 명령어를 포함할 수 있다. 일부 구현예에서, 시스템은 도 8의 작용을 수행할 수 있다.
도 8에 도시된 바와 같이, 일련의 작용(800)은 뉴클레오티드-단편 리드의 서브세트로부터 게놈 영역을 둘러싸는 변이 뉴클레오티드-염기 결정의 서브세트를 결정하기 위한 작용(802)을 포함한다. 특히, 작용(802)은 샘플 게놈의 뉴클레오티드-단편 리드의 서브세트로부터, 샘플 게놈 내의 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정의 서브세트를 결정하는 것을 포함할 수 있다. 구체적으로, 작용(802)은 품질-메트릭스 임계치를 만족하지 않는 게놈 영역 내의 뉴클레오티드-염기 결정의 서브세트에 대한 품질 메트릭스를 결정하는 것 및 품질-메트릭스 임계치를 만족하지 않는 뉴클레오티드-염기 결정의 서브세트에 대한 품질 메트릭스에 기반하여 게놈 영역을 저-신뢰도-결정 영역으로 확인하는 것을 포함할 수 있다. 또한, 작용(802)은 가변 연쇄 반복(VNTR), 구조적 변이, 삽입, 또는 결실의 적어도 일부를 포함하는 게놈 영역을 포함할 수 있다. 위에 나타낸 바와 같이, 작용(802)을 수행할 때, 게놈 영역을 둘러싸는 변이 뉴클레오티드-염기 결정의 서브세트를 결정하는 것은 2x150 시퀀싱 실행의 초기 50개 염기쌍으로부터 또는 대략 1x 리드 깊이에서 뉴클레오티드-단편 리드의 서브세트에 기반할 수 있다.
추가적으로, 일련의 작용(800)은 변이 뉴클레오티드-염기 결정의 서브세트에 기반하여 게놈 영역에 대한 하플로타입을 대치하기 위한 작용(804)을 포함한다. 특히, 작용(804)은 변이-뉴클레오티드-염기 결정의 서브세트에 기반하여 샘플 게놈에 대응하는 게놈 영역에 대한 하플로타입을 대치하는 것을 포함할 수 있다. 구체적으로, 작용(804)은 게놈 영역을 둘러싸는 단일-뉴클레오티드 다형성(SNP)을 결정함으로써 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정의 서브세트를 결정하는 것, 및 SNP에 기반하여 샘플 게놈에 대응하는 하플로타입을 대치함으로써 게놈 영역에 대한 하플로타입을 대치하는 것을 포함할 수 있다. 또한, 하나 이상의 구현예에서, 작용(804)은 모집단 하플로타입의 하플로타입 데이터베이스로부터 게놈 영역에 대한 하플로타입을 대치하는 것을 포함한다.
또한, 일련의 작용(800)은 게놈 영역에 대응하는 대치된 하플로타입을 나타내는 경로를 포함하는 그래프 참조 게놈을 생성하기 위한 작용(806)을 포함한다. 특히, 작용(806)은 샘플 게놈에 대해, 게놈 영역에 대응하는 대치된 하플로타입을 나타내는 경로를 포함하는 그래프 참조 게놈을 생성하는 것을 포함할 수 있다. 구체적으로, 작용(806)은 샘플 게놈 내의 추가적인 게놈 영역에 대응하는 변이-뉴클레오티드-염기 결정을 결정하는 것, 변이-뉴클레오티드-염기 결정에 기반하여 추가적인 게놈 영역에 대한 추가적인 대치된 하플로타입을 결정하는 것, 및 추가적인 대치된 하플로타입을 나타내는 추가 경로를 포함하는 그래프 참조 게놈을 생성하는 것을 포함할 수 있다. 추가적으로, 작용(806)은 선형 참조 게놈으로부터 게놈 영역에 대한 게놈 좌표를 결정하는 것, 및 선형 참조 게놈을 포함하는 그래프 참조 게놈을 생성하는 것 및 선형 참조 게놈의 게놈 좌표에 위치한 게놈 영역에 대응하는 대치된 하플로타입을 나타내는 경로를 포함할 수 있다.
또한, 일련의 작용(800)은 샘플 게놈의 뉴클레오티드-단편 리드를 하플로타입을 나타내는 경로와 비교하는 것에 기반하여 게놈 영역 내에서 뉴클레오티드-염기 결정을 결정하기 위한 작용(808)을 포함한다. 특히, 작용(808)은 샘플 게놈의 뉴클레오티드-단편 리드를 그래프 참조 게놈 내의 대치된 하플로타입을 나타내는 경로와 비교하는 것에 기반하여 샘플 게놈에 대한 게놈 영역 내에서 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 예를 들어, 작용(808)은 샘플 게놈의 뉴클레오티드-단편 리드를 그래프 참조 게놈 내의 대치된 하플로타입을 나타내는 경로에 맞춰 조정하는 것에 기반하여 샘플 게놈에 대한 게놈 영역 내에서 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 구체적으로, 작용(808)은 대치된 하플로타입을 나타내는 경로와 샘플 게놈의 뉴클레오티드-단편 리드의 비교, 게놈 영역에 대한 대치된 하플로타입에 기반하여 게놈 영역 내의 게놈 좌표에 대한 대치 뉴클레오티드-염기 결정을 결정하는 것, 및 직접 뉴클레오티드-염기 결정 및 대치 뉴클레오티드-염기 결정에 기반하여 게놈 영역 내의 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정을 결정하는 것에 기반하여, 게놈 영역 내의 게놈 좌표에 대한 직접 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다.
또한, 작용(808)은 게놈 좌표에 대한 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스를 결정하는 것, 및 시퀀싱 메트릭스 및 게놈 영역의 가변성에 기반하여 직접 뉴클레오티드-염기 결정에 제1 가중치를 할당함으로써 그리고 대치 뉴클레오티드-염기 결정에 제2 가중치를 할당함으로써 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다.
언급된 바와 같이, 도 9는 하나 이상의 구현예에 따라 대치 뉴클레오티드-염기 결정, 직접 뉴클레오티드-염기 결정, 및 시퀀싱 메트릭스에 기반하여 뉴클레오티드-염기 결정을 결정하기 위한 일련의 작용(900)의 흐름도를 설명한다. 도 9는 일 구현예에 따른 작용을 설명하지만, 대안적인 구현예는 도 9에 도시된 작용 중 임의의 것을 생략, 추가, 재정렬 및/또는 수정할 수 있다. 도 9의 작용은 방법의 일부로서 수행될 수 있다. 대안적으로, 비일시적 컴퓨터 판독가능 매체는 하나 이상의 프로세서에 의해 실행될 때 컴퓨팅 장치가 도 9의 작용을 수행하게 하는 명령어를 포함할 수 있다. 일부 구현예에서, 시스템은 도 9의 작용을 수행할 수 있다.
도 9에 도시된 바와 같이, 일련의 작용(900)은 샘플 게놈의 뉴클레오티드-단편 리드의 서브세트로부터 게놈 영역을 둘러싸는 변이 뉴클레오티드-염기 결정의 서브세트를 결정하기 위한 작용(902)을 포함한다. 특히, 작용(902)은 샘플 게놈의 뉴클레오티드-단편 리드의 서브세트로부터, 샘플 게놈 내의 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정의 서브세트를 결정하는 것을 포함할 수 있다. 위에 나타낸 바와 같이, 작용(902)을 수행할 때, 게놈 영역을 둘러싸는 변이 뉴클레오티드-염기 결정의 서브세트를 결정하는 것은 2x150 시퀀싱 실행의 초기 35개 염기쌍으로부터, 초기 50개의 염기쌍으로부터, 초기 75개의 염기쌍으로부터, 또는 다른 초기 염기쌍의 수로부터 또는 대략 1x 리드 깊이에서 뉴클레오티드-단편 리드의 서브세트에 기반할 수 있다.
도 9에 도시된 바와 같이, 일련의 작용(900)은 샘플 게놈에 대해, 변이 뉴클레오티드-염기 결정들의 서브세트에 기반하여 게놈 영역에 대응하는 하플로타입을 대치하기 위한 작용(904)을 포함한다. 특히, 작용(904)은 샘플 게놈에 대해, 변이-뉴클레오티드-염기 결정의 서브세트에 기반하여 게놈 영역에 대응하는 하플로타입을 대치하는 것을 포함할 수 있다.
도 9에 도시된 바와 같이, 일련의 작용(900)은 하플로타입에 기반하여 게놈 영역에 대한 대치 뉴클레오티드-염기 결정을 결정하기 위한 작용(906)을 포함한다. 특히, 작용(906)은 샘플 게놈에 대해, 대치된 하플로타입에 기반하여 게놈 영역에 대한 대치 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다.
도 9에 도시된 바와 같이, 일련의 작용(900)은 게놈 영역 및 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스에 대한 직접 뉴클레오티드-염기 결정을 결정하기 위한 작용(908)을 포함한다. 특히, 작용(908)은 샘플 게놈에 대해, 게놈 영역 및 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스에 대한 직접 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 구체적으로, 작용(908)은 직접 뉴클레오티드-염기 결정에 대한 깊이 메트릭스, 리드-데이터-품질 메트릭스, 결정-데이터-품질 메트릭스, 또는 맵핑-품질 메트릭스를 결정함으로써 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스를 결정하는 것을 포함할 수 있다.
도 9에 도시된 바와 같이, 일련의 작용(900)은 대치 뉴클레오티드-염기 결정, 직접 뉴클레오티드-염기 결정, 및 시퀀싱 메트릭스에 기반하여 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정하는 작용(910)을 포함한다. 특히, 작용(910)은 대치 뉴클레오티드-염기 결정, 직접 뉴클레오티드-염기 결정, 및 시퀀싱 메트릭스에 기반하여 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 구체적으로, 작용(910)은 샘플 게놈의 뉴클레오티드-단편 리드의 서브세트로부터, 샘플 게놈 내의 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정의 서브세트를 결정하는 것, 샘플 게놈에 대해, 변이-뉴클레오티드-염기 결정의 서브세트에 기반하여 게놈 영역에 대응하는 하플로타입을 대치하는 것, 샘플 게놈에 대해, 대치된 하플로타입을 기반으로 게놈 영역에 대해 대치 뉴클레오티드 염기 결정을 결정하는 것, 샘플 게놈에 대해, 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스 및 게놈 영역에 대한 직접 뉴클레오티드-염기 결정을 결정하는 것, 및 대치 뉴클레오티드-염기 결정, 직접 뉴클레오티드-염기 결정, 및 시퀀싱 메트릭스에 기반하여 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다.
추가적으로, 작용(910)은 대치 뉴클레오티드-염기 결정, 직접 뉴클레오티드-염기 결정, 및 시퀀싱 메트릭스에 기반하여 최종 뉴클레오티드-염기 결정을 결정하기 위해 염기-결정-기계-학습 모델을 활용함으로써 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 또한, 작용(910)은 게놈 영역의 가변성 및 직접 뉴클레오티드-염기 결정에 대응하는 하나 이상의 시퀀싱 메트릭스에 기반하여 대치 뉴클레오티드-염기 결정 중 하나 이상과 상이하게 직접 뉴클레오티드-염기 결정 중 하나 이상을 가중함으로써 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 또한, 작용(910)은 게놈 영역의 가변성이 게놈 영역의 유전자형 가변성 및 게놈 영역의 길이를 포함하고, 시퀀싱 메트릭스 중 하나 이상이 뉴클레오티드-단편 리드에 대응하는 직접 뉴클레오티드-염기 결정에 대한 결정-데이터-품질 메트릭스 및 뉴클레오티드-단편 리드에 대응하는 직접 뉴클레오티드-염기 결정에 대한 맵핑-품질 메트릭스 또는 리드-데이터-품질 메트릭스를 포함하는 것을 포함할 수 있다.
하나 이상의 구현예에서, 일련의 작용(900)은 샘플 게놈에 대해, 게놈 영역에 대응하는 대치된 하플로타입을 나타내는 경로 및 선형 참조 게놈을 포함하는 그래프 참조 게놈을 생성하는 것, 및 선형 참조 게놈 내의 게놈 좌표에서 대응하는 뉴클레오티드 염기 및 게놈 좌표에 대응하는 뉴클레오티드-기반 단편 리드 사이의 불일치를 확인하는 것에 기반하여 게놈 영역의 내부 또는 외부의 게놈 좌표에 대한 직접 변이-뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 또한, 일련의 작용(900)은 샘플 게놈에 대해, 게놈 영역에 대응하는 대치된 하플로타입을 나타내는 경로를 포함하는 그래프 참조 게놈을 생성하는 것, 및 샘플 게놈의 뉴클레오티드-단편 리드를 그래프 참조 게놈 내의 대치된 하플로타입을 나타내는 경로와 비교하는 것에 기반하여 게놈 영역에 대한 직접 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 특히, 샘플 게놈의 뉴클레오티드-단편 리드를 경로와 비교하는 것은 샘플 게놈의 뉴클레오티드-단편 리드를 그래프 참조 게놈 내의 대치된 하플로타입을 나타내는 경로에 맞춰 조정하는 것을 포함할 수 있다.
추가적으로, 하나 이상의 구현예에서, 일련의 작용(900)은 그래프 참조 게놈 내에서 선형 참조 게놈과 정렬된 샘플 게놈으로부터의 뉴클레오티드-단편 리드의 제1 서브세트에 기반하여 뉴클레오티드-염기 결정을 결정함으로써 직접 뉴클레오티드 염기 결정을 결정하는 것, 및 그래프 참조 게놈으로부터 하나 이상의 대치된 하플로타입을 나타내는 경로와 정렬된 샘플 게놈으로부터의 뉴클레오티드-단편 리드의 제2 서브세트에 기반하여 뉴클레오티드-염기 결정을 결정하는 것을 포함한다.
언급된 바와 같이, 도 10은 하나 이상의 구현예에 따라 직접 뉴클레오티드-염기 결정, 시퀀싱 메트릭스, 및 대치 뉴클레오티드-염기 결정에 기반하여 뉴클레오티드-염기 결정을 결정하기 위한 일련의 작용(1000)의 흐름도를 설명한다. 도 10은 일 구현예에 따른 행위를 설명하지만, 대안적인 구현예는 도 10에 도시된 작용 중 임의의 것을 생략, 추가, 재정렬 및/또는 수정할 수 있다. 도 10의 작용은 방법의 일부로서 수행될 수 있다. 대안적으로, 비일시적 컴퓨터 판독가능 매체는 하나 이상의 프로세서에 의해 실행될 때 컴퓨팅 장치가 도 10의 작용을 수행하게 하는 명령어를 포함할 수 있다. 일부 구현예에서, 시스템은 도 10의 작용을 수행할 수 있다.
도 10에 도시된 바와 같이, 일련의 작용(1000)은 게놈 영역 및 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스에 대한 직접 뉴클레오티드-염기 결정을 결정하기 위한 작용(1002)을 포함한다. 특히, 작용(1002)은 샘플 게놈에 대해, 게놈 영역 및 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스에 대한 직접 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 직접 뉴클레오티드-염기 결정을 결정하는 것은 샘플 게놈으로부터의 뉴클레오티드-단편 리드와 참조 게놈 사이의 정렬에 기반하여 직접 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 구체적으로, 작용(1002)은 직접 뉴클레오티드-염기 결정에 대한 깊이 메트릭스, 리드-데이터-품질 메트릭스, 결정-데이터-품질 메트릭스, 또는 맵핑-품질 메트릭스를 결정함으로써 직접 뉴클레오티드-염기 결정에 대응하는 시퀀싱 메트릭스를 결정하는 것을 포함할 수 있다.
도 10에 도시된 바와 같이, 일련의 작용(1000)은 게놈 영역을 둘러싸는 변이 뉴클레오티드-염기 결정에 기반하여 게놈 영역에 대응하는 하플로타입을 대치하기 위한 작용(1004)을 포함한다. 특히, 작용(1004)은 샘플 게놈에 대해, 게놈 영역을 둘러싸는 변이-뉴클레오티드-염기 결정에 기반하여 게놈 영역에 대응하는 하플로타입을 대치하는 것을 포함할 수 있다.
도 10에 도시된 바와 같이, 일련의 작용(1000)은 하플로타입에 기반하여 게놈 영역에 대한 대치 뉴클레오티드-염기 결정을 결정하기 위한 작용(1006)을 포함한다. 특히, 작용(1006)은 샘플 게놈에 대해, 대치된 하플로타입에 기반하여 게놈 영역에 대한 대치 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다.
도 10에 도시된 바와 같이, 일련의 작용(1000)은, 직접 뉴클레오티드-염기 결정, 시퀀싱 메트릭스, 및 대치 뉴클레오티드-염기 결정에 기반하여 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정하는 작용(1008)을 포함한다. 특히, 작용(1008)은 직접 뉴클레오티드-염기 결정, 시퀀싱 메트릭스, 및 대치 뉴클레오티드-염기 결정에 기반하여 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있다. 구체적으로, 작용(1008)은 대치 뉴클레오티드-염기 결정, 직접 뉴클레오티드-염기 결정, 및 시퀀싱 메트릭스에 기반하여 최종 뉴클레오티드-염기 결정을 결정하기 위해 염기-결정-기계-학습 모델을 활용하는 것을 포함할 수 있다.
추가적으로, 작용(1008)은 게놈 영역에 대한 최종 뉴클레오티드-염기 결정을 결정하는 것을 포함할 수 있으며, 이는 직접 뉴클레오티드-염기 결정에 대한 게놈 좌표의 유전자형 가변성 및 뉴클레오티드-단편 리드에 대응하는 직접 뉴클레오티드-염기 결정에 대한 결정-데이터-품질 메트릭스 또는 뉴클레오티드-단편 리드에 대응하는 직접 뉴클레오티드-염기 결정에 대한 리드-데이터-품질 메트릭스 중 하나 이상에 기반하여 대치 뉴클레오티드-염기 결정과 상이하게 직접 뉴클레오티드-염기 결정을 가중하는 것을 포함한다. 또한, 작용(1008)은 게놈 좌표에 대한 대치 뉴클레오티드-염기 결정과는 상이하게 직접 뉴클레오티드-염기 결정을 가중하기 위해 염기-결정-기계-학습 모델을 활용하는 것을 포함할 수 있고, 게놈 좌표에 대한 최종 뉴클레오티드-염기 결정으로서 직접 뉴클레오티드-염기 결정 또는 대치 뉴클레오티드-염기 결정 중 하나를 선택할 수 있다.
본원에 기술된 방법은 다양한 핵산 시퀀싱 기술과 함께 사용될 수 있다. 특히 적용가능한 기술은 상대적인 위치가 변경되지 않도록 핵산이 어레이의 고정된 위치에 부착되고 어레이가 반복적으로 이미지화되는 기술이다. 예를 들어, 하나의 뉴클레오티드 염기 유형을 다른 것과 식별하는데 사용되는 다른 표지와 일치하는 다른 색상 채널에서 이미지가 수득되는 구현예가 특히 적용가능하다. 일부 구현예에서, 표적 핵산(즉, 핵산 중합체)의 뉴클레오티드 서열을 결정하는 방법은 자동화 방법일 수 있다. 바람직한 구현예는 염기서열결정법("SBS") 기술을 포함한다.
SBS 기술은 일반적으로 주형 가닥에 대한 뉴클레오티드의 반복적 부가를 통한 신생 핵산 가닥의 효소적 연장을 수반한다. 기존의 SBS 방법에서, 단일 뉴클레오티드 단량체가 각각의 전달에서 중합효소의 존재 하에 표적 뉴클레오티드에 제공될 수 있다. 그러나, 본원에 기술된 방법에서, 하나 초과의 유형의 뉴클레오티드 단량체가 전달에서 폴리머라제의 존재 하에 표적 핵산에 제공될 수 있다.
SBS는 종결자 모이어티를 갖는 뉴클레오티드 단량체 또는 임의의 종결자 모이어티가 없는 뉴클레오티드 단량체를 활용할 수 있다. 종결자가 없는 뉴클레오티드 단량체를 사용하는 방법은 예를 들어, 하기에 더욱 상세히 설명되는 바와 같이, γ-포스페이트 표지화된 뉴클레오티드를 사용하는 시퀀싱 및 파이로시퀀싱(pyrosequencing)을 포함한다. 종결자가 결여된 뉴클레오티드 단량체를 사용하는 방법에서, 각 주기에 추가되는 뉴클레오티드의 수는 일반적으로 가변적이며 주형 서열 및 뉴클레오티드 전달 방식에 따라 다르다. 종결자 모이어티를 갖는 뉴클레오티드 단량체를 이용하는 SBS 기술에서, 종결자는 디데옥시뉴클레오티드를 이용하는 기존의 Sanger 시퀀싱의 경우와 같이, 사용된 시퀀싱 조건 하에서 실질적으로 비가역적일 수 있거나, 종결자는 Solexa(현재, Illumina, Inc.)에 의해 개발된 시퀀싱 방법의 경우와 같이 가역적일 수 있다.
SBS 기법은 표지 모이어티를 갖는 뉴클레오티드 단량체 또는 표지 모이어티가 결여되어 있는 것들을 이용할 수 있다. 따라서, 혼입 이벤트는 표지의 특성, 예컨대 표지의 형광; 뉴클레오티드 단량체의 특성, 예컨대 분자량 또는 전하; 뉴클레오티드 도입의 부산물 예컨대 파이로포스페이트의 방출; 등에 기반하여 검출될 수 있다. 2종 이상의 상이한 뉴클레오티드가 시퀀싱 시약 중에 존재하는 구현예에서, 상이한 뉴클레오티드는 서로 구별 가능할 수 있거나, 대안적으로 2개 이상의 상이한 표지가 사용되고 있는 검출 기술 하에서 구별 가능하지 않을 수 있다. 예를 들어, 시퀀싱 시약에 존재하는 상이한 뉴클레오티드는 상이한 표지를 가질 수 있으며 Solexa(현재 Illumina, Inc.)에서 개발한 시퀀싱 방법에 의해 예시된 바와 같이 적절한 광학 장치를 사용하여 구별될 수 있다.
바람직한 구현예는 파이로시퀀싱 기법을 포함한다. 파이로시퀀싱은 특정 뉴클레오티드가 신생 가닥에 도입될 때 무기 파이로포스페이트(PPi)의 방출을 검출한다(문헌[Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. and Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9]; 문헌[Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res. 11(1), 3-11]; 문헌[Ronaghi, M., Uhlen, M. and Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science 281(5375), 363]; 미국 특허 제6,210,891호; 미국 특허 제6,258,568호 및 미국 특허 제6,274,320호, 이들 각각은 전체가 본원에 참고로 포함됨). 파이로시퀀싱에서, 방출된 PPi는 ATP 설퍼릴라제(sulfurylase)에 의해 즉시 아데노신 삼인산(ATP: adenosine triphosphate)으로 전환되어 검출될 수 있으며, 생성된 ATP의 수준은 루시퍼라제-생성 광자를 통해 검출된다. 시퀀싱될 핵산은 어레이에서의 특징부에 부착될 수 있고, 어레이의 특징에서 뉴클레오티드의 혼입으로 인해 생성되는 화학발광 신호를 캡처하기 위해 어레이가 이미지화될 수 있다. 어레이를 특정 뉴클레오티드 유형(예를 들어, A, T, C 또는 G)으로 처리한 후 영상이 수득될 수 있다. 각 뉴클레오티드 유형을 추가한 후 수득된 영상은 어레이의 피처가 검출되는 것과 관련하여 상이하다. 이미지의 이러한 차이는 어레이에 있는 특징부의 상이한 서열 내용을 반영한다. 그러나, 각 피처의 상대적 위치는 영상에서 변경되지 않은 상태로 유지된다. 이미지는 본원에 기술된 방법을 사용하여 저장, 처리 및 분석될 수 있다. 예를 들어, 각각의 상이한 뉴클레오티드 유형으로 어레이를 처리한 후 수득된 영상은 가역적 종결자-기반 시퀀싱 방법에 대해 서로 상이한 검출 채널에서 수득된 영상에 대해 본원에 예시된 것과 동일한 방식으로 처리될 수 있다.
SBS의 다른 예시적인 유형에서, 사이클 시퀀싱은 예를 들어, 그 개시내용이 본원에 참고로 포함되는 국제공개 WO 04/018497호 및 미국 특허 제7,057,026호에 기재된 바와 같은 절단가능한 또는 광표백성 염료 표지를 포함하는 가역적 종결자 뉴클레오티드의 단계적 부가에 의해 달성된다. 이러한 접근법은 Solexa(현재 Illumina Inc.)에 의해 상업화되고 있으며, 또한 국제 특허 출원 공개 WO 91/06678호 및 WO 07/123,744호에 기재되어 있으며, 이들 각각은 본원에 참고로 포함된다. 종결이 역전될 수 있고, 형광 표지가 절단될 수 있는 형광 표지된 종결자의 이용가능성은 효율적인 주기적 가역적 종결(CRT) 시퀀싱을 용이하게 한다. 폴리머라제는 또한 이러한 변형된 뉴클레오티드를 효율적으로 도입하고 신장하도록 공동 조작될 수 있다.
바람직하게는 가역적 종결자 기반 시퀀싱 구현예에서, 표지는 SBS 반응 조건 하에서 신장을 실질적으로 저해하지 않는다. 그러나, 검출 표지는 예를 들어 절단 또는 분해에 의해 제거될 수 있다. 배열된 핵산 특징부에 표지를 혼입한 후 이미지가 캡처될 수 있다. 특정 구현예에서, 각각의 사이클은 어레이에 4종의 상이한 뉴클레오티드 유형을 동시에 전달하는 것을 포함하고, 각각의 뉴클레오티드 유형은 스펙트럼적으로 구별되는 표지를 갖는다. 그 다음 4개의 이미지가 수득될 수 있으며, 각각은 4개의 상이한 표지 중 하나에 대해 선택적인 검출 채널을 사용한다. 대안적으로, 상이한 뉴클레오티드 유형이 순차적으로 첨가될 수 있으며 각 첨가 단계 사이에 어레이의 이미지가 수득될 수 있다. 이러한 구현예에서, 각각의 이미지는 특정 유형의 뉴클레오티드가 혼입된 핵산 특징을 나타낼 것이다. 각 특징부의 서열 내용이 상이하기 때문에 상이한 이미지에 상이한 특징부가 있거나 없을 수 있다. 그러나, 특징부의 상대적 위치는 이미지에서 변경되지 않은 상태로 유지된다. 이러한 가역적 종결자-SBS 방법으로부터 얻어진 이미지는 본원에 기재된 바와 같이 저장, 처리 및 분석될 수 있다. 영상 캡처 단계 후, 표지는 제거될 수 있으며 후속 뉴클레오티드 추가 및 검출 주기를 위해 가역적 종결자 모이어티가 제거될 수 있다. 특정 사이클에서 검출된 후 후속 사이클 이전에 표지가 제거되면 배경 신호와 사이클 사이의 누화를 줄이는 이점을 제공할 수 있다. 유용한 표지 및 제거 방법의 예가 하기에 기재된다.
특정 구현예에서, 뉴클레오티드 단량체의 일부 또는 전부는 가역적 종결자를 포함할 수 있다. 이러한 구현예에서, 가역적 종결자/절단 가능한 형광단은 3' 에스테르 결합을 통해 리보스 모이어티에 연결된 형광단을 포함할 수 있다(문헌[Metzker, Genome Res. 15:1767-1776 (2005)], 이는 본원에 참고로 포함됨). 다른 접근법은 형광 표지의 절단으로부터 종결자 화학물질을 분리하였다(문헌[Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7 (2005)], 이는 전체적으로 본원에 참고로 포함됨). Ruparel 등은 연장을 차단하기 위해 작은 3' 알릴기를 사용하지만 팔라듐 촉매로 짧은 처리로 쉽게 차단이 해제될 수 있는 가역적 종결자의 개발을 설명하였다. 형광단은 장파장 UV 광에 30초 노출되면 쉽게 절단될 수 있는 광절단가능한 링커를 통해 염기에 부착되었다. 따라서, 디설파이드 환원 또는 광절단이 절단가능한 링커로서 사용될 수 있다. 가역적 종결에 대한 다른 접근 방식은 dNTP에 부피가 큰 염료를 배치한 후 발생하는 자연 종결을 사용하는 것이다. dNTP에 하전된 부피가 큰 염료의 존재는 입체 및/또는 정전기 장애를 통해 효과적인 종결자로서 작용할 수 있다. 하나의 혼입 이벤트가 있으면 염료가 제거되지 않는 한 추가 혼입이 방지된다. 염료의 절단은 플루오르를 제거하고 효과적으로 종결을 역전시킨다. 변형된 뉴클레오티드의 예는 또한 미국 특허 제7,427,673호 및 미국 특허 제7,057,026호에 기재되어 있으며, 이의 개시내용은 전체적으로 본원에 참고로 포함된다.
본원에 기술된 방법 및 시스템과 함께 활용될 수 있는 추가의 예시적인 SBS 시스템 및 방법은 미국 특허 출원 공개 제2007/0166705호, 미국 특허 출원 공개 제2006/0188901호, 미국 특허 제7,057,026호, 미국 특허 출원 공개 제2006/0240439호, 미국 특허 출원 공개 제2006/0281109호, PCT 공개 WO 05/065814호, 미국 특허 출원 공개 제2005/0100900호, PCT 공개 WO 06/064199호, PCT 공개 WO 07/010,251호, 미국 특허 출원 공개 제2012/0270305호 및 미국 특허 출원 공개 제2013/0260372호에 기술되어 있으며, 이들의 개시내용은 그 전체가 본원에 참조로 포함된다.
일부 구현예는 4개 미만의 상이한 표지를 사용하여 4개의 상이한 뉴클레오티드의 검출을 활용할 수 있다. 예를 들어, SBS는 미국 특허 출원 공개 제2013/0079232호에 포함된 자료에 기술된 방법 및 시스템을 이용하여 수행될 수 있다. 첫 번째 예로서, 한 쌍의 뉴클레오티드 유형은 동일한 파장에서 검출되지만, 쌍의 한 구성원이 다른 구성원과 비교하여 강도 차이를 기준으로 하거나 쌍의 다른 구성원에 대해 검출된 신호와 비교하여 명백한 신호가 나타나거나 사라지게 하는 쌍의 한 구성원의 변화(예컨대 화학적 변형, 광화학적 변형 또는 물리적 변형을 통해)를 기준으로 구별될 수 있다. 두 번째 예로서, 4개의 상이한 뉴클레오티드 유형 중 3개가 특정 조건 하에서 검출될 수 있는 반면, 네 번째 뉴클레오티드 유형은 이러한 조건 하에서 검출가능한 표지가 없거나, 이러한 조건 하에서 최소한으로 검출된다(예컨대, 배경 형광으로 인한 최소 검출 등). 핵산으로의 처음 3개의 뉴클레오티드 유형의 혼입은 그들 각각의 신호의 존재에 기반하여 결정될 수 있고 핵산으로의 네 번째 뉴클레오티드 유형의 혼입은 임의의 신호의 부재 또는 최소 검출에 기반하여 결정될 수 있다. 세 번째 예로서, 하나의 뉴클레오티드 유형은 두 개의 상이한 채널에서 검출되는 표지(들)를 포함할 수 있는 반면, 다른 뉴클레오티드 유형은 하나 이상의 채널에서 검출되지 않는다. 전술한 3개의 예시적인 구성은 상호 배타적인 것으로 간주되지 않으며, 다양한 조합으로 사용될 수 있다. 모든 3개의 예를 조합한 예시적인 구현예는 제1 채널에서 검출되는 제1 뉴클레오티드 유형(예를 들어, 제1 여기 파장에 의해 여기되는 경우 제1 채널에서 검출되는 표지를 갖는 dATP), 제2 채널에서 검출되는 제2 뉴클레오티드 유형(예를 들어, 제2 여기 파장에 의해 여기되는 경우 제2 채널에서 검출되는 표지를 갖는 dCTP), 제1 채널 및 제2 채널 둘 다에서 검출되는 제3 뉴클레오티드 유형(예를 들어, 제1 여기 파장 및/또는 제2 여기 파장에 의해 여기되는 경우 두 채널 모두에서 검출되는 적어도 하나의 표지를 갖는 dTTP) 및 어느 하나의 채널에서도 검출되지 않거나 최소한으로 검출되는 표지가 결여된 제4 뉴클레오티드 유형(예를 들어, 표지를 갖지 않는 dGTP)을 사용하는 형광 기반 SBS 방법이다.
또한, 미국 특허 출원 공개 제2013/0079232호에 포함된 자료에 기재된 바와 같이, 단일 채널을 사용하여 시퀀싱 데이터가 얻어질 수 있다. 이러한 소위 1-염료(one-dye) 시퀀싱 접근법에서, 첫 번째 뉴클레오티드 유형에 표지화되어 있지만 첫 번째 이미지가 생성된 후 표지가 제거되고, 두 번째 뉴클레오티드 유형은 첫 번째 이미지가 생성된 후에만 표지화된다. 세 번째 뉴클레오티드 유형은 첫 번째 이미지와 두 번째 이미지 모두에서 표지를 유지하고, 네 번째 뉴클레오티드 유형은 두 이미지 모두에서 표지화되지 않은 상태로 유지된다.
일부 구현예는 라이게이션 기술에 의한 시퀀싱을 사용할 수 있다. 이러한 기술은 DNA 리가제를 사용하여 올리고뉴클레오티드를 도입하고 이러한 올리고뉴클레오티드의 도입을 확인한다. 올리고뉴클레오티드는 전형적으로 올리고뉴클레오티드가 혼성화하는 서열에서 특정 뉴클레오티드의 동일성과 상관관계가 있는 상이한 표지를 갖는다. 다른 SBS 방법과 마찬가지로, 표지된 시퀀싱 시약으로 핵산 특징부 어레이를 처리한 후 이미지가 수득될 수 있다. 각 이미지는 특정 유형의 표지가 포함된 핵산 특징부를 나타낸다. 각 특징부의 서열 내용이 다르기 때문에 상이한 특징부가 상이한 이미지에 있거나 없지만, 특징부의 상대적 위치는 이미지에서 변경되지 않은 채로 유지된다. 라이게이션 기반 시퀀싱 방법으로부터 얻어진 이미지들은 본원에 기재된 바와 같이 저장, 처리 및 분석될 수 있다. 본원에 기술된 방법 및 시스템과 함께 사용될 수 있는 예시적인 SBS 시스템 및 방법은 미국 특허 제6,969,488호, 제6,172,218호 및 제6,306,597호에 기술되어 있으며, 이들의 개시내용은 전체적으로 본원에 참고로 포함된다.
일부 구현예는 나노포어 시퀀싱을 이용할 수 있다(문헌[Deamer, D. W. & Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol. 18, 147-151 (2000)]; 문헌[Deamer, D. and D. Branton, "Characterization of nucleic acids by nanopore analysis". Acc. Chem. Res. 35:817-825 (2002)]; 문헌[Li, J., M. Gershow, D. Stein, E. Brandin, and J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003)], 이들의 개시 내용은 전체적으로 본원에 참고로 포함됨). 이러한 구현예에서, 표적 핵산은 나노포어를 통과한다. 나노포어는 α-헤몰리신과 같은 합성 포어 또는 생물학적 막 단백질일 수 있다. 표적 핵산이 나노포어를 통과할 때, 각각의 염기쌍은 나노포어의 전기 전도도의 변동을 측정함으로써 확인될 수 있다. (미국 특허 제7,001,792호; 문헌[Soni, G. V. & Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001 (2007)]; 문헌[Healy, K. "Nanopore-based single-molecule DNA analysis." Nanomed. 2, 459-481 (2007)]; 문헌[Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008)], 이들의 개시 내용은 전체적으로 본원에 참고로 포함됨). 나노포어 시퀀싱으로부터 얻어진 데이터는 본원에 기재된 바와 같이 저장, 처리 및 분석될 수 있다. 특히, 데이터는 본원에 언급된 광학 이미지 및 다른 이미지의 예시적인 처리에 따라 이미지로서 처리될 수 있다.
일부 구현예는 DNA 폴리머라제 활성의 실시간 모니터링을 수반하는 방법을 이용할 수 있다. 뉴클레오티드 혼입은, 예를 들어 미국 특허 제7,329,492호 및 제7,211,414호(이들 각각은 본원에 참고로 포함됨)에 기술된 바와 같이 형광단 보유 폴리머라제와 γ-포스페이트 표지화된 뉴클레오티드 사이의 형광 공명 에너지 전달(FRET) 상호작용을 통해 검출될 수 있거나, 뉴클레오티드 혼입은, 예를 들어 미국 특허 제7,315,019호(이는 본원에 참고로 포함됨)에 기술된 바와 같은 제로-모드 도파관으로 그리고, 예를 들어 미국 특허 제7,405,281호 및 미국 특허 공개 제2008/0108082호(이들 각각은 본원에 참고로 포함됨)에 기술된 바와 같은 형광 뉴클레오티드 유사체 및 조작된 폴리머라제를 사용하여 검출될 수 있다. 조명은 형광 표지된 뉴클레오티드의 도입이 저 백그라운드에서 관찰될 수 있도록 표면 테더링된(surface-tethered) 폴리머라제 주변의 젭토리터 스케일(zeptoliter-scale)의 부피로 제한될 수 있다(문헌[Levene, M. J. et al. "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686 (2003)]; 문헌[Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008)]; 문헌[Korlach, J. et al. "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)],이들의 개시 내용은 전체적으로 본원에 참고로 포함됨). 이러한 방법으로부터 얻어진 이미지는 본원에 기재된 바와 같이 저장, 처리 및 분석될 수 있다.
일부 SBS 구현예는 연장 생성물 내로 뉴클레오티드의 혼입 시에 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 양성자의 검출에 기반한 서열분석은 Ion Torrent(코네티컷주 길포드 소재, Life Technologies 자회사)로부터 상업적으로 입수 가능한 전기 검출기 및 관련 기술, 또는 이들 각각은 그 전체가 본원에 참조로 포함된 US 2009/0026082 A1; US 2009/0127589 A1; US 2010/0137143 A1; 또는 US 2010/0282617 A1에 기재된 시퀀싱 방법 및 시스템을 사용할 수 있다. 역학적 배제(kinetic exclusion)를 사용하여 표적 핵산을 증폭하기 위해 본원에 제시된 방법은 양성자를 검출하는 데 사용되는 기재에 용이하게 적용될 수 있다. 보다 구체적으로, 본원에 제시된 방법은 양성자를 검출하는 데 사용되는 앰플리콘의 클론 집단을 제작하는 데 사용될 수 있다.
상기 SBS 방법은 멀티플렉스 포맷으로 유리하게 수행되어 다수의 상이한 표적 핵산이 동시에 조작될 수 있다. 특정 구현예에서, 상이한 표적 핵산이 일반적인 반응 용기에서 또는 특정 기질의 표면에서 처리될 수 있다. 이것은 멀티플렉스 방식으로 시퀀싱 시약의 전달, 미반응 시약의 제거 및 도입 이벤트의 검출을 편리하게 해준다. 표면 결합된 표적 핵산을 사용한 구현예에서, 표적 핵산은 어레이 포맷으로 존재할 수 있다. 어레이 포맷에서, 표적 핵산은 통상 공간적으로 구별가능한 방식으로 표면에 결합될 수 있다. 표적 핵산은 직접 공유 결합, 비드 또는 다른 입자에 대한 부착 또는 표면에 부착된 폴리머라제 또는 다른 분자에 대한 결합에 의해 결합될 수 있다. 어레이는 각각의 부위(특징부라고도 지칭됨)에서 표적 핵산의 단일 카피를 포함할 수 있거나, 동일한 서열을 갖는 다수의 카피가 각각의 부위 또는 특징부에 존재할 수 있다. 다수의 카피는 아래에 더욱 상세하게 기술된 바와 같은 증폭 방법, 예컨대 브릿지 증폭 또는 에멀젼 PCR에 의해 생성될 수 있다.
본원에 기재된 방법은 예를 들어, 적어도 약 10개의 특징부/cm2, 100개의 특징부/cm2, 500개의 특징부/cm2, 1,000개의 특징부/cm2, 5,000개의 특징부/cm2, 10,000개의 특징부/cm2, 50,000개의 특징부/cm2, 100,000개의 특징부/cm2, 1,000,000개의 특징부/cm2, 5,000,000개의 특징부/cm2 또는 그 이상을 포함하는, 다양한 밀도들 중 임의의 밀도의 특징부를 갖는 어레이를 사용할 수 있다.
본원에 제시된 방법의 한 가지 이점은 이들이 병렬로 복수의 표적 핵산의 신속하고 효율적인 검출을 제공한다는 것이다. 따라서, 본 발명은 상기에 예시된 것과 같은 당업계에 공지된 기술을 사용하여 핵산을 제조 및 검출할 수 있는 통합 시스템을 제공한다. 따라서, 본 개시내용의 통합 시스템은 증폭 시약 및/또는 시퀀싱 시약을 하나 이상의 고정된 DNA 단편으로 전달할 수 있는 유체 구성요소를 포함할 수 있으며, 상기 시스템은 펌프, 밸브, 저장소, 유체 라인 등과 같은 구성요소를 포함한다. 플로우 셀은 표적 핵산의 검출을 위한 통합 시스템으로 구성되고/되거나 이에 사용될 수 있다. 예시적인 플로우 셀은, 예를 들어 미국 특허출원공개 제2010/0111768 A1호 및 미국 특허 출원 제13/273,666호에 기재되어 있으며, 이들 각각은 본원에 참고로 포함된다. 플로우셀에 대한 예시로서, 통합 시스템의 유체 구성요소 중 하나 이상이 증폭 방법과 검출 방법에 사용될 수 있다. 핵산 시퀀싱 구현예를 예로 들면, 통합 시스템의 유체 구성요소 중 하나 이상이 본원에 제시된 증폭 방법과, 위에 예시된 것과 같은 시퀀싱 방법에서 시퀀싱 시약의 전달에 사용될 수 있다. 대안적으로, 통합 시스템은 증폭 방법을 수행하고 검출 방법을 수행하기 위한 별개의 유체 시스템을 포함할 수 있다. 증폭된 핵산을 생성하고, 또한 핵산의 서열을 결정할 수 있는 통합 시퀀싱 시스템의 예는 제한 없이 MiSeqTM 플랫폼(미국 캘리포니아주 샌디에고 소재의 Illumina, Inc.) 및 미국 특허 출원 제13/273,666호에 개시된 장치를 포함하며, 상기 특허는 본원에 참고로 포함된다.
위에 설명된 시퀀싱 시스템은 시퀀싱 장치에 의해 수용된 샘플에 존재하는 핵산 중합체를 시퀀싱한다. 본원에 정의된 바와 같이, "샘플" 및 이의 파생어들은 가장 넓은 의미로 사용되며, 표적을 포함하는 것으로 의심스러운 임의의 시료, 배양물 등을 포함한다. 일부 구현예에서, 샘플은 DNA, RNA, PNA, LNA, 키메라 또는 혼성 형태들의 핵산들을 포함한다. 샘플은 하나 이상의 핵산들을 함유하는 임의의 생물학적, 임상적, 외과적, 농업적, 대기 또는 수생 기반 시료를 포함할 수 있다. 용어는 또한, 게놈 DNA, 신선-동결 또는 포르말린-고정 파라핀-함몰 핵산 시료와 같은 임의의 단리된 핵산 샘플을 포함한다. 또한, 샘플은 단일 개체, 유전적으로 관련된 구성원들로부터의 핵산 샘플들의 수집물, 유전적으로 관련되지 않은 구성원들로부터의 핵산 샘플들, 종양 샘플 및 정상 조직 샘플과 같은 단일 개체로부터의 (매칭된) 핵산 샘플들, 또는 모체 및 모체 대상으로부터 수득된 태아 DNA와 같은 2개의 개별 형태들의 유전 물질을 함유하는 단일 소스로부터의 샘플, 또는 식물 또는 동물 DNA를 함유하는 샘플 내 오염성 박테리아 DNA의 존재로부터의 것일 수 있다는 것이 구상된다. 일부 구현예에서, 핵산 물질의 소스는, 예를 들어 전형적으로 신생아 스크리닝에 사용되는 바와 같이, 신생아로부터 수득된 핵산들을 포함할 수 있다.
핵산 샘플은 게놈 DNA(gDNA)와 같은 고분자량 물질을 포함할 수 있다. 샘플은 FFPE 또는 보관된 DNA 샘플들로부터 수득된 핵산 분자들과 같은 저분자량 물질을 포함할 수 있다. 다른 구현예에서, 저분자량 물질은 효소적으로 또는 기계적으로 단편화된 DNA를 포함한다. 샘플은 무세포 순환 DNA를 포함할 수 있다. 일부 구현예에서, 샘플은 생검, 종양, 찰과표본(scraping), 면봉, 혈액, 점액, 소변, 혈장, 정액, 모발, 레이저 캡처 마이크로 절개, 수술 절제, 및 다른 임상 또는 실험실 수득 샘플로부터 수득된 핵산 분자들을 포함할 수 있다. 일부 구현예에서, 샘플은 역학, 농업, 법의학 또는 병원성 샘플일 수 있다. 일부 구현예에서, 샘플은 인간 또는 포유류 공급원과 같은 동물로부터 수득된 핵산 분자를 포함할 수 있다. 다른 구현예에서, 샘플은 식물, 박테리아, 바이러스 또는 진균과 같은 비포유류 공급원으로부터 수득된 핵산 분자를 포함할 수 있다. 일부 구현예에서, 핵산 분자의 공급원은 보관되거나 멸종된 샘플 또는 종일 수 있다.
또한, 본원에 개시된 방법들 및 조성물들은 법의학적 샘플로부터의 분절되고/되거나 단편화된 게놈 DNA와 같은 저품질 핵산 분자들을 갖는 핵산 샘플을 증폭시키는 데 유용할 수 있다. 일 구현예에서, 법의학 샘플은 범죄 현장에서 수득한 핵산, 실종자 DNA 데이터베이스에서 수득한 핵산, 법의학 수사와 관련된 실험실에서 수득한 핵산을 포함할 수 있거나 법 집행 기관, 한 명 이상의 군 복무 또는 이러한 직원이 확보한 법의학 샘플을 포함할 수 있다. 핵산 샘플은, 예를 들어 구강용 면봉, 종이, 섬유, 또는 타액, 혈액, 또는 다른 체액으로 침지될 수 있는 다른 기질로부터 유래된, 용해물을 함유하는 조질(crude) DNA 또는 정제된 샘플일 수 있다. 이와 같이, 일부 구현예에서, 핵산 샘플은 게놈 DNA와 같은 DNA의 소량의 또는 단편화된 부분들을 포함할 수 있다. 일부 구현예에서, 표적 서열들은 혈액, 가래, 혈장, 정액, 소변, 및 혈청을 포함하지만 이들로 제한되지 않는 하나 이상의 체액들에 존재할 수 있다. 일부 구현예에서, 표적 서열은 모발, 피부, 조직 샘플, 부검 또는 희생자의 유골로부터 수득될 수 있다. 일부 구현예에서, 하나 이상의 표적 서열을 포함하는 핵산은 사망한 동물 또는 인간으로부터 수득될 수 있다. 일부 구현예에서, 표적 서열은 미생물, 식물 또는 곤충학적 DNA와 같은 비-인간 DNA로부터 수득된 핵산을 포함할 수 있다. 일부 구현예에서, 표적 서열들 또는 증폭된 표적 서열들은 인간 식별의 목적들로 지향된다. 일부 구현예에서, 본 개시내용은 대체적으로, 법의학적 샘플의 특성들을 식별하기 위한 방법들에 관한 것이다. 일부 구현예에서, 본 개시내용은 대체적으로, 본원에 개시된 하나 이상의 표적 특이적 프라이머들 또는 본원에서 개략된 프라이머 설계 기준을 사용하여 설계된 하나 이상의 표적 특이적 프라이머들을 사용하는 인간 식별 방법들에 관한 것이다. 하나의 구현예에서, 적어도 하나의 표적 서열을 함유하는 법의학적 또는 인간 식별 샘플은 본원에 개시된 표적 특이적 프라이머들 중 임의의 하나 이상을 사용하여 또는 본원에 개략된 프라이머 기준들을 사용하여 증폭될 수 있다.
맞춤형 시퀀싱 시스템(104)의 구성요소는 소프트웨어, 하드웨어 또는 둘 다를 포함할 수 있다. 예를 들어, 맞춤형 시퀀싱 시스템(104)의 구성요소는 컴퓨터 판독가능한 저장 매체에 저장되고 하나 이상의 컴퓨팅 장치(예를 들어, 사용자 클라이언트 장치(108))의 프로세서에 의해 실행 가능한 하나 이상의 명령을 포함할 수 있다. 하나 이상의 프로세서에 의해 실행될 때, 맞춤형 시퀀싱 시스템(104)의 컴퓨터-실행가능한 명령은 컴퓨팅 장치가 본원에 설명된 거품 검출 방법을 수행하게 할 수 있다. 대안적으로, 맞춤형 시퀀싱 시스템(104)의 구성요소는 특정 기능 또는 기능들의 그룹을 수행하는 특수 목적 처리 장치와 같은 하드웨어를 포함할 수 있다. 추가적으로 또는 대안적으로, 맞춤형 시퀀싱 시스템(104)의 구성요소는 컴퓨터-실행가능한 명령과 하드웨어의 조합을 포함할 수 있다.
또한, 맞춤형 시퀀싱 시스템(104)과 관련하여 본원에 설명된 기능을 수행하는 맞춤형 시퀀싱 시스템(104)의 구성요소는 예를 들어 독립형 애플리케이션의 일부로서, 애플리케이션의 모듈로서, 애플리케이션용 플러그-인으로서, 다른 애플리케이션에 의해 호출될 수 있는 라이브러리 기능 또는 기능들, 및/또는 클라우드 컴퓨팅 모델로서 구현될 수 있다. 따라서, 맞춤형 시퀀싱 시스템(104)의 구성요소는 개인용 컴퓨팅 장치 또는 모바일 장치에서 독립형 애플리케이션의 일부로서 구현될 수 있다. 추가적으로 또는 대안적으로, 맞춤형 시퀀싱 시스템(104)의 구성요소는 Illumina BaseSpace, Illumina DRAGEN 또는 Illumina TruSight 소프트웨어를 포함하지만 이에 제한되지 않는 시퀀싱 서비스를 제공하는 임의의 애플리케이션에서 구현될 수 있다. "Illumina", "BaseSpace", "DRAGEN" 및 "TruSight"는 미국 및/또는 기타 국가에서 Illumina, Inc.의 등록 상표 또는 상표이다.
본 개시내용의 구현예는 아래에서 더 자세히 논의되는 바와 같이, 예를 들어 하나 이상의 프로세서 및 시스템 메모리와 같은 컴퓨터 하드웨어를 포함하는 특수 목적 또는 범용 컴퓨터를 포함하거나 활용할 수 있다. 본 개시내용의 범위 내의 구현예는 또한 컴퓨터-실행가능한 명령 및/또는 데이터 구조를 전달하거나 저장하기 위한 물리적 및 기타 컴퓨터-판독가능한 매체를 포함한다. 특히, 본원에 설명된 방법들 중 하나 이상은 비일시적 컴퓨터-판독가능한 매체에서 구현되고 하나 이상의 컴퓨팅 장치(예를 들어, 본원에 설명된 미디어 콘텐츠 액세스 장치들 중 임의의 것)에 의해 실행가능한 명령으로서 적어도 부분적으로 구현될 수 있다. 일반적으로, 프로세서(예: 마이크로프로세서)는 비일시적 컴퓨터-판독가능한 매체(예: 메모리 등)로부터 명령을 수신하고 이들 명령을 실행함으로써 본원에 설명된 방법들 중 하나 이상을 포함하는 하나 이상의 방법을 수행한다.
컴퓨터-판독가능한 매체는 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있다. 컴퓨터-실행가능한 명령을 저장하는 컴퓨터-판독가능한 매체는 비일시적 컴퓨터-판독가능한 저장 매체(장치)이다. 컴퓨터-실행가능한 명령을 전달하는 컴퓨터-판독가능한 매체는 전송 매체이다. 따라서, 제한이 아닌 예시로서, 본 개시내용의 구현예는 적어도 두 가지의 뚜렷이 상이한 종류의 컴퓨터-판독가능한 매체, 즉 비일시적 컴퓨터-판독가능한 저장 매체(장치)와 전송 매체를 포함할 수 있다.
비일시적 컴퓨터-판독가능한 저장 매체(장치)는 RAM, ROM, EEPROM, CD-ROM, 솔리드 스테이트 드라이브(SSD)(예: RAM 기반), 플래시 메모리, 상-변화 메모리(PCM: phase-change memory), 기타 유형의 메모리, 기타 광디스크 저장장치, 자기 디스크 저장장치 또는 기타 자기 저장 장치, 또는 원하는 프로그램 코드 수단을 컴퓨터-실행 가능한 명령이나 데이터 구조의 형태로 저장하는 데 사용될 수 있고 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 기타 매체를 포함한다.
"네트워크"는 컴퓨터 시스템 및/또는 모듈 및/또는 기타 전자 장치 간에 전자 데이터의 전송을 가능하게 하는 하나 이상의 데이터 링크로서 정의된다. 정보가 네트워크 또는 다른 통신 연결(유선, 무선 또는 유선과 무선의 조합)을 통해 컴퓨터로 전송되거나 제공될 때, 컴퓨터는 그 연결을 전송 매체로서 적절하게 간주한다. 전송 매체는 컴퓨터-실행가능한 명령이나 데이터 구조의 형태로 원하는 프로그램 코드 수단을 전달하는 데 사용될 수 있고 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 네트워크 및/또는 데이터 링크를 포함할 수 있다. 상기의 조합이 또한 컴퓨터-판독가능한 매체의 범위에 포함되어야 한다.
또한, 다양한 컴퓨터 시스템 구성요소에 도달할 때, 컴퓨터-실행 가능한 명령이나 데이터 구조 형태의 프로그램 코드 수단은 전송 매체로부터 비일시적 컴퓨터-판독가능한 저장 매체(장치)로(또는 그 반대로) 자동으로 전송될 수 있다. 예를 들어, 네트워크 또는 데이터 링크를 통해 수신된 컴퓨터-실행가능한 명령 또는 데이터 구조는 네트워크 인터페이스 모듈(예: NIC) 내의 RAM에 버퍼링된 다음, 결국 컴퓨터 시스템 RAM 및/또는 컴퓨터 시스템에서 덜 휘발성의 컴퓨터 저장 매체(장치)로 전송될 수 있다. 따라서, 비일시적 컴퓨터-판독가능한 저장 매체(장치)는 전송 매체를 또한(또는 심지어 주로) 활용하는 컴퓨터 시스템 구성요소에 포함될 수 있다는 것이 이해되어야 한다.
컴퓨터-실행가능한 명령은 예를 들어, 프로세서에서 실행될 때 범용 컴퓨터, 특수 목적 컴퓨터 또는 특수 목적 처리 장치가 특정 기능 또는 기능들의 그룹을 수행하게 하는 명령 및 데이터를 포함한다. 일부 구현예에서, 컴퓨터-실행가능한 명령은 범용 컴퓨터에서 실행되어 범용 컴퓨터를 본 개시내용의 요소를 구현하는 특수 목적 컴퓨터로 전환시킨다. 컴퓨터 실행가능한 명령은 예를 들어 바이너리, 어셈블리 언어와 같은 중간 형식 명령, 또는 심지어 소스 코드일 수 있다. 주제가 구조적 특징 및/또는 방법론적 행위에 특이적인 언어로 설명되었지만, 첨부된 청구범위에 정의된 주제는 위에서 기술된 특징이나 행위에 반드시 제한되는 것은 아니라는 것이 이해되어야 한다. 오히려, 기술된 특징 및 행위는 청구범위를 구현하는 예시적인 형태로서 개시된다.
당업자는 본 개시내용이 개인용 컴퓨터, 데스크탑 컴퓨터, 랩탑 컴퓨터, 메시지 프로세서, 휴대용 장치, 다중 프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 휴대폰, PDA, 태블릿, 호출기, 라우터, 스위치 등을 포함하는 다양한 유형의 컴퓨터 시스템 구성을 갖는 네트워크 컴퓨팅 환경에서 실시될 수 있다는 것을 이해할 것이다. 본 개시내용은 또한 네트워크를 통해 (유선 데이터 링크, 무선 데이터 링크에 의해, 또는 유선과 무선 데이터 링크의 조합에 의해) 연결된 로컬 및 원격 컴퓨터 시스템이 모두 작업을 수행하는 분산 시스템 환경에서 실시될 수 있다. 분산 시스템 환경에서 프로그램 모듈은 로컬 및 원격 메모리 저장 장치 모두에 위치될 수 있다.
본 개시내용의 구현예는 클라우드 컴퓨팅 환경에서도 구현될 수 있다. 본 설명에서 "클라우드 컴퓨팅"은 구성가능한 컴퓨팅 리소스의 공유 풀에 대한 주문형 네트워크 액세스를 가능하게 하는 모델로서 정의된다. 예를 들어, 클라우드 컴퓨팅은 구성가능한 컴퓨팅 리소스의 공유 풀에 대한 유비쿼터스하고 편리한 주문형 액세스를 제공하기 위해 시장에서 사용될 수 있다. 구성가능한 컴퓨팅 리소스의 공유 풀은 가상화를 통해 신속하게 프로비저닝(provisioning)되고, 작은 관리 노력이나 서비스 공급자 상호 작용으로 출시된 다음 그에 따라 확장될 수 있다.
클라우드-컴퓨팅 모델은 예를 들어 주문형 셀프 서비스, 광범위한 네트워크 액세스, 리소스 풀링, 신속한 탄력성, 측정된 서비스 등과 같은 다양한 특성으로 구성될 수 있다. 클라우드-컴퓨팅 모델은 또한 예를 들어 SaaS(Software as a Service), PaaS(Platform as a Service), IaaS(Infrastructure as a Service)와 같은 다양한 서비스 모델을 노출할 수 있다. 클라우드-컴퓨팅 모델은 또한 프라이빗 클라우드, 커뮤니티 클라우드, 퍼블릭 클라우드, 하이브리드 클라우드 등과 같은 다양한 배포 모델을 사용하여 배포될 수도 있다. 본 설명과 청구범위에서 "클라우드-컴퓨팅 환경"은 클라우드 컴퓨팅이 사용되는 환경이다.
도 11은 위에서 설명된 방법들 중 하나 이상을 수행하도록 구성될 수 있는 컴퓨팅 장치(1100)의 블록도를 설명한다. 컴퓨팅 장치(1100)와 같은 하나 이상의 컴퓨팅 장치가 맞춤형 시퀀싱 시스템(104)을 구현할 수 있다는 것을 이해할 수 있을 것이다. 도 11에 도시된 바와 같이, 컴퓨팅 장치(1100)는 프로세서(1102), 메모리(1104), 저장 장치(1106), I/O 인터페이스(1108) 및 통신 인터페이스(1110)를 포함할 수 있으며, 이는 통신 인프라(1112)를 통해 통신 가능하게 결합될 수 있다. 특정 구현예에서, 컴퓨팅 장치(1100)는 도 11에 도시된 것보다 더 적거나 더 많은 구성요소를 포함할 수 있다. 다음 단락에서는 도 11에 도시된 컴퓨팅 장치(1100)의 구성요소를 더 상세하게 설명한다.
하나 이상의 구현예에서, 프로세서(1102)는 컴퓨터 프로그램을 구성하는 명령과 같은 명령을 실행하기 위한 하드웨어를 포함한다. 제한이 아닌 예로서, 작업 흐름을 동적으로 수정하기 위한 명령을 실행하기 위해, 프로세서(1102)는 내부 레지스터, 내부 캐시, 메모리(1104) 또는 저장 장치(1106)로부터 명령을 검색(또는 페치(fetch))하고, 이를 디코딩하고 실행할 수 있다. 메모리(1104)는 프로세서(들)에 의해 실행하기 위한 데이터, 메타데이터 및 프로그램을 저장하는 데 사용되는 휘발성 또는 비휘발성 메모리일 수 있다. 저장 장치(1106)는 본원에 설명된 방법을 수행하기 위한 데이터 또는 명령을 저장하기 위한 하드 디스크, 플래시 디스크 드라이브 또는 기타 디지털 저장 장치와 같은 저장 장치를 포함한다.
I/O 인터페이스(1108)는 사용자가 컴퓨팅 장치(1100)에 입력을 제공하고, 그로부터 출력을 수신하고, 달리 컴퓨팅 장치(800)와 데이터를 전송하고 수신할 수 있게 해준다. I/O 인터페이스(1108)는 마우스, 키패드 또는 키보드, 터치 스크린, 카메라, 광학 스캐너, 네트워크 인터페이스, 모뎀, 기타 알려진 I/O 장치 또는 이러한 I/O 인터페이스의 조합을 포함할 수 있다. I/O 인터페이스(1108)는 그래픽 엔진, 디스플레이(예를 들어, 디스플레이 스크린), 하나 이상의 출력 드라이버(예를 들어, 디스플레이 드라이버), 하나 이상의 오디오 스피커 및 하나 이상의 오디오 드라이버를 포함하지만 이에 제한되지 않는, 사용자에게 출력을 제공하기 위한 하나 이상의 장치를 포함할 수 있다. 특정 구현예에서, I/O 인터페이스(1108)는 사용자에게 제시하기 위해 디스플레이에 그래픽 데이터를 제공하도록 구성된다. 그래픽 데이터는 하나 이상의 그래픽 사용자 인터페이스 및/또는 특정 구현을 제공할 수 있는 임의의 다른 그래픽 콘텐츠를 대표할 수 있다.
통신 인터페이스(1110)는 하드웨어, 소프트웨어, 또는 둘 다를 포함할 수 있다. 어떤 경우에도, 통신 인터페이스(1110)는 컴퓨팅 장치(1100)와 하나 이상의 다른 컴퓨팅 장치 또는 네트워크 사이의 통신(예를 들어 패킷 기반 통신 등)을 위한 하나 이상의 인터페이스를 제공할 수 있다. 제한이 아닌 예로서, 통신 인터페이스(1110)는 이더넷 또는 다른 유선 기반 네트워크와 통신하기 위한 네트워크 인터페이스 컨트롤러(NIC) 또는 네트워크 어댑터, 또는 무선 네트워크와 통신하기 위한 무선 NIC(WNIC) 또는 무선 어댑터, 예컨대 WI-FI를 포함할 수 있다.
추가적으로, 통신 인터페이스(1110)는 다양한 유형의 유선 또는 무선 네트워크와의 통신을 용이하게 할 수 있다. 통신 인터페이스(1110)는 또한 다양한 통신 프로토콜을 사용하여 통신을 용이하게 할 수 있다. 통신 인프라(1112)는 또한 컴퓨팅 장치(1100)의 구성요소들을 서로 연결하는 하드웨어, 소프트웨어, 또는 둘 다를 포함할 수 있다. 예를 들어, 통신 인터페이스(1110)는 하나 이상의 네트워크 및/또는 프로토콜을 사용하여 특정 인프라에 의해 연결된 복수의 컴퓨팅 장치가 서로 통신하여 본원에 기술된 방법들의 하나 이상의 양태를 수행 가능하도록 할 수 있다. 예시하자면, 시퀀싱 방법은 복수의 장치(예를 들어, 클라이언트 장치, 시퀀싱 장치 및 서버 장치(들))가 시퀀싱 데이터 및 오류 통지와 같은 정보를 교환하도록 허용할 수 있다.
전술한 명세서에서는 본 개시내용은 그의 구체적인 예시적 실시형태를 참조하여 설명되었다. 본 개시내용(들)의 다양한 구현예 및 양태는 본원에 논의된 세부사항을 참조하여 설명되며, 첨부 도면은 다양한 구현예를 예시한다. 위의 설명과 도면은 본 개시내용을 예시하는 것이며 본 개시내용을 제한하는 것으로 해석되어서는 안 된다. 본 개시내용의 다양한 실시형태의 완전한 이해를 제공하기 위해 다수의 특정 세부사항이 기술된다.
본 발명은 그의 사상 또는 본질적인 특성들로부터 벗어남이 없이 다른 특정 형태들로 구현될 수 있다. 기술된 실시형태들은 모든 점에서 단지 제한적이 아닌 예시적인 것으로 고려되어야 한다. 예를 들어, 본원에 기술된 방법은 더 적거나 더 많은 단계/행위로 수행될 수 있거나 단계/행위는 다른 순서로 수행될 수 있다. 또한, 본원에 설명된 단계/행위는 서로 병행하여 또는 동일하거나 유사한 단계/행위의 다른 경우와 병행하여 반복되거나 수행될 수 있다. 따라서, 본 출원의 범위는 전술한 설명보다는 첨부된 청구범위에 의해 표시된다. 청구범위의 등가물의 의미 및 범위 내에 있는 모든 변화들은 그 범위 내에 포함되는 것으로 간주된다.