[go: up one dir, main page]

KR20030038911A - An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations - Google Patents

An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations Download PDF

Info

Publication number
KR20030038911A
KR20030038911A KR1020010069109A KR20010069109A KR20030038911A KR 20030038911 A KR20030038911 A KR 20030038911A KR 1020010069109 A KR1020010069109 A KR 1020010069109A KR 20010069109 A KR20010069109 A KR 20010069109A KR 20030038911 A KR20030038911 A KR 20030038911A
Authority
KR
South Korea
Prior art keywords
processing
information
database
deoxyribonucleic acid
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
KR1020010069109A
Other languages
Korean (ko)
Inventor
김해진
나상옥
김홍숙
박영규
박재영
Original Assignee
(주)엔솔테크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)엔솔테크 filed Critical (주)엔솔테크
Priority to KR1020010069109A priority Critical patent/KR20030038911A/en
Publication of KR20030038911A publication Critical patent/KR20030038911A/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 디옥시리보핵산 염기서열 처리방법에 관한 것이다. 본 발명의 방법은 염기서열 원시정보를 입력하고, 상기 염기서열 원시정보를 병렬처리방식에 의해 베이스 콜링, 벡터 마스킹, 리피트 마스킹, 클러스터링, 콘티그 어셈블리 등의 과정을 통합하여 자동화하고, 상기 처리된 염기서열 정보를 기존 등록 유전정보와 유사성을 분석하고, 상기 처리된 염기서열정보와 유사성 분석결과를 데이터 베이스로 작성한 후 시각화하여 보여준다.The present invention relates to a method for treating deoxyribonucleic acid base sequence. The method of the present invention inputs base sequence source information, and integrates the base sequence source information into a process such as base calling, vector masking, repeat masking, clustering, contiguous assembly, and the like by a parallel processing method. The sequence information is analyzed for similarity with existing registered genetic information, and the processed sequence information and similarity analysis results are prepared in a database and visualized.

본 발명에 따라서 염기서열 정보를 처리한다면 기존의 타 전문 처리기관에 의뢰하여 염기서열 정보를 처리할 경우 발생할 수 있는 지적 재산권의 대상이 될 수 있는 정보의 노출문제를 해결할 수 있으며, 처리 의뢰에 따른 비용과 대기시간을 극소화 할 수 있고, 다단계의 자료처리과정을 통합하고 자동화하여 처리과정이 단순화되고 처리시간이 단축되며, 그래픽 사용자 환경을 적용함으로써 단계별 적용 프로그램의 옵션 사용이 편리하여 처리 효율을 크게 높일 수 있고, 처리결과를 데이터베이스에 즉시 저장하며, 추후 자료조회와 재사용이 용이하므로 유전정보의 처리 및 활용과 관련된 분야의 업무능률 향상에 크게 기여할 것이다.According to the present invention, if processing the sequencing information, it is possible to solve the problem of exposure of information that may be the subject of intellectual property rights that may occur when processing the sequencing information by requesting other specialized processing institutions, according to the processing request Minimize cost and latency, integrate and automate multi-step data processing processes to simplify processing, reduce processing time, and apply graphical user environment to increase the efficiency It is possible to improve the work efficiency in the fields related to the processing and utilization of genetic information because it can be improved, the processing results are immediately stored in the database, and the data can be easily retrieved and reused later.

Description

디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법{An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations}An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations}

본 발명은 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법에 관한 것으로서, 특히 염기서열 분석기로부터 얻은 염기서열정보의 원시자료에 포함되어있는 오류와 불필요한 자료를 컴퓨터와 소프트웨어를 사용하여 제거하고, 궁극적인 사용목적에 부합하도록 형태를 가공하여, 데이터베이스에 저장하기까지의 일련의 통합 및 자동화 과정들에 있어서 사용되는 여러 프로그램들의 연동방법과 그 방법이 적용된 시스템에 관한 것이다.The present invention relates to a method for integrating and automating deoxyribonucleic acid sequencing information. In particular, errors and unnecessary data included in the raw data of sequencing information obtained from the sequencing analyzer are removed using a computer and software, and ultimately, The present invention relates to a method of linking various programs used in a series of integration and automation processes from processing a form to a purpose of use and storing it in a database, and a system to which the method is applied.

최근에 생명체의 유전정보를 가진 디옥시리보핵산 염기서열정보의 분석에 있어서 컴퓨터를 사용함으로써 방대한 유전정보의 해독이 신속하게 이루어짐에 따라 유전공학의 진전이 급속히 이루어지고 있다.Recently, the development of genetic engineering is rapidly progressing as the use of a computer in the analysis of deoxyribonucleic acid sequencing information having the genetic information of living organisms rapidly deciphers the vast genetic information.

일반적으로 염기서열 분석기로부터 얻은 염기서열정보의 원시자료는 염기서열 정보를 얻기까지 여러 가지 실험실적 방법을 거치어 얻어진 바, 실험과정의 특성상 초기에 얻어진 원시자료에는 다양한 오류와 불필요한 자료들이 함께 포함되어 있을 수 있다.In general, the raw data of the sequence information obtained from the sequencing analyzer is obtained through a variety of laboratory methods to obtain the sequence information. Due to the nature of the experiment process, the initial data obtained includes various errors and unnecessary data. There may be.

이것은 염기서열 분석기의 특성에 기인한 오류와 유전자 복제(gene cloning)나 중합효소 연쇄반응(polymerased chain reaction, PCR), 그리고 다양한 염기서열분석의 준비과정에서 오는 분석결과의 오류 및 오염으로 인한 것들이다.This is due to errors due to the nature of the sequencing analyzer, errors and contamination of the assay results from gene cloning or polymerase chain reaction (PCR), and the preparation of various sequencing. .

염기서열정보가 가치 있는 유전정보로 활용되기 위해서는 이러한 오류와 불필요한 정보들이 제거되어야 하며, 그 방법면에 있어서, 여러 종류의 컴퓨터 프로그램을 사용한 다단계의 처리 과정을 거쳐야 한다.In order for sequencing information to be used as valuable genetic information, these errors and unnecessary information must be eliminated, and in a way, a multi-step process using various kinds of computer programs is required.

이러한 디옥시리보핵산 염기서열정보의 처리과정은 일반적으로 베이스 콜링(base calling), 벡터 및 호스트 서열 클리핑(vector and host sequence clipping), 리피트 마스킹(repeat masking), 클러스터링(clustering), 콘티그 어셈블리(contig assembly), 유사성 분석(homology analysis), 데이터베이스 저장 등으로 구성되어 있으며, 각 단계별로 용도에 맞는 별도의 프로그램이 개발되어 사용되고 있다.The processing of the deoxyribonucleic acid sequence information generally includes base calling, vector and host sequence clipping, repeat masking, clustering, and contig assembly. ), Similarity analysis (homology analysis), database storage, etc. A separate program for each purpose is developed and used.

종래의 처리과정에서는 각 처리 단계가 연계되지 못하고, 프로그램들도 별개의 독립적인 프로그램으로 운용되고 있으며, 사용자가 단계별 처리에 적합한 프로그램의 존재도 파악하지 못하고 있는 경우가 대부분이다.In the conventional process, each process step is not linked, and the programs are operated as separate independent programs, and in most cases, the user does not grasp the existence of a program suitable for step-by-step processing.

더구나, 사용되고 있는 프로그램들은 대부분 명령행에서 프로그램명과 많은 사용자 선택사항(options)들을 직접 입력하여 실행하여야 하고, 입출력 자료의 형태 또한 다양하기 때문에 사용방법의 습득이 매우 곤란하며, 전문 사용자라 할지라도 원하는 처리 결과를 얻기가 용이하지가 않다.In addition, most of the programs used must be executed by directly inputting the program name and many user options on the command line, and the various input / output data types are very difficult to learn how to use. It is not easy to obtain the treatment result.

따라서, 디옥시리보핵산 염기서열정보의 처리능력을 갖추지 못한 대부분의 유전정보 관련업무 종사자들은 자신들이 업무과정에서 얻은 염기서열정보를 국내 전문기관이나 국외 기관에 의뢰하여 처리함으로서 지적재산권의 대상이 될 수 있는 중요한 유전자 정보를 노출시킬 위험과, 의뢰에 따른 비용 및 처리결과의 대기시간 등, 다방면의 손실을 감수하고 있는 처지이다.Therefore, most genetic information workers who do not have the ability to process deoxyribonucleic acid nucleotide sequence information can be subject to intellectual property rights by processing the sequencing information obtained in the course of their work with domestic or foreign institutions. There is a wide range of losses, including the risk of exposing sensitive genetic information, the cost of referrals and the waiting time for processing results.

본 발명의 목적은 이와 같은 종래 기술의 문제점을 해결하기 위하여 디옥시리보핵산 염기서열정보의 복잡한 처리과정을 파이프라인(pipeline) 방법으로 통합 및 자동화하고 사용자 환경을 개선하여 유전자 정보 업무에 관련된 일반 종사자들이 스스로 자신들의 유전자 정보를 용이하고, 경제적이고, 안전하게 처리할 수 있는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법을 제공하는 것이다.The purpose of the present invention is to integrate and automate the complex processing of deoxyribonucleic acid sequence information in a pipeline method and to improve the user environment in order to solve the problems of the prior art by the general practitioners involved in the genetic information work It is to provide a method for integrating and automating deoxyribonucleic acid sequence information that can easily, economically and safely process their genetic information.

도 1은 본 발명의 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리 시스템의 처리 흐름도.1 is a flow chart of the integrated and automated processing system of the deoxyribonucleic acid sequence information of the present invention.

도 2는 본 발명의 파이프라인식 연동방법에 사용하는 파이프라인 프로그램의 흐름도.2 is a flowchart of a pipeline program used in the pipelined interworking method of the present invention.

도 3은 도 1의 410의 파이프라인 프로그램에 대한 흐름도.3 is a flow chart for the pipeline program of 410 of FIG.

도 4는 도 1의 310의 NCBI 서열 데이터베이스 자동 미러링 프로그램에 대한 흐름도.4 is a flow chart for the NCBI sequence database automatic mirroring program of 310 of FIG.

도 5는 본 발명의 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리 시스템의 초기 화면.Figure 5 is the initial screen of the integrated and automated processing system of the deoxyribonucleic acid sequence information of the present invention.

도 6은 사용자 정보와 분석 프로젝트 정보를 입력하는 파이프 라인 프로그램의 입력 화면.6 is an input screen of a pipeline program for inputting user information and analysis project information.

도 7은 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리를 위하여 각 처리 과정들을 선정하는 입력 화면.7 is an input screen for selecting each process for the integration and automated processing of deoxyribonucleic acid sequence information.

도 8은 각 처리단계에서 사용되는 프로그램들의 사용자 선택사항을 설정하는입력 화면.8 is an input screen for setting user selections of programs used in each processing step.

도 9는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리과정 중 표준출력 내용과 진행율을 출력하는 상태 화면.9 is a status screen outputting the standard output contents and the progress rate during the integration and automated processing of deoxyribonucleic acid sequence information.

도 10은 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리과정 중 리피트 마스킹(repeat masking)을 마친 후 그 결과에 따라 분석에서 사용하거나 제외할 염기 서열들을 선정하는 화면.10 is a screen for selecting the base sequences to be used or excluded in the analysis according to the results after repeat masking (repeat masking) during the integration and automated processing of deoxyribonucleic acid nucleotide sequence information.

도 11은 디옥시리보핵산 염기서열을 처리하고, 유사성 분석을 마친 후 결과를 데이터베이스에 저장하기 위한 사용자 선택 사항 입력 화면.11 is a user selection input screen for processing deoxyribonucleic acid sequences and storing the results in a database after the similarity analysis.

도 12는 데이터베이스에 저장된 염기서열정보의 처리 결과, 유사성 분석 결과 및 중간 처리 결과들을 조회하여 사용자에게 보여주는 종합결과 출력 화면.12 is a comprehensive result output screen for querying and showing the processing result, similarity analysis result and intermediate processing result of the nucleotide sequence information stored in the database.

도 13은 데이터베이스에 저장된 염기서열정보 중, 저품질 영역 및 벡터 서열을 표지한 결과와 이들을 제거한 고품질 영역의 염기서열을 출력하는 화면.FIG. 13 is a screen for outputting a result of labeling a low quality region and a vector sequence among base sequence information stored in a database, and a base sequence of a high quality region from which these are removed. FIG.

도 14는 데이터베이스에 저장된 염기서열의 유사성 분석 결과를 출력하는 화면.14 is a screen for outputting a result of similarity analysis of nucleotide sequences stored in a database.

도 15는 데이터베이스에 저장된 염기서열의 유사성 분석 결과로부터 얻은 유사한 유전자의 상세 정보를 미국 NCBI(National Center for Biotechnology Information)의 Entrez 프로그램을 사용하여 조회하고 그 결과를 출력하는 화면.15 is a screen for inquiring detailed information of similar genes obtained from similarity analysis results of nucleotide sequences stored in a database using the Entrez program of the National Center for Biotechnology Information (NCBI) of the United States and outputting the results.

도 16은 데이터베이스에 저장된 클러스터링 결과를 출력하는 화면.16 is a screen for outputting clustering results stored in a database.

도 17은 데이터베이스에 저장된 클러스터링 결과로 부터 한 클러스터를 구성하는 부모 및 자식 염기서열들간의 다중 서열 정렬(multiple sequence alignment)분석 결과를 출력하는 화면.FIG. 17 is a screen for outputting multiple sequence alignment analysis results between parent and child sequences constituting a cluster from clustering results stored in a database. FIG.

도 18은 분석 단위인 프로젝트별 클러스터링 결과에 대한 통계치를 정리하여 출력하는 화면.18 is a screen for organizing and outputting statistics on clustering results for each project which is an analysis unit.

* 도면의 주요 부분에 대한 부호의 간단한 설명** Brief description of symbols for the main parts of the drawing *

10 : 원시자료100 : 염기서열처리부10: raw data 100: base sequence processing unit

110,130,150,170,190,210,410 : 파이프 라인 처리부110,130,150,170,190,210,410: pipeline processing unit

120 : 베이스 콜링140 : 벡터 마스킹120: base calling 140: vector masking

160 : 리피트 마스킹180 : 클러스터링160: repeat masking 180: clustering

195 : 콘티그 어셈블리200 : 유사성 분석부195: Contig Assembly 200: Similarity Analysis

220 : BLAST230 : 지역 데이터 베이스220: BLAST230: Regional Database

300 : 데이터 베이스 미러링부310 : 자동 미러링부300: database mirroring unit 310: automatic mirroring unit

320 : NCBI 서열 데이터 베이스400 : 데이터 베이스부320: NCBI sequence database 400: database portion

420 : 데이터 베이스 저장부430 : 데이터 베이스420: database storage unit 430: database

440 : 검색부450 : 시각화 보고440: search unit 450: visualization report

상기 목적을 달성하기 위하여 본 발명의 방법은 염기서열 원시정보를 입력하고, 상기 염기서열 원시정보를 파이프라인 방식에 의해 베이스 콜링, 벡터 마스킹, 리피트 마스킹, 클러스터링, 콘티그 어셈블리 등의 과정을 통합 및 자동화 처리하고, 상기 처리된 염기서열 정보를 기존 등록 유전정보와 유사성을 분석하고, 상기 처리된 염기서열정보와 유사성 분석결과를 데이터 베이스로 작성하고 시각화하여 보여주는 단계를 구비하는 것을 특징으로 한다.In order to achieve the above object, the method of the present invention inputs base sequence source information, and integrates processes such as base calling, vector masking, repeat masking, clustering, and contiguous assembly by pipeline method. Automated processing, and analyzing the similarity of the processed nucleotide sequence information to the existing registered genetic information, and creating and visualizing the processed nucleotide sequence information and similarity analysis results in a database.

본 발명에서는 파이프라인(pipeline)식 프로그램 연동기법을 개발하여 디옥시리보핵산 염기서열정보의 복잡한 처리과정을 자동화된 방법으로 통합하고, 그래픽 사용자 환경을 제작하여 각 처리 단계의 프로그램별 사용자 선택사항의 적용을 용이하게 한다.In the present invention, a pipelined program interworking technique has been developed to integrate complex processing of deoxyribonucleic acid sequence information into an automated method, and to create a graphical user environment to apply the user's options for each processing step. To facilitate.

또한, 본 발명에서는 미국 NCBI에서 제작하고 관리하고 있는 서열 데이터베이스를 주기적으로 자동 미러링(automatic mirroring)하는 프로그램을 제작하여 본 디옥시리보핵산 염기서열정보 처리 시스템에 사용함으로서, 데이터베이스에 저장되어 있는 기존 유전자 정보와의 비교 검색을 본 시스템 내에서 처리할 수 있도록 하여 정보 노출문제를 예방하도록 한다.In addition, in the present invention, by using the present deoxyribonucleic acid sequence information processing system by producing a program that automatically mirrors (sequentially automatic mirroring) the sequence database manufactured and managed by the US NCBI, and the existing genetic information stored in the database The comparative search can be processed in this system to prevent information exposure problem.

또한, 서열 데이터베이스에 저장된 기존 유전자 정보와의 비교검색 결과를저장하는 전용의 데이터베이스를 제작하여 시스템에 포함시킴으로써 향후의 추가적인 목적에 유용하게 활용할 수 있도록 한다.In addition, by making a dedicated database that stores the results of comparison search with the existing genetic information stored in the sequence database to be useful for future additional purposes.

본 발명에서 유사성 분석은 BLAST 알고리즘에 의해 수행된다.Similarity analysis in the present invention is performed by the BLAST algorithm.

본 발명에서 베이스 콜링처리를 위하여 상기 염기서열 원시정보의 저장위치정보, 복사위치정보, 중간결과 파일들의 저장위치정보, 결과파일들의 저장위치정보, 디렉토리 생성 및 파일복사 등의 과정들이 파이프라인 방식으로 수행된다.In the present invention, for the base calling process, processes such as storage location information, copy location information, storage location information of intermediate result files, storage location information of result files, directory generation, and file copying are performed in a pipelined manner. Is performed.

본 발명에서 벡터 마스킹처리를 위하여 베이스 콜링처리가 완료된 염기서열 파일들을 통합하고 사용자 선택사항을 입력한다.In the present invention, the base calling files are integrated in the base calling process for the vector masking process, and user input is selected.

본 발명에서 리피트 마스킹 처리를 위하여 사용자 선택사항 설정, 저품질 영역이나 벡터의 염기서열 등을 제거한다.In the present invention, a user selection setting, a low quality region or a nucleotide sequence of a vector are removed for the repeat masking process.

본 발명에서 클러스터링처리를 위하여 클러스터링 처리 프로그램의 입력형식에 맞도록 입력정보를 가공하고, 콘티그 어셈블리 처리를 위하여 콘티그 어셈블리 처리 프로그램의 입력형식에 맞도록 입력정보를 가공한다.In the present invention, the input information is processed to match the input format of the clustering processing program for the clustering process, and the input information is processed to match the input format of the contig assembly processing program for the contig assembly processing.

이하 도면을 참조하여 본 발명을 구체적으로 설명하면 다음과 같다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 디옥시리보핵산 염기서열정보 통합 및 자동화 처리 시스템의 처리 흐름을 나타낸다.Figure 1 shows the processing flow of the deoxyribonucleic acid sequence information integration and automated processing system of the present invention.

도 1을 참조하면, 본 발명의 시스템은 크게 염기서열 처리부(100), 유사성 분석부(200), 서열 데이터 베이스 미러링부(300), 데이터베이스부(400)로 구성된다.Referring to FIG. 1, the system of the present invention includes a base sequence processor 100, a similarity analyzer 200, a sequence database mirroring unit 300, and a database unit 400.

염기서열 처리부(100)에서는 염기서열 원시자료(10)들을 입력한다. 염기서열원시자료(10)는 염기서열 분석기로부터 얻어지는 크로마토그램(chromatogram) 파일이다.The nucleotide sequence processing unit 100 inputs the nucleotide sequence raw data 10. The nucleotide sequence data 10 is a chromatogram file obtained from a sequencing analyzer.

염기서열 처리부(100)는 베이스콜링(120), 벡터 마스킹(140), 리피트 마스킹(160), 클러스터링(180), 콘티그 어셈블리(195) 등의 일련의 처리과정을 수행함에 있어서 각 과정의 전 단계에서 각각 파이프라인 처리과정(110, 130, 150, 170, 190)을 거치도록 구성된다.The sequencing processor 100 performs a series of processes such as base calling 120, vector masking 140, repeat masking 160, clustering 180, and contig assembly 195. In the step is configured to go through the pipeline processing (110, 130, 150, 170, 190) respectively.

베이스 콜링(120)을 위해서는 베이스 콜링 프로그램의 자료 입력 방식에 맞도록 크로마토그램 파일들(10)을 가공해야 한다. 이 과정은 크로마토그램 파일이 저장된 위치정보의 입력, 크로마토그램 파일들을 처리하기 위하여 복사할 위치정보(디렉토리 또는 저장경로)의 입력, 처리과정에서 생성되는 중간결과 파일들과 처리 후 향후의 용도를 위하여 보관하여야 할 결과 파일들을 저장할 위치정보 입력 및 디렉토리 생성, 파일복사 등을 포함한다. 이러한 기능들은 파이프라인 프로그램(110)에 의하여 처리된다.For the base calling 120, chromatogram files 10 must be processed to match the data input method of the base calling program. This process is for inputting location information where chromatogram files are stored, inputting location information (directory or storage path) to be copied to process chromatogram files, intermediate result files generated during processing, and for future use after processing. It includes inputting location information to save result files to be kept, creating directory, copying files, etc. These functions are handled by pipeline program 110.

베이스 콜링(120)처리과정은 크로마토그램으로부터 디옥시리보핵산 염기를 지칭하는 A, T, G, C 문자들로 이루어진 염기서열을 얻는 과정을 말한다. 이를 위한 프로그램이 개발되어 사용되고 있다. 베이스 콜링과정에서는 분석된 염기서열의 고품질(high quality) 영역과 저품질(low quality) 영역을 구분하는 정보도 출력한다. 염기서열 분석기에 따라서 베이스 콜링이 이미 수행되어 나오는 경우가 있으며, 이 경우에는 베이스 콜링 처리는 필요가 없다.The base calling process 120 refers to a process of obtaining a base sequence consisting of A, T, G, and C letters indicating deoxyribonucleic acid base from a chromatogram. A program for this has been developed and used. The base calling process also outputs information that distinguishes the high and low quality regions of the analyzed base sequence. Depending on the sequencing analyzer, base calling may already be performed. In this case, base calling is not necessary.

베이스 콜링이 끝난 염기서열 파일들을 하나로 묶어주는 과정과 사용자 선택사항을 입력하는 과정을 파이프 라인처리(130)에서 다음의 벡터 마스킹을 수행하기 위하여 처리된다. 벡터 마스킹(140)은 염기서열 분석기로부터 얻은 염기서열정보의 원시자료에는 유전자 증폭을 위해 사용한 벡터의 유전자 정보가 포함되어 있을 수 있고, 벡터는 염기서열이 이미 알려져 있는 종류를 사용하기 때문에 베이스 콜링이 끝난 염기 서열로부터 벡터의 염기서열을 비교하여 표시할 수 있다.The process of tying the base calling files of the base calling sequence into one and inputting a user option are processed in the pipeline processing 130 to perform the next vector masking. The vector masking 140 may include gene information of a vector used for gene amplification in the source data of the sequencing information obtained from the sequencing analyzer, and the base calling may be performed because the vector uses a known type of sequencing. The base sequence of a vector can be compared and displayed from the completed base sequence.

이어서, 리피트 마스킹(160) 작업을 수행하기 위해서는 그 프로그램의 입력 형식에 맞도록 입력자료를 가공할 필요가 있으며, 적절한 사용자 선택사항을 설정해 주어야 한다. 또한, 불필요한 처리를 감소시킬 수 있도록, 베이스 콜링(120), 벡터 마스킹(140) 등에서 표지한 저품질 영역이나 벡터의 염기서열 등을 제거하기 위한 파이프 라인 처리(150)를 수행한다. 리피트 마스킹(160)은 염기서열 내에 존재하는 반복단위(repeat)를 표시하는 것을 말한다.Subsequently, in order to perform the repeat masking operation, the input data needs to be processed in accordance with the input format of the program, and appropriate user options must be set. In addition, in order to reduce unnecessary processing, the pipeline processing 150 is performed to remove the low quality region, the base sequence of the vector, and the like, which are labeled by the base calling ring 120 and the vector masking 140. Repeat masking 160 refers to displaying a repeat unit existing in the base sequence.

파이프 라인 처리(170)에서는 사용자가 목적하는 결과와 프로그램의 입력 형식에 맞도록 입력자료를 가공하여야 하며, 적절한 사용자 선택사항을 설정해 주는 작업을 수행한다. 클러스터링(clustering)(180)은 같은 일정 영역의 공통 염기서열을 갖는 짧은 염기서열(fragment)들을 클러스터(cluster)로 그룹화(grouping)처리를 수행한다. 한 클러스터 내에서 그 클러스터를 가장 잘 대표할 수 있는 염기서열을 부모 서열(parent sequence)이라 하고, 나머지 서열들을 자식 서열(child sequence)이라 한다.In the pipeline processing 170, input data must be processed according to a user's desired result and input form of a program, and a task of setting an appropriate user option is performed. The clustering 180 performs grouping processing of short fragments having a common sequence of the same region into clusters. The base sequence that can best represent the cluster in one cluster is called a parent sequence, and the remaining sequences are called child sequences.

파이프 라인 처리(190)에서는 콘티그 어셈블리(195) 프로그램을 적용하기 위해서는 프로그램의 입력 형식에 맞도록, 그리고 사용자의 목적에 따라 입력자료를가공할 필요가 있으며, 적절한 사용자 선택사항을 설정해 주기 위한 처리를 수행한다. 콘티그 어셈블리(195)는 길이가 짧은 염기서열들의 정보를 종합하여 보다 긴 염기서열(contig)정보를 얻는 과정을 말한다.In the pipeline processing 190, in order to apply the Contig Assembly 195 program, it is necessary to process input data according to the input format of the program and according to the user's purpose, and to set appropriate user options. Perform The contig assembly 195 refers to a process of acquiring longer contig information by synthesizing information of shorter length sequences.

염기서열 처리부(100)에 나타낸 과정을 통하여 처리된 염기서열은 유사성 분석부(200)에 제공된다. 유사성 분석부(200)에서는 NCBI 서열 데이터 베이스에 저장된 기존 등록 유전정보와의 유사성을 분석한다(200).The base sequence processed through the process shown in the nucleotide sequence processor 100 is provided to the similarity analyzer 200. The similarity analysis unit 200 analyzes the similarity with existing registered genetic information stored in the NCBI sequence database (200).

유사성 분석부(200)에서는 유사성 분석 프로그램을 사용하기 위하여 파이프 라인 처리(210)을 통하여 입력된 염기서열을 적절한 형태로 가공하고, 사용자 선택사항을 선택한 다음에 처리속도와 보안성 유지를 위해 NCBI 서열 데이터 베이스를 미러링한 지역 데이터베이스(230)를 사용하며, 유사성 분석은 BLAST 알고리즘(220)을 채용한 프로그램을 사용한다.The similarity analysis unit 200 processes the base sequence input through the pipeline processing 210 into an appropriate form in order to use the similarity analysis program, selects a user option, and then NCBI sequence to maintain processing speed and security. The local database 230 mirrored the database is used, and the similarity analysis uses a program employing the BLAST algorithm 220.

유사성 분석을 위하여 지역 서열 데이터베이스(320)를 항상 최신 자료로 유지하는 것이 바람직하며, 이를 위해 정기적인 자료의 갱신이 필요하다.For similarity analysis, it is desirable to keep the regional sequence database 320 up-to-date at all times, which requires regular data updates.

NCBI 서열 데이터베이스(320)는 한 달 간격으로 추가된 자료들이 갱신되므로 이 주기에 맞추어 NCBI 서열 데이터베이스를 자동으로 미러링하는 프로그램(300)을 구현한 자동 미러링부(310)를 포함한다. 사용자는 별도의 추가적인 노력없이 늘 최신의 자료를 이용할 수 있으며 지적 재산권 대상이 될 수 있는 정보의 유출을 사전 방지할 수 있다.The NCBI sequence database 320 includes an automatic mirroring unit 310 that implements a program 300 for automatically mirroring the NCBI sequence database in accordance with this cycle since the added data are updated at monthly intervals. Users can always access the latest data without additional effort and can prevent the leakage of information that may be subject to intellectual property rights.

분석을 마친 염기서열 정보와 분석과정에서 발생한 중간결과 파일들은 향후의 업무에 참조를 위하여 데이터베이스(400)에 저장한다. 각 처리단계에서 생성되는 파일들을 분석하여 데이터베이스(400)에 저장하기 위하여 데이터 베이스 구조에 맞는 데이터 레코드를 생성하는 과정인 410의 파이프 라인 처리부를 거친다.The analyzed base sequence information and the intermediate result file generated during the analysis are stored in the database 400 for future reference. In order to analyze the files generated in each processing step and to store them in the database 400, the process goes through a pipeline processing unit of 410 which is a process of generating a data record suitable for the database structure.

생성된 레코드들은 전용의 데이터 베이스(430)에 저장 프로그램을 이용하여 저장된다. 데이터베이스(430)에 저장된 자료들은 적절한 키워드(keyword)를 사용하여 검색부(440)을 통하여 검색할 수 있으며, 검색된 결과는 이용자에게 효과적으로 보여지기 위해서 적절한 형태, 예컨대 HTML 문서(450)로 작성되어 모니터를 통하여 출력된다. 출력형태와 방법은 다양하게 구현될 수 있으나, 출력 자료들 간의 연관성에 따라 관련자료를 서로 연결하여 효과적으로 이용자에게 전달하기 위해서는 웹(web) 문서의 형태가 적당하다.The generated records are stored in a dedicated database 430 using a storage program. Materials stored in the database 430 may be searched through the search unit 440 using an appropriate keyword, and the searched results may be written in an appropriate form, for example, an HTML document 450, to be effectively displayed to the user. Output through The output form and method can be implemented in various ways, but the form of a web document is suitable for linking related data to each other and effectively delivering it to a user according to the relationship between the output data.

웹 문서의 형태로 데이터베이스의 사용자 환경을 운용할 경우, 네트웍으로 연결된 근거리 또는 원거리의 컴퓨터에서도 데이터베이스의 검색이 가능하다는 장점이 있다.When operating a user environment of a database in the form of a web document, the database can be searched from a local or remote computer connected to a network.

상기 각 파이프 라인 처리부(110, 130, 150, 170, 190, 210)는 공통적으로 도 2의 흐름도에 의해 데이터를 처리한다.Each of the pipeline processing units 110, 130, 150, 170, 190, and 210 processes data in accordance with the flowchart of FIG. 2.

도 2를 참조하면, 이전 단위분석 프로그램으로부터 데이터를 넘겨받아 해당 단위분석 수행여부를 체크한다(510). 510단계에서 해당 단위분석 수행이 아니면 다음 파이프라인 프로그램을 수행한다(504). 해당 단위분석 수행이면, 단위분석 프로그램 옵션을 출력한다(506). 사용자가 옵션을 설정한 후, 옵션 값들을 추출하기 위하여 분석할 옵션이 있는가를 체크하고(508), 아니면 다음 단위 분석 프로그램을 수행한다(510).Referring to FIG. 2, it is checked whether the unit analysis is performed by receiving data from a previous unit analysis program (510). If the unit analysis is not performed in step 510, the next pipeline program is executed (504). If the unit analysis is performed, the unit analysis program option is output (506). After setting the option, the user checks whether there is an option to analyze in order to extract option values (508), or executes the next unit analysis program (510).

508단계에서, 분석할 옵션이 있는 경우에는 옵션이 선택되었는가를 체크하고(512), 아니면 508단계를 수행한다. 옵션이 선택된 경우에는 파일/디렉토리 옵션인가를 체크하고(514), 파일인가를 체크한다(516). 파일옵션이면, 파일을 선정하고(518), 아니면 디렉토리를 선정한다(520).In step 508, if there is an option to be analyzed, it is checked whether an option is selected (512), or step 508 is performed. If the option is selected, it is checked if it is a file / directory option (514), and if it is a file (516). If it is a file option, a file is selected (518), or a directory is selected (520).

파일 또는 디렉토리 선정 후 파일을 처리하고(522), 선정한 파일 및 디렉토리가 분석 디렉토리의 내부에 존재하는지를 체크한다(524). 아니면 분석 디렉토리로 복사하고(526), 존재할 경우, 및 514단계에서 파일이나 디렉토리 옵션이 아닐 경우 등에는 옵션 값을 전달변수에 저장한 다음에(528), 508단계를 수행한다. 상기 522단계에는 베이스 콜링 단위분석시에는 해당없으며, 벡터 마스킹 단위분석시에는 입력파일을 단일 파일로 통합처리한다. 또한, 리피트 마스킹 단위분석시에는 표시된 오류와 저품질 영역 데이터를 제거하고, 클러스터링 단위분석시에는 표지된 반복단위량에 따라 데이터를 선별한다. 콘티그 어셈블리 단위분석시에는 클러스터별 데이터를 재구성하고, 유사성 분석시에는 유사성 분석용 데이터를 선별한다.After the file or directory is selected, the file is processed (522), and it is checked if the selected file and directory exists inside the analysis directory (524). Otherwise, copy to the analysis directory (526), if present, and if it is not a file or directory option in step 514, the option value is stored in the transfer variable (528), and step 508 is performed. In step 522, the base calling unit analysis is not applicable. In the vector masking unit analysis, the input file is integrated into a single file. In addition, in the case of repeat masking unit analysis, displayed error and low quality region data are removed, and in clustering unit analysis, data is selected according to the labeled repeating unit amount. Data for each cluster is reconstructed in unit analysis of contig assembly, and data for similarity analysis is selected in similarity analysis.

도 3을 참조하면, 상기 데이터 베이스부(400)의 파이프 라인 처리부(410)는 BLAST(220)로부터 제공된 데이터를 데이터 베이스에 저장할 것인지를 체크하고(411) 아니면 440단계를 수행한다.Referring to FIG. 3, the pipeline processing unit 410 of the database unit 400 checks whether to store data provided from the BLAST 220 in the database (411) or performs step 440.

데이터의 저장시에는 유사성 분석 결과로부터 데이터 베이스 저장자료를 추출한다(412). 이어서, 옵션이 남아 있는 가를 체크하고(413), 아니면 데이터 베이스 저장(420)을 수행하고, 있으면 데이터 베이스 저장자료인가를 체크한다(414). 데이터 저장자료이면, 옵션값으로부터 데이터 베이스 저장자료를 추출한다음에(415) 413단계를 수행한다.When storing the data, the database stored data is extracted from the similarity analysis result (412). Then, it is checked whether the option remains (413), or if the database storage 420 is performed, and if it is the database stored data (414). If the data storage data, the database storage data is extracted from the option value (415) and step 413 is performed.

도 4를 참조하면, 자동 미러링 과정(310)은 미러링 서버에 접속하고(311) 데이터 베이스 갱신시각을 조회 및 분석한다(312). 데이터 베이스 갱신시각이 미러링 시각보다 큰가를 체크하고(313), 아니면 110처리를 수행한다.Referring to FIG. 4, the automatic mirroring process 310 accesses the mirroring server (311) and inquires and analyzes the database update time (312). It is checked whether the database update time is greater than the mirroring time (313), or otherwise 110 processing is performed.

313단계에서 클 경우에는 데이터 베이스 파일을 다운로드하고(314), 미러링 서버와 연결을 해제한다(315). 이어서, 다운로드된 데이터 베이스 파일의 압축을 해제하고(316) 미러링 시각을 저장한다(317).If it is large in step 313, the database file is downloaded (314) and disconnected from the mirroring server (315). Next, the downloaded database file is decompressed (316) and the mirroring time is stored (317).

도 5는 본 발명에 의한 디옥시리보핵산 염기서열 처리 프로그램의 초기화면을 나타낸다. 초기화면에서 원하는 분석 과정을 선택하면 도 6의 사용자 정보와 분석 프로젝트 정보를 입력하는 파이프라인 프로그램의 입력화면이 나타난다. 도 6의 화면에서 연구자 이름, 프로젝트 코드, 프로젝트 설명 등을 입력한다. 이어서, 도 7에서 디옥시리보핵산 염기서열정보를 통합 및 자동화 처리하기 위한 각 처리과정들을 선정한다.5 shows an initial screen of a deoxyribonucleic acid nucleotide sequence processing program according to the present invention. When the desired analysis process is selected on the initial screen, an input screen of a pipeline program for inputting user information and analysis project information of FIG. 6 appears. In the screen of FIG. 6, a researcher name, a project code, a project description, and the like are input. Subsequently, each of the processes for integrating and automating the deoxyribonucleic acid sequence information in FIG. 7 is selected.

도 8의 화면상에서는 각 처리단계에서 사용되는 프로그램들의 사용자 선택사항들을 설정한다.On the screen of FIG. 8, user selections of programs used in each processing step are set.

도 9의 화면에서는 디옥시리보핵산 염기서열 통합 및 자동화 처리과정 중 표준출력 내용과 진행율을 표시한다. 도 10의 화면에서는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리과정 중 리피트 마스킹을 마친 후 그 결과에 따라 분석에서 사용하거나 제외할 염기 서열들을 선정하는 작업과정을 나타낸다.The screen of FIG. 9 displays the standard output content and the progress rate during deoxyribonucleic acid sequence integration and automated processing. The screen of FIG. 10 illustrates a process of selecting base sequences to be used or excluded from analysis according to the results after repeat masking during the integration and automated processing of deoxyribonucleic acid nucleotide sequence information.

도 11의 화면에서는 디옥시리보핵산 염기서열을 처리하고, 유사성 분석을 마친 후 결과를 데이터베이스에 저장하기 위한 사용자 선택 사항 입력 화면을 나타낸다. 도 12의 화면에서는 데이터베이스에 저장된 염기서열정보의 처리 결과, 유사성 분석 결과 및 중간 처리 결과들을 조회하여 사용자에게 보여주는 종합결과를 나타낸다.11 shows a user selection input screen for processing a deoxyribonucleic acid sequence, and storing the result in a database after the similarity analysis is completed. The screen of FIG. 12 shows a result of inquiring a processing result, a similarity analysis result, and an intermediate processing result of the nucleotide sequence information stored in the database and showing the result to the user.

도 13의 화면에서는 데이터베이스에 저장된 염기서열정보 중, 저품질 영역 및 벡터 서열을 표지한 결과와 이들을 제거한 고품질 영역의 염기서열을 나타낸다. 도 14의 화면에서는 데이터베이스에 저장된 염기서열의 유사성 분석 결과를 나타낸다. 도 15의 화면에서는 데이터베이스에 저장된 염기서열의 유사성 분석 결과로부터 얻은 유사한 유전자의 상세 정보를 NCBI의 Entrez 프로그램을 사용하여 조회하고 그 결과 데이터를 나타낸다. 도 16의 화면에서는 데이터베이스에 저장된 클러스터링 결과를 나타내고, 도 17의 화면에서는 데이터베이스에 저장된 클러스터링 결과로 부터 한 클러스터를 구성하는 부모 및 자식 염기서열들 간의 다중 서열 정렬 분석 결과를 나타낸다.The screen of FIG. 13 shows the results of labeling the low quality region and the vector sequence among the nucleotide sequence information stored in the database, and shows the nucleotide sequence of the high quality region from which they are removed. The screen of FIG. 14 shows a result of similarity analysis of nucleotide sequences stored in a database. In the screen of FIG. 15, detailed information of similar genes obtained from similarity analysis results of nucleotide sequences stored in a database is inquired using NCBI's Entrez program and the result data is displayed. The screen of FIG. 16 shows a clustering result stored in a database, and the screen of FIG. 17 shows a multisequence alignment analysis result between parent and child sequences constituting a cluster from the clustering result stored in a database.

도 18의 화면에서는 분석 단위인 프로젝트별로 염기서열 정보들을 클러스터링한 결과에 대한 통계치를 정리하여 나타낸다.In the screen of FIG. 18, statistical values of clustering sequencing information for each project as an analysis unit are displayed.

본 발명에 따른 염기서열정보 통합 및 자동화 처리방법과 시스템을 사용하여 염기서열 정보를 처리한다면 기존의 타 전문 처리 기관에 의뢰하여 염기서열 정보를 처리할 경우 발생할 수 있는 지적 재산권의 대상이 될 수 있는 정보의 노출문제를 해결할 수 있으며, 처리 의뢰에 따른 비용과 대기시간을 극소화 할 수 있다.If processing the sequencing information using the integrated sequencing and automated processing method and system according to the present invention may be subject to intellectual property rights that may occur when processing the sequencing information by other existing professional processing institutions It can solve the problem of information exposure and minimize the cost and waiting time of processing request.

기존에 자체 처리 능력이 있는 자나 기관에서 사용할 경우에도 복잡하고 사용이 어려운 기존의 방법을 사용하는 경우에 비하여 다단계의 자료처리 과정이 자동화된 통합처리로 단순화되고, 그래픽 사용자 환경을 적용함으로써 단계별 적용 프로그램의 옵션 사용이 편리하여 처리 효율을 크게 높일 수 있다.Multi-stage data processing is simplified with automated integrated processing, and the application of the graphical user environment is applied step by step, compared to the existing methods that are complicated and difficult to use even if they are used by those who have the ability to process their own. Easy to use options can greatly increase processing efficiency.

또한, 처리결과를 데이터베이스에 즉시 저장하며, 추후 자료조회와 재사용이 용이하므로 유전정보의 처리 및 활용에 관련된 분야의 업무능률 향상에 크게 기여할 것이다.In addition, since the processing results are immediately stored in the database, and the data can be easily retrieved and reused later, it will greatly contribute to improving work efficiency in the fields related to the processing and utilization of genetic information.

Claims (7)

디옥시리보핵산 염기서열 분석기로부터 얻은 염기서열 정보의 처리에 있어서, 다단계 처리 과정의 통합 및 자동화 처리방법과, 미러링 프로그램을 사용한 NCBI 서열 데이터베이스의 자동 미러링 방법을 구비한 것을 특징으로 하는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법.In the processing of the sequence information obtained from the deoxyribonucleic acid sequencing analyzer, the deoxyribonucleic acid sequencing of the deoxyribonucleic acid sequence information comprising a multi-step integration process and an automated processing method and an automatic mirroring method of an NCBI sequence database using a mirroring program. Integration and automated processing. 제 1 항에 있어서, 상기 디옥시리보핵산 염기서열 분석기로부터 얻은 염기서열 정보의 처리에 있어서 베이스 콜링에서 부터 벡터 및 호스트 서열 마스킹, 리피트 마스킹, 클러스터링, 콘티그 어셈블리, 유사성 분석, 데이터베이스에 저장 및 조회에 이르는 것을 특징으로 하는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법.The method of claim 1, wherein the processing of the sequencing information obtained from the deoxyribonucleic acid sequencing analyzer comprises: from base calling to vector and host sequence masking, repeat masking, clustering, contiguous assembly, similarity analysis, storage and query in a database. Method for integrating and automating deoxyribonucleic acid sequence information, characterized in that. 제 2 항에 있어서, 각 처리 단계별 프로그램들 간의 원활한 입출력 및 필요한 가공처리를 위한 파이프라인 방식의 프로그램 연동방식으로 구성한 것을 특징으로 하는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법.The method according to claim 2, wherein the deoxyribonucleic acid sequence information is integrated and automated. 제 3 항에 있어서, 상기 파이프라인 프로그램들에 있어서, 처리 단계별 프로그램들의 사용자 선택사항들을 그래픽 사용자 환경을 이용하여 입력하고 처리하는 것을 특징으로 하는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법.4. The method according to claim 3, wherein said pipeline programs input and process user options of program-by-process programs using a graphical user environment. 제 1항에 있어서, 상기 염기서열의 유사성 분석을 위하여 지역 데이터베이스로 미러링한 NCBI의 서열 데이터베이스의 자료를 프로그램을 사용하여 주기적으로 자동으로 갱신하는 것을 특징으로 하는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법.According to claim 1, Integration and automated processing of deoxyribonucleic acid nucleotide sequence information, characterized in that for periodically analyzing the similarity of the base sequence data of the sequence database of the NCBI mirrored to the regional database automatically updated using a program Way. 제 2 항에 있어서, 염기서열 처리 결과, 유사성 분석 결과, 처리 과정중의 중간 결과들을 데이터베이스를 연동하여 즉시 저장하고 조회하는 것을 특징으로 하는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법.The method for integrating and automating deoxyribonucleic acid sequence information according to claim 2, wherein the sequence processing result, the similarity analysis result, and intermediate results during the processing are immediately stored and inquired by interworking with a database. 제 6 항에 있어서, 데이터베이스에 저장된 자료들을 웹 문서 형식으로 서로 연결하여 연동 출력하는 것을 특징으로 하는 디옥시리보핵산 염기서열정보의 통합 및 자동화 처리방법.The method of claim 6, wherein the data stored in the database are linked to each other in a web document format and linked to each other to output the deoxyribonucleic acid sequence information.
KR1020010069109A 2001-11-07 2001-11-07 An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations Ceased KR20030038911A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020010069109A KR20030038911A (en) 2001-11-07 2001-11-07 An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010069109A KR20030038911A (en) 2001-11-07 2001-11-07 An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations

Publications (1)

Publication Number Publication Date
KR20030038911A true KR20030038911A (en) 2003-05-17

Family

ID=29568324

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010069109A Ceased KR20030038911A (en) 2001-11-07 2001-11-07 An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations

Country Status (1)

Country Link
KR (1) KR20030038911A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020005535A (en) * 2001-11-08 2002-01-17 이성섭 The model of software design & programming to support automatic and integrated research of whole sequence alignment with BAC-end sequencing & STC approach genome sequencing through shotgun method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11178575A (en) * 1997-12-22 1999-07-06 Hitachi Ltd DNA base sequence analyzer, method and recording medium
JP2000060553A (en) * 1998-08-19 2000-02-29 Fujitsu Ltd Gene motif extraction processing apparatus, gene motif extraction processing method, and recording medium storing gene motif extraction processing program
WO2000043776A1 (en) * 1999-01-22 2000-07-27 The Trustees Of Columbia University In The City Of New York Process for pan-genomic determination of macromolecular atomic structures
JP2000285120A (en) * 1999-03-30 2000-10-13 Japan Science & Technology Corp Gene expression search method and apparatus therefor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11178575A (en) * 1997-12-22 1999-07-06 Hitachi Ltd DNA base sequence analyzer, method and recording medium
JP2000060553A (en) * 1998-08-19 2000-02-29 Fujitsu Ltd Gene motif extraction processing apparatus, gene motif extraction processing method, and recording medium storing gene motif extraction processing program
WO2000043776A1 (en) * 1999-01-22 2000-07-27 The Trustees Of Columbia University In The City Of New York Process for pan-genomic determination of macromolecular atomic structures
JP2000285120A (en) * 1999-03-30 2000-10-13 Japan Science & Technology Corp Gene expression search method and apparatus therefor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020005535A (en) * 2001-11-08 2002-01-17 이성섭 The model of software design & programming to support automatic and integrated research of whole sequence alignment with BAC-end sequencing & STC approach genome sequencing through shotgun method

Similar Documents

Publication Publication Date Title
Guarracino et al. ODGI: understanding pangenome graphs
Sayers et al. Using genbank and sra
US20220261384A1 (en) Biological graph or sequence serialization
Billoud et al. Palingol: a declarative programming language to describe nucleic acids' secondary structures and to scan sequence databases
US20080281529A1 (en) Genomic data processing utilizing correlation analysis of nucleotide loci of multiple data sets
Dündar et al. Introduction to differential gene expression analysis using RNA-seq
WO2003087993A2 (en) Oligonucleotide probes for genosensor chips
Stajich An introduction to BioPerl
Liu Bioinformatics in aquaculture: principles and methods
Ferrés et al. Protocol for post-processing of bacterial pangenome data using Pagoo pipeline
Beier et al. Panakeia-a universal tool for bacterial pangenome analysis
Ceri et al. Overview of GeCo: a project for exploring and integrating signals from the genome
Chen et al. multiomics: A user-friendly multi-omics data harmonisation r pipeline
KR20030038911A (en) An Integrated and Automated Processing Method for Deoxyribonucleic Acid Sequence Informations
López-Fenández et al. Auto-phylo: a pipeline maker for phylogenetic studies
EP3418927B1 (en) Method and device for processing dna sequence
US7730108B2 (en) Information processing apparatus and method, and program
Nguyen et al. RCPA: An Open‐Source R Package for Data Processing, Differential Analysis, Consensus Pathway Analysis, and Visualization
Shouib et al. A Guide to Basic RNA Sequencing Data Processing and Transcriptomic Analysis
Mehta et al. Proteogenomics 1: Database Creation
Roughan Your Essential Guide to Different File Formats in Bioinformatics
Inman et al. A high-throughput distributed DNA sequence analysis and database system
Joshi et al. R2G2: A Python-R Framework for Seamless Integration of R/Bioconductor Tools into Galaxy
Zhu et al. Assembling a reference phylogenomic tree of bacteria and archaea by summarizing many gene phylogenies
Médigue et al. Cooperative Computer System For Genome Sequence Analysis.

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20011107

PA0201 Request for examination
PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20040731

Patent event code: PE09021S01D

E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20050128

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20040731

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I