[go: up one dir, main page]

CN111326216B - 一种针对大数据基因测序文件的快速划分方法 - Google Patents

一种针对大数据基因测序文件的快速划分方法 Download PDF

Info

Publication number
CN111326216B
CN111326216B CN202010122470.0A CN202010122470A CN111326216B CN 111326216 B CN111326216 B CN 111326216B CN 202010122470 A CN202010122470 A CN 202010122470A CN 111326216 B CN111326216 B CN 111326216B
Authority
CN
China
Prior art keywords
file
node
processed
files
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010122470.0A
Other languages
English (en)
Other versions
CN111326216A (zh
Inventor
张中海
谭光明
张春明
姚二林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010122470.0A priority Critical patent/CN111326216B/zh
Publication of CN111326216A publication Critical patent/CN111326216A/zh
Application granted granted Critical
Publication of CN111326216B publication Critical patent/CN111326216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及高性能计算领域,特别涉及一种大数据基因测序文件的快速切分方法,使得在多节点基因分析过程中,无须对测序文件进行实际的切分,不产生子文件,根据后续分析程序提供灵活的划分方案,从而使得各个节点负载更均衡,减少了硬盘读写,提高了划分效率。

Description

一种针对大数据基因测序文件的快速划分方法
技术领域
本发明涉及高性能计算领域,特别涉及一种大数据基因测序文件的快速切分方法。
背景技术
随着大健康领域的快速发展,基因分析技术扮演了越来越重要的角色。基因测序仪产出了海量的测序文件,最常用的测序文件格式为fastq格式。每个测序文件少则几G,多则几十G到上百G。如何快速的处理这些大数据,越来越成为基因分析的瓶颈。
由于测序文件很大,用单节点进行分析处理要花费大量的时间,因此需要多个节点进行并行计算,来减少基因分析的时间。这就需要对测序文件进行划分,每个节点只处理测序文件的一部分,最后将处理结果合并,从而在较短的时间内获得基因分析的完整结果。
当用多个节点去处理测序文件时,普通的切分方法是将测序文件按照节点个数进行均分,然后生成多个子文件,写入硬盘,各个节点分别读取相应的子文件进行处理。这种方法虽然简便方便,但是会增加硬盘读写负担。
并且,普通的切分方法可能会影响后续程序的结果。在测序分析中,通常利用bwa、bowtie等序列比对软件进行分析比对。例如,bwa程序是对文件进行按块读取的,其运算过程中每次处理fastq文件的一个块。由于普通的切分方法没有考虑到这一点,影响了bwa的结果,容易造成比对结果的不一致。
发明内容
本发明提供一种针对大数据基因测序文件的快速划分方法,包括:
步骤101,设置文件块的大小;
步骤102,根据步骤101设置的文件块大小对fastq文件进行分析统计,划分成多个文件块;将每个文件块的位置信息和文件块的总数保存到信息文件中;
步骤103,根据节点的数量和每个节点的核数,计算每个节点要处理的文件块数量数量,确定每个节点要处理的文件部分在fastq文件中的开始位置和结束位置;
步骤104,根据步骤103确定的每个节点要处理的文件部分在fastq文件中的起始位置和结束位置,生成读取指令,通过管道的方式提供给后续程序。
优选地,上述方法中的步骤102还包括:如果文件块的结束位置在某个序列的中间,则将文件块扩展至该序列的结尾。
优选地,上述方法中的文件块的位置信息包括文件块的起始位置和结束位置。
优选地,上述方法中的文件块的大小的取值范围可在1M至100M之间。
优选地,上述方法中的步骤103中每个节点需要处理的文件块数量按如下公式计算:
其中,Bi为第i个节点处理的文件块数;
ci为第i个节点的核数;
Bt为总的文件块数;
n为总的节点数;
j为整数,范围为1到n;
cj为第j个节点的核数。
根据本发明的另一个方面,提供一种针对大数据基因测序文件的快速划分方法,包括:
步骤201,按照序列对fastq文件进行分析统计,获得每条序列的位置信息和序列的总数;
步骤202,根据节点的数量和每个节点的核数,计算每个节点需要处理的序列数量,确定出每个节点要处理的文件部分在fastq文件中的开始位置和结束位置;
步骤203,根据步骤202得出的每个节点要处理的文件部分在fastq文件中的起始位置和结束位置,生成读取指令,通过管道的方式提供给后续程序。
优选地,上述方法的序列的位置信息包括序列的起始位置和结束位置。
优选地,上述方法中的步骤202中每个节点需要处理的序列数量按如下公式计算:
其中,Si为第i个节点处理的序列数;
ci为第i个节点的核数;
St为总的序列数;
n为总的节点数;
j为整数,范围为1到n;
cj为第j个节点的核数。
一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述任一方法。
一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于所述处理器执行所述程序时实现上述任一方法。
本发明针对现有技术的不足,对fastq文件采用了懒划分的策略,不生成子文件,从而避免了子文件的读写和存储。并且加入了多种划分方式,供后续分析软件使用。本发明的方法减少了硬盘读写次数,提高了文件划分速度,消除了比对错误。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1是根据本发明一个实施例的按块划分方法的流程示意图。
图2是根据本发明一个实施例的按序列划分方法的流程示意图。
具体实施方式
在详细说明本方法之前,先简单介绍fastq文件的格式。fastq文件是文本文件,每四行为一个序列,第一行是序列的名称信息,第二行是碱基序列,第三行是说明信息,第四行是序列的质量分数信息。每个序列的长度不完全相同。测序文件分为单端测序文件和双端测序文件,单端测序文件只包含一个文件,双端测序文件包含一对文件,这一对文件中的每个序列都是对应的。
根据本发明的一个实施例,结合图1介绍按块划分的方法,该方法包括以下步骤。
步骤101,设置文件块的大小,优选的,其取值范围可在1M至100M之间。
发明人研究发现,基因测序分析工具bwa在比对过程中,对测序文件按块读取。发明人发现,当使用多节点运行bwa工具并行地对fastq文件比对时,按块划分fastq文件有利于负载均衡。此文件块的大小可根据不同的分析软件以及节点的处理能力采用不同的取值,优选的,其取值范围可在1M至100M之间。在本发明的一个实施例中,此文件块的大小取值为10M时,可以获得较佳的处理速度和负载均衡效果。
步骤102,根据上一步骤设置的块大小对fastq文件进行分析统计,并划分成多个文件块;以及将分析结果保存到信息文件中。
按块大小分析fastq文件时,以块大小10M为例,从文件起始位置向后偏移10M字节,如果此字节数据恰好在一个序列的结尾,则将第一个文件块的起始位置设为0,结束位置设为10M。如果此字节数据在某个序列的中间,则将第一个文件块的结束位置设置为该序列的结尾位置。找到了fastq文件的第一个文件块位置后,将其起始位置和结束位置存入信息文件。可以看出,此第一个文件块的大小大于或等于10M,并且包含了完整的序列数据。然后,将第一个文件块的结束位置偏移一个字节,作为第二个文件块的起始位置,继续向后偏移10M字节,如果当前字节数据恰好处于一个序列的结尾,则将当前字节的位置设为第二块的结束位置,如果当前字节数据处于一个序列的开始或中间,则将第二块的结束位置设置为该序列的结尾位置。以此类推,一直分析到fastq文件的结尾,找到所有文件块的起始位置和结束位置并存入信息文件。根据本发明的一个实施例,显然,在信息文件中也可以只存入起始位置。可以看出,最后一个文件块的大小可能小于10M,因此,除了最后一个文件块之外,其他每个文件块的大小会略有不同,在10M附近浮动。并且,每个文件块都包含了多个完整的序列,一个序列只存在于一个文件块中。根据本发明的一个实施例,在分析过程中,还累计文件块的个数并将其存入信息文件。
对于双端测序文件,如果两个文件大小一致,则按照其中一个文件进行按块统计分析,如果两个文件大小不一致,则两个文件分别按照本发明中另一个按序列划分的方法进行划分。
步骤103,根据节点的数量和每个节点的核数,计算每个节点需要处理的文件块数量,根据步骤102得出的统计信息,确定出每个节点要处理的文件部分在fastq文件中的开始位置和结束位置。
具体来说,在多节点基因分析流程中,每个计算节点的核数和计算能力不尽相同,因此在进行测序文件划分的时候,要考虑到这些情况,为每个节点确定其处理范围,使得负载更均衡。
根据本发明的一个实施例,每个节点处理的文件块数按照公式1计算。
其中,Bi为第i个节点处理的块数;
ci为第i个节点的核数;
Bt为总的文件块数;
n为总的节点数;
j为整数,范围为1到n;
cj为第j个节点的核数。
计算出每个节点需要处理的文件块数量后,即可通过所述的信息文件确定出每个节点要处理的文件部分在原测序文件中的起始位置和结束位置。
步骤104,根据步骤103得出的每个节点要处理的文件部分在原测序文件中的起始位置和结束位置生成读取指令,通过管道的方式提供给后续程序。
管道命令是现有技术,此处以Linux系统为例作简单介绍。Linux管道使用竖线“|”连接多个命令,其被称为管道符。Linux管道的具体语法格式如下:
command1|command2
在本发明中,command1是读取fastq文件范围的指令,command2是bwa等按块分析工具的指令。
根据本发明的另一个方面,发明人还发现,bowtie是按照序列处理fastq文件,因此当后续处理程序是bowtie等按序列分析的工具时,需要将fastq文件按照序列划分。
下面根据本发明的一个实施例,结合图2介绍按序列划分的方法,该方法包括以下步骤。
步骤201,按照序列对fastq文件进行分析统计。在分析fastq文件的同时,将分析结果保存到信息文件中。
具体来说,在分析过程中,将每条序列的起始和结束位置进行分析记录,并统计序列的数量,保存到信息文件。
对于双端测序文件,如果两个文件大小一致,则按照其中一个文件进行按序列统计分析,如果二者大小不一致,则两个文件分别按照序列进行统计分析。
步骤202,根据节点的数量和每个节点的核数,计算每个节点需要处理的序列数量,根据步骤201得出的统计信息,确定出每个节点要处理的文件部分在fastq文件中的开始位置和结束位置。
根据本发明的一个实施例,在多节点基因分析流程中,每个计算节点的核数和计算能力不尽相同,因此在进行测序文件划分的时候,要考虑到这些情况,为每个节点确定其处理范围,使得负载更均衡。
每个节点处理的序列数按照公式2计算。
其中,Si为第i个节点处理的序列数;
ci为第i个节点的核数;
St为总的序列数;
n为总的节点数;
j为整数,范围为1到n;
cj为第j个节点的核数。
计算出每个节点需要处理的序列数量后,即可通过所述的信息文件确定出每个节点要处理的文件部分在原测序文件中的起始位置和结束位置。
步骤20304,根据步骤202得出的每个节点要处理的文件部分在原测序文件中的起始位置和结束位置生成读取指令,通过管道的方式提供给后续程序。
管道命令格式如下:
command1|command2
其中,command1是读取fastq文件范围的指令,command2是bowtie等按序列分析的工具的指令。
本发明提出了一种对大数据基因测序文件的快速划分方法,使得在多节点基因分析过程中,无须对测序文件进行实际的切分,不产生子文件,根据后续分析程序提供灵活的划分方案,从而使得各个节点负载更均衡,减少了硬盘读写,提高了划分效率。
需要说明的是,上述实施例中介绍的各个步骤并非都是必须的,本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种针对大数据基因测序文件的快速划分方法,包括:
步骤101,设置文件块的大小;
步骤102,根据步骤101设置的文件块大小对fastq文件进行分析统计,划分成多个文件块;将每个文件块的位置信息和文件块的总数保存到信息文件中,所述文件块的位置信息包括文件块的起始位置和结束位置;
步骤103,根据节点的数量和每个节点的核数,计算每个节点要处理的文件块数量,确定每个节点要处理的文件部分在fastq文件中的开始位置和结束位置;
步骤104,根据步骤103确定的每个节点要处理的文件部分在fastq文件中的起始位置和结束位置,生成读取指令,通过管道的方式提供给后续程序,
其中,所述步骤103中每个节点需要处理的文件块数量按如下公式计算:
其中,Bi为第i个节点处理的文件块数;
ci为第i个节点的核数;
Bt为总的文件块数;
n为总的节点数;
j为整数,范围为1到n;
cj为第j个节点的核数。
2.如权利要求1所述的针对大数据基因测序文件的快速划分方法,所述步骤102还包括:如果文件块的结束位置在某个序列的中间,则将文件块扩展至该序列的结尾。
3.如权利要求1所述的针对大数据基因测序文件的快速划分方法,所述文件块的大小的取值范围在1M至100M之间。
4.一种针对大数据基因测序文件的快速划分方法,包括:
步骤201,按照序列对fastq文件进行分析统计,获得每条序列的位置信息和序列的总数并保存到信息文件中,所述序列的位置信息包括序列的起始位置和结束位置;
步骤202,根据节点的数量和每个节点的核数,计算每个节点需要处理的序列数量,确定出每个节点要处理的文件部分在fastq文件中的开始位置和结束位置;
步骤203,根据步骤202得出的每个节点要处理的文件部分在fastq文件中的起始位置和结束位置,生成读取指令,通过管道的方式提供给后续程序,
其中,所述步骤202中每个节点需要处理的序列数量按如下公式计算:
其中,Si为第i个节点处理的序列数;
ci为第i个节点的核数;
St为总的序列数;
n为总的节点数;
j为整数,范围为1到n;
cj为第j个节点的核数。
5.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1-4任意一项所述的方法。
6.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于所述处理器执行所述程序时实现根据权利要求1-4任意一项所述的方法。
CN202010122470.0A 2020-02-27 2020-02-27 一种针对大数据基因测序文件的快速划分方法 Active CN111326216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010122470.0A CN111326216B (zh) 2020-02-27 2020-02-27 一种针对大数据基因测序文件的快速划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010122470.0A CN111326216B (zh) 2020-02-27 2020-02-27 一种针对大数据基因测序文件的快速划分方法

Publications (2)

Publication Number Publication Date
CN111326216A CN111326216A (zh) 2020-06-23
CN111326216B true CN111326216B (zh) 2023-07-21

Family

ID=71168260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010122470.0A Active CN111326216B (zh) 2020-02-27 2020-02-27 一种针对大数据基因测序文件的快速划分方法

Country Status (1)

Country Link
CN (1) CN111326216B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005011430A (ja) * 2003-06-19 2005-01-13 Hitachi Ltd ファイル管理方法、記録装置、再生装置、及び記録媒体
CN101446976A (zh) * 2008-12-26 2009-06-03 中兴通讯股份有限公司 一种分布式文件系统中的文件存储方法
CN102930005A (zh) * 2012-10-29 2013-02-13 北京奇虎科技有限公司 在宿主文件中捆绑文件的方法及装置
CN103186617A (zh) * 2011-12-30 2013-07-03 北京新媒传信科技有限公司 一种存储数据的方法和装置
CN103559020A (zh) * 2013-11-07 2014-02-05 中国科学院软件研究所 一种dna读序数据fastq文件并行压缩和解压缩方法
EP2759953A1 (en) * 2013-01-28 2014-07-30 Hasso-Plattner-Institut für Softwaresystemtechnik GmbH System and method for genomic data processing with an in-memory database system and real-time analysis
CN105095686A (zh) * 2014-05-15 2015-11-25 中国科学院青岛生物能源与过程研究所 基于多核cpu硬件的高通量转录组测序数据质量控制方法
CN106021538A (zh) * 2016-05-27 2016-10-12 成都索贝数码科技股份有限公司 一种基于fics对象存储的文件分割方法与系统
CN106446254A (zh) * 2016-10-14 2017-02-22 北京百度网讯科技有限公司 文件检测方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240583A1 (en) * 2004-01-21 2005-10-27 Li Peter W Literature pipeline
US7478376B2 (en) * 2004-12-02 2009-01-13 International Business Machines Corporation Computer program code size partitioning method for multiple memory multi-processing systems
US9081501B2 (en) * 2010-01-08 2015-07-14 International Business Machines Corporation Multi-petascale highly efficient parallel supercomputer
US20140067887A1 (en) * 2012-08-29 2014-03-06 Sas Institute Inc. Grid Computing System Alongside A Distributed File System Architecture
CN103049680B (zh) * 2012-12-29 2016-09-07 深圳先进技术研究院 基因测序数据读取方法及系统
CN104504257B (zh) * 2014-12-12 2017-08-11 国家电网公司 一种基于双重并行计算的在线Prony分析方法
WO2018000174A1 (zh) * 2016-06-28 2018-01-04 深圳大学 面向存储的dna序列的并行快速匹配方法及其系统
SG11201903175VA (en) * 2016-10-11 2019-05-30 Genomsys Sa Efficient data structures for bioinformatics information representation
MX2019004131A (es) * 2016-10-11 2020-01-30 Genomsys Sa Metodo y aparato para el acceso a datos bioinformaticos estructurados en unidades de acceso.
CN107145766A (zh) * 2017-03-27 2017-09-08 中国科学院深圳先进技术研究院 基因序列读取方法及读取系统
CN107169313A (zh) * 2017-03-29 2017-09-15 中国科学院深圳先进技术研究院 Dna数据文件的读取方法及计算机可读存储介质
CN109698010A (zh) * 2017-10-23 2019-04-30 北京哲源科技有限责任公司 一种针对基因数据的处理方法
CN110120247A (zh) * 2018-01-14 2019-08-13 广州明领基因科技有限公司 一种分布式基因大数据存储平台
US12210904B2 (en) * 2018-06-29 2025-01-28 International Business Machines Corporation Hybridized storage optimization for genomic workloads
CN109616156B (zh) * 2018-12-03 2021-07-06 郑州云海信息技术有限公司 一种基因测序数据存储方法和装置
CN109785905B (zh) * 2018-12-18 2021-07-23 中国科学院计算技术研究所 一种面向基因比对算法的加速装置
CN110427270B (zh) * 2019-08-09 2022-11-01 华东师范大学 一种面向rdma网络下分布式连接算子的动态负载均衡方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005011430A (ja) * 2003-06-19 2005-01-13 Hitachi Ltd ファイル管理方法、記録装置、再生装置、及び記録媒体
CN101446976A (zh) * 2008-12-26 2009-06-03 中兴通讯股份有限公司 一种分布式文件系统中的文件存储方法
CN103186617A (zh) * 2011-12-30 2013-07-03 北京新媒传信科技有限公司 一种存储数据的方法和装置
CN102930005A (zh) * 2012-10-29 2013-02-13 北京奇虎科技有限公司 在宿主文件中捆绑文件的方法及装置
EP2759953A1 (en) * 2013-01-28 2014-07-30 Hasso-Plattner-Institut für Softwaresystemtechnik GmbH System and method for genomic data processing with an in-memory database system and real-time analysis
CN103559020A (zh) * 2013-11-07 2014-02-05 中国科学院软件研究所 一种dna读序数据fastq文件并行压缩和解压缩方法
CN105095686A (zh) * 2014-05-15 2015-11-25 中国科学院青岛生物能源与过程研究所 基于多核cpu硬件的高通量转录组测序数据质量控制方法
CN106021538A (zh) * 2016-05-27 2016-10-12 成都索贝数码科技股份有限公司 一种基于fics对象存储的文件分割方法与系统
CN106446254A (zh) * 2016-10-14 2017-02-22 北京百度网讯科技有限公司 文件检测方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Gene Panel流程的并行设计与优化研究;王元戎等;计算机学报;第42卷(第11期);全文 *
PipeMEM: A Framework to Speed Up BWA-MEM in Spark with Low Overhead;Lingqi Zhang;Genes;全文 *
基于Hadoop Streaming的Last比对软件并行化的研究与实现;董本志;李文浩;景维鹏;;计算机工程与应用(第02期);全文 *
基于高通量转录组测序的序列比对算法研究;张勇等;中国优秀硕士学位论文全文数据库 (信息科技辑)(第3期);全文 *

Also Published As

Publication number Publication date
CN111326216A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN107609350B (zh) 一种二代测序数据分析平台的数据处理方法
US11941534B2 (en) Genome sequence alignment system and method
CN106778079B (zh) 一种基于MapReduce的DNA序列k-mer频次统计方法
CN110797085B (zh) 一种基因数据的查询方法、系统、设备及存储介质
CN107480466B (zh) 基因组数据存储方法及电子设备
CN116431660B (zh) 数据处理方法、装置、系统、电子设备及存储介质
CN107169313A (zh) Dna数据文件的读取方法及计算机可读存储介质
WO2015067145A1 (zh) 应用识别方法与装置
CN110021345B (zh) 基于spark平台的基因数据分析方法
JP6201788B2 (ja) ループ分割検出プログラム及びループ分割検出方法
CN116150209B (zh) 报表计算系统、方法、电子设备及存储介质
CN110264392B (zh) 一种基于多gpu的强连通图检测方法
CN110262289B (zh) A2l文件中变量的处理方法、装置和存储介质
CN111326216B (zh) 一种针对大数据基因测序文件的快速划分方法
CN119848188B (zh) 一种针对大模型检索增强生成的文档切分方法
CN111370070B (zh) 一种针对大数据基因测序文件的压缩处理方法
CN117112004B (zh) 差分数据确定方法、差分还原方法、装置、设备及介质
CN104750846B (zh) 一种子串查找方法及装置
CN114420210B (zh) 一种生物测序序列快速修剪方法及系统
CN102591941B (zh) 一种SQLite空闲链表节点的解析方法和装置
CN113495901B (zh) 一种面向可变长数据块的快速检索方法
CN114138424B (zh) 一种虚拟机内存快照生成方法、装置及电子设备
CN102637204A (zh) 一种基于互索引结构的文本查询方法
CN114817327A (zh) 文件版本识别方法、系统、终端设备及存储介质
WO2017215030A1 (zh) 一种有查询功能的存储器及其查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant