发明内容
本发明提供一种小直径随钻伽马能谱数据处理方法,以解决现有的问题。
本发明的一种小直径随钻伽马能谱数据处理方法采用如下技术方案:
本发明一个实施例提供了一种小直径随钻伽马能谱数据处理方法,该方法包括以下步骤:
获取所有数据源的伽马能谱数据,构建所有数据源的伽马能谱数据初始样本空间,所述所有数据源的伽马能谱数据初始样本空间包含所有数据源的伽马能谱伽马能谱数据点;
根据构建的初始样本空间,获取各个目标矿物区间;根据各个目标矿物区间,结合所有伽马能谱数据点的伽马强度,获取各个伽马能谱数据点处于目标矿物区间的可能性参数,根据各个伽马能谱数据点处于目标矿物区间的可能性参数,获取各个目标矿物区间的范围,与各个目标矿物区间的数量;
以各个数据源的各个目标矿物区间的数量的均值作为Kmeans聚类中的值,对各数据源中的所有目标矿物的区间范围内的伽马能谱数据点进行Kmeans聚类,获得各数据源中的所有目标矿物的区间范围内的伽马能谱数据点的Kmeans聚类结果;根据各数据源中的所有目标矿物的区间范围内的伽马能谱数据点的Kmeans聚类结果,获取最优的Kmeans聚类次数;
以最优的Kmeans聚类次数对各数据源中的所有目标矿物的区间范围内的伽马能谱数据点进行聚类,获取第二聚类结果,根据第二聚类结果中伽马能谱数据点与所有簇类中心点的距离,获取所有伽马能谱数据点的矫正权值;根据所有伽马能谱数据点的矫正权值与对应的伽马能谱数据点的乘积,得到最终的聚类结果。
优选的,所述获取各个伽马能谱数据点处于目标矿物区间的可能性参数,包括的具体计算公式如下:
式中,表示在第/>个起始点前/>个伽马能谱数据点处于第/>个目标矿物的可能性参数;/>表示第/>个起始点的伽马强度值;/>表示在第/>个起始点前/>个伽马能谱数据点的伽马强度值;/>表示在数据中的伽马强度值的众数;/>表示第/>个起始点与第/>个伽马能谱数据点之间数据的数量;/>表示第/>个起始点与第/>个伽马能谱数据点之间数据的均值;/>表示第/>个起始点与第/>个伽马能谱数据点之间数据的标准差;/>表示第/>个起始点与第/>个伽马能谱数据点的伽马强度值;/>表示第/>个起始点与第/>个伽马能谱数据点之间的距离; />为Softmax归一化函数。
优选的,所述获取各个目标矿物区间的范围,包括的具体步骤如下:
选取数据源中伽马强度值最大点为第一起始点,从第一起始点开始,遍历起始点之后的每个伽马能谱数据点,若遍历到第个点在第/>个目标矿物区间的可能性参数的大于预设阈值/>,则停止遍历,并将起始点之后的第/>个点记为第一起始点的停止点1;
同理,从起始点开始,遍历起始点之前的每个伽马能谱数据点,若遍历到第个点在第/>个目标矿物区间的可能性参数的大于/>,则停止遍历,并将起始点之前的第/>个点记为第一起始点的停止点2,将第一起始点的停止点1与第一起始点的停止点2之间的区域作为第/>个目标矿物区间范围;
并将第一停止点与第二停止点之间的范围作为第一目标矿物区间范围;
同时选取出第一目标矿物区间范围外的最大点作为第二起始点,同理获取第二起始点的停止点1与第二起始点的停止点2,并将第二起始点的停止点1与第二起始点的停止点2之间的范围作为第二目标矿物区间范围;
以此类推,得到第三目标矿物区间范围……直至剩余的伽马强度数据占数据源中数据小于20%时,停止区间截取,得到各个目标矿物区间的范围。
优选的,所述获取最优的Kmeans聚类次数,包括的具体步骤如下:
在进行Kmeans聚类的过程中,记录每次迭代的Kmeans聚类所有簇类中的最大值和最小值,通过所有簇类中的最大值和最小值,计算所有簇类的极差值,通过将所有簇类的极差值相加的和除以全程的钻探距离记为,若所计算的/>大于或等于1,则回滚至上次的聚类结果,并将上次的聚类结果的次数记为最优的Kmeans聚类次数,反之则继续进行Kmeans聚类迭代直至/>大于或等于1。
优选的,所述获取所有伽马能谱数据点的矫正权值,包括的计算公式如下:
式中,表示第/>个簇类中最大的伽马能谱数据点的钻探距离,表示第/>个簇类中最小的伽马能谱数据点的钻探距离;/>表示第/>个簇类中最大的伽马能谱数据点的钻探距离,/>表示第/>个簇类中最小的伽马能谱数据点的钻探距离,/>表示第/>个簇类采集的钻探距离范围,/>表示第/>个簇类采集的钻探距离范围,/>表示取最大值函数,所计算的/>表示任意一个伽马能谱数据点/>的权值。
本发明的技术方案的有益效果是:传统的对小直径随钻伽马能谱数据进行聚类时,多源传感器的多数据源会由于各单独数据源采集的数据特点造成聚类过程中部分簇类之间对多源覆盖的程度降低,导致最终根据聚类进行分析的样本分析的准确度下降。
而本发明能够根据多源传感器在采集数据时的多源鲁棒特点进行类别值确定并依照聚类过程中伽马能谱数据点对于不同形态簇类的归属影响进行分析,减轻了Kmeans算法在聚类时可能产生簇类之间交错导致簇类不能够对于伽马能谱多数据源传感器的参数利用,从而保障了聚类结果中簇类的信息完整性。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种小直径随钻伽马能谱数据处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种小直径随钻伽马能谱数据处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种小直径随钻伽马能谱数据处理方法的步骤流程图,该方法包括以下步骤:
步骤S001:通过传感器采集伽马能谱数据,构建初始样本空间。
本发明所针对的具体场景为:对小直径随钻伽马能谱数据进行聚类时,多源传感器的多数据源会由于各单独数据源采集的数据特点造成聚类过程中部分簇类之间对多源覆盖的程度降低,导致最终根据聚类进行分析的样本分析的准确度下降。
为避免上述根据聚类进行分析的样本分析的准确度下降,所以根据簇类在多数据源的覆盖特点筛选簇类之间对多数据源的鲁棒优势在单源数据量占比过大的簇类中不能被较好体现的簇类进行纠正。
需要说明的是,由于钻孔的长度通常较长,因此通过随钻的伽马传感器采集的数据更加贴近钻头附近样本伽马环境。
具体的,通过记录多源传感器中每个单数据源采集对应的伽马能谱数据,将每一采集时刻记为,在/>时刻下钻头所在深度记为/>,在/>时刻下伽马射线的单位强度记为/>。
然后,通过钻头的所在深度与钻头附近的伽马传感器所采集的伽马射线的单位强度/>,构建/>初始数据集,作为单数据源的数据集,并进行迭代获得多源传感器的待检测数据集。
步骤S002:根据初始样本空间得到目标矿物的区间范围。
需要说明的是,多源传感器能够提供时空重复的丰富监测数据,而伽马能谱的监测特点即为检测地质中的放射性同位素释放出的伽马射线强度进而根据随钻前进深度对目标物质进行定位分析,因此钻头不断前进中,传感器不断接收到不同强度的伽马射线,最终构建起伽马能谱。但K-means聚类的类别作为在时序上,相似伽马强度的分划,K值过多会导致一部分完整的伽马强度区域被不同的类别值进行分割,导致通过簇类分析的样本特征存在误差。所以通过多源传感器中存在多个数据源,首先对单数据源进行的类别值识别后,再联系多数据源确定类别值。
由于地质自然存在有放射性同位素,因此数据集中,钻探到目标范围时射线强度更高,因此钻探贯穿目标的截取长度越长,样本释放的射线强度会增高并在曲线中形成一部分强度高台,因此强度高台应当纳入划分目标矿物区间的因素,在聚类过程中进行体现。
具体的,在数据集中表现为,将部分伽马能谱数据点的强度值相似的伽马能谱数据点归为一相似强度集合,通过对多数据源中的数据源的数据集中。
首先选取数据源中伽马强度值最大点为第一起始点,从第一起始点开始,遍历起始点之后的每个伽马能谱数据点,若遍历到第个点在第/>个目标矿物区间的可能性参数的大于/>,其中/>为本实施例预设的可能性参数阈值,/>的取值可根据具体情况自行设置,本实施例不做要求,在本实施例中以/>进行叙述,则停止遍历,并将起始点之后的第/>个点记为第一起始点的停止点1;
同理,从起始点开始,遍历起始点之前的每个伽马能谱数据点,若遍历到第个点在第/>个目标矿物区间的可能性参数的大于/>,则停止遍历,并将起始点之前的第/>个点记为第一起始点的停止点2。将第一起始点的停止点1与第一起始点的停止点2之间的区域作为第/>个目标矿物区间范围。即第/>个点在第/>个目标矿物区间的可能性参数的大于0.6,则停止遍历。
并将第一停止点与第二停止点之间的范围作为第一目标矿物区间范围。
同时选取出第一目标矿物区间范围外的最大点作为第二起始点,同理获取第二起始点的停止点1与第二起始点的停止点2,并将第二起始点的停止点1与第二起始点的停止点2之间的范围作为第二目标矿物区间范围。
以此类推,得到第三目标矿物区间范围……直至剩余的伽马强度数据占数据源中数据小于20%时,停止区间截取,并将所截取的区间数量记为。
其中计算起始点之前伽马能谱数据点处于目标矿物可能性参数的具体计算公式为:
式中,表示在第/>个起始点前/>个伽马能谱数据点处于第/>个目标矿物的可能性参数;/>表示第/>个起始点的伽马强度值;/>表示在第/>个起始点前/>个伽马能谱数据点的伽马强度值;/>表示在数据中的伽马强度值的众数;/>表示第/>个起始点与第/>个伽马能谱数据点之间数据的数量;/>表示第/>个起始点与第/>个伽马能谱数据点之间数据的均值;/>表示第/>个起始点与第/>个伽马能谱数据点之间数据的标准差;/>表示第/>个起始点与第/>个伽马能谱数据点的伽马强度值;/>表示第/>个起始点与第/>个伽马能谱数据点之间的距离; />为Softmax归一化函数。
需要进一步说明的是,作为目标点的伽马强度与数据源中的伽马强度值的众数的差值与起始点的伽马强度与目标点的伽马强度差值的比值,作为衡量目标点与起始点之间的差异,其中/>的值越小,则目标点与起始点就越处于同一伽马强度水平;
表示/>选取的集合范围内伽马强度值的数据峰值,所计算出的数值越小说明集合中含有偏离均值的极端值越少,即集合的平台形态越平滑;
当所计算的的值越大时,则代表第/>个起始点前/>个伽马能谱数据点处于第/>个目标矿物的可能性越大。
至此,得到了第个目标矿物的区间范围。
同理得到所有数据源中的各个目标矿物的区间范围。
步骤S003:对所有数据源中的所有目标矿物的区间范围内的伽马能谱数据点进行聚类,获取最佳聚类次数。
将所有数据源中的所有目标矿物区间范围内的伽马能谱数据点进行Kmeans聚类,需要说明的是,所选取Kmeans聚类的值为各个数据源中的目标矿物的区间范围数量均值的最接近整数部分,具体的计算公式为:
式中,表示进行Kmeans聚类中的/>个类别,/>表示共有/>个数据源,/>表示第/>个数据源所采集的目标矿物的区间范围数量,/>表示返回数值函数,在本式中表示四舍五入取整数部分。
需要说明的是,当聚类进行到一定进程时,需要对簇类中对多源以及单源的数据利用特性进行识别,由于部分数据源中数据变化特性不相同,产生局部极小变化带离簇类选取方向。由于聚类过程会产生簇类扩张的移动方向变化,可能导致簇类间同时对单源数据范围产生重复特征提取;单源影响范围过大会导致簇类最终进行样本分析时的物质评价不准确,进而对本次钻探的样本价值产生浪费。
聚类进行到一定时间时需要分析本簇类中是否产生了多源以及单源的影响范围偏差,此时需要及时纠正以避免产生簇类过大的影响范围。
具体的,在进行Kmeans聚类的过程中,记录每次迭代的Kmeans聚类所有簇类中的最大值和最小值,将最大值与最小值的差值记为极差值,通过所有簇类中的极差值,计算所有簇类的极差值,通过将所有簇类的极差值相加的和除以全程的钻探距离记为,将/>作为各个簇类之间是否存在重叠范围的依据,即Kmeans聚类次数的评估依据,若所计算的大于或等于1,则回滚至上次的聚类结果,并将上次的聚类结果的次数记为最优的Kmeans聚类次数,反之则继续进行Kmeans聚类迭代,具体计算公式如下:
式中,表示第/>个簇类的极差值,/>表示第/>个簇类的极差值,/>表示第/>个簇类的极差值且/>同时也表示簇类的数量,/>为全程的钻探距离,/>作为判断簇类与簇类之间是否存在重叠范围的依据;
当时说明有簇类出现影响范围重叠,回滚至上次聚类的结果,并将上次的聚类次数作为最佳聚类次数。
步骤S004:对经过最佳聚类次数的聚类结果进行矫正,得到最终聚类结果。
需要说明的是,若直接将各个数据源的目标矿物区间的聚类结果作为最终的聚类结果,则会使有限的值在钻测开始的地面附近产生浪费,为保证数据聚类的结果对于所代表的地质检测结果对应准确度更加充分。所以依仗多数据源进行判断,避免因个别数据源收到干扰可能分析出的类别值偏离较大,即通过多源进行综合判断对类别值进行确定,提高聚类分析结果的准确性。
因为K-means算法会计算伽马能谱数据点距各个簇类中心点的距离,优质的簇类结果影响范围较小,代表在其影响范围内能够充分表述钻探距离区间中伽马强度的变化特点。簇类对于单个数据源的占有比率越高,多个数据源之间的占有比率越接近,代表簇类囊括多源以及单源数据的信息完整性越高,添加该伽马能谱数据点对本簇类产生的信息完整性提升高于另一簇类时,伽马能谱数据点到本簇类的距离权值更大。
具体的,选取目标矿物区间范围内任意伽马能谱数据点记为伽马能谱数据点,统计伽马能谱数据点/>与所有簇类中心点的距离,选取伽马能谱数据点/>与所有簇类中心点距离最小的两个簇类,并分别记为簇类/>和簇类/>。具体的计算公式为:
式中,表示第/>个簇类中伽马强度值最大的伽马能谱数据点的钻探距离,/>表示第/>个簇类中伽马强度值最小的伽马能谱数据点的钻探距离;表示第/>个簇类中伽马强度值最大的伽马能谱数据点的钻探距离,/>表示第/>个簇类中伽马强度值最小的伽马能谱数据点的钻探距离,/>表示第/>个簇类采集的钻探距离范围,/>表示第/>个簇类采集的钻探距离范围,/>表示取最大值函数,所计算的/>表示伽马能谱数据点/>的权值。
最后将伽马能谱数据点与伽马能谱数据点/>的权值/>相乘,得到伽马能谱数据点/>矫正后的数据值。
同理对所有伽马能谱数据点进行矫正,得到校正后的聚类结果,减轻了Kmeans算法在聚类时可能产生簇类之间交错所导致的簇类不能够对于伽马能谱多数据源传感器的参数利用,从而保障了聚类结果中簇类的信息完整性,以提高识别目标矿物区间范围的准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。