职场文秘网

首页 > 心得体会 > 学习材料 / 正文

基于数据驱动和循环滑动时窗的小层智能划分方法

2023-01-18 12:35:08

徐鹏晔

(中国石化胜利油田分公司勘探开发研究院,山东 东营 257015)

小层精细对比是油气田储层表征的基础条件,常规地层对比方法在沉积规律约束下,通过取心井的岩电特征识别全区标志层,基于测井曲线组合的旋回性、相似性和地层等高程法进行划分[1-4]。随着东部老油田进入开发中后期,油水井数逐渐增多,地层对比工作量显著增加,同时由于河流相储层河道迁移迅速,横向上砂体变化快,纵向上多期砂体叠置发育,储层非均质性明显,专家经验解释地层对比多解性强,制约了小层对比的效率和精度[5-6]。

近年来人工智能大数据方法飞速发展,不断应用于各行各业,在油田勘探开发领域也取得了一定进展。WU 等运用正演模拟技术得到大量三维地震样本数据,通过优选改进三维卷积神经网络模型,地震断点智能识别效果明显[7]。NAM 等研发了一种基于改进编解码器卷积神经网络的三维河道自动识别方法[8]。张国印等结合卷积神经网络和小波变换技术,有效智能预测地震储层类型[9]。另外,储层参数预测、烃源岩有机碳含量预测、产能预测等研究在深度学习领域也取得了一定进展[10-12];
但在小层智能对比方面,往往是将测井曲线的一整段数据作为样本进行一次训练建立模型[13-15],而样本数据分布不均匀,地质分层界限的多解性和测井曲线组合的多样性,极大程度地降低了预测模型的精度和泛化能力。

针对小层智能划分存在的问题,笔者提出一种基于循环滑动时窗[16-18](“窗口对点”)提取样本的方法,沿深度加深方向以一定窗口长度和步长滑动进行样本学习,对测井曲线进行重要性评价分选出敏感曲线,最终通过优选不同机器学习算法,实现数据驱动的小层智能划分。

小层划分属于分类问题,筛选随机森林、支持向量机、XGBoost 等机器学习方法分别建立模型,进行对比分析。

1.1 随机森林方法

随机森林(Random Forest)方法是一种灵活度高、准确率高、操作性强、可有效运算大数据集、支持高维样本输入的集成学习(Ensemble Learning)方法,属于Bagging(Booststrap Aggregating)的一种类型,具有较好解决分类问题的能力[19-21]。随机森林方法将多棵决策树集成在一起,每棵决策树分别判断分类,从原始样本库中有放回地随机抽取部分特征样本进行分割,对每个样本递归重复训练直至模型预测值不再增加,通过统计分析分类结果最高的类别为最终输出结果,同时各决策树无相关性,可最大程度地降低过拟合干扰,保持较好抗噪能力。

随机森林方法包括以下4 个步骤:①样本随机取样。在一个数量为A的样本中,有放回的随机抽取A个样本,重新组合成一个新的样本数据作为训练集。由于是有放回取样,因此会获得重复样本数据,未被抽取的样本构成袋外数据集(OOB,Out of Band),用于测试模型。②随机特征选择。从数量为N的特征数据中任意选取n个数据子集,且n<N。③特征参数优选。决策树由节点和分支构成,根部结点代表属性特征,分支表示不同的输出过程,对应的叶子节点为输出结果,通常使用基于基尼系数的CART 算法进行分类研究,数值最小的特征和其对应切分点表示最优特征和最佳切分点。④构建随机森林。重复上述步骤,得到多棵决策树,每棵树都对样本数据分类,最终统计票数最多的输出结果。

随机森林优化参数有森林中决策树的数量(n_estimators)和最佳切分点处的最大特征参数(max_features)。首先n_estimators值不断增大以提高模型拟合能力,当整个模型拟合能力不随决策树的数量增加而增大时,再调试最大特征参数,逐渐提高子模型的拟合能力,最终相应提高整体模型的泛化能力。

1.2 支持向量机方法

支持向量机(SVM,Support Vector Machine)方法是VAPNIK 提出的一种可有效解决样本间存在非线性映射关系、高维度特征参数及样本数量少等问题的机器学习方法,其最大特点是可以根据实际训练数据的分布关系,搜寻所有线性组合关系中能准确划分数据集的最优分类边界,并保证这个边界的几何距离最大化[22-24]。对于线性可分样本集,运用间隔最大化原则求取分离超平面:

w和b分别决定超平面的方向和到原点之间的距离。对于非线性分类问题,需要加入一个惩罚系数(C),并引入拉格朗日因子作为约束,将大间隔划分超平面问题转化为对偶问题:

核函数是将空间中2个无法线性区分的变量以非线性关系映射至高维空间进行表征的函数,常见的有多项式(poly)核函数、径向基(rbf)核函数、Sig⁃moid 核函数等。优化参数有C和核函数系数(gam⁃ma)。其中,C表示对于误差的容忍度,其数值越大,越不能容忍误差,数值越小越易欠拟合;
gamma表示支持向量的多少,对训练预测模型的速度有较大影响。

1.3 XGBoost方法

XGBoost(Extreme Gradient Boosting)方法,即极端梯度提升方法,是基于GBDT(Gradient Boosting Decision Tree)的一种高效实现的集成方法。XG⁃Boost 方法中,在前1 次树训练残差减小方向,会分裂成1 棵新树,并在所有样本训练完成后将所有树的累加结果作为输出结果[25-26]。XGBoost 方法的目标是在保证预测误差最小的条件下,最大程度保持模型的泛化能力。XGBoost 方法具有三方面优势:①通过加入正则化项控制模型的复杂程度,不断提高模型的泛化能力。②在处理分类问题时,对目标函数进行一阶和二阶泰勒求导,限制树过深生长,使模型更精确。③可并行优化迭代生成更新学习器,大幅提高方法效率,防止过拟合现象。

优化参数有树的最大深度(max_depth)、最小叶子节点样本权重(min_child_weight)。这2 个参数均用于避免过拟合,其中max_depth值越大越容易学到更局部具体的样本;
min_child_weight为建立各个模型需要的最小样本,其数值越大越可避免局部特殊样本的学习,但过高会造成欠拟合。

2.1 方法流程建立

通过对不同机器学习方法进行分析,提出了一种基于数据驱动的小层智能划分方法,利用循环滑动时窗技术,建立如下方法流程(图1):①统计研究区每口井的测井曲线,选择测井曲线齐全的井开展层位智能划分重要性分析,通过对重要性排序,优选相关系数高的敏感测井曲线作为特征参数。②实际测井过程中,异常值对地质研究干扰明显,各种测井曲线的测量量纲差异较大,需对原始数据预处理,主要包括测井曲线异常值剔除、曲线标准化和归一化及地质分层数据方波化等。③根据地层划分实际需要,设置不同尺度的滑动时窗长度和步长,运用“窗口对点”的方法采集样本,同时为了消除标签分布不均匀影响,最大概率的获取样本信息,创新循环滑动时窗方法提取样本数据。④选择多种二分类的机器学习方法训练模型,对其进行超参数自动化寻优,评估测试模型效果好、精度高的机器学习方法,用于构建小层智能划分模型。⑤运用测试效果好的训练模型进行验证井的小层智能划分,并对预测结果分析,预测结果最多的层位为输出结果,最终完成单井小层智能划分。

图1 小层智能划分方法流程Fig.1 Flow chart of smalllayer intelligent partitioning

2.2 分层样本构建

2.2.1 数据预处理

岩性变化对应测井曲线响应特征也具有明显差异,不同测井曲线组合对地质分层存在选择性和敏感性差异,造成地质分层多解性强,无法有效划分层位,因此需要优选敏感曲线以降低测井曲线数据维度。为避免不同测井曲线量纲间干扰,对敏感测井曲线进行标准化、归一化处理,保证岩电特征一致性,作为模型的特征参数。

地质分层数据是不连续离散值,采用方波化方法将实际地质分层进行二分类处理,转化成曲线作为模型的标签,地层划分界面位置为1,非地层划分界面位置为0。

2.2.2 循环滑动时窗采样

在地层智能划分过程中,以分层点和非分层点作为标签,将特征曲线与标签数据进行“点对点”模式的训练预测,这种仅依靠一个深度点对应的各条测井曲线数值无法进行样本准确取样。实际地层信息与一定时窗范围内相邻测井数据有关,因此选择“窗口对点”的采样方式。根据地层划分级别(砂层组、小层)需要设定滑动时窗参数(图2)。实际模型建立过程中,样本数据随着固定时窗长度移动,每个窗口在补进新的样本的同时会去掉一个老的样本。

图2 滑动时窗示意Fig.2 Schematic diagram of sliding time window

若进行砂层组划分,考虑砂层组厚度较大,滑动时窗长度可适当增大,若进行小层划分,滑动时窗长度适当减小。步长设定过大,采样时易错过实际地质分层界线,同时造成样本数据不连续;
步长设定过小,计算量增大的同时,由于测井曲线特征多解性,造成实际分层结果的不确定性增加。

为减少各种外界因素干扰,最大程度划分地层界限,采用循环滑动时窗采样的方法(图3),即根据划分地层级别选定合适的滑动时窗长度、制定合理的滑动步长,起始深度从L0开始;
第2次起始深度从L1开始,滑动时窗长度和步长不变进行采样;
第3 次起始深度从L2开始,在相同的滑动时窗长度和步长条件下采样;
直至起始深度从Lm开始,在相同的滑动时窗长度和步长条件下继续采样。经过m+1 次循环采样,选择出现次数最多的为分层结果;
若多个连续最高值,则取最早出现最高值的位置作为划分结果(L0,L1,L2,…,Lm根据实际需求设定)。

图3 循环滑动时窗示意Fig.3 Schematic diagram of cyclic sliding time window

2.3 模型评估优选

2.3.1 超参数优化

超参数直接影响着模型性能,因此超参数调优对于最大程度优化机器学习方法起着重要作用。常规情况下主要依靠人工试错调参的方式进行不同方法的超参数测试,但该方法运算周期长,结果更加依赖于专家经验,往往无法得到最优效果。随机网络搜索技术是在大规模超参数网格基础上,通过随机组合的方式寻找最佳优化模型的方法,具有节约时间和计算资源、有效凸出最优结果的特点。

2.3.2 评估指标

对于二分类任务的模型评估通常采用准确率(Acc,Accuracy)、精确率(P,Precision_score)、召回率(R,Recall_score)等指标。以地层界限为正类,非地层界限为负类。准确率指根据实际正类的样本数量占据总样本数量的比例。精确率指实际结果为正类同时预测结果也为正类的样本数量占预测结果为正类的样本数量的比例。召回率指实际结果为正类同时预测结果也为正类的样本数量占实际结果为正类的样本数量的比例。准确率、精确率和召回率的计算公式分别为:

3.1 工区概况

孤东油田位于济阳坳陷沾化凹陷东北方向,是以新近系馆陶组河流相砂岩为主要储层的大型整装油田,整体构造平缓,断层不发育。孤东七区西位于孤东油田东翼,其馆陶组为辫状河-曲流河沉积,储层以高孔高渗透细粉砂岩为主,结构疏松,胶结物含量低,非均质性明显。研究区馆上段根据沉积旋回特征可分为6 个砂组,主力含油层系主要为馆上段5 和6 砂组;
其中6 砂组(Ng上6)砂体厚度大、储层发育,为典型的辫状河沉积,纵向上可以细分为8个小层(Ng上61—Ng上68),是研究的主要目的层。

孤东七区西进入开发后期,统计分析全区具有声波时差(AC)、自然电位(SP)、电阻率(ML1,ML2)、感应电导率(COND)、井径(CAL)和补偿中子(CNL)共7 条测井曲线的515 口井的数据进行地层智能划分研究。其中,405口井为训练样本井,60口井为测试样本井,利用训练模型对剩余50口井验证。

3.2 小层智能划分效果分析

3.2.1 样本数据准备

通过对研究区所有测井曲线进行重要性分析,得到敏感测井曲线重要性排列结果(图4)。SP,COND,AC,ML1 和ML2 共5 条测井曲线是对地层划分重要性排序较高的曲线,其中SP和COND曲线重要性最高,因此本次优选SP,COND,AC,ML1和ML2共5条敏感测井曲线作为样本特征参数。

图4 测井曲线重要性分析直方图Fig.4 Histogram for importance analysis of logging curves

以31-326 井为例,该井馆上段6 砂组小层划分标志为:1 小层敏感测井曲线特征为高COND值、低ML1 和ML2 值、高AC值;
4 小层敏感测井曲线特征为全区发育一套较为稳定的厚层砂岩,SP值为负异常,低COND值;
5 小层泥岩特征为高COND值、低ML1和ML2值(图5)。

图5 31-326井馆上段6砂组敏感测井曲线特征Fig.5 Logging curve characteristics of Ngs6 of Well 31-326

本次研究目的层为馆上段6 砂组,单层平均厚度约为10 m。测井曲线采样间隔1 m 对应8 个点,为充分利用测井数据信息,滑动时窗长度不宜过大,设定滑动时窗长度为15,20,25,分别进行样本取样。同时对应不同滑动步长取样,滑动步长取值为1,2和3。

3.2.2 机器学习方法优选及参数优化

运用随机网格搜索库中的Randomized⁃SearchCV 函数调参工具,对随机森林、SVM 和XG⁃Boost 等3 种常用的二分类机器学习方法进行超参数自动化寻优(表1)。

表1 3种机器学习方法的最优超参数确定Table1 Determination of optimal hyper-parameters of three machine learning algorithms

分别将不同参数循环滑动时窗提取的相同样本数据在随机森林、SVM 和XGBoost 等3 种方法中构建模型,测试数据分别代入3种模型进行验证,得到不同模型评估效果(表2)。通过对比分析,对于研究区小层智能划分场景,在滑动时窗长度为20、步长为2 的滑动时窗参数下,随机森林方法训练的模型具有最好的模型评估效果,XGBoost 方法次之,SVM 方法的分类结果最差。随机森林方法模型的准确率达到88.4%、精确率达到93.1%、召回率达到90.7%。因此本文采用随机森林方法进行模型训练,并在此基础上对小层智能划分结果进行分析。

表2 3种机器学习模型评估效果Table2 Evaluation of three machine learning models

3.3 小层智能划分结果评估

利用随机森林方法训练的模型对全区50 口验证井开展单井小层划分,统计分析馆上段6 砂组小层划分精度超过89%。以研究区验证井中的26-295 井和24-355 井为例。26-295 井小层智能划分的界面与人工分层界面基本吻合,在识别Ng上62时出现误差,主要原因为Ng上62底部和Ng上63顶部发育一套泥岩,敏感测井曲线在识别泥岩特征时存在多解性;
专家在进行层位对比过程中,对于厚泥岩层段的地层划分也同样存在多解性,往往需要综合考虑多种地质因素,因此为提高地层划分精度,需要适当增加约束条件,从而扩充特征参数的维度(图6a)。24-355 井整体小层智能划分结果与人工分层的解释结论吻合度较好,可有效划分出馆上段6砂组各小层(图6b)。

图6 26-295井和24-355井人工分层与随机森林方法分层结果对比Fig.6 Stratification results comparison between artificial method and random forest method for Well 26-295 and Well 24-355

多维测井曲线组合具有较强的干扰性,为了有效提高小层智能划分的准确性和效率,需对测井曲线进行重要性分析,确定研究区小层智能划分模型的敏感测井曲线。地层信息与对应深度相邻测井数据相关,提出了一种循环滑动时窗提取样本数据的方法,有效解决样本分布不均和取样多解性的问题。通过优选滑动时窗参数,相比SVM 和XGBoost方法,随机森林方法构建的模型在滑动时窗长度为20、步长为2时表现出最优的测试效果,对孤东七区西50 口井馆上段6 砂组小层智能划分的准确率达88.4%,具有较高的精度和较强的适应性。对于大套厚泥岩发育的地层,小层智能划分结果与专家经验分层结果存在一定差异,下步考虑增加相应地质因素,有效扩充特征维度,以提高预测精度。

符号解释

猜你喜欢 测井滑动曲线 本期广告索引测井技术(2022年3期)2022-11-25未来访谈:出版的第二增长曲线在哪里?出版人(2022年8期)2022-08-23资源勘查工程专业《地球物理测井与解释》课程的教学改革科技创新导报(2020年19期)2020-09-26幸福曲线英语文摘(2020年6期)2020-09-21我国测井评价技术应用中常见地质问题分析石油研究(2020年3期)2020-07-10一种动态足球射门训练器科技资讯(2016年18期)2016-11-15梦寐以求的S曲线Coco薇(2015年10期)2015-10-19关于滑动变阻器的规格问题学生之友·最作文(2014年5期)2014-07-09曲线的华丽赞美诗时尚内衣(2013年4期)2013-06-18自然电位测井曲线干扰问题分析科技致富向导(2013年3期)2013-04-15

Tags: 滑动   划分   循环  

搜索
网站分类
标签列表