CN115936158A

CN115936158A - 一种基于集成学习的人口空间化方法及系统

Info

Publication number: CN115936158A
Application number: CN202210871258.3A
Authority: CN
Inventors: 包文轩; 宫阿都; 赵怡然; 陈帅强; 巴婉如
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2022-07-23
Filing date: 2022-07-23
Publication date: 2023-04-07

Abstract

本发明提供了一种基于集成学习的人口空间化方法及系统，涉及人口空间化技术领域，包括：将待研究区域进行栅格化处理，确定每个待研究栅格的社会经济特征和自然环境特征；将每个待研究栅格的特征数据输入到人口密度预测模型中，得到每个待研究栅格的预测人口密度进而完成人口空间化；人口密度预测模型是利用集成算法对GBDT模型、XGBoost模型、LightGBM模型和支持向量机模型进行集成得到的；根据多个待研究栅格的预测人口密度，构建待研究区域的人口空间分布图。本发明基于集成学习构建人口密度预测模型，并基于社会经济数据和自然环境数据与人口普查数据完成人口空间化，提高人口空间化的精度。

Description

一种基于集成学习的人口空间化方法及系统

技术领域

本发明涉及人口空间化技术领域，特别是涉及一种基于集成学习的人口空间化方法及系统。

背景技术

分解人口普查数据以生成网格化人口密度数据集的过程被称为人口空间化。人口空间化反映人口的空间分布，对公共卫生、城市发展规划和灾害评估管理具有重要意义。人口空间化研究方法主要有：(1)空间插值法；空间插值法(比如面积加权插值法)多用于早期人口空间化研究，对于数据尺度转换较为容易，但难以考虑一个区域内多种影响因素对人口分布的影响。(2)统计模型法；统计模型通过建立回归模型，综合考虑多种影响因素对人口分布的影响，但很难解释人口的各种空间分布影响因素与人口密度的非线性关系。(3)机器学习模型法；其中最广泛使用的随机森林模型生成的网格化人口密度数据集达到了很高的精度。机器学习模型在人口空间化方法上取得了重大进展，能够分析人口空间化过程中各种人口空间分布影响因素与人口密度之间的非线性关系。然而，出于对人口空间化的科学考虑，生成的网格化人口密度数据集的准确性是非常重要的。尽管随机森林模型有效地承担了人口空间化的过程，但由于单个模型对变量特征的理解有限，模型的准确性仍有很大的提升空间。

发明内容

本发明的目的是提供一种基于集成学习的人口空间化方法及系统，能够基于社会经济数据和自然环境数据与人口普查数据完成人口空间化，提高人口空间化的精度。

为实现上述目的，本发明提供了如下方案：

一种基于集成学习的人口空间化方法，包括：

将待研究区域进行栅格化处理，得到多个待研究栅格；

确定每个待研究栅格的特征数据；所述特征数据包括：社会经济特征和自然环境特征；

将每个待研究栅格的特征数据输入到人口密度预测模型中，得到每个待研究栅格的预测人口密度；所述人口密度预测模型是利用历史研究区域的人口数据和特征数据，对初始人口密度预测模型进行训练得到的；所述初始人口密度预测模型是利用集成算法对GBDT模型、XGBoost模型、LightGBM模型和支持向量机模型进行集成得到的；

根据多个待研究栅格的预测人口密度，构建待研究区域的人口空间分布图。

可选的，在所述将所述待研究区域进行栅格化处理，得到多个待研究栅格之前，还包括：

将历史研究区域进行栅格化处理，得到多个历史栅格；

确定历史研究区域中每个历史栅格的特征数据；

获取历史研究区域中多个子区域的面积和人口数量；

根据多个子区域的面积和人口数量，确定每个子区域的平均人口密度；

将历史研究区域中历史栅格所在子区域的平均人口密度确定为历史栅格期望人口密度；

以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对初始人口密度预测模型进行训练，得到人口密度预测模型。

可选的，所述以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对初始人口密度预测模型进行训练，得到人口密度预测模型，包括：

以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对 GBDT模型进行训练，得到第一模型；

以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对 XGBoost模型进行训练，得到第二模型；

以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对 LightGBM模型进行训练，得到第三模型；

将历史研究区域中每个历史栅格的特征数据输入到第一模型中，得到每个历史栅格的第一预测结果；

将历史研究区域中每个历史栅格的特征数据输入到第二模型中，得到每个历史栅格的第二预测结果；

将历史研究区域中每个历史栅格的特征数据输入到第三模型中，得到每个历史栅格的第三预测结果；

连接同一历史栅格的第一预测结果、第二预测结果和第三预测结果作为历史栅格中间特征；

以多个历史栅格中间特征为输入，以历史栅格期望人口密度为输出，对支持向量机模型进行训练，得到第四模型；

以第一模型、第二模型和第三模型维基模型，以第四模型为元模型，构建人口密度预测模型。

可选的，所述将每个待研究栅格的特征数据输入到人口密度预测模型中，得到每个待研究栅格的预测人口密度，包括：

将每个待研究栅格的特征数据输入到第一模型中，得到每个待研究栅格的第四预测结果；

将每个待研究栅格的特征数据输入到第二模型中，得到每个待研究栅格的第五预测结果；

将每个待研究栅格的特征数据输入到第三模型中，得到每个待研究栅格的第六预测结果；

连接同一待研究栅格的第四预测结果、第五预测结果和第六预测结果作为待研究栅格中间特征；

将多个待研究栅格中间特征输入到第四模型中，得到每个待研究栅格的预测人口密度。

一种基于集成学习的人口空间化系统，包括：

第一栅格化处理模块，用于将待研究区域进行栅格化处理，得到多个待研究栅格；

第一特征数据确定模块，用于确定每个待研究栅格的特征数据；所述特征数据包括：社会经济特征和自然环境特征；

预测人口密度确定模块，用于将每个待研究栅格的特征数据输入到人口密度预测模型中，得到每个待研究栅格的预测人口密度；所述人口密度预测模型是利用历史研究区域的人口数据和特征数据，对初始人口密度预测模型进行训练得到的；所述初始人口密度预测模型是利用集成算法对GBDT模型、 XGBoost模型、LightGBM模型和支持向量机模型进行集成得到的；

人口空间分布图构建模块，用于根据多个待研究栅格的预测人口密度，构建待研究区域的人口空间分布图。

可选的，所述系统还包括：

第二栅格化处理模块，用于将历史研究区域进行栅格化处理，得到多个历史栅格；

第二特征数据确定模块，用于确定历史研究区域中每个历史栅格的特征数据；

子区域数据获取模块，用于获取历史研究区域中多个子区域的面积和人口数量；

平均人口密度确定模块，用于根据多个子区域的面积和人口数量，确定每个子区域的平均人口密度；

历史栅格期望人口密度确定模块，用于将历史研究区域中历史栅格所在子区域的平均人口密度确定为历史栅格期望人口密度；

人口密度预测模型确定模块，用于以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对初始人口密度预测模型进行训练，得到人口密度预测模型。

可选的，所述人口密度预测模型确定模块包括：

第一模型训练单元，用于以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对GBDT模型进行训练，得到第一模型；

第二模型训练单元，用于以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对XGBoost模型进行训练，得到第二模型；

第三模型训练单元，用于以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对LightGBM模型进行训练，得到第三模型；

第一预测结果确定单元，用于将历史研究区域中每个历史栅格的特征数据输入到第一模型中，得到每个历史栅格的第一预测结果；

第二预测结果确定单元，用于将历史研究区域中每个历史栅格的特征数据输入到第二模型中，得到每个历史栅格的第二预测结果；

第三预测结果确定单元，用于将历史研究区域中每个历史栅格的特征数据输入到第三模型中，得到每个历史栅格的第三预测结果；

历史栅格中间特征确定单元，用于连接同一历史栅格的第一预测结果、第二预测结果和第三预测结果作为历史栅格中间特征；

第四模型训练单元，用于以多个历史栅格中间特征为输入，以历史栅格期望人口密度为输出，对支持向量机模型进行训练，得到第四模型；

人口密度预测模型构建单元，用于以第一模型、第二模型和第三模型维基模型，以第四模型为元模型，构建人口密度预测模型。

可选的，所述预测人口密度确定模块包括：

第四预测结果确定单元，用于将每个待研究栅格的特征数据输入到第一模型中，得到每个待研究栅格的第四预测结果；

第五预测结果确定单元，用于将每个待研究栅格的特征数据输入到第二模型中，得到每个待研究栅格的第五预测结果；

第六预测结果确定单元，用于将每个待研究栅格的特征数据输入到第三模型中，得到每个待研究栅格的第六预测结果；

待研究栅格中间特征确定单元，用于连接同一待研究栅格的第四预测结果、第五预测结果和第六预测结果作为待研究栅格中间特征；

预测人口密度确定单元，用于将多个待研究栅格中间特征输入到第四模型中，得到每个待研究栅格的预测人口密度。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于集成学习的人口空间化方法及系统，包括：将待研究区域进行栅格化处理，得到多个待研究栅格；确定每个待研究栅格的特征数据；特征数据包括：社会经济特征和自然环境特征；将每个待研究栅格的特征数据输入到人口密度预测模型中，得到每个待研究栅格的预测人口密度；人口密度预测模型是利用历史研究区域的人口数据和特征数据，对初始人口密度预测模型进行训练得到的；初始人口密度预测模型是利用集成算法对GBDT模型、XGBoost模型、LightGBM模型和支持向量机模型进行集成得到的；根据多个待研究栅格的预测人口密度，构建待研究区域的人口空间分布图。本发明基于集成学习构建人口密度预测模型，并基于社会经济数据和自然环境数据与人口普查数据完成人口空间化，提高人口空间化的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于集成学习的人口空间化方法流程图；

图2为本发明实施例中人口空间化方法工作框架流程图；

图3为本发明实施例中人口密度预测模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例

如图1所示，本发明提供了一种基于集成学习的人口空间化方法，包括：

步骤101：将待研究区域进行栅格化处理，得到多个待研究栅格。

步骤102：确定每个待研究栅格的特征数据；特征数据包括：社会经济特征和自然环境特征。

步骤103：将每个待研究栅格的特征数据输入到人口密度预测模型中，得到每个待研究栅格的预测人口密度；人口密度预测模型是利用历史研究区域的人口数据和特征数据，对初始人口密度预测模型进行训练得到的；初始人口密度预测模型是利用集成算法对GBDT模型(梯度提升决策树模型，Gradient boosting decisiontree)、XGBoost模型(极端梯度提升模型，Extreme gradient boosting)、LightGBM模型(光梯度提升机，Lightgradientboosting machine) 和支持向量机模型(Supportvectormachines，SVM)进行集成得到的。

步骤103包括：

步骤1031：将每个待研究栅格的特征数据输入到第一模型中，得到每个待研究栅格的第四预测结果。

步骤1032：将每个待研究栅格的特征数据输入到第二模型中，得到每个待研究栅格的第五预测结果。

步骤1033：将每个待研究栅格的特征数据输入到第三模型中，得到每个待研究栅格的第六预测结果。

步骤1034：连接同一待研究栅格的第四预测结果、第五预测结果和第六预测结果作为待研究栅格中间特征。

步骤1035：将多个待研究栅格中间特征输入到第四模型中，得到每个待研究栅格的预测人口密度。

步骤104：根据多个待研究栅格的预测人口密度，构建待研究区域的人口空间分布图。

此外，本发明提供的一种基于集成学习的人口空间化方法，在步骤101 之前，还包括：

步骤105：将历史研究区域进行栅格化处理，得到多个历史栅格。

步骤106：确定历史研究区域中每个历史栅格的特征数据。

步骤107：获取历史研究区域中多个子区域的面积和人口数量。

步骤108：根据多个子区域的面积和人口数量，确定每个子区域的平均人口密度。

步骤109：将历史研究区域中历史栅格所在子区域的平均人口密度确定为历史栅格期望人口密度。

步骤1010：以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对初始人口密度预测模型进行训练，得到人口密度预测模型。

步骤1010，包括：

步骤10101：以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对GBDT模型进行训练，得到第一模型。

步骤10102：以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对XGBoost模型进行训练，得到第二模型。

步骤10103：以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对LightGBM模型进行训练，得到第三模型。

步骤10104：将历史研究区域中每个历史栅格的特征数据输入到第一模型中，得到每个历史栅格的第一预测结果。

步骤10105：将历史研究区域中每个历史栅格的特征数据输入到第二模型中，得到每个历史栅格的第二预测结果。

步骤10106：将历史研究区域中每个历史栅格的特征数据输入到第三模型中，得到每个历史栅格的第三预测结果。

步骤10107：连接同一历史栅格的第一预测结果、第二预测结果和第三预测结果作为历史栅格中间特征。

步骤10108：以多个历史栅格中间特征为输入，以历史栅格期望人口密度为输出，对支持向量机模型进行训练，得到第四模型。

步骤10109：以第一模型、第二模型和第三模型维基模型，以第四模型为元模型，构建人口密度预测模型。

下面以北京为例，对本发明进行具体说明。

北京位于华北平原的北部，其地势西北高，东南低。它在西部、北部和东北部被山脉包围。东南部分是平原，其中心位于东经116°20′和北纬39° 56′。截至2020年，该市有16个区和337个乡镇级行政单位，总面积为16410 平方公里。这种高密度的人口分布对城市人口管理、公共卫生安全和城市规划是一个持久的挑战。北京相对复杂的自然环境和复杂的人口空间分布使其成为研究人口空间化的理想地区。

1数据及预处理

使用的主要数据类别是社会经济数据、自然环境数据和人口数据。表1 列出了本实施例中使用的11类数据。本实施中对这些数据集的检索和预处理说明如下。

表1本研究中使用的数据集和来源列表

1.1行政边界和人口普查数据

乡镇级的行政边界图来自中国测绘地理信息局。人口普查数据以乡镇为单位，共有337个单元。乡镇级的人口普查数据被用来拟合模型。虽然这两个数据都是2020年的数据，但由于发布时间不一致，加上北京市政府在此期间对乡镇级的行政区划进行了调整，导致这两类数据在某些地方匹配不上。因此，本发明通过数据的修改和核对，确保了人口普查人口与相应的行政区划图一致。

1.2遥感数据集

夜间灯光(Night time light，NTL)数据已被证明与人口的空间分布有很大的相关性。近几十年来，大多数学者使用DMSP-OLS夜间灯光数据来评估区域和全球范围内的城市面积和人口空间分布情况。对于城市尺度来说， DMSP-OLS数据的空间分辨率太低，并且由于饱和效应，城市人口被严重低估，所以其对人口空间化的效果并不理想。因此，选择2020年的年平均 NPP-VIIRS夜间灯光数据，这些数据来自于地球观测组织(可从https:// eogdata.mines.edu/products/vnl/获得)，不仅具有较高的空间分辨率，而且消除了太阳光、月光、云层和异常像元值的影响。使用最近邻方法将NTL 图像重新采样到100米的空间分辨率，以避免在重新采样过程中更改任何像元值。

空间分辨率为30米的人工不透水面(Impervious surface，IS)数据来源于中国遥感科学国家重点实验室(https://doi.org/10.5281/zenodo.5220816)，该数据集在世界五大不透水面数据集中具有最高的准确性。首先，将数据集的每个像元重新分类为0或1(0表示透水面，1表示2020年的不透水面)。然后，在 ArcGIS10.6中创建一个覆盖整个北京的100×100m像元大小的空属性渔网。通过渔网与重分类的数据集进行相交运算，计算出渔网中每个单元不透水面的总面积。最后使用具有不透水面积信息的渔网来生成空间分辨率为100米的栅格图层。

具有30米空间分辨率的数字高程模型(DEM)源自美国国家航空航天局 (NASA)，可从https://earthdata.nasa.gov/获得。30米空间分辨率DEM数据采用双线性插值法重采样至100米，重采样后的DEM数据用于生成高程和坡度数据集。

1.3兴趣点数据

兴趣点(Point of interest，POI)数据来源于高德地图，使用高德地图的应用程序接口，获得2020年北京的1349421条POI记录。高德地图根据中文语义短语将这些POI数据分为23类。由于事件活动类别只有18条记录，并且与本发明研究内容无关，所以将其删除。表2显示了22个类别和每个类别的POI 的数量。

本发明中所有POI类别均生成最近POI的距离(Distance to nearestPOI， DtN-POI)和POI-Density(兴趣点密度)的两个栅格层。在ArcGIS10.6中创建一个覆盖整个北京的100×100米单元大小的空属性鱼网。每一个单元都以该单元中心到最近的一类POI的欧几里得距离为值，得到22个DtN-POI栅格图层。

本发明采用核密度估计(Kernel density estimation，KDE)将22个POI类别中的每个单一的POI转换成连续和平滑的密度表面。密度表面以栅格层的形式输出，空间分辨率为100米。带宽是KDE方法的一个重要参数。由于每个POI 类别的数量和空间分布不同，使用公式(1)计算带宽可以修正空间异常值，使生成的栅格层更加符合真实情况。

其中，SD是标准距离，D_m是中位数距离，n是点的数量。

表2 POI数据的种类和数量表

1.4建筑物轮廓数据

建筑轮廓数据来源于百度地图。首先，在ArcGIS10.6中创建一个覆盖整个北京的100×100m像元大小的空属性渔网。然后，在渔网和建筑物轮廓数据之间进行相交运算。由于建筑物轮廓数据具有面积和高度信息，因此可以计算出渔网中每个单元的建筑物体积。最后，本发明使用带有建筑体积信息的渔网来生成空间分辨率为100米的栅格图层。

1.5路网和河网数据

路网数据来源于高德地图，包括乡道、县道、省道、国道、铁路、地铁、高速公路、城市一级公路、城市二级公路、城市三级公路和城市四级公路。河网数据来源于中国科学院资源与环境科学与数据中心(网址为：https://www.resdc.cn/)。使用与生成DtN-POI栅格图层相同的方法，本发明为 11种道路类别生成了总共11个道路栅格图层(DtN-Road)，并为河流生成一个河流栅格图层(DtN-River)。

1.6社区户籍数据

社区户籍数据来源于民政部信息中心。全北京共有3485个社区，这些社区根据人口密度分布于北京各地，是最高分辨率的验证数据，并且由于社区的规模和尺度非常小，因此本发明假设社区内的人口分布是均匀的。这些数据包括每个乡镇级行政单位中所有社区对应的户数和面积，以及社区委员会的详细地址。因此，本发明将人口普查数据除以相应乡镇级行政单位的总户数，计算出每户的平均人口数，然后计算出社区的总人口数。然后，本发明用总人口数除以每个社区的面积(公顷)，计算出平均人口密度。最后，本发明通过百度坐标拾取系统获得每个社区委员会所在地的经纬度坐标。但是，该坐标使用的是百度坐标系，所以本发明通过转换参数将所有站点的坐标转换为WGS84坐标系(World GeodeticSystem 1984)。基于上述假设，本发明对社区委员会坐标所对应的网格化人口密度数据集单元进行像元级验证，以证明人口空间分布的准确性。

1.7WorldPop中国陆地数据集

2020年WorldPop(世界人口)中国陆地数据集来源于WorldPop项目网站(https://www.worldpop.org/)。该数据集是一个相对较新的网格化人口密度数据集，具有100m的最佳空间分辨率和最佳精度。本发明将GXLS-Stacking模型生成的网格化人口密度图与WorldPop数据集进行了比较，以证明 GXLS-Stacking模型(即人口密度预测模型，其中“G”代表GBDT，“X”代表XGBoost，“L”代表LightGBM，“S”代表SVR。)和本发明特征工程的优越性。为保证空间位置相同和区域信息的正确性，所有提到的数据都重新投影到WGS-1984-UTM-Zone-50N坐标系。

2人口空间化方法

2.1整体框架

众多的因素影响着人口的空间分布。为了更全面地分析人口的空间分布，本发明不仅考虑了自然环境因素的影响，还考虑了能更好地刻画人口空间分布的社会经济因素的影响。如前所述，本发明生成了六类社会经济特征和三类自然环境特征。这些特征共同影响着人口的空间分布。由于这些因素相互作用，难以分开，它们与人口密度的关系变得复杂而非线性。

机器学习模型可以解决复杂的非线性问题，其中随机森林模型在人口空间化研究中得到了广泛应用，并表现出较高的准确性。然而，由于人口空间化问题的复杂性，预测人口密度成为一个非常困难的回归问题。虽然随机森林模型可以很好地完成回归任务，但一个好的回归模型并不能达到全方位的超越其他模型。此外，由于单一模型对变量特征的理解有限，随机森林模型的准确性仍有很大的提升空间。在这种情况下，合理的做法是保留所有优秀回归模型的结果，然后通过集成它们来创建最终模型。集成学习算法stacking使集成模型能够通过整合异质模型获得更好的性能。本发明旨在综合以上多种特征，通过stacking集成GBDT、XGBoost、LightGBM和SVR，构建一种人口空间化模型 GXLS-Stacking，并生成北京2020年100米空间分辨率的网格化人口密度图。将在以下章节描述算法和模型架构。

首先，在训练阶段，上述九类特征共有61个空间分辨率为100m的栅格层 (22个POI-Density栅格层，22个DtN-POI栅格层，11个DtN-Road栅格层，1个 Building Volume栅格图层，1个IS Area栅格图层，1个夜光亮度栅格图层 (Brightness ofNTL)，1个海拔栅格图层(Elevation)，1个DtN-River栅格图层，1个斜度栅格图层(Slope))作为自变量，人口普查人口作为因变量以拟合GXLS-Stacking模型(包括拟合后的GBDT模型、XGBoost模型、LightGBM 模型和SVR模型)。由于这些模型的性能可能会因训练集和测试集的划分而产生偏差，因此本发明使用十倍交叉验证技术来评估模型并调整每个模型的超参数。然后，在预测阶段，将61个栅格图层导入经过训练得到的最佳模型，以预测分布权重并生成2020年北京最终的dasymetric人口密度图。最后，本发明使用最高空间分辨率的验证数据(即社区户籍数据)在像元级别进行验证，证明本发明的集成模型GXLS-Stacking不仅优于四个单一模型，而且优于随机森林模型。本发明还通过比较具有最高空间分辨率和最佳精度的WorldPop中国陆地数据集，以证明GXLS-Stacking模型和本发明的特征工程的优越性。所提出框架的流程图如图2所示。

2.2人口空间化模型

2.2.1堆叠泛化

Stacking是一种分层集成学习算法，引入了元学习的概念，代表了一个渐近最优的学习系统，旨在通过减少泛化器的偏差来最小化泛化错误。当使用堆叠进行模型融合时，预测结果的改进是显而易见的。这是因为具有不同泛化原则的模型往往会产生不同的结果。通过引入遵循不同学习策略的模型，可以在建模过程中包含多样性。Stacking的多样性是通过在相同的训练集上使用异质模型来实现的。因此，Stacking与单个模型相比，具有更好的泛化能力、更好的非线性模式建模以及更好的识别回归变量的重要性。

各种人口空间分布影响因素与人口密度之间存在复杂的非线性关系。单一模型很难完全拟合这种非线性关系。因此，将性能优异的单一模型集成起来，充分发挥所有模型的特点，不仅可以使集成模型更加多样化，而且有助于更好地理解变量特征，提高集成模型的泛化能力，最终得到更加准确的人口空间化结果。基于上述理论，本发明通过集成学习算法stacking整合的模型了不仅在十折交叉验证中表现良好，能够以高精度预测人口的空间分布。

2.2.2基模型和元模型

stacking是一种分层集成学习算法，表达了基模型和元模型的概念。基模型和元模型的选择非常重要，直接关系到最终人口空间化结果的准确性。经过多次实验，选择GBDT、XGBoost和LightGBM作为第一层的基模型，因为基模型准而不同，在训练阶段具有较高的准确率，并遵循不同的学习策略，以便将多样性包含在建模过程中。选择相对简单但高度准确的SVR模型作为第二层的元模型以避免过拟合。

2.2.3整体模型架构

本发明中的GXLS-Stacking模型架构如图3所示，使用了两层的集成学习算法Stacking。其中GBDT模型、XGBoost模型和LightGBM模型是第一层的基模型，SVR模型是第二层的元模型。GXLS-Stacking模型的训练和测试过程如下。首先，对第一层中的每个基模型在训练集上进行五折交叉验证，并为每次交叉验证计算测试集上的预测值。第二层将训练集摄入每种基模型(包括五个类别相同的模型Model1-Model5)的5个预测值(Predictions)分别拼接在一起，即原始训练集的预测值，将GBDT、XGBoost和LightGBM三个基模型拼接后的预测值合并在一起作为第二层的输入值(New Feature)。训练集的真实值作为目标值来训练元模型SVR。然后，将三个基模型在测试集上预测值的平均值结合起来，输入到SVR模型中，最终得到GXLS-Stacking模型在测试集上的测试结果。图3中，Predict为验证集；Learn为训练集。

2.3随机森林模型作为对比

准确度评估是对模型精度的验证，是构建模型的重要步骤。本发明从民政部信息中心获得社区户籍数据，该数据可以被认为是最高分辨率的验证数据。为了全面评估模型的准确性，本发明使用这些数据对生成的网格化人口密度图在像元级别进行验证。本发明采用了三种广泛用于人口空间化的性能指标，包括决定系数(R²)、平均绝对误差(MAE)和均方根误差(RMSE)。用于计算这些指标的方程式如下：

其中，y_i是真值，

是预测值，

是真值的平均值，n是样本点的总数， i＝1,2,...,n。

3 Dasymetric人口绘图

Dasymetric映射，也称为dasymetric建模，是一种区域插值，基于辅助数据将粗分辨率变量(例如人口)分解为更精细的分辨率。Dasymetric人口制图历史悠久，并且由于地理信息系统和卫星遥感的快速发展，这种方法变得越来越流行。其关键思想是生成一个网格化权重层，并假设人口的空间分布和空间单元内的权重层相同，然后在此基础上对人口普查人口进行分解，本发明通过网格搜索法和十折交叉验证技术获得了六个最优模型(即GXLS-Stacking、 GBDT、XGBoost、LightGBM、SVR和RF(随机森林模型))。然后，将上述61个栅格图层定位到最优模型，预测每公顷网格区域的人口分布权重，并生成6个100米空间分辨率分布权重层。使用分布权重层将乡镇级行政单位的人口普查人口分解为像元。最后，使用公式(5)制作北京的dasymetric人口密度图。

其中，W_gird是1公顷网格区域的人口分布权重，W_township是乡镇级行政单位内所有网格的人口分布权重之和，POP_township是乡镇级行政单元的人口普查人口，POP_grid是每个网格区域的预测人口数。

此外，本发明还提供了一种基于集成学习的人口空间化系统，包括：

第一栅格化处理模块，用于将待研究区域进行栅格化处理，得到多个待研究栅格。

第一特征数据确定模块，用于确定每个待研究栅格的特征数据；特征数据包括：社会经济特征和自然环境特征。

预测人口密度确定模块，用于将每个待研究栅格的特征数据输入到人口密度预测模型中，得到每个待研究栅格的预测人口密度；人口密度预测模型是利用历史研究区域的人口数据和特征数据，对初始人口密度预测模型进行训练得到的；初始人口密度预测模型是利用集成算法对GBDT模型、XGBoost模型、 LightGBM模型和支持向量机模型进行集成得到的。

第二栅格化处理模块，用于将历史研究区域进行栅格化处理，得到多个历史栅格。

第二特征数据确定模块，用于确定历史研究区域中每个历史栅格的特征数据。

子区域数据获取模块，用于获取历史研究区域中多个子区域的面积和人口数量。

平均人口密度确定模块，用于根据多个子区域的面积和人口数量，确定每个子区域的平均人口密度。

历史栅格期望人口密度确定模块，用于将历史研究区域中历史栅格所在子区域的平均人口密度确定为历史栅格期望人口密度。

其中，人口密度预测模型确定模块包括：

第一模型训练单元，用于以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对GBDT模型进行训练，得到第一模型。

第二模型训练单元，用于以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对XGBoost模型进行训练，得到第二模型。

第三模型训练单元，用于以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对LightGBM模型进行训练，得到第三模型。

第一预测结果确定单元，用于将历史研究区域中每个历史栅格的特征数据输入到第一模型中，得到每个历史栅格的第一预测结果。

第二预测结果确定单元，用于将历史研究区域中每个历史栅格的特征数据输入到第二模型中，得到每个历史栅格的第二预测结果。

第三预测结果确定单元，用于将历史研究区域中每个历史栅格的特征数据输入到第三模型中，得到每个历史栅格的第三预测结果。

历史栅格中间特征确定单元，用于连接同一历史栅格的第一预测结果、第二预测结果和第三预测结果作为历史栅格中间特征。

第四模型训练单元，用于以多个历史栅格中间特征为输入，以历史栅格期望人口密度为输出，对支持向量机模型进行训练，得到第四模型。

此外，预测人口密度确定模块包括：

第四预测结果确定单元，用于将每个待研究栅格的特征数据输入到第一模型中，得到每个待研究栅格的第四预测结果。

第五预测结果确定单元，用于将每个待研究栅格的特征数据输入到第二模型中，得到每个待研究栅格的第五预测结果。

第六预测结果确定单元，用于将每个待研究栅格的特征数据输入到第三模型中，得到每个待研究栅格的第六预测结果。

待研究栅格中间特征确定单元，用于连接同一待研究栅格的第四预测结果、第五预测结果和第六预测结果作为待研究栅格中间特征。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于集成学习的人口空间化方法，其特征在于，包括：

将待研究区域进行栅格化处理，得到多个待研究栅格；

2.根据权利要求1所述的一种基于集成学习的人口空间化方法，其特征在于，在所述将所述待研究区域进行栅格化处理，得到多个待研究栅格之前，还包括：

将历史研究区域进行栅格化处理，得到多个历史栅格；

确定历史研究区域中每个历史栅格的特征数据；

获取历史研究区域中多个子区域的面积和人口数量；

3.根据权利要求2所述的一种基于集成学习的人口空间化方法，其特征在于，所述以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对初始人口密度预测模型进行训练，得到人口密度预测模型，包括：

以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对GBDT模型进行训练，得到第一模型；

以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对XGBoost模型进行训练，得到第二模型；

以历史栅格的特征数据为输入，以历史栅格期望人口密度为输出，对LightGBM模型进行训练，得到第三模型；

4.根据权利要求3所述的一种基于集成学习的人口空间化方法，其特征在于，所述将每个待研究栅格的特征数据输入到人口密度预测模型中，得到每个待研究栅格的预测人口密度，包括：

5.一种基于集成学习的人口空间化系统，其特征在于，包括：

预测人口密度确定模块，用于将每个待研究栅格的特征数据输入到人口密度预测模型中，得到每个待研究栅格的预测人口密度；所述人口密度预测模型是利用历史研究区域的人口数据和特征数据，对初始人口密度预测模型进行训练得到的；所述初始人口密度预测模型是利用集成算法对GBDT模型、XGBoost模型、LightGBM模型和支持向量机模型进行集成得到的；

6.根据权利要求5所述的一种基于集成学习的人口空间化系统，其特征在于，所述系统还包括：

7.根据权利要求6所述的一种基于集成学习的人口空间化系统，其特征在于，所述人口密度预测模型确定模块包括：

8.根据权利要求7所述的一种基于集成学习的人口空间化系统，其特征在于，所述预测人口密度确定模块包括：