CN118611728A - 基于深度强化学习的低轨巨型星座卫星切换方法及装置 - Google Patents
基于深度强化学习的低轨巨型星座卫星切换方法及装置 Download PDFInfo
- Publication number
- CN118611728A CN118611728A CN202410686124.3A CN202410686124A CN118611728A CN 118611728 A CN118611728 A CN 118611728A CN 202410686124 A CN202410686124 A CN 202410686124A CN 118611728 A CN118611728 A CN 118611728A
- Authority
- CN
- China
- Prior art keywords
- satellite
- user terminal
- orbit
- neural network
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18513—Transmission in a satellite or space-based system
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
- H04B17/3913—Predictive models, e.g. based on neural network models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Electromagnetism (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的低轨巨型星座卫星切换方法及装置,该方法包括:获取用户终端可视范围内的卫星信息;确定包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息;将状态信息输入第一神经网络模型,得到模型输出的状态‑动作价值函数,模型采用深度强化学习算法进行训练,动作定义为用户终端选择的卫星,动作奖励函数定义为根据可用信道容量、剩余服务时间和最小跳数构建的效用函数;选取最大的状态‑动作价值函数对应的卫星作为接入卫星进行切换。本发明能够在保证较低的切换次数同时显著降低星间链路跳数水平,以保持较低的网络时延。
Description
技术领域
本发明涉及卫星通信技术领域,尤其涉及一种基于深度强化学习的低轨巨型星座卫星切换方法及装置。
背景技术
参考图1,低轨巨型星座网络主要由空间段、地面段和用户段三部分组成。空间段由千颗以上的低轨卫星和星间链路组成,形成空间传输的主干网络。地面段由信关站(Ground station)、综合运控管理系统和地面骨干网(backbone)组成。用户段包括各类用户终端(U1,U2,U3)、综合信息服务平台和业务支撑系统。其中,与用户终端建立连接的卫星称为接入卫星,用户终端与接入卫星之间建立的星地链路称为用户链路;与信关站建立连接的卫星称为网关卫星,信关站与网关卫星之间建立的星地链路称为馈电链路。用户终端的数据发送至卫星后经星间链路转发,通过馈电链路下传至信关站,由信关站接入地面骨干网完成宽带通信。低轨巨型星座一般采用Walker星座,在Walker星座中,所有卫星均采用圆轨道,所有卫星具有相同的轨道高度、倾角和轨道周期,Walker星座包括的多个轨道面沿赤道面均匀分布,轨道面间升交点赤经差恒定,每个轨道面上均匀分布有多个卫星,每个卫星可与前后左右相邻的四个卫星建立星间链路,具体包括两条同轨星间链路和两条异轨星间链路。Walker星座又具体包含Walker-delta星座与Walker-star星座两类,其区别在于前者一般采用倾斜轨道,后者一般采用近极轨道。在采用Walker-Delta构型的倾斜低轨巨型星座中,卫星的网络拓扑构型不变,星间链路可以保持稳定的连接,按照卫星在某一时刻的运行方向,分别将飞行过程中星下点纬度递增和递减的卫星分别称之为升轨道(Ascending,A)卫星和降轨道(Descending,D)卫星,如附图1所示的具有朝上箭头的轨道上的卫星为升轨道卫星,具有朝下箭头的轨道上的卫星为降轨道卫星。
由于低轨巨型星座的密集覆盖性和高动态性,同一时刻覆盖用户终端的卫星数目有很多,但是覆盖时间很短,为保证用户终端与卫星之间的连续通信,用户终端与卫星之间的星地链路需要不断地在用户终端的可视卫星中进行切换,从而保持稳定的网络连接。
目前,用户终端在进行接入卫星切换时主要以剩余服务时间、卫星仰角和可用空闲信道资源三个指标作为切换因子。其中,剩余服务时间指的是用户终端与卫星的可视时间,主要影响卫星的切换次数和信令开销;卫星仰角主要影响用户终端与卫星的通信质量;可用信道资源主要影响卫星的网络负载。
基于上述三个指标,目前有采用仅考虑单一指标的方式来确定接入卫星,也有采用多种指标组合加权的方式来确定接入卫星。然而,仅考虑单一指标时,无法在切换次数、网络负载和切换成功率之间取得较好的折中效果;采用多种指标组合加权仅能够实现上述多个指标的权衡和折中,无法实现长期累积奖励最大化。并且,现有的切换方式没有考虑卫星通过星间链路将用户终端的数据包传输到信关站的端到端时延的影响,而用户终端选择不同的接入卫星会产生不同的时延,导致用户体验较差。
发明内容
为解决上述现有技术中存在的部分或全部技术问题,本发明提供一种基于深度强化学习的低轨巨型星座卫星切换方法及装置。
本发明的技术方案如下:
第一方面,提供了一种基于深度强化学习的低轨巨型星座卫星切换方法,包括:
获取用户终端可视范围内的卫星信息;
根据卫星信息确定包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息;
将状态信息输入预先训练的第一神经网络模型,得到第一神经网络模型输出的状态-动作价值函数,所述第一神经网络模型采用深度强化学习算法进行训练,动作定义为用户终端选择的卫星,训练时的动作奖励函数定义为根据用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间和卫星到设定网关卫星的最小跳数构建的效用函数;
选取最大的状态-动作价值函数对应的卫星作为接入卫星进行切换。
在一些可选的实现方式中,用户终端与卫星之间的可用信道容量利用以下公式计算:
Cm,n(t)=Blog2(1+γm,n(t));
Cm,n(t)表示t时刻第m个用户终端与第n个卫星之间的可用信道容量,B表示频谱的带宽,γm,n(t)表示t时刻第m个用户终端与第n个卫星之间的信干噪比。
在一些可选的实现方式中,信干噪比γm,n(t)利用以下公式计算:
Pt表示信号发射功率,Gt表示发射端天线增益,Gr表示接收端天线增益,Gm,n(t)表示t时刻第m个用户终端与第n个卫星之间的信道增益,Gk,n(t)表示t时刻第k个用户终端与第n个卫星之间的信道增益,M表示用户终端的数量,用于表示其他用户终端与第n个卫星相连时对第m个用户终端信道造成的影响,σ2表示高斯噪声功率。
在一些可选的实现方式中,信道增益Gm,n(t)利用以下公式计算:
Lm,n(t)表示t时刻第m个用户终端与第n个卫星之间的传输路径损耗,Am,n(t)表示t时刻第m个用户终端与第n个卫星之间的大气衰减,表示小尺度衰减;
传输路径损耗Lm,n(t)利用以下公式计算:
大气衰减Am,n(t)利用以下公式计算:
c表示光速,π表示圆周率,dm,m(t)表示t时刻第m个用户终端与第n个卫星之间的距离,fc表示信号载波频率,χ表示信号穿过云和雨的衰减,h表示卫星的轨道高度。
在一些可选的实现方式中,用户终端与卫星之间的剩余服务时间利用以下公式计算:
Trem=Tmax-(T-T0);
Trem表示用户终端与卫星之间的剩余服务时间,Tmax表示用户终端与卫星之间的最大服务时间,T表示当前时刻,T0表示卫星进入用户终端可视范围的时刻。
在一些可选的实现方式中,卫星到设定网关卫星之间的最小跳数利用以下方式计算:
确定卫星和设定网关卫星的升降轨道类型;
根据两个卫星的升降轨道类型,分别计算两个卫星的相位;
根据两个卫星的相位,分别计算两个卫星位置相对于升交点的经度差;
根据两个卫星位置相对于升交点的经度差,计算两个卫星升交点的经度差;
对两个卫星升交点的经度差进行归一化处理,以使两个卫星升交点的经度差归一化至[-π,π]范围;
根据归一化处理后的两个卫星升交点的经度差,计算异轨星间链路转发跳数;
根据异轨星间链路转发跳数,计算同轨星间链路转发相位差;
对同轨星间链路转发相位差进行归一化处理,以使同轨星间链路转发相位差归一化至[-π,π]范围;
根据归一化处理后的同轨星间链路转发相位差,计算同轨星间链路转发跳数;
根据异轨星间链路转发跳数和同轨星间链路转发跳数,得到卫星到设定网关卫星之间的最小跳数。
在一些可选的实现方式中,所述效用函数表示为:
Um,n(t)=ω1N(Cm,n(t))+ω2N(Trem)+ω3N(Hn)+ω4Rn;
Um,n(t)表示t时刻第m个用户终端与第n个卫星对应的效用函数,ω1、ω2、ω3和ω4表示权重参数,ω1+ω2+ω3+ω4=1,N(·)表示归一化函数,Hn表示第n个卫星到设定网关卫星之间的最小跳数,Rn表示第n个卫星对应的切换代价因子;
Rn定义为:
C表示正常数,且C∈(0,1]。
在一些可选的实现方式中,所述第一神经网络模型通过以下方式训练:
步骤S301,构建第一神经网络模型和第二神经网络模型,初始化第一神经网络模型和第二神经网络模型的参数、经验池容量和折扣因子,第一神经网络模型和第二神经网络模型具有相同的结构且初始化参数相同;
步骤S302,根据用户终端和低轨巨型星座的状态信息,计算初始时刻用户终端对应的包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息,并将初始时刻作为当前时刻;
步骤S303,基于当前时刻的状态信息,采用ε-greedy策略选择并执行动作,得到对应的动作奖励和下一时刻的状态;
步骤S304,将当前时刻和下一时刻的状态、当前时刻的动作和动作奖励作为一个状态转移序列存入经验池中,其中,若经验池中存储的状态转移序列数量达到经验池容量,从经验池中随机抽取多个状态转移序列,根据多个状态转移序列、第二神经网络模型和预设的损失函数,利用梯度下降法更新第一神经网络模型的参数;
步骤S305,若当前时刻不为终止时刻,则将下一时刻作为当前时刻,并返回步骤S303继续执行,若当前时刻为终止时刻,则重新执行步骤S302-S305;
其中,每执行预设次数的步骤S302-S305后,将第一神经网络模型的当前参数作为第二神经网络模型的参数以更新第二神经网络模型的参数;
其中,当步骤S302-S305的循环执行次数达到设定循环次数时,完成训练。
在一些可选的实现方式中,所述选取最大的状态-动作价值函数对应的卫星作为接入卫星进行切换,进一步包括:
向选取的接入卫星发送切换请求,以使接入卫星进行资源预留并返回切换请求确认信息;
在接收到接入卫星的切换请求确认信息后,向选取的接入卫星发送切换操作请求,以使接入卫星与用户终端建立连接并返回切换操作确认信息;
在接收到接入卫星的切换操作确认信息后,向上一个接入卫星发送资源释放请求,以使上一个接入卫星与用户终端解除连接并返回资源释放确认信息。
第二方面,还提供了一种基于深度强化学习的低轨巨型星座卫星切换装置,包括:
获取单元,被配置为获取用户终端可视范围内的卫星信息;
状态信息确定单元,被配置为根据卫星信息确定包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息;
接入卫星确定单元,被配置为将状态信息输入预先训练的第一神经网络模型,得到第一神经网络模型输出的状态-动作价值函数,所述第一神经网络模型采用深度强化学习算法进行训练,动作定义为用户终端选择的卫星,训练时的动作奖励函数定义为根据用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间和卫星到设定网关卫星的最小跳数构建的效用函数;
卫星切换单元,被配置为选取最大的状态-动作价值函数对应的卫星作为接入卫星进行切换。
本发明技术方案的主要优点如下:
本发明的基于深度强化学习的低轨巨型星座卫星切换方法及装置通过将用户终端的接入卫星与信关站的网关卫星之间的最小跳数作为近似时延,在卫星切换决策时,将可用信道容量、剩余服务时间和最小跳数作为考虑指标,并采用深度强化学习算法,以设计的多属性加权奖励函数训练用于确定接入卫星的神经网络模型,能够实现网络长期累积性能最大化,能够在保证较低的切换次数同时显著降低星间链路跳数水平,以保持较低的网络时延,提升用户体验。此外,在采用深度强化学习算法训练时,仅将用户终端的可视卫星信息作为状态空间,能够显著降低状态空间维度,降低计算复杂度,提高训练效率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一实施例提供的一种低轨巨型星座网络结构示意图;
图2为本发明一实施例提供的基于深度强化学习的低轨巨型星座卫星切换方法的流程图;
图3为本发明一实施例提供的基于深度强化学习的低轨巨型星座卫星切换装置的结构示意图;
图4为本发明示例1中神经网络模型训练时的平均奖励变化情况示意图;
图5为本发明示例1中神经网络模型训练时的平均损失变化情况示意图;
图6为本发明示例1中采用不同切换方法时的切换次数对比示意图;
图7为本发明示例1中采用不同切换方法时的跳数对比示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明实施例提供的技术方案。
参考图2,第一方面,本发明一实施例提供了一种基于深度强化学习的低轨巨型星座卫星切换方法,该方法应用于低轨巨型星座网络中的用户终端,包括以下步骤S1-S4:
步骤S1,获取用户终端可视范围内的卫星信息。
具体地,用户终端不断接收其可视范围内的卫星广播信息,进而获取可视范围内的卫星信息。
步骤S2,根据卫星信息确定包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息。
由于卫星广播信息包括卫星ID、卫星位置和信道状态等信息,根据获取的卫星信息能够确定用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数。
假设:低轨巨型星座中有N颗卫星,用Sn表示第n颗卫星,n∈[1,N],用户终端的个数为M,用UTm表示第m个用户终端,m∈[1,M],分布在地面的信关站个数为K,用Gk表示第k个信关站,k∈[1,K],每个信关站最多可同时连接P颗网关卫星,记为Gk,p,p∈[1,P]。
进一步地,假设每个信道只能连接一个卫星,则根据香农定理,用户终端与卫星之间的可用信道容量可利用以下公式计算:
Cm,n(t)=Blog2(1+γm,n(t));
其中,Cm,n(t)表示t时刻第m个用户终端与第n个卫星之间的可用信道容量,B表示频谱的带宽,γm,n(t)表示t时刻第m个用户终端与第n个卫星之间的信干噪比(Signal toInterference plus Noise Ratio,SINR)。
信干噪比是指接收端接收到的有用信号的强度与接收到的干扰信号(包括噪声和干扰)的强度的比值。根据信干噪比(Signal to Interference plus Noise Ratio,SINR)的定义,t时刻第m个用户终端与第n个卫星之间的信干噪比γm,n(t)表示为:
Pr=PtGtGm,n(t)Gr
其中,Pr表示信号接收功率,Pt表示信号发射功率,Gt表示发射端天线增益,Gr表示接收端天线增益,Gm,n(t)表示t时刻第m个用户终端与第n个卫星之间的信道增益,Gk,n(t)表示t时刻第k个用户终端与第n个卫星之间的信道增益,M表示用户终端的数量,用于表示其他用户终端与第n个卫星相连时对第m个用户终端信道造成的影响,σ2表示高斯噪声功率。
其中,信号发射功率、发射端天线增益、接收端天线增益和高斯噪声功率可以直接获取,因此,为了确定用户终端与卫星之间的可用信道容量,还需要确定用户终端与卫星之间的信道增益,即星地链路信道增益。
本发明一实施例中,用户终端与卫星之间的信道增益建模为传输路径损耗、大气衰减和小尺度衰减三个部分组成,信道增益具体表示为:
Lm,n(t)表示t时刻第m个用户终端与第n个卫星之间的传输路径损耗,Am,n(t)表示t时刻第m个用户终端与第n个卫星之间的大气衰减,表示小尺度衰减。
传输路径损耗Lm,n(t)利用以下公式计算:
大气衰减Am,n(t)利用以下公式计算:
c表示光速,π表示圆周率,dm,m(t)表示t时刻第m个用户终端与第n个卫星之间的距离,fc表示信号载波频率,χ表示信号穿过云和雨的衰减,h表示卫星的轨道高度。
其中,小尺度衰减和信号穿过云和雨的衰减χ均为经验值,根据实际情况具体设置,信号穿过云和雨的衰减χ的单位为dB/km。
进一步地,由于低轨卫星具有较高的机动性,一般在用户终端可视范围内停留约5-10min,在此期间卫星可以与用户终端进行通信,这段时间称为用户终端与卫星的最大服务时间。而用户终端与卫星的剩余服务时间是指在用户终端的上一个接入卫星移出用户终端可视范围之前,用户终端选择该卫星建立通信链路后该通信链路所能维持的时间。由于用户终端的速度远小于卫星的速度,因此可以假设用户终端相对于卫星是静止的,剩余服务时间决定用户切换的频率。由于卫星的星历信息可以直接获知,因此剩余服务时间可以利用轨道外推模型进行计算。具体地,用户终端与卫星的剩余服务时间可利用以下公式计算:
Trem=Tmax-(T-T0);
Trem表示用户终端与卫星之间的剩余服务时间,Tmax表示用户终端与卫星之间的最大服务时间,T表示当前时刻,T0表示卫星进入用户终端可视范围的时刻。
进一步地,为了保证用户通信的端到端时延较低,本发明一实施例中,在确定用户终端的接入卫星时,还考虑选择的接入卫星到信关站的通信时延。在采用Walker-Delta构型的倾斜低轨巨型星座中,两个卫星间的最短距离路径通常属于最小跳数路径集合,且由于不同网关卫星与信关站之间的链路时延差异不大,因此,最小跳数路径可保证较小的路径传播时延,可以通过估算接入卫星到网关卫星的最小跳数来替代通信时延。另外,尽管在卫星运动过程中用户终端可能选择切换其他接入卫星,但是由于星座中卫星均匀分布,网络的拓扑动态性具有规则性和可预测性,且低轨巨型星座卫星分布密集,因此连接两端的卫星的星间转发跳数相对稳定。
本发明一实施例中,卫星到设定网关卫星之间的最小跳数利用以下方式计算:
确定卫星和设定网关卫星的升降轨道类型;
根据两个卫星的升降轨道类型,分别计算两个卫星的相位;
根据两个卫星的相位,分别计算两个卫星位置相对于升交点的经度差;
根据两个卫星位置相对于升交点的经度差,计算两个卫星升交点的经度差;
对两个卫星升交点的经度差进行归一化处理,以使两个卫星升交点的经度差归一化至[-π,π]范围;
根据归一化处理后的两个卫星升交点的经度差,计算异轨星间链路转发跳数;
根据异轨星间链路转发跳数,计算同轨星间链路转发相位差;
对同轨星间链路转发相位差进行归一化处理,以使同轨星间链路转发相位差归一化至[-π,π]范围;
根据归一化处理后的同轨星间链路转发相位差,计算同轨星间链路转发跳数;
根据异轨星间链路转发跳数和同轨星间链路转发跳数,得到卫星到设定网关卫星之间的最小跳数。
在采用Walker-Delta构型的倾斜低轨巨型星座中,根据星下点运行规律和星座构型,接入卫星可能是升轨道卫星,也可能是降轨道卫星,网关卫星可能是升轨道卫星,也可能是降轨道卫星。根据卫星的升降轨道类型,卫星的相位利用以下公式计算:
根据卫星的升降轨道类型,卫星位置相对于升交点的经度差利用以下公式计算:
其中,u表示卫星的相位,ζ(u)表示卫星位置相对于升交点的经度差,表示卫星纬度,π表示圆周率,α表示卫星轨道倾角。
两个卫星升交点的经度差利用以下公式计算:
ΔL0=Δλ+ζ(u1)-ζ(u2);
其中,ΔL0表示两个卫星升交点的经度差,Δλ表示两个卫星的经度差,Δλ=λ2-λ1,λ2表示网关卫星的经度,λ1表示接入卫星的经度,ζ(u1)表示接入卫星位置相对于升交点的经度差,ζ(u2)表示网关卫星位置相对于升交点的经度差。
对两个卫星升交点的经度差ΔL0进行归一化处理表示为:
其中,表示归一化处理后的两个卫星升交点的经度差,mod表示求余函数。
异轨星间链路转发跳数利用以下公式计算:
其中,Hh表示异轨星间链路转发跳数,Round(x)函数表示返回最接近x的整数,ΔΩ表示低轨巨型星座中相邻轨道面间升交点赤经差。
同轨星间链路转发相位差利用以下公式计算:
ΔU=Δu-HhΔf;
其中,ΔU表示同轨星间链路转发相位差,Δu表示两个卫星的相位差,Δf表示低轨巨型星座中不同轨道间相邻卫星相位差。
对同轨星间链路转发相位差ΔU进行归一化处理表示为:
其中,表示归一化处理后的同轨星间链路转发相位差。
同轨星间链路转发跳数利用以下公式计算:
其中,Hv表示同轨星间链路转发跳数,ΔΦ表示低轨巨型星座中同轨道面内相邻卫星相位差。
卫星到网关卫星之间的最小跳数利用以下公式计算:
H=|Hh|+|Hv|;
其中,H表示卫星到网关卫星之间的最小跳数。
基于上述计算方式可知,卫星为升轨道卫星时与卫星为降轨道卫星时计算得到的最小跳数的具体数值可能不同,为了便于快速确定接入卫星到网关卫星的最小跳数,根据接入卫星和网关卫星的升(A)/降(D)轨道类型将路径划分为A2A(升到升)、A2D(升到降)、D2A(降到升)、D2D(降到降)4种类型,分别针对四种路径类型确定对应的计算表达式,在实际计算接入卫星到网关卫星的最小跳数时,根据接入卫星的升降轨道类型和网关卫星的升降轨道类型,选取计算得到的最小跳数中的最小值作为最终的最小跳数。
由于在用户终端做切换决策时,接入卫星的升降轨道类型已确定,假设每个信关站始终从每个壳层都接入相对信关站仰角最高的一颗升轨道卫星和一颗降轨道卫星,则接入卫星到信关站对应的网关卫星之间的最小跳数表示为:
其中,Hn表示接入卫星Sn到信关站对应的网关卫星之间的最小跳数,表示接入卫星Sn为升轨道卫星时其到信关站对应的升轨道网关卫星之间的最小跳数,表示接入卫星Sn为升轨道卫星时其到信关站对应的降轨道网关卫星之间的最小跳数,表示接入卫星Sn为降轨道卫星时其到信关站对应的升轨道网关卫星之间的最小跳数,表示接入卫星Sn为降轨道卫星时其到信关站对应的降轨道网关卫星之间的最小跳数。
步骤S3,将状态信息输入预先训练的第一神经网络模型,得到第一神经网络模型输出的状态-动作价值函数,第一神经网络模型采用深度强化学习算法进行训练,动作定义为用户终端选择的卫星,训练时的动作奖励函数定义为根据用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间和卫星到设定网关卫星的最小跳数构建的效用函数。
本发明一实施例中,为综合考虑网络吞吐量和连接稳定性,通过综合考虑可用信道容量、剩余服务时间和最小跳数来构建效用函数。
具体地,以针对第m个用户终端UTm和第n个卫星Sn为例,效用函数构建为:
Um,n(t)=ω1N(Cm,n(t))+ω2N(Trem)+ω3N(Hn)+ω4Rn;
其中,Um,n(t)表示t时刻第m个用户终端与第n个卫星对应的效用函数,ω1、ω2、ω3和ω4表示权重参数,ω1+ω2+ω3+ω4=1,N(·)表示归一化函数,Hn表示第n个卫星到设定网关卫星之间的最小跳数,Rn表示第n个卫星对应的切换代价因子。
本发明一实施例中,在上述的效用函数中采用归一化函数进行处理的目的是消除切换因子数量级上的差异,避免切换决策倾向于数量级大的切换因子。
其中,N(Cm,n(t))表示为:
其中,Cmax(t)表示最大可用信道容量。
N(Trem)表示为:
其中,Tmax表示最大服务时间。
N(Hn)表示为:
其中,Hmax表示最大跳数。
本发明一实施例中,考虑到当用户终端可视范围内的候选卫星和最终选择的接入卫星具有非常接近的切换因子时,容易引起乒乓切换而增加切换次数,因此在上述的效用函数中增加了切换代价因子Rn,该切换代价因子Rn具体定义为:
其中,C表示正常数,且C∈(0,1]。
进一步地,本发明一实施例中,可以通过调整权重参数ω1、ω2、ω3和ω4的具体数值,以使切换决策倾向于某个切换因子,例如,可以通过增加权重ω3的数值来使切换决策更倾向选择具有更低时延的卫星。
进一步地,本发明一实施例中,还定义连接函数,连接函数用于指示用户终端在t时刻是否接入某一卫星,以针对第m个用户终端UTm和第n个卫星Sn为例,连接函数xm,n(t)表示为:
因此,在满足切换决策约束以及跳数需求的情况下,可以建立以最大化整体网络长期效用为目标的优化问题,具体表达为:
其中,T表示终止时刻。
进一步地,本发明一实施例中,利用神经网络模型和深度强化学习来实现上述优化问题的求解,以确定用户终端的接入卫星。
本发明一实施例中,用于确定接入卫星的第一神经网络模型采用深度强化学习算法(DQN算法)进行训练,具体通过以下方式进行训练:
步骤S301,构建第一神经网络模型和第二神经网络模型,初始化第一神经网络模型和第二神经网络模型的参数、经验池容量和折扣因子,第一神经网络模型和第二神经网络模型具有相同的结构且初始化参数相同。
具体地,确定第一神经网络模型和第二神经网络模型的结构,基于确定的模型结构,对神经网络模型的参数进行初始化。其中,模型的参数可以采用随机初始化方式进行初始化。
本发明一实施例中,第一神经网络模型和第二神经网络模型的结构采用多层感知器。
进一步地,经验池容量和折扣因子的具体数值根据实际需求进行初始化设置。其中,经验池容量越高,在训练过程中神经网络模型的学习更新次数越少,总数据处理量和神经网络模型的训练成本越低,但是训练后的模型精度可能相对较差。为此,可以根据实际需求初始化经验池容量的具体数值。折扣因子的取值范围为0~1之间,根据实际需求具体设定,折扣因子用于将未来的奖励折现到现在。
步骤S302,根据用户终端和低轨巨型星座的状态信息,计算初始时刻用户终端对应的包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息,并将初始时刻作为当前时刻。
本发明一实施例中,结合卫星切换问题场景,将深度强化学习算法中环境的状态定义为:用户终端对应的包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数。其中,卫星指的是用户终端可视范围内的卫星。
具体地,假设State(t)表示在t时刻的状态的集合,包括用户终端与卫星之间的可用信道容量、剩余服务时间、最小跳数、以及卫星的升降轨道类型,具体表示为:
State(t)={{C1,Trem 1,H1,A1},{C2,Trem 2,H2,A2},...,{CN,Trem N,HN,AN}}t;
其中,CN表示用户终端与第N个卫星之间的可用信道容量,Trem N表示用户终端与第N个卫星之间的剩余服务时间,HN表示第N个卫星到网关卫星的最小跳数,AN用于表示第N个卫星的升降轨道类型,具体AN=1或0,AN=1表示第N个卫星为升轨道卫星,AN=0表示第N个卫星为降轨道卫星。
步骤S303,基于当前时刻的状态信息,采用ε-greedy策略选择并执行动作,得到对应的动作奖励和下一时刻的状态。
本发明一实施例中,结合卫星切换问题场景,将动作定义为用户终端选择的卫星,因此,动作空间定义为所有动作的集合,即所有卫星集合,假设Action(t)表示在t时刻的动作的集合,则Action(t)具体表示为:
Action(t)={1,2,...,N}t;
进一步地,ε-greedy策略是一种常规的随机策略,其平衡了探索(exploration)和利用(exploitation),有1-ε的概率选取使得状态-动作价值函数最大的动作,其他动作的选取概率相同,均为ε/N,ε表示探索率,取值范围在0~1之间,ε-greedy策略具体定义为:
其中,a表示所选择的动作,表示使得状态-动作价值函数Q(s,a;θ)取得最大值所对应的动作a,τ表示生成的一个正态分布的随机数,τ∈[0,1]。
其中,状态-动作价值函数Q(s,a;θ)由第一神经网络模型输出,具体将状态s输入第一神经网络模型,第一神经网络模型基于当前网络模型参数θ输出当前状态s下的所有状态-动作价值函数。
在选择动作后,用户终端执行相应动作,即将选择的卫星作为接入卫星进行切换,进而得到对应的动作奖励和下一时刻的状态。
本发明一实施例中,动作奖励定义为上述的根据用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间和卫星到设定网关卫星的最小跳数构建的效用函数。
具体地,假设Rt表示t时刻的动作奖励,以该时刻进行切换决策的用户终端为第m个用户终端,选择的接入卫星为第n个卫星为例,则动作奖励Rt具体表示为:
Rt=Um,n(t)。
步骤S304,将当前时刻和下一时刻的状态、当前时刻的动作和动作奖励作为一个状态转移序列存入经验池中,其中,若经验池中存储的状态转移序列数量达到经验池容量,从经验池中随机抽取多个状态转移序列,根据多个状态转移序列、第二神经网络模型和预设的损失函数,利用梯度下降法更新第一神经网络模型的参数。
具体地,以当前时刻为t时刻为例,则将当前时刻的状态st和下一时刻的状态st+1、当前时刻的动作at和动作奖励Rt作为一个状态转移序列(st,at,Rt,st+1)存入经验池中。
进一步地,在将当前得到的状态转移序列(st,at,Rt,st+1)存入经验池后,若经验池中存储的状态转移序列达到初始设置的容量时,则从经验池中随机抽取出多个状态转移序列,根据多个状态转移序列、第二神经网络模型和预设的损失函数,利用梯度下降法更新第一神经网络模型的参数。
具体地,根据多个状态转移序列、第二神经网络模型和预设的损失函数,利用梯度下降法更新第一神经网络模型的参数,进一步包括以下步骤:
将状态转移序列中前一时刻的状态输入第一神经网络模型,从第一神经网络模型输出的所有状态-动作价值函数中得到状态转移序列中动作对应的价值函数;
将状态转移序列中后一时刻的状态输入第二神经网络模型,从第二神经网络模型输出的所有状态-动作价值函数中得到最大价值函数;
根据状态转移序列中动作奖励、由第一神经网络模型输出的状态转移序列中动作对应的价值函数和第二神经网络模型输出的最大价值函数、以及设定的折扣因子,计算预设的损失函数;
根据损失函数,利用梯度下降法更新第一神经网络模型的参数。
本发明一实施例中,损失函数采用均方误差损失函数,具体表示为:
其中,E表示函数期望值,Rt表示在t时刻执行动作at后得到的奖励,γ表示折扣因子,st和st+1分别表示t时刻和t+1时刻的状态,at和at+1分别表示t时刻和t+1时刻的动作,θ表示第一神经网络模型的参数,θ′表示第二神经网络模型的参数,Q(st,at,θ)表示第一神经网络模型输出的对应状态为st、动作为at的状态-动作价值函数,表示第二神经网络模型输出的状态为st+1时的最大状态-动作价值函数。
进一步地,本发明一实施例中,采用梯度下降法更新第一神经网络模型的参数具体表示为:
其中,Δ[]表示优化器,η表示学习率。其中,优化器根据实际情况具体设置,学习率预先设置,用于控制参数更新的速度。
步骤S305,若当前时刻不为终止时刻,则将下一时刻作为当前时刻,并返回步骤S303继续执行,若当前时刻为终止时刻,则重新执行步骤S302-S305;
其中,每执行预设次数的步骤S302-S305后,将第一神经网络模型的当前参数作为第二神经网络模型的参数以更新第二神经网络模型的参数;
其中,当步骤S302-S305的循环执行次数达到设定循环次数时,完成训练。
具体地,判断当前时刻是否为终止时刻,若否,则将下一时刻作为当前时刻,并返回步骤S303继续执行,若是,则重新执行步骤S302-S305。
其中,在循环执行步骤S302-S305的过程中,每执行预设次数的步骤S302-S305后,将第一神经网络模型的当前参数作为第二神经网络模型的参数以更新第二神经网络模型的参数。同时,若步骤S302-S305的循环执行次数达到设定循环次数时,则结束模型的训练,将最终的神经网络模型作为完成训练的神经网络模型。
步骤S4,选取最大的状态-动作价值函数对应的卫星作为接入卫星进行切换。
具体地,本发明一实施例中,选取最大的状态-动作价值函数对应的卫星作为接入卫星进行切换,进一步包括:
向选取的接入卫星发送切换请求,以使接入卫星进行资源预留并返回切换请求确认信息;
在接收到接入卫星的切换请求确认信息后,向选取的接入卫星发送切换操作请求,以使接入卫星与用户终端建立连接并返回切换操作确认信息;
在接收到接入卫星的切换操作确认信息后,向上一个接入卫星发送资源释放请求,以使上一个接入卫星与用户终端解除连接并返回资源释放确认信息。
参考图3,第二方面,本发明一实施例还提供了一种基于深度强化学习的低轨巨型星座卫星切换装置,该装置包括:
获取单元100,被配置为获取用户终端可视范围内的卫星信息;
状态信息确定单元200,被配置为根据卫星信息确定包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息;
接入卫星确定单元300,被配置为将状态信息输入预先训练的第一神经网络模型,得到第一神经网络模型输出的状态-动作价值函数;
卫星切换单元400,被配置为选取最大的状态-动作价值函数对应的卫星作为接入卫星进行切换。
本发明一实施例中,上述各单元为与上述方法步骤对应的装置,各单元的具体工作原理和其具备的有益效果可以参见上述方法,在此不再赘述。
进一步地,本发明一实施例中,该装置还包括:训练单元500,被配置成采用深度强化学习算法训练第一神经网络模型,训练时的状态定义为用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数,动作定义为用户终端选择的卫星,动作奖励函数定义为根据用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间和卫星到设定网关卫星的最小跳数构建的效用函数。
本发明一实施例提供的基于深度强化学习的低轨巨型星座卫星切换方法及装置通过将用户终端的接入卫星与信关站的网关卫星之间的最小跳数作为近似时延,在卫星切换决策时,将可用信道容量、剩余服务时间和最小跳数作为考虑指标,并采用深度强化学习算法,以设计的多属性加权奖励函数训练用于确定接入卫星的神经网络模型,能够实现网络长期累积性能最大化,能够在保证较低的切换次数同时显著降低星间链路跳数水平,以保持较低的网络时延,提升用户体验。此外,在采用深度强化学习算法训练时,仅将用户终端的可视卫星信息作为状态空间,能够显著降低状态空间维度,降低计算复杂度,提高训练效率。
以下结合具体示例对本发明一实施例提供的基于深度强化学习的低轨巨型星座卫星切换方法及装置的效果进行说明:
该示例中,利用STK仿真工具模拟“星链”系统建立一个包含1584颗卫星的低轨巨型星座模型,并在地面设立北京、三亚、酒泉三个信关站,星座具体参数如下表所示:
星座仿真参数
| 参数 | 值 |
| 轨道高度(km) | 550 |
| 轨道倾角(°) | 53 |
| 轨道数 | 72 |
| 每个轨道卫星数 | 22 |
| 相位因子 | 0 |
| 用户链路最小仰角 | 10 |
| 仿真时间(min) | 10 |
| 仿真时隙长度(s) | 10 |
采用5层全连接神经网络作为神经网络模型来模拟Q函数,中间的隐藏层分别为128、48、64,折扣因子为0.7,学习率为10-4。
附图4-5分别示出了基于上述设定参数时神经网络模型训练时的平均奖励(meanreward)变化情况和平均损失(mean loss)变化情况,可以看出本发明一实施例提供的方法具有较好的有效性和收敛性。
进一步地,选择基于最大剩余服务时间的切换算法(MS)、基于最大仰角的切换算法(ME)和基于最低链路损耗的切换算法(MP)与本发明一实施例提供的方法(附图中标记为DQN)进行比较。
附图6示出了采用不同切换方法时的切换次数(Handover times)对比结果,可以看出,在切换次数比较上,MP方法的切换次数最高,因为用户终端总是选择链路损耗最低的卫星,而随着卫星的运动,链路损耗变化较大,切换就会较为频繁,ME算法能够保证最大的服务时长,因此切换次数较低,本发明一实施例提供的方法介于ME算法和MS算法之间,切换次数相对较低。
附图7示出了采用不同切换方法时的跳数(Hops)对比结果,通过对跳数进行分析计算,得到如下表所示的不同切换方法对应的平均跳数情况:
平均跳数参数
| 算法 | ME | MS | MP | DQN |
| 平均跳数 | 34.1 | 34.6 | 37.3 | 32.2 |
可以看出,由于本发明一实施例提供的方法加入了最小跳数评估作为切换指标,因此本发明一实施例提供的方法在仿真时间内的跳数总体处于最低水平,在仿真时间内的平均跳数最低。其他算法对接入卫星的选择上并不区分升轨或者降轨,因此选择接入卫星的最小跳数具备一定随机性,且变化频率与切换次数相关,MP算法切换次数最多,所以跳数变化最频繁,MS算法由于切换频率最低,所以跳数变化频率也最低,但是平均跳数相对较高,与ME、MS、MP三种算法相比,本发明一实施例提供的方法的平均跳数分别减低了5.6%、6.9%、13.7%。因为最短距离路径属于最小跳数路径集合,平均跳数少的算法网络整体时延也会相应较低,因此本发明一实施例提供的方法可以降低系统长期累积的网络时延。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。
最后应说明的是:以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于深度强化学习的低轨巨型星座卫星切换方法,其特征在于,包括:
获取用户终端可视范围内的卫星信息;
根据卫星信息确定包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息;
将状态信息输入预先训练的第一神经网络模型,得到第一神经网络模型输出的状态-动作价值函数,所述第一神经网络模型采用深度强化学习算法进行训练,动作定义为用户终端选择的卫星,训练时的动作奖励函数定义为根据用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间和卫星到设定网关卫星的最小跳数构建的效用函数;
选取最大的状态-动作价值函数对应的卫星作为接入卫星进行切换。
2.根据权利要求1所述的基于深度强化学习的低轨巨型星座卫星切换方法,其特征在于,用户终端与卫星之间的可用信道容量利用以下公式计算:
Cm,n(t)=Blog2(1+γm,n(t));
Cm,n(t)表示t时刻第m个用户终端与第n个卫星之间的可用信道容量,B表示频谱的带宽,γm,n(t)表示t时刻第m个用户终端与第n个卫星之间的信干噪比。
3.根据权利要求2所述的基于深度强化学习的低轨巨型星座卫星切换方法,其特征在于,信干噪比γm,n(t)利用以下公式计算:
Pt表示信号发射功率,Gt表示发射端天线增益,Gr表示接收端天线增益,Gm,n(t)表示t时刻第m个用户终端与第n个卫星之间的信道增益,Gk,n(t)表示t时刻第k个用户终端与第n个卫星之间的信道增益,M表示用户终端的数量,用于表示其他用户终端与第n个卫星相连时对第m个用户终端信道造成的影响,σ2表示高斯噪声功率。
4.根据权利要求3所述的基于深度强化学习的低轨巨型星座卫星切换方法,其特征在于,信道增益Gm,n(t)利用以下公式计算:
Lm,n(t)表示t时刻第m个用户终端与第n个卫星之间的传输路径损耗,Am,n(t)表示t时刻第m个用户终端与第n个卫星之间的大气衰减,表示小尺度衰减;
传输路径损耗Lm,n(t)利用以下公式计算:
大气衰减Am,n(t)利用以下公式计算:
c表示光速,π表示圆周率,dm,m(t)表示t时刻第m个用户终端与第n个卫星之间的距离,fc表示信号载波频率,χ表示信号穿过云和雨的衰减,h表示卫星的轨道高度。
5.根据权利要求4所述的基于深度强化学习的低轨巨型星座卫星切换方法,其特征在于,用户终端与卫星之间的剩余服务时间利用以下公式计算:
Trem=Tmax-(T-T0);
Trem表示用户终端与卫星之间的剩余服务时间,Tmax表示用户终端与卫星之间的最大服务时间,T表示当前时刻,T0表示卫星进入用户终端可视范围的时刻。
6.根据权利要求5所述的基于深度强化学习的低轨巨型星座卫星切换方法,其特征在于,卫星到设定网关卫星之间的最小跳数利用以下方式计算:
确定卫星和设定网关卫星的升降轨道类型;
根据两个卫星的升降轨道类型,分别计算两个卫星的相位;
根据两个卫星的相位,分别计算两个卫星位置相对于升交点的经度差;
根据两个卫星位置相对于升交点的经度差,计算两个卫星升交点的经度差;
对两个卫星升交点的经度差进行归一化处理,以使两个卫星升交点的经度差归一化至[-π,π]范围;
根据归一化处理后的两个卫星升交点的经度差,计算异轨星间链路转发跳数;
根据异轨星间链路转发跳数,计算同轨星间链路转发相位差;
对同轨星间链路转发相位差进行归一化处理,以使同轨星间链路转发相位差归一化至[-π,π]范围;
根据归一化处理后的同轨星间链路转发相位差,计算同轨星间链路转发跳数;
根据异轨星间链路转发跳数和同轨星间链路转发跳数,得到卫星到设定网关卫星之间的最小跳数。
7.根据权利要求6所述的基于深度强化学习的低轨巨型星座卫星切换方法,其特征在于,所述效用函数表示为:
Um,n(t)=ω1N(Cm,n(t))+ω2N(Trem)+ω3N(Hn)+ω4Rn;
Um,n(t)表示t时刻第m个用户终端与第n个卫星对应的效用函数,ω1、ω2、ω3和ω4表示权重参数,ω1+ω2+ω3+ω4=1,N(·)表示归一化函数,Hn表示第n个卫星到设定网关卫星之间的最小跳数,Rn表示第n个卫星对应的切换代价因子;
Rn定义为:
C表示正常数,且C∈(0,1]。
8.根据权利要求7所述的基于深度强化学习的低轨巨型星座卫星切换方法,其特征在于,所述第一神经网络模型通过以下方式训练:
步骤S301,构建第一神经网络模型和第二神经网络模型,初始化第一神经网络模型和第二神经网络模型的参数、经验池容量和折扣因子,第一神经网络模型和第二神经网络模型具有相同的结构且初始化参数相同;
步骤S302,根据用户终端和低轨巨型星座的状态信息,计算初始时刻用户终端对应的包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息,并将初始时刻作为当前时刻;
步骤S303,基于当前时刻的状态信息,采用ε-greedy策略选择并执行动作,得到对应的动作奖励和下一时刻的状态;
步骤S304,将当前时刻和下一时刻的状态、当前时刻的动作和动作奖励作为一个状态转移序列存入经验池中,其中,若经验池中存储的状态转移序列数量达到经验池容量,从经验池中随机抽取多个状态转移序列,根据多个状态转移序列、第二神经网络模型和预设的损失函数,利用梯度下降法更新第一神经网络模型的参数;
步骤S305,若当前时刻不为终止时刻,则将下一时刻作为当前时刻,并返回步骤S303继续执行,若当前时刻为终止时刻,则重新执行步骤S302-S305;
其中,每执行预设次数的步骤S302-S305后,将第一神经网络模型的当前参数作为第二神经网络模型的参数以更新第二神经网络模型的参数;
其中,当步骤S302-S305的循环执行次数达到设定循环次数时,完成训练。
9.根据权利要求1所述的基于深度强化学习的低轨巨型星座卫星切换方法,其特征在于,所述选取最大的状态-动作价值函数对应的卫星作为接入卫星进行切换,进一步包括:
向选取的接入卫星发送切换请求,以使接入卫星进行资源预留并返回切换请求确认信息;
在接收到接入卫星的切换请求确认信息后,向选取的接入卫星发送切换操作请求,以使接入卫星与用户终端建立连接并返回切换操作确认信息;
在接收到接入卫星的切换操作确认信息后,向上一个接入卫星发送资源释放请求,以使上一个接入卫星与用户终端解除连接并返回资源释放确认信息。
10.一种基于深度强化学习的低轨巨型星座卫星切换装置,其特征在于,包括:
获取单元,被配置为获取用户终端可视范围内的卫星信息;
状态信息确定单元,被配置为根据卫星信息确定包括用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间、卫星对应的升降轨道类型和卫星到设定网关卫星的最小跳数的状态信息;
接入卫星确定单元,被配置为将状态信息输入预先训练的第一神经网络模型,得到第一神经网络模型输出的状态-动作价值函数,所述第一神经网络模型采用深度强化学习算法进行训练,动作定义为用户终端选择的卫星,训练时的动作奖励函数定义为根据用户终端与卫星之间的可用信道容量、用户终端与卫星的剩余服务时间和卫星到设定网关卫星的最小跳数构建的效用函数;
卫星切换单元,被配置为选取最大的状态-动作价值函数对应的卫星作为接入卫星进行切换。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410686124.3A CN118611728A (zh) | 2024-05-30 | 2024-05-30 | 基于深度强化学习的低轨巨型星座卫星切换方法及装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410686124.3A CN118611728A (zh) | 2024-05-30 | 2024-05-30 | 基于深度强化学习的低轨巨型星座卫星切换方法及装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN118611728A true CN118611728A (zh) | 2024-09-06 |
Family
ID=92560381
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410686124.3A Pending CN118611728A (zh) | 2024-05-30 | 2024-05-30 | 基于深度强化学习的低轨巨型星座卫星切换方法及装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118611728A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119300065A (zh) * | 2024-12-13 | 2025-01-10 | 凯睿星通信息科技(南京)股份有限公司 | 基于深度学习的低轨卫星通信链路切换方法 |
| CN120150787A (zh) * | 2025-02-26 | 2025-06-13 | 华南师范大学 | 通信卫星切换模型训练方法和卫星通信连接方法 |
| CN120238985A (zh) * | 2025-05-29 | 2025-07-01 | 中国人民解放军陆军工程大学 | 基于星地距离的巨型星座网络卫星同步切换方法及装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20170105153A1 (en) * | 2015-10-13 | 2017-04-13 | Qualcomm Incorporated | Method and apparatus for inter-satellite handovers in low-earth orbit (leo) satellite systems |
| CN116867013A (zh) * | 2023-07-31 | 2023-10-10 | 中国电信股份有限公司技术创新中心 | 卫星基站切换的方法、卫星基站和存储介质 |
| CN116916409A (zh) * | 2023-08-21 | 2023-10-20 | 华能伊敏煤电有限责任公司 | 一种dqn辅助低轨卫星切换的决策生成方法 |
| CN117879680A (zh) * | 2023-12-21 | 2024-04-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于强化学习的卫星协作缓存和用户接入方法 |
-
2024
- 2024-05-30 CN CN202410686124.3A patent/CN118611728A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20170105153A1 (en) * | 2015-10-13 | 2017-04-13 | Qualcomm Incorporated | Method and apparatus for inter-satellite handovers in low-earth orbit (leo) satellite systems |
| CN116867013A (zh) * | 2023-07-31 | 2023-10-10 | 中国电信股份有限公司技术创新中心 | 卫星基站切换的方法、卫星基站和存储介质 |
| CN116916409A (zh) * | 2023-08-21 | 2023-10-20 | 华能伊敏煤电有限责任公司 | 一种dqn辅助低轨卫星切换的决策生成方法 |
| CN117879680A (zh) * | 2023-12-21 | 2024-04-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于强化学习的卫星协作缓存和用户接入方法 |
Non-Patent Citations (1)
| Title |
|---|
| 张驰等: "基于最小路由代价的巨型星座网络接入策略", 《系统工程与电子技术》, 31 July 2023 (2023-07-31), pages 1795 - 1797 * |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119300065A (zh) * | 2024-12-13 | 2025-01-10 | 凯睿星通信息科技(南京)股份有限公司 | 基于深度学习的低轨卫星通信链路切换方法 |
| CN120150787A (zh) * | 2025-02-26 | 2025-06-13 | 华南师范大学 | 通信卫星切换模型训练方法和卫星通信连接方法 |
| CN120150787B (zh) * | 2025-02-26 | 2025-11-25 | 华南师范大学 | 通信卫星切换模型训练方法和卫星通信连接方法 |
| CN120238985A (zh) * | 2025-05-29 | 2025-07-01 | 中国人民解放军陆军工程大学 | 基于星地距离的巨型星座网络卫星同步切换方法及装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114362810B (zh) | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 | |
| CN118611728A (zh) | 基于深度强化学习的低轨巨型星座卫星切换方法及装置 | |
| Zuo et al. | An intelligent routing algorithm for LEO satellites based on deep reinforcement learning | |
| Razmi et al. | On-board federated learning for dense LEO constellations | |
| CN114900225B (zh) | 一种基于低轨巨星座的民航互联网业务管理与接入资源分配方法 | |
| CN113038387B (zh) | 低轨卫星网络中基于q学习的切换判决方法 | |
| CN116916409B (zh) | 一种dqn辅助低轨卫星切换的决策生成方法 | |
| Wang et al. | LEO satellite network routing algorithm based on reinforcement learning | |
| CN115250142A (zh) | 一种基于深度强化学习的星地融合网络多节点计算资源分配方法 | |
| Cao et al. | Deep reinforcement learning for multi-user access control in UAV networks | |
| CN116634498A (zh) | 基于强化学习的低轨卫星星座网络边缘计算多级卸载方法 | |
| CN117061411B (zh) | 基于深度强化学习的移动自组网路由优化方法及装置 | |
| CN119364423B (zh) | 基于深度强化学习的空天地网络拥塞控制方法 | |
| KR102689449B1 (ko) | 복수의 위성을 제어하는 장치 및 그의 동작 방법 | |
| Huang et al. | Dual-timescales optimization of task scheduling and resource slicing in satellite-terrestrial edge computing networks | |
| CN112803988A (zh) | 适用于卫星互联网场景下基于链路误码率预测的混合接触图路由方法 | |
| Liu et al. | Channel reservation based load aware handover for LEO satellite communications | |
| Li et al. | LLM-guided DRL for Multi-tier LEO Satellite Networks with Hybrid FSO/RF Links | |
| Cao et al. | Deep reinforcement learning for user access control in UAV networks | |
| Anh et al. | A deep reinforcement learning approach for backscatter-assisted relay communications | |
| CN112953601B (zh) | 优化驱动的分层深度强化学习在混合中继通信中的应用 | |
| CN110932805A (zh) | 网络拓扑结构动态自适应的压缩感知数据收集方法 | |
| Nguyen et al. | Deep reinforcement learning for UAV placement over mixed FSO/RF-based non-terrestrial networks | |
| CN117856858A (zh) | 一种星座协同跳波束决策方法、系统 | |
| CN117614507A (zh) | 一种高动态拓扑天地一体化网络的自适应流量卸载方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |