CN120817452A

CN120817452A - 一种扒谷输送机的控制方法及系统

Info

Publication number: CN120817452A
Application number: CN202511262052.0A
Authority: CN
Inventors: 毛根武; 邱家志; 葛森; 陈勇强; 秦宁; 赵金辉; 尹健辰; 郑焱诚; 刘昊; 张华昌; 黄波; 马旨洋; 付迁
Original assignee: China Grain Storage Chengdu Storage Research Institute Co ltd
Current assignee: China Grain Storage Chengdu Storage Research Institute Co ltd
Priority date: 2025-09-05
Filing date: 2025-09-05
Publication date: 2025-10-21
Anticipated expiration: 2045-09-05
Also published as: CN120817452B

Abstract

本发明涉及粮食装卸运输技术领域，公开了一种扒谷输送机的控制方法及系统，旨在解决现有控制方式存在效率和可靠性较低的问题，方案主要包括：分别在扒谷输送机和固定端输送带的关键位置安装多个UWB标签；获取各UWB标签实时采集的位置向量，根据实时采集的位置向量实时计算出粮口与固定端输送带的中心点之间的偏差向量，行走机构的姿态向量以及出粮口相对于行走机构的偏差角；根据偏差向量实时判断出粮口是否对准固定端输送带的中心区域，若否，则基于最大熵优化强化学习实时确定目标角速度，根据目标角速度对回转机构进行回转调节，并对可伸缩输送机构进行伸缩调节，直至出粮口对准固定端输送带的中心区域。本发明提高了出粮口对准的效率和准确性。

Description

一种扒谷输送机的控制方法及系统

技术领域

本发明涉及粮食装卸运输技术领域，具体涉及一种扒谷输送机的控制方法及系统。

背景技术

扒谷输送机通常简称为“扒谷机”或“移动式扒谷机”，是一种用于散粮堆（如粮库、码头、饲料厂等）进行粮食装卸、转运作业的专用移动式机械设备。扒谷输送机一般设有行走机构，可以在粮堆周围或粮库场地上移动，以适应不同位置的扒粮需求，在工作时，扒谷输送机通过扒谷机构将散粮从粮堆表面或底部扒粮，然后利用扒谷输送机的可回转、可伸缩的输送机构，将扒取的粮食输送至固定端输送带，实现粮食从粮堆到固定端输送带的高效转移。

现有扒谷输送机的控制方式主要依赖人工现场操作，尤其是输送机构出粮口的对准操作，操作人员通过操作杆或按钮，手动控制输送机构末端的回转角度或者伸缩长度，使粮食准确落入固定端输送带。这种方式需要操作员目视观察落料情况并不断调整，且依赖操作员逐个手动操作，操作员无法同时精确控制所有动作，调整过程耗时较长，出粮口对准的效率和可靠性较低。此外，现有技术在控制输送机构回转时，通常采用的是固定角速度，如果设置较小的固定角速度，当需要调整较大的角度时，则调整时间长，效率低，如果设置较大的固定角速度，则容易因惯性导致出粮口的对准精度低，尤其是需要调整较小的角度时。

发明内容

本发明旨在解决现有扒谷输送机的控制方式存在效率和可靠性较低的问题，提出一种扒谷输送机的控制方法及系统，实现输送对接的自动化、智能化。

本发明解决上述技术问题所采用的技术方案是：

第一方面，本发明提供一种扒谷输送机的控制方法，所述扒谷输送机包括行走机构、扒谷机构和可伸缩输送机构，所述行走机构通过回转机构与可伸缩输送机构转动连接，扒谷输送机利用扒谷机构从粮堆中扒粮，并通过可伸缩输送机构将粮食输送至固定端输送带；所述方法包括：

分别在扒谷输送机和固定端输送带的关键位置安装多个UWB标签，所述多个UWB标签包括：安装在行走机构靠近固定端输送带一侧的前后轮的第一UWB标签和第二UWB标签，安装在可伸缩输送机构的出粮口的第三UWB标签，以及安装在固定端输送带的四个角点的第四UWB标签、第五UWB标签、第六UWB标签和第七UWB标签；

获取各UWB标签实时采集的位置向量，根据实时采集的位置向量实时计算出粮口与固定端输送带的中心点之间的偏差向量，行走机构的姿态向量以及出粮口相对于行走机构的偏差角；

根据所述偏差向量实时判断出粮口是否对准固定端输送带的中心区域，若否，则根据所述偏差向量和偏差角并基于最大熵优化强化学习实时确定目标角速度，根据实时确定的目标角速度对回转机构进行回转调节，并对可伸缩输送机构进行伸缩调节，直至出粮口对准固定端输送带的中心区域。

进一步地，所述出粮口与固定端输送带的中心点之间的偏差向量的计算方法包括：

计算固定端输送带的中心点的位置向量：

；

其中，表示固定端输送带的中心点的位置向量，表示第四UWB标签对应的位置向量，表示第五UWB标签对应的位置向量，表示第六UWB标签对应的位置向量，表示第七UWB标签对应的位置向量；

计算出粮口与固定端输送带的中心点之间的偏差向量：

；

其中，表示偏差向量，表示第三UWB标签对应的位置向量。

进一步地，根据所述偏差向量判断出粮口是否对准固定端输送带的中心区域，包括：

计算固定端输送带的单位方向向量：

；

其中，表示固定端输送带在宽度方向上的单位方向向量，表示固定端输送带在长度方向上的单位方向向量，表示向量模长；

将出粮口与固定端输送带的中心点之间的偏差向量投影至固定端输送带，分别计算在宽度方向上的偏差分量以及在长度方向上的偏差分量：

；

其中，表示在宽度方向上的偏差分量，表示在长度方向上的偏差分量；

判断在宽度方向上的偏差分量以及在长度方向上的偏差分量是否均小于对应的偏差阈值，若是，则判定出粮口对准固定端输送带的中心区域，若否，则判定出粮口未对准固定端输送带的中心区域。

进一步地，所述行走机构的姿态向量的计算公式如下：

；

其中，表示行走机构的姿态向量，表示第一UWB标签对应的位置向量，表示第二UWB标签对应的位置向量。

进一步地，所述出粮口相对于行走机构的偏差角的计算方法包括：

计算行走机构的中心点的位置向量：

；

其中，表示行走机构的中心点的位置向量；

计算出粮口相对于行走机构的中心点的偏移向量：

；

其中，表示出粮口相对于行走机构的中心点的偏移向量，表示第三UWB标签对应的位置向量；

计算出粮口相对于行走机构的偏差角：

；

其中，表示出粮口相对于行走机构的偏差角，表示向量模长。

进一步地，根据所述偏差向量和偏差角并基于最大熵优化强化学习实时确定目标角速度，包括：

基于神经网络构建初始的策略网络，策略网络用于根据输入的状态向量输出动作的概率分布，所述状态向量包括各UWB标签在各时间步采集的位置向量，输出动作为角速度；

基于最大熵优化强化学习训练策略网络，训练过程的优化目标为找到使得奖励值与加权策略熵之和最大化的策略网络参数，获得目标策略网络；

根据各UWB标签实时采集的位置向量实时构建状态向量，将所述状态向量输入至训练完成的目标策略网络中，获得输出动作的分布参数，从所述输出动作的分布参数中采样，获得目标角速度。

进一步地，所述最大熵优化强化学习的奖励函数如下：

；

其中，表示奖励值，表示出粮口相对于行走机构的偏差角，表示出粮口与固定端输送带的中心点之间的偏差向量，表示目标角速度，表示角度惩罚的权重系数，表示位置惩罚的权重系数，表示平滑控制惩罚的权重系数，表示向量模长。

进一步地，所述最大熵优化强化学习的优化目标如下：

；

其中，表示目标策略网络，表示从策略网络中找到使奖励值与加权策略熵之和最大化的目标策略网络，表示时间步，为状态向量，包括时间步各UWB标签对应的位置向量，为输出动作，表示时间步的目标角速度，表示策略下的状态-动作期望，表示状态向量、输出动作对应的奖励值，表示策略熵，表示熵权重。

进一步地，在根据实时确定的目标角速度对回转机构进行回转调节，以及对可伸缩输送机构进行伸缩调节时，满足以下约束条件：

；

其中，表示第三UWB标签对应的位置向量，表示第四UWB标签对应的位置向量，表示第六UWB标签对应的位置向量，表示第七UWB标签对应的位置向量，表示固定端输送带的中心点的位置向量，表示固定端输送带在宽度方向上的单位方向向量，表示固定端输送带在长度方向上的单位方向向量。

第二方面，本发明提供一种扒谷输送机的控制系统，用于实现第一方面所述的扒谷输送机的控制方法，所述扒谷输送机包括行走机构、扒谷机构和可伸缩输送机构，所述行走机构通过回转机构与可伸缩输送机构转动连接，扒谷输送机利用扒谷机构从粮堆中扒粮，并通过可伸缩输送机构将粮食输送至固定端输送带；所述系统包括：

分别安装在扒谷输送机和固定端输送带的关键位置的多个UWB标签，所述多个UWB标签包括：安装在行走机构靠近固定端输送带一侧的前后轮的第一UWB标签和第二UWB标签，安装在可伸缩输送机构的出粮口的第三UWB标签，以及安装在固定端输送带的四个角点的第四UWB标签、第五UWB标签、第六UWB标签和第七UWB标签；

计算单元，用于获取各UWB标签实时采集的位置向量，根据实时采集的位置向量实时计算出粮口与固定端输送带的中心点之间的偏差向量，行走机构的姿态向量以及出粮口相对于行走机构的偏差角；

控制单元，用于根据所述偏差向量实时判断出粮口是否对准固定端输送带的中心区域，若否，则根据所述偏差向量和偏差角并基于最大熵优化强化学习实时确定目标角速度，根据实时确定的目标角速度对回转机构进行回转调节，并对可伸缩输送机构进行伸缩调节，直至粮口对准固定端输送带的中心区域。

本发明的有益效果是：本发明提供的扒谷输送机的控制方法及系统，基于UWB（Ultra Wide Band，超宽带）技术提供关键位置的厘米级精度的实时位置数据，自动进行出粮口对准判断以及可伸缩输送机构的回转和伸缩调节，实现了出粮口的自动判断和对准，减少了人工干预，提高了出粮口对准的效率和准确性；在对可伸缩输送机构进行回转调节时，基于最大熵优化强化学习实时计算目标角速度，生成既能精确对准又柔性安全的角速度控制策略，提高了回转效率并能够防止回转动作的惯性导致对准误差，实现了出粮口的精准柔性对准，实现输送对接的自动化、智能化。

附图说明

图1为实施例提供的扒谷输送机的结构示意图；

图2为实施例提供的扒谷输送机的控制方法的流程示意图；

图3为实施例提供的扒谷输送机的简化结构示意图；

图4为实施例提供的扒谷输送机的控制系统的结构示意图；

附图标记说明：

1-行走机构，2-扒谷机构，3-可伸缩输送机构，4-回转机构，5-固定端输送带，6-出粮口，Tag1-第一UWB标签，Tag2-第二UWB标签，Tag3-第三UWB标签，Tag4-第四UWB标签，Tag5-第五UWB标签，Tag6-第六UWB标签，Tag7-第七UWB标签，-偏差角。

具体实施方式

本发明的技术方案适用于需要利用扒谷输送机将散粮堆的粮食转运至固定端输送带的应用场景中，例如，稻谷、玉米、小麦等粮食的转运。

由于目前扒谷输送机的控制方式对人力依赖程度大，扒谷输送机的出粮口对准操作需要操作员目视观察和手动操作，使得出粮口对准的效率和可靠性较低。

基于此，提出本发明的技术方案，在本发明中，首先在行走机构靠近固定端输送带一侧的前轮安装第一UWB标签，在行走机构靠近固定端输送带一侧的后轮安装第二UWB标签，在可伸缩输送机构的出粮口安装第三UWB标签，在固定端输送带的四个角点安装第四UWB标签、第五UWB标签、第六UWB标签、第七UWB标签，并从所有UWB标签实时采集位置向量数据；然后根据实时位置向量计算出粮口与固定端输送带中心点之间的偏差向量、行走机构的姿态向量以及出粮口相对于行走机构的偏差角，如果偏差向量的分量超过阈值，判定出粮口未对准中心区域，当出粮口未对准中心区域时，自动控制扒谷输送机的输送机构进行回转和伸缩，从而实现出粮口的自动判断和对准，减少了人工干预，提高了出粮口对准的效率和准确性；并且在进行回转控制时，基于最大熵优化强化学习实时确定目标角速度，提高了回转控制效率，并且实现了出粮口的精准柔性对准。

下面将结合本实施例中的附图，对本实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

图1示出了一种扒谷输送机的结构示意图，请参阅图1，扒谷输送机包括行走机构1、扒谷机构2和可伸缩输送机构3，所述行走机构1通过回转机构4与可伸缩输送机构3转动连接，扒谷输送机利用扒谷机构2从粮堆中扒粮，并通过可伸缩输送机构3将粮食输送至固定端输送带5，粮食从可伸缩输送机构3的出粮口6落入固定端输送带5。

基于上述扒谷输送机，控制单元通过相应的电磁阀与各机构电性连接，控制单元通过输出相应的控制信号，实现对行走机构1的行走控制以及对可伸缩输送机构3的回转和伸缩控制。

图2示出了一种扒谷输送机的控制方法的流程示意图，请参阅图2，该方法包括：

步骤1、分别在扒谷输送机和固定端输送带的关键位置安装多个UWB标签。

在本实施例中，将扒谷输送机和固定端输送带5进行简化，以便于进行理解，请参阅图3，所述多个UWB标签包括：安装在行走机构1靠近固定端输送带5一侧的前后轮的第一UWB标签Tag1和第二UWB标签Tag2，安装在可伸缩输送机构3的出粮口6的第三UWB标签Tag3，以及安装在固定端输送带5的四个角点的第四UWB标签Tag4、第五UWB标签Tag5、第六UWB标签Tag6和第七UWB标签Tag7。

步骤2、实时获取各UWB标签的位置向量并计算关键参数：

获取各UWB标签实时采集的位置向量，根据实时采集的位置向量实时计算出粮口6与固定端输送带5的中心点之间的偏差向量，行走机构1的姿态向量以及出粮口6相对于行走机构1的偏差角。

在本实施例中，第一UWB标签Tag1实时获取的位置向量为，第二UWB标签Tag2实时获取的位置向量为，第三UWB标签Tag3实时获取的位置向量为，第四UWB标签Tag4实时获取的位置向量为，第五UWB标签Tag5实时获取的位置向量为，第六UWB标签Tag6实时获取的位置向量为，第七UWB标签Tag7实时获取的位置向量为。

基于获取的位置向量计算关键参数，关键参数包括出粮口6与固定端输送带5的中心点之间的偏差向量、行走机构1的姿态向量以及出粮口6相对于行走机构1的偏差角。

在本实施例中，所述偏差向量的计算步骤包括步骤201和步骤202：

步骤201、计算固定端输送带5的中心点的位置向量：

。

步骤202、计算偏差向量：

。

在本实施例中，所述姿态向量的计算公式如下：

。

在本实施例中，所述偏差角的计算步骤包括步骤211至步骤213：

步骤211、计算行走机构1的中心点的位置向量：

；

步骤212、计算出粮口6相对于行走机构1的中心点的偏移向量：

；

步骤213、计算偏差角：

；

其中，表示反余弦函数，表示向量模长。

步骤3、出粮口自动判断和对准：

根据所述偏差向量实时判断出粮口6是否对准固定端输送带5的中心区域，若否，则根据所述偏差向量和偏差角并基于最大熵优化强化学习实时确定目标角速度，根据实时确定的目标角速度对回转机构4进行回转调节，并对可伸缩输送机构3进行伸缩调节，直至出粮口6对准固定端输送带5的中心区域。

在本实施例中，将偏差向量投影至固定端输送带5，分别计算固定端输送带5上的投影点与中心点在宽度方向上的偏差分量以及在长度方向上的偏差分量，进而根据两个偏差分量判断出粮口6是否对准固定端输送带5的中心区域。具体流程包括步骤301至步骤303：

步骤301、计算固定端输送带5的单位方向向量：

；

其中，表示固定端输送带5在宽度方向上的单位方向向量，表示固定端输送带5在长度方向上的单位方向向量，表示向量模长。

步骤302、将出粮口6与固定端输送带5的中心点之间的偏差向量投影至固定端输送带5，分别计算在宽度方向上的偏差分量以及在长度方向上的偏差分量：

；

其中，表示在宽度方向上的偏差分量，表示在长度方向上的偏差分量。

步骤303、判断在宽度方向上的偏差分量以及在长度方向上的偏差分量是否均小于对应的偏差阈值，若是，则判定出粮口6对准固定端输送带5的中心区域，若否，则判定出粮口6未对准固定端输送带5的中心区域。

其中，偏差阈值可根据实际情况设置，如针对不同粮种设置不同的偏差阈值，本实施例不作限制。在实际应用中，输送带的宽度通常小于长度，因此可在宽度方向上设置较小的偏差阈值，在长度方向上设置较大的偏差阈值，以适应皮带几何特性，不仅能够避免粮食抛撒，还能降低对长度方向精度的过度要求，针对不同方向设置差异化阈值，能够提高对准判断精度且避免冗余计算。

在判定出粮口6对准固定端输送带5的中心区域时，无需进行干预，在判定出粮口6未对准固定端输送带5的中心区域时，则需要通过对出粮口6的位置进行调整，以使得出粮口6对准固定端输送带5的中心区域。具体地，通过控制回转机构4的回转运动（改变朝向）和可伸缩输送机构3的伸缩（调整长度）来调整出粮口6的位置，在调整过程中，持续进行位置向量的获取以及偏差分量的实时计算，实现闭环控制，直至两个偏差分量均小于对应的偏差阈值。

在实际调整过程中，还可以根据两个偏差分量与对应偏差阈值的大小关系进行调整，例如，当偏差分量大于对应的偏差阈值时，以伸缩调整为主导进行调整，补偿宽度，当偏差分量大于对应的偏差阈值时，以回转调整为主导进行调整，补偿角度，当两者均大于对应的偏差阈值时，两种调整方式协同调整，从而避免机构无效动作，提高调整效率并降低机械磨损。

上述方案通过实时获取的位置向量实时计算关键参数，并根据关键参数实现了出粮口6是否对准的自动判断和自动调整，减少了人工观察和调整时间，提高了效率和可靠性，并且独立判断两个维度的偏差，避免了耦合误差，进一步提高了对准判断和调整的准确性。

在控制回转机构4进行回转运动的过程中，为了兼顾回转效率和回转精度，本实施例基于最大熵优化强化学习生成既能精确对准又柔性安全的角速度控制策略，实时计算目标角速度，包括步骤311至步骤313：

步骤311、基于神经网络构建初始的策略网络，策略网络用于根据输入的状态向量输出动作的概率分布，所述状态向量包括各UWB标签在各时间步采集的位置向量，输出动作为角速度。

步骤312、基于最大熵优化强化学习训练策略网络，训练过程的优化目标为找到使得奖励值与加权策略熵之和最大化的策略网络参数，获得目标策略网络。

步骤313、根据各UWB标签实时采集的位置向量实时构建状态向量，将所述状态向量输入至训练完成的目标策略网络中，获得输出动作的分布参数，从所述输出动作的分布参数中采样，获得目标角速度。

在实际应用中，首先基于神经网络构建初始的策略网络，策略网络用于根据输入的状态向量输出动作的概率分布，其中，状态向量包括各UWB标签在各时间步采集的位置向量，输出动作为角速度；然后收集多组历史数据，历史数据为实际控制过程中的状态向量（各UWB标签对应的位置向量）和输出动作（角速度），基于最大熵优化强化学习的奖励函数计算每组历史数据对应的奖励值，并计算每组历史数据对应的奖励值与加权策略熵之和；再然后通过梯度上升更新策略网络参数，找到使得奖励值与加权策略熵之和最大化的策略网络参数，获得目标策略网络；最后将各UWB标签实时采集的位置向量构建的状态向量输入至目标策略网络中，即可获得输出动作（即角速度）的分布参数，通过对分布参数进行采样（计算平均值），即可获得目标角速度。

在本实施例中，所述最大熵优化强化学习的奖励函数如下：

；

其中，表示奖励值，表示出粮口6相对于行走机构1的偏差角，表示出粮口6与固定端输送带5的中心点之间的偏差向量，表示目标角速度，表示角度惩罚的权重系数，表示位置惩罚的权重系数，表示平滑控制惩罚的权重系数，表示向量模长。

所述最大熵优化强化学习的优化目标如下：

；

策略熵的计算公式如下：

；

其中，为策略函数，表示在状态向量下输出动作的概率分布；在本实施例中，输出动作是角速度，且假设其服从高斯分布（正态分布）；表示高斯分布的标准差，用于表示动作分布的离散程度，越大，动作的随机性（不确定性）越大；越小，动作越集中在均值附近；表示自然对数；表示自然常数；表示圆周率。

在上述奖励函数中，表示角度惩罚项，鼓励出粮口6相对于行走机构1的偏差角变小，保持朝向固定端输送带5的中心，从而减少粮食冲击，提高粮食落点的精准性；表示位置惩罚项，鼓励出粮口6与固定端输送带5的中心点之间的位置偏差变小，实现出粮口6的精确对准，确保粮食掉落点紧靠中心点，表示平滑控制惩罚项，鼓励回转控制平滑，保障机械结构安全，并避免大惯性导致误差。当偏差角增大时，项急剧下降（时惩罚是的4倍），迫使网络输出更大的快速纠偏（但受熵项和惩罚项约束，不会过大），从而提高回转效率，在偏差角较小时，输出较小的目标角速度，实现精细调整。奖励函数用于引导策略追求精确对准（减小偏差角和位置偏差）和平滑（减小）。

在上述优化目标中，策略熵项则鼓励策略网络保持一定的随机性（即不要过早收敛到某个确定性动作），这样在相似的状态下可能会尝试不同的角速度，从而有利于探索更优的动作，并且避免过于激进的控制（因为大角速度虽然可能快速减小偏差，但会带来较大的惩罚，而且策略熵项鼓励随机性会使得策略不会总选择最大角速度，而是会尝试中等或小角速度）。奖励函数与优化目标二者共同作用，找到奖励值与加权策略熵之和最大化的目标策略网络，使得生成的角速度控制策略既精确又柔性安全。

在根据确定的目标角速度进行回转调整的过程中，持续进行位置向量的获取以及目标角速度的实时计算，目标角速度随着扒谷输送机的状态改变进行实时更新，实现闭环控制。

在本实施例中，在根据实时确定的目标角速度对回转机构进行回转调节，以及对可伸缩输送机构进行伸缩调节时，满足以下约束条件：

；

通过将出粮口6的位置调整范围约束在固定端输送带5的上方区域内，能够避免出粮口6在调整位置过程中将粮食落在固定端输送带5外，从而减少粮食抛撒。

综上所述，本实施例提供的扒谷输送机的控制方法及系统，基于UWB技术提供关键位置的厘米级精度的实时位置数据，自动进行出粮口对准判断以及可伸缩输送机构的回转和伸缩调节，实现了出粮口的自动判断和对准，减少了人工干预，提高了出粮口对准的效率和准确性；在对可伸缩输送机构进行回转调节时，基于最大熵优化强化学习实时计算目标角速度，生成既能精确对准又柔性安全的角速度控制策略，提高了回转效率并能够防止回转动作的惯性导致对准误差，实现了出粮口的精准柔性对准。

基于上述技术方案，本实施例还提供一种扒谷输送机的控制系统，用于实现实施例所述的扒谷输送机的控制方法，所述扒谷输送机包括行走机构、扒谷机构和可伸缩输送机构，所述行走机构通过回转机构与可伸缩输送机构转动连接，扒谷输送机利用扒谷机构从粮堆中扒粮，并通过可伸缩输送机构将粮食输送至固定端输送带；请参阅图4，所述系统包括：

可以理解，由于本实施例所述的扒谷输送机的控制系统是用于实现实施例所述扒谷输送机的控制方法的系统，对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的较为简单，相关之处参见方法的部分说明即可，此处不再赘述。

Claims

1.一种扒谷输送机的控制方法，其特征在于，所述扒谷输送机包括行走机构、扒谷机构和可伸缩输送机构，所述行走机构通过回转机构与可伸缩输送机构转动连接，扒谷输送机利用扒谷机构从粮堆中扒粮，并通过可伸缩输送机构将粮食输送至固定端输送带；所述方法包括：

2.根据权利要求1所述的扒谷输送机的控制方法，其特征在于，所述出粮口与固定端输送带的中心点之间的偏差向量的计算方法包括：

计算固定端输送带的中心点的位置向量：

；

计算出粮口与固定端输送带的中心点之间的偏差向量：

；

其中，表示偏差向量，表示第三UWB标签对应的位置向量。

3.根据权利要求2所述的扒谷输送机的控制方法，其特征在于，根据所述偏差向量判断出粮口是否对准固定端输送带的中心区域，包括：

计算固定端输送带的单位方向向量：

；

4.根据权利要求1所述的扒谷输送机的控制方法，其特征在于，所述行走机构的姿态向量的计算公式如下：

；

5.根据权利要求4所述的扒谷输送机的控制方法，其特征在于，所述出粮口相对于行走机构的偏差角的计算方法包括：

计算行走机构的中心点的位置向量：

；

其中，表示行走机构的中心点的位置向量；

计算出粮口相对于行走机构的中心点的偏移向量：

；

计算出粮口相对于行走机构的偏差角：

；

6.根据权利要求1所述的扒谷输送机的控制方法，其特征在于，根据所述偏差向量和偏差角并基于最大熵优化强化学习实时确定目标角速度，包括：

7.根据权利要求6所述的扒谷输送机的控制方法，其特征在于，所述最大熵优化强化学习的奖励函数如下：

；

8.根据权利要求6所述的扒谷输送机的控制方法，其特征在于，所述最大熵优化强化学习的优化目标如下：

；

9.根据权利要求1所述的扒谷输送机的控制方法，其特征在于，在根据实时确定的目标角速度对回转机构进行回转调节，以及对可伸缩输送机构进行伸缩调节时，满足以下约束条件：

；

10.一种扒谷输送机的控制系统，其特征在于，用于实现如权利要求1至9任一项所述的扒谷输送机的控制方法，所述扒谷输送机包括行走机构、扒谷机构和可伸缩输送机构，所述行走机构通过回转机构与可伸缩输送机构转动连接，扒谷输送机利用扒谷机构从粮堆中扒粮，并通过可伸缩输送机构将粮食输送至固定端输送带；所述系统包括：