WO2023188341A1 - 行動評価提示システム、行動評価提示方法、及び行動評価提示装置 - Google Patents
行動評価提示システム、行動評価提示方法、及び行動評価提示装置 Download PDFInfo
- Publication number
- WO2023188341A1 WO2023188341A1 PCT/JP2022/016720 JP2022016720W WO2023188341A1 WO 2023188341 A1 WO2023188341 A1 WO 2023188341A1 JP 2022016720 W JP2022016720 W JP 2022016720W WO 2023188341 A1 WO2023188341 A1 WO 2023188341A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- area
- state
- behavior
- region
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
Definitions
- the present disclosure relates to a behavioral evaluation presentation system, a behavioral evaluation presentation method, and a behavioral evaluation presentation device.
- Patent Document 1 describes a predictive behavior determining device that acquires environmental state values and determines its own behavior based on the results of predicting environmental state changes. Further, Patent Document 2 describes a device that creates a risk map by applying classified traffic participants to pre-learned actual risks, and controls the own vehicle based on the created risk map.
- a user monitoring an autonomous mobile robot may not be able to understand the basis for which the autonomous mobile robot selects a route. For example, if there are multiple routes to reach a destination, the user may not be able to understand why the autonomous mobile robot selected one of the multiple routes.
- the present disclosure has been made to solve such problems, and aims to provide a behavior evaluation presentation system, method, device, etc. that presents the basis for route selection of a moving object.
- a behavioral evaluation presentation system includes: a route planning means for planning a first route for the moving body to move to a first area on the map and a second route for the moving body to move to the second area on the map; Predicting the state of the environment in the first area according to an estimated elapsed time required for movement of the mobile object along the first route; a state prediction means for predicting the state of the environment in the second area according to an estimated elapsed time required for movement of the mobile object along the second route; Evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the first area, and evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental status of the second area. an evaluation means for evaluating the behavior of the mobile object that has moved to the second area; Presentation means for presenting the evaluation in the first region and the evaluation in the second region in a superimposed manner on the map; Equipped with
- a behavioral evaluation presentation method includes: planning a first route for the moving body to move to a first area on the map and a second route for the moving body to move to the second area on the map; Predicting the state of the environment in the first area according to an estimated elapsed time required for movement of the mobile object along the first route; Predicting the state of the environment in the second area according to the estimated elapsed time required for movement of the mobile object along the second route, Evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the first area, and evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental status of the second area. Evaluating the behavior of the mobile object that has moved to the second area, The evaluation in the first area and the evaluation in the second area are presented in a superimposed manner on the map.
- a behavior evaluation presentation device plans a first route in which the moving object moves to a first area on the map, and a second route in which the moving object moves to a second area on the map.
- a route planning means for Predicting the state of the environment in the first area according to an estimated elapsed time required for movement of the mobile object along the first route;
- a state prediction means for predicting the state of the environment in the second area according to an estimated elapsed time required for movement of the mobile object along the second route;
- an evaluation means for evaluating the behavior of the mobile object that has moved to the second area;
- Presentation means for presenting the evaluation in the first region and the evaluation in the second region in a superimposed manner on the map; Equipped with
- FIG. 1 is a block diagram showing the configuration of a behavior evaluation presentation system according to a first embodiment
- FIG. 3 is a flowchart showing the operation of the behavior evaluation presentation system according to the first embodiment
- FIG. 2 is a block diagram showing a configuration example of a behavior evaluation presentation system according to a second embodiment.
- FIG. 7 is a diagram illustrating a method for visualizing the basis for route selection of a mobile object on a map according to the second embodiment.
- FIG. 7 is a diagram illustrating an example of creating a judgment criterion map based on evaluation in a toy model according to the second embodiment.
- FIG. 7 is a diagram illustrating an example of calculating a state value according to the second embodiment.
- FIG. 7 is a diagram illustrating an example of creating a judgment criterion map according to the second embodiment.
- FIG. 7 is a diagram illustrating a time-considered map creation method using simulation according to the second embodiment. It is a figure explaining the case of the partial observation system in other embodiments.
- FIG. 7 is a diagram illustrating a route planning method by a route planning unit according to another embodiment. This is a block section showing an example of a hardware configuration of a behavior evaluation presentation device, etc.
- Embodiment 1 Embodiments of the present invention will be described below with reference to the drawings.
- the present embodiment calculates a plurality of routes for a moving object, takes into account temporal changes in the environment when the moving object moves along the routes, calculates an evaluation of the behavior of the moving object, and presents the evaluation to the user.
- a mobile object can be a variety of movable devices such as an autonomous mobile robot, an autonomous mobile vehicle, etc.
- the behavioral evaluation presentation system 1 can be realized by one or more computers.
- a computer may include memory, a processor, and the like.
- the behavior evaluation presentation system 1 may be used by a user who monitors autonomous movement of a mobile object.
- the behavior evaluation presentation system 1 includes a route planning section 101, a state prediction section 102, an evaluation section 103, and a presentation section 104. Note that some of the components may be provided on a cloud computer connected via a network.
- the route planning unit 101 is also called a route planning means.
- the route planning unit 101 plans multiple routes to multiple areas. Specifically, the route planning unit 101 plans a first route in which the moving object moves to a first area on the map, and a second route in which the moving object moves to a second area on the map.
- the map may be an entire map that may indicate areas in which the mobile object can move or areas in which it cannot move.
- the map may be provided by the user, or may be generated from information collected by the above-mentioned sensor unit (eg, camera, LiDAR).
- the state prediction unit 102 is also called state prediction means.
- the state prediction unit 102 executes a simulation regarding the movement of a moving object and changes in the state of the environment depending on the elapsed time.
- the state prediction unit 102 predicts the state of the environment in the first area according to the elapsed time estimated to be required for the movement of the mobile object along the first route, and
- the state of the environment in the second area is predicted according to the elapsed time estimated to be required for the movement of the mobile object.
- the evaluation unit 103 is also called evaluation means.
- the evaluation unit 103 evaluates the behavior of the mobile object that has moved to the first region based on the predicted state of the environment in the first region, and evaluates the behavior of the mobile object that has moved to the first region based on the predicted state of the environment in the second region. Based on this, the behavior of the mobile object that has moved to the second area is evaluated.
- the presentation unit 104 is also called presentation means.
- the presentation unit 104 may be, for example, any display device for presenting a map to a user.
- the presentation unit 104 superimposes and presents the evaluation in the first area and the evaluation in the second area on the map.
- a map in which the evaluation of the behavior of a moving object is shown in each region is also called a judgment criterion map.
- FIG. 2 is a flowchart showing the operation of the behavior evaluation presentation system according to the first embodiment.
- the route planning unit 101 plans a first route in which the moving object moves to a first area on the map and a second route in which the moving object moves to a second area (step S101).
- the state prediction unit 102 predicts the state of the environment in the first area according to the elapsed time estimated to be required for the movement of the mobile object along the first route, and The state of the environment in the second area is predicted according to the elapsed time estimated to be required for the movement of the mobile object (step S102). For example, if a flood is expanding in an environment in which a mobile object moves, the state prediction unit 102 determines whether the first area is flooded or It is possible to predict whether the state of the environment will cause flooding. Further, the state prediction unit 102 can predict whether the state of the environment in the second area will be a flood, depending on the elapsed time estimated to be required for the movement of the mobile object along the second route. .
- the evaluation unit 103 evaluates the behavior of the mobile object that has moved to the first region based on the predicted state of the environment in the first region, and evaluates the behavior of the mobile object that has moved to the first region based on the predicted state of the environment in the second region. Based on this, the behavior of the mobile object that has moved to the second area is evaluated (step S103).
- the evaluation unit 103 can evaluate the behavior of the mobile object that has moved to the first area, for example, using the learned value function and the state of the environment in the first area according to the elapsed time.
- the presentation unit 104 presents the evaluation in the first region and the evaluation in the second region in a superimposed manner on the map (step S104).
- the states of the first and second areas to which the moving object moves are predicted, taking into account the elapsed time required for the movement of the moving object, and the behavior of the moving object to each area is predicted. can be evaluated. Moreover, by superimposing and presenting the evaluation results on the map, the user can recognize the basis for autonomous movement of the mobile object.
- Embodiment 2 Consider having autonomous mobile robots (also called mobile objects) perform reconnaissance tasks without being discovered by third parties. Autonomous mobile robots generate routes that take into account the risk of being discovered by third parties and conduct reconnaissance. At this time, a judgment standard map (also called a risk map) is presented so that the user who is monitoring the autonomous mobile robot's behavior can recognize which locations are dangerous and how dangerous they are as a basis for the autonomous mobile robot's actions. The purpose is to Note that the risk here refers not simply to the risk or safety when the robot is in a certain place, but to the risk or safety when the robot goes from one place to another.
- a judgment standard map also called a risk map
- reinforcement learning is performed under a simulated environment using a simulator, using the robot's coordinates and surrounding information as input, and the robot's speed and direction as output. From the value functions and policies obtained through reinforcement learning, it is possible to determine the local risk of performing a certain action, that is, in which direction and at what speed the value is highest. With methods such as Grad-CAM (Gradient-weighted Class Activation Mapping), it is possible to determine which parts are important in the whole, but because they do not take into account changes in time, it is unclear how those important parts are affected. The degree of danger beyond local areas, such as which locations on the map as a whole are dangerous, is unknown.
- Grad-CAM Grad-CAM
- the present disclosure relates to improving the presentation of mobile object control and route planning learned by reinforcement learning to users.
- FIG. 3 is a block diagram showing a configuration example of a behavior evaluation presentation system according to the second embodiment.
- the behavior evaluation presentation system 1 includes a control unit 150 mounted on an autonomous mobile robot and a behavior evaluation presentation device 100.
- the behavior evaluation presentation device 100 may be used, for example, by a user monitoring an autonomous mobile robot.
- the behavior evaluation presentation device 100 can be realized by a computer including a memory, a processor, a display, and the like.
- the behavior evaluation presentation device 100 includes a route planning section 101 , a state prediction section 102 , an evaluation section 103 , a presentation section 104 , and a map holding section 110 .
- the configuration of the behavior evaluation presentation device 100 is merely an example, and some of the components may be provided outside the device. Some of the components may be located on different network devices or on cloud computers connected via a network. Additionally, each component may be interconnected via a wired or wireless network.
- the control unit 150 is provided in the moving body, and acquires information on the environment around the moving body (i.e., the current situation) using the state acquisition unit 151.
- the control unit 150 is configured by a computer including a memory, a processor, and the like.
- the control unit 150 can also control the movement of the mobile object.
- the state acquisition unit 151 acquires the position of the moving body on the map (for example, at a specific point in time (for example, the current time) via a sensor unit (for example, a camera, LiDAR (Light Detection and Ranging or Laser Imaging Detection and Ranging)). , coordinates on the map) and the surrounding environment information of the moving object.
- the sensor unit may be a camera provided on the moving body, or may be a monitoring camera installed in the environment where the moving body moves (for example, on a ceiling or wall in a room).
- a sensor unit for example, a surveillance camera
- the state acquisition unit 151 acquires information about the environment around the moving object (i.e., from the sensor unit via a wireless network). , current status).
- the acquired environmental information is sent to the behavior evaluation presentation device 100 via a wireless network, for example.
- the state acquisition unit 151 may be provided within the behavior evaluation presentation device 100.
- the mobile object may be an autonomous mobile robot, and may be provided with a drive unit or the like to enable autonomous travel.
- the state acquisition unit is also referred to as state acquisition means.
- the map holding unit 110 holds an entire map (for example, a grid map) of the environment around the moving body.
- the map may be an overall map that may indicate areas in which the mobile object can or cannot move.
- the map may be provided by the user, or may be generated from information collected by the above-mentioned sensor unit (eg, camera, LiDAR).
- the map holding unit 110 may be held in a storage unit of a moving object or a storage unit of the behavior evaluation presentation device 100.
- the map holding unit 110 is also called a map holding means.
- the route planning unit 101 is also called a route planning means.
- the route planning unit 101 plans a route for a mobile object from one point to another based on a map. Further, the route planning unit 101 can also calculate a drive control method for the moving body to another point.
- the route planning unit 101 can calculate a route from the current location of the moving object to the target location using an algorithm. This algorithm may be, for example, A*, but is not limited to this, and various algorithms known to those skilled in the art can be used.
- the target position may be a goal, each point on a map, each area (for example, each grid on a grid map), or the like.
- the route planning unit 101 can calculate not only the route that the moving object actually moves, but also a plurality of routes to each point on the map that the moving object can move.
- the route planning unit 101 plans multiple routes for the mobile object to travel.
- the route planning unit 101 plans a first route for the moving body to move to a first area on the map at a specific time, and plans a second route for the moving body to move to the second area at the specific time. .
- the state prediction unit 102 is also called a state prediction means, estimation means, or estimation unit.
- the state prediction unit 102 performs simulations regarding movement, state changes, etc. of a moving object.
- the state prediction unit 102 estimates a change in the environmental state, the position of the moving object at that time, and the reward obtained on the route, based on map information and information on the surrounding environment of the moving object.
- the state prediction unit 102 calculates the elapsed time associated with the movement from a specific point in time to the first point in time.
- the state of the environment in the first area is predicted according to the first area.
- the state prediction unit 102 determines whether the moving body moves along the planned second route and reaches the second area at a second time point, from the specific time point to the second time point.
- the state of the environment in the second area is predicted according to the elapsed time associated with the movement.
- the state prediction unit 102 also predicts the state of each region at each time when the moving object moves along the first route and reaches each region.
- the state prediction unit 102 also predicts the state of the area at the time when the moving object moves along the second route and reaches the area on the route.
- the evaluation unit 103 calculates an evaluation value from the current location of the moving body to a certain point (for example, each grid on a grid map).
- the evaluation unit 103 is also called evaluation means.
- the evaluation value calculation method is as follows. [maxQ(S',*)+R]-maxQ(S,*) Note that maxf(*) represents the maximum value of the arguments in the * part.
- the evaluation unit 103 evaluates the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the first area, and evaluates the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the second area. The behavior of the mobile object that has moved to the area is evaluated.
- the evaluation unit 103 evaluates the behavior of the mobile object moving along the first route to the first area based on the predicted state of the environment in the first area. Furthermore, the evaluation unit 103 can evaluate the behavior of the mobile object moving to the first area based on the predicted environmental state of each area up to the first area.
- the evaluation unit 103 evaluates the behavior of the mobile object moving along the second route to the second area based on the predicted state of the environment in the second area. Furthermore, the evaluation unit 103 can evaluate the behavior of the mobile object moving along the second route to the second area based on the predicted environmental state of each area up to the second area.
- the evaluation unit 103 evaluates the moving object in each region of the route based on route information indicating the route of the moving object, the predicted environmental state, and a reference function indicating an index of the moving object's behavior. Calculate the evaluation value of the behavior.
- the evaluation unit 103 evaluates the state S of the moving body, the final state S' of the moving body, the reference function V, and the expression [V(S' )+R] ⁇ V(S), an evaluation value of the behavior of the moving object is calculated.
- evaluation values, rewards obtained on the route, and multiple routes to each grid are stored in a storage unit (not shown) of the behavior evaluation presentation device 100, and are used during simulation or evaluation by the state prediction unit 102. It may be acquired as necessary, such as when the evaluation value is calculated by the unit 103.
- the storage section is also called a state holding section.
- the presentation unit 104 is, for example, a display device, and displays the evaluation results calculated by the evaluation unit 103 on a map to the user.
- a map on which evaluation results are superimposed is also referred to as a criterion map or a risk map.
- This criterion map can indicate the degree of risk of each arbitrary point or region on the map.
- a user monitoring a moving object can recognize the basis for the autonomous movement of the moving object based on this criterion map.
- a value function is required instead of a policy gradient system such as Actor-Critic or Q learning. It is assumed that the moving object moves so that this value function Q becomes maximum.
- a simulator environment S, a ⁇ S', r
- a value function Q S, a
- an algorithm A s, s'
- a goal is set at one end of the one-dimensional path.
- Agent AG which is an autonomous mobile robot, can start moving from any grid on a one-dimensional path and move from its current position on the map to one square on the left or right in one step.
- a flood FD exists on the map.
- the flood FD floods one square adjacent to the current position of the flood FD at each step. That is, the flood FD changes the surrounding environment of the autonomous mobile robot as a state change.
- the reward R obtained by agent AG for each step is -0.1, and the reward R at the goal is +10.
- the game is assumed to end when agent AG is swallowed by the flood FD or when agent AG reaches the goal.
- Such conditions may also be referred to herein as termination conditions.
- the end state shown here is merely an example, and various states can be set.
- the upper part of FIG. 5 shows the coordinates of the moving body acquired by the status acquisition unit 151 and the status value of the current environment.
- the value of each grid in the criterion map is determined by the above equations (1) and (2).
- the route planning unit 101 described above plans a route from the current position to each grid.
- the state prediction unit 102 calculates changes in the environmental state of each grid, the position of the moving object at that time, and the reward obtained on the route.
- the evaluation unit 103 calculates an evaluation value using equations (1) and (2) above.
- the presentation unit 104 presents the user with a map in which evaluation values are written in each grid.
- the judgment criterion map for the grid where agent AG is currently located is shown in the lower diagram of FIG.
- the criterion map in this example shows the position of agent AG and the score in each grid.
- the determination reference map may display the arrival time when the agent AG moves to each grid.
- an autonomous mobile robot autonomously moves toward a goal so that its own value function is maximized.
- the criterion map presents the basis for the robot's route selection to the user.
- the judgment criteria map also shows the risk that will occur due to changes in state (for example, the risk of being swallowed by a flood), taking into account the elapsed time until the movement. .
- a user monitoring the autonomous mobile robot can recognize the reason for the autonomous mobile robot's route selection based on the criterion map created in this way.
- grids showing a value of 0 have a lower risk
- grids showing a value of -9.7 have a higher risk.
- a grid that shows a value of -0.2 means that there is no risk of being engulfed by a flood when the autonomous mobile robot moves to that grid, but the autonomous mobile robot will not move toward the goal in the next step. As long as it can be swallowed by the flood. Therefore, a grid showing a value of -0.2 indicates a slightly higher risk than a grid showing a value of 0.
- FIGS. 6 and 7. show a more complex two-dimensional path.
- the two hatched grids (Goal_1 and Goal_2 in FIG. 7) are goals.
- Flood FD indicates the water source of the flood.
- the movement rules, rewards, termination conditions, etc. are the same as in the above example shown in FIG.
- the monitoring user does not know which of the two goals Goal_1 and Goal_2 the autonomous mobile robot is moving toward.
- FIG. 6 shows the state value of each grid on the map when agent AG, which is an autonomous mobile robot, is at the current position shown in FIG.
- FIG. 6 shows an environment in which the state acquisition unit 151 has acquired the position of the moving object and the state of the environment at the current time.
- FIG. 7 shows a determination reference map at the current position shown in FIG. 6.
- the value of each grid in the judgment criterion map is determined by the above equations (1) and (2).
- the time required for the autonomous mobile robot at the current position to reach each grid is different for each grid, so each grid in the criterion map indicates a risk or value at a different time. be able to.
- each grid may be shown on the map, but the judgment criteria map in this example shows different patterns on each grid to indicate differences in value or risk.
- a plain white grid indicates that the score is around 0, that is, the risk is relatively low.
- the grid shown in the pattern of FIG. 7 shows that the score is around -10, that is, the risk is relatively high.
- the grid shown in the pattern of FIG. 7 indicates that when the robot moves to each grid, it will be swallowed up by the flood FD, considering the time lapse accompanying the movement. In other words, the grid shown in the pattern of FIG. 7 indicates a higher risk than the grid shown in plain white.
- the judgment criteria map shown in Figure 7 shows that it is less risky for an autonomous mobile robot to move toward Goal_2 than Goal_1 because it can be reached through a path consisting of a plain white grid. ing.
- the presentation unit 104 can indicate an arrow on the map along a route with low risk among the plurality of routes.
- the presenting unit 104 may present the route in another manner (for example, a navigation display) so as to guide the user to a route with a low risk among the plurality of routes. In this way, the monitoring user can use the criterion map to recognize the reason why the autonomous mobile robot selects the route heading for Goal_2 instead of Goal_1.
- Two routes for example, G00 ⁇ G01 ⁇ G12 are planned.
- the state prediction unit 102 estimates the reward obtained on the first route when the moving object moves to the first area (for example, grid G03 in FIG. 7) along the planned first route. do. In addition, the state prediction unit 102 predicts the reward obtained on the second route when the moving object moves to the second area (for example, grid G12 in FIG. 7) along the planned second route. do.
- the state prediction unit 102 predicts the reward obtained until reaching each region.
- the state prediction unit 102 predicts the reward obtained until reaching the region.
- the evaluation unit 103 evaluates the behavior of the mobile object moving to the first area along the first route based on the predicted environmental state (e.g., flood) of the first area (e.g., G03). Furthermore, the evaluation unit 103 determines whether the movement to move to the first area is based on the environmental state (for example, non-flooding) of each area (for example, G01, G02) on the way to the predicted first area. Body behavior can be evaluated.
- the environmental state for example, non-flooding
- the evaluation unit 103 also evaluates the behavior of the mobile object moving to the second area along the second route based on the predicted environmental state (e.g., non-flooding) of the second area (e.g., G12). do. Furthermore, the evaluation unit 103 moves to the second area along the second route based on the environmental state (e.g., non-flooding) of the predicted area (e.g., G01) on the way to the second area. The behavior of moving objects can be evaluated.
- the predicted environmental state e.g., non-flooding
- the predicted area e.g., G01
- the evaluation unit 103 can evaluate the behavior of the mobile object moving to the first area based on the predicted reward obtained by the mobile object moving on the first route and up to the first area.
- the evaluation unit 103 can evaluate the behavior of the mobile object moving to the second area based on the predicted reward obtained by the mobile object moving along the second route and up to the second area.
- the presentation unit 104 provides the evaluation in the first region (for example, G03) (the value is around ⁇ 10, so it is shown in the pattern of FIG. 7) and the evaluation in the second region (for example, G12) (the value is around 0). Therefore, the map (shown in white in FIG. 7) is presented superimposed on the map.
- the presentation unit 103 also evaluates the first area and each area up to the first area (for example, G01, G02) (both are white in FIG. 7), and the evaluation in the second area and Evaluations (white in FIG. 7) in each area (for example, G0) up to the second area can be presented in a superimposed manner on the map.
- the difference in value or risk of each grid is expressed by the difference in the pattern of each grid, but it may also be expressed by different colors.
- a white grid may represent a relatively low risk
- an orange grid may represent a relatively high risk
- the goal may be represented by a red grid
- the flood water source may be represented by a blue grid.
- an arrow may be displayed on the corresponding route on the map to indicate that the route with lower risk is to be selected. In this way, various notations can be used for the judgment criterion map so that the monitoring user can easily judge the risk of the route.
- the state acquisition unit for example, a sensor, etc.
- the state prediction unit 102 of the behavior evaluation presentation device 100 simulates the process in which the robot moves to each grid on the map.
- the score of each grid is calculated by comparing [max Q(S',*)+R] with the present value max Q(S,*).
- Present value can be said to be the value of taking the action that causes the least loss in the current state, that is, the value of the optimal action.
- the state action value function Q(s, a) is learned has been described, but in some embodiments, the reward variance Va(s, a) may also be incorporated to be learned at the same time during learning. I can do it.
- the autonomous mobile robot is made to behave in a manner that maximizes F.
- This embodiment can be directly applied as a risk-inclusive value function by replacing Q(s, a) with F(s, a).
- the state acquisition unit 151 may not be able to observe the states of all regions.
- the state acquisition unit 151 may not be able to observe the states of all regions.
- the state prediction unit 102 may predict the state using the following method.
- the state prediction unit 102 creates a distribution that assumes possible states of each grid, and performs sampling.
- the possible states of one square are any of three states: goal, flood state, or non-flood state. If agent AG cannot observe the state of an area far from the current position, that is, the state near Goal_2, the unobservable area is sampled assuming that each possible state is uniformly distributed.
- the state of each visibility-restricted grid is assumed to be one of three states: goal, flood state, and non-flood state, and is sampled in 1/3 increments.
- the state prediction unit 102 predicts the state of each grid and the reward for the route taken by the agent AG to the grid G21.
- the state prediction unit 102 repeats these processes a predetermined number of times.
- the evaluation unit 103 calculates the sample average of the values of [maxQ(S',*)+R] ⁇ maxQ(S,*).
- the processing of the state prediction unit 102 and the evaluation unit 103 is executed for the grid G22 and the grid G23.
- the state prediction unit 102 may use prior knowledge to predict the state of each visibility-restricted grid. For example, as prior knowledge, the behavior evaluation presentation system 1 recognizes the position of the goal on the map. The behavior evaluation presentation system 1 recognizes that in areas with limited visibility, the probability of flooding is lower than the probability of non-flooding. In this case, the state prediction unit 102 assumes that the grid position of the goal has been determined, and that the probability that the other two squares in front of the goal are flooded is 1/10, and that the probability that they are non-flood is 9. /10 and sampling is performed. As described above, the state prediction unit 102 predicts the state of each grid and the reward for the route taken by the agent AG to the grid G21.
- the state prediction unit 102 repeats these processes a predetermined number of times. After that, the evaluation unit 103 calculates the sample average of the values of [maxQ(S',*)+R] ⁇ maxQ(S,*). Similarly, the processing of the state prediction unit 102 and the evaluation unit 103 is executed for the grid G22 and the grid G23. In this case, each grid on the criterion map can display the sample average of the values of [maxQ(S',*)+R] ⁇ maxQ(S,*).
- FIG. 10 is a diagram illustrating a route planning method by a route planning unit according to another embodiment.
- the route planning unit 101 divides the continuous space into a grid, as shown in FIG. You can choose.
- the route planning unit 101 can plan a drive control method for a moving object (for example, the number of rotations of the wheels of the moving object). Thereafter, as described above, each process in the route planning section 101, the state prediction section 102, the evaluation section 103, and the presentation section 104 may be executed.
- the value of a reward obtained n steps from now is generally evaluated as ⁇ n using a time discount rate ⁇ (0-1).
- R is the sum of the reward at each time multiplied by ⁇ k (also referred to as time discount reward in this specification) and calculated according to the elapsed time n. [max ⁇ n ⁇ Q(S',*)+R]-maxQ(S,*) becomes.
- FIG. 11 is a block diagram showing a configuration example of the behavior evaluation presentation device 100 and the control unit 150 (hereinafter referred to as the behavior evaluation presentation device 100, etc.).
- the behavior evaluation presentation device 100 and the like include a network interface 1201, a processor 1202, and a memory 1203.
- Network interface 1201 is used to communicate with other network node devices that make up the communication system.
- Network interface 1201 may be used to conduct wireless communications.
- the network interface 1201 may be used to perform wireless LAN communication defined in the IEEE 802.11 series or mobile communication defined in the 3rd Generation Partnership Project (3GPP).
- the network interface 1201 may include, for example, a network interface card (NIC) compliant with the IEEE 802.3 series.
- NIC network interface card
- the processor 1202 reads software (computer program) from the memory 1203 and executes it to perform the processing of the behavior evaluation presentation device 100 and the like described using the flowchart or sequence in the above embodiment.
- the processor 1202 may be, for example, a microprocessor, an MPU (Micro Processing Unit), or a CPU (Central Processing Unit).
- Processor 1202 may include multiple processors.
- the memory 1203 is configured by a combination of volatile memory and nonvolatile memory.
- Memory 1203 may include storage located remotely from processor 1202. In this case, processor 1202 may access memory 1203 via an I/O interface (not shown).
- memory 1203 is used to store software modules. By reading out and executing these software module groups from the memory 1203, the processor 1202 can perform the processing of the behavior evaluation presentation device 100 and the like described in the above-described embodiments.
- each of the processors included in the behavior evaluation presentation device 100 etc. executes one or more programs including a group of instructions for causing a computer to perform the algorithm explained using the drawings. .
- the program includes instructions (or software code) that, when loaded into a computer, cause the computer to perform one or more of the functions described in the embodiments.
- the program may be stored on a non-transitory computer readable medium or a tangible storage medium.
- computer readable or tangible storage media may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD - Including ROM, digital versatile disc (DVD), Blu-ray disc or other optical disc storage, magnetic cassette, magnetic tape, magnetic disc storage or other magnetic storage device.
- the program may be transmitted on a transitory computer-readable medium or a communication medium.
- transitory computer-readable or communication media includes electrical, optical, acoustic, or other forms of propagating signals.
- a route planning means for planning a first route for the moving body to move to a first area on the map and a second route for the moving body to move to the second area on the map; Predicting the state of the environment in the first area according to an estimated elapsed time required for movement of the mobile object along the first route; a state prediction means for predicting the state of the environment in the second area according to an estimated elapsed time required for movement of the mobile object along the second route; Evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the first area, and evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental status of the second area.
- an evaluation means for evaluating the behavior of the mobile object that has moved to the second area; Presentation means for presenting the evaluation in the first region and the evaluation in the second region in a superimposed manner on the map; A behavioral evaluation presentation system.
- the state prediction means predicts the state of each region at a time when the mobile object is estimated to arrive at each region on the way to the first region along the first route, Predicting the state of each area at the time when the moving object is estimated to arrive at each area on the way to the second area along the second route,
- the evaluation means evaluates the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the first area and the predicted status of each area up to the first area.
- the presentation means superimposes and presents the evaluations in the first region and each region up to the first region, and the evaluations in the second region and each region up to the second region, on the map.
- the behavioral evaluation presentation system according to appendix 1. (Additional note 3)
- the evaluation means includes the predicted state of the environment in the first region, the predicted state of each region up to the first region, and the predicted state of the environment up to the first region, and the predicted state of the environment up to the first region, and the predicted state of the environment up to the first region.
- the behavior evaluation presentation Evaluate the behavior of the mobile object that has moved to the first area based on the reward, and determine the predicted state of the environment in the second area and the predicted state of each area up to the second area. and the reward obtained by the time the mobile object moves to the second area, the behavior evaluation presentation according to appendix 1 or 2, which evaluates the behavior of the mobile object that has moved to the second area. system.
- the evaluation means evaluates the moving object in each area of the route based on route information indicating the route of the moving object, the predicted environmental state, and a reference function indicating an index of the moving object's behavior.
- the behavior evaluation presentation system according to Supplementary Note 1, which calculates an evaluation value of behavior.
- Appendix 5 further comprising a state acquisition means for acquiring the position of the mobile body and the state of the environment in which the mobile body moves,
- the state prediction means predicts the state of the environment in the first area according to an estimated elapsed time required for movement from the acquired position of the mobile object to reach the first area, predicting the state of the environment in the second area according to the estimated elapsed time required for movement from the acquired position of the mobile object until reaching the second area;
- the state prediction means predicts the state of an area on the map for which the state acquisition means cannot acquire the state of the environment, assuming that each possible state of the area is uniformly distributed;
- the behavior evaluation presentation system according to appendix 5, wherein the evaluation means evaluates the behavior of the mobile object that has moved to the first area and the behavior of the mobile object that has moved to the second area.
- the state prediction means predicts the state of an area on the map for which the state acquisition means cannot acquire the state of the environment, assuming that each possible state of the area is distributed with a predetermined probability;
- the behavior evaluation presentation system according to appendix 5, wherein the evaluation means evaluates the behavior of the mobile object that has moved to the first area and the behavior of the mobile object that has moved to the second area.
- (Appendix 8) planning a first route for the moving body to move to a first area on the map and a second route for the moving body to move to the second area on the map; Predicting the state of the environment in the first area according to an estimated elapsed time required for movement of the mobile object along the first route; Predicting the state of the environment in the second area according to the estimated elapsed time required for movement of the mobile object along the second route, Evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the first area, and evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental status of the second area.
- a behavior evaluation presentation method wherein the evaluation in the first region and the evaluation in the second region are presented in a superimposed manner on the map.
- (Appendix 9) Predicting the state of each area at the time when the mobile object is estimated to arrive at each area on the way to the first area along the first route, Predicting the state of each area at the time when the moving object is estimated to arrive at each area on the way to the second area along the second route, Evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the first area and the predicted state of each area up to the first area, and make the prediction.
- the evaluation in the first region and each region up to the first region, and the evaluation in the second region and each region up to the second region are presented in a superimposed manner on the map.
- the behavioral evaluation presentation method described. (Appendix 10) Based on the predicted state of the environment in the first region, the predicted state of each region up to the first region, and the reward obtained until the mobile object moves to the first region.
- the behavior of the mobile object that has moved to the first area is evaluated, and the predicted environmental state of the second area, the predicted state of each area up to the second area, and the mobile object are evaluated.
- the behavior evaluation presentation method according to appendix 8 or 9, wherein the behavior of the mobile object that has moved to the second area is evaluated based on the reward obtained until the mobile object moves to the second area.
- Appendix 11 An evaluation value of the behavior of the moving body in each area of the route is determined based on route information indicating the route of the moving body, the predicted environmental state, and a reference function indicating an index of the behavior of the moving body.
- Appendix 12 obtaining the position of the moving object and the state of the environment in which the moving object moves; Predicting the state of the environment in the first area according to the estimated elapsed time required for movement from the position of the moving object to reaching the first area, Predicting the state of the environment in the second area according to the estimated elapsed time required for movement from the position of the moving object to reaching the second area;
- (Appendix 15) a route planning means for planning a first route for the moving body to move to a first area on the map and a second route for the moving body to move to the second area on the map; Predicting the state of the environment in the first area according to an estimated elapsed time required for movement of the mobile object along the first route; a state prediction means for predicting the state of the environment in the second area according to an estimated elapsed time required for movement of the mobile object along the second route; Evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the first area, and evaluate the behavior of the mobile object that has moved to the first area based on the predicted environmental status of the second area.
- An evaluation means for evaluating the behavior of the mobile object that has moved to the second area; Presentation means for presenting the evaluation in the first region and the evaluation in the second region in a superimposed manner on the map;
- a behavioral evaluation presentation device comprising: (Appendix 16) The state prediction means predicts the state of each region at a time when the mobile object is estimated to arrive at each region on the way to the first region along the first route, Predicting the state of each area at the time when the moving object is estimated to arrive at each area on the way to the second area along the second route, The evaluation means evaluates the behavior of the mobile object that has moved to the first area based on the predicted environmental state of the first area and the predicted status of each area up to the first area.
- the presentation means superimposes and presents the evaluations in the first region and each region up to the first region, and the evaluations in the second region and each region up to the second region, on the map.
- the behavior evaluation presentation device according to appendix 15. (Appendix 17)
- the evaluation means includes the predicted state of the environment in the first region, the predicted state of each region up to the first region, and the predicted state of the environment up to the first region, and the predicted state of the environment up to the first region, and the predicted state of the environment up to the first region, and the predicted state of the environment up to the first region.
- the behavior evaluation presentation according to appendix 15 or 16, wherein the behavior of the moving object that has moved to the second area is evaluated based on Device.
- the evaluation means evaluates the moving object in each area of the route based on route information indicating the route of the moving object, the predicted environmental state, and a reference function indicating an index of the moving object's behavior.
- the behavior evaluation presentation device according to supplementary note 15, which calculates an evaluation value of behavior.
- Appendix 19 further comprising a state acquisition means for acquiring the position of the mobile body and the state of the environment in which the mobile body moves,
- the state prediction means predicts the state of the environment in the first area according to an estimated elapsed time required for movement from the position of the mobile object to reach the first area, Predicting the state of the environment in the second area according to the estimated elapsed time required for movement from the position of the moving object to reaching the second area;
- the behavior evaluation presentation device according to appendix 15.
- the state prediction means predicts the state of an area on the map for which the state acquisition means cannot acquire the state of the environment, assuming that each possible state of the area is uniformly distributed;
- the behavior evaluation presentation device according to appendix 19, wherein the evaluation means evaluates the behavior of the mobile object that has moved to the first area and the behavior of the mobile object that has moved to the second area.
- the state prediction means predicts the state of an area on the map for which the state acquisition means cannot acquire the state of the environment, assuming that each possible state of the area is distributed with a predetermined probability;
- the behavior evaluation presentation device according to appendix 19, wherein the evaluation means evaluates the behavior of the mobile object that has moved to the first area and the behavior of the mobile object that has moved to the second area.
- Behavior evaluation presentation system 100 Behavior evaluation presentation device 101 Route planning section 102 State prediction section 103 Evaluation section 104 Presentation section 110 Map holding section 150 Control section 151 State acquisition section FD Flood AG Agent
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
行動評価提示システム(1)は、移動体がマップ上の第1領域へ移動する第1経路と、移動体が第2領域へ移動する第2経路とを計画する経路計画手段(101)と、第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、第1領域の環境の状態を予測し、第2経路に沿った移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段(102)と、予測された前記第1領域の環境の状態に基づいて、第1領域まで移動した移動体の行動を評価し、予測された第2領域の環境の状態に基づいて、第2領域まで移動した前記移動体の行動を評価する評価手段(103)と、第1領域における評価及び第2領域における前記評価を、マップ上に重畳して提示する提示手段(104)と、を備える。
Description
本開示は、行動評価提示システム、行動評価提示方法、及び行動評価提示装置に関する。
強化学習結果に基づいて行動する装置(例えば、自律移動ロボット)が開発されている。
特許文献1には、環境の状態値を取得し、環境の状態変化を予測した結果に基づいて、自己の行動を決定する予測型行動決定装置が記載されている。また、特許文献2には、分類分けした交通参加者を、予め学習された顕在リスクに当てはめてリスクマップを作成し、作成したリスクマップに基づいて自車両を制御する装置が記載されている。
上記特許文献1又は2のような技術では、自律移動ロボットを監視しているユーザは、当該自律移動ロボットが経路を選択する根拠を理解することができない可能性がある。例えば、目的地へ到達する経路が複数ある場合、ユーザは、当該自律移動ロボットが複数の経路のうちの一の経路を選択した根拠を理解することができない場合がある。
本開示は、このような問題点を解決するためになされたものであり、移動体の経路選択の根拠を提示する行動評価提示システム、方法、装置等を提供することを目的とする。
本開示の一態様にかかる行動評価提示システムは、
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画する経路計画手段と、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える。
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画する経路計画手段と、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える。
本開示の一態様にかかる行動評価提示方法は、
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画し、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測し、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する。
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画し、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測し、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する。
本開示の一態様にかかる行動評価提示装置は、 移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画する経路計画手段と、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える。
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える。
本開示によれば、移動体の経路選択の根拠を提示する行動評価提示システム、方法、装置等を提供することができる。
実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。
本実施形態は、移動体の複数の経路を算出し、移動体が当該経路を移動した場合の環境の時間変化を考慮して、移動体の行動の評価を算出し、ユーザに提示する。移動体は、自律移動ロボット、自律移動車両などの様々な移動可能な装置でありうる。
以下、図面を参照して本発明の実施の形態について説明する。
本実施形態は、移動体の複数の経路を算出し、移動体が当該経路を移動した場合の環境の時間変化を考慮して、移動体の行動の評価を算出し、ユーザに提示する。移動体は、自律移動ロボット、自律移動車両などの様々な移動可能な装置でありうる。
行動評価提示システム1は、1つ以上のコンピュータにより実現され得る。コンピュータは、メモリ及びプロセッサ等を含み得る。行動評価提示システム1は、移動体の自律移動を監視しているユーザによって使用され得る。行動評価提示システム1は、経路計画部101、状態予測部102、評価部103、及び提示部104を備える。なお、構成要素の一部が、ネットワークを介して接続されたクラウドコンピュータ上に設けられてもよい。
経路計画部101は、経路計画手段とも呼ばれる。経路計画部101は、複数の領域への複数の経路を計画する。具体的には、経路計画部101は、移動体がマップ上の第1領域へ移動する第1経路と、前記移動体がマップ上の第2領域へ移動する第2経路とを計画する。なお、マップは、移動体が移動可能なエリア又は移動不可能なエリアを示し得る全体マップであり得る。マップはユーザから与えられてもよいし、上述したセンサ部(例えば、カメラ、LiDAR)が収集した情報から生成されてもよい。
状態予測部102は、状態予測手段とも呼ばれる。状態予測部102は、経過時間に応じた移動体の移動や、環境の状態の変化等に関するシミュレーションを実行する。状態予測部102は、前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する。
評価部103は、評価手段とも呼ばれる。評価部103は、前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する。
提示部104は、提示手段とも呼ばれる。提示部104は、例えば、ユーザにマップを提示するための任意のディスプレイ装置などであり得る。提示部104は、第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する。各領域に移動体の行動の評価が示されたマップは、判断基準マップとも呼ばれる。
図2は、実施の形態1にかかる行動評価提示システムの動作を示すフローチャートである。
経路計画部101は、移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が第2領域へ移動する第2経路とを計画する(ステップS101)。
経路計画部101は、移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が第2領域へ移動する第2経路とを計画する(ステップS101)。
状態予測部102は、前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する(ステップS102)。例えば、移動体が移動する環境において、洪水が拡大している場合、状態予測部102は、第1経路に沿った移動体の移動に要すると推定される経過時間に応じて、第1領域の環境の状態が洪水となるかどうかを予測することができる。また、状態予測部102は、第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、第2領域の環境の状態が洪水となるかどうかを予測することができる。
評価部103は、前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する(ステップS103)。評価部103は、例えば、学習済みの価値関数と経過時間に応じた第1領域の環境の状態とを用いて、第1領域まで移動した移動体の行動を評価することができる。
提示部104は、第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する(ステップS104)。
以上説明した実施の形態1によれば、移動体の移動に要する経過時間を考慮して、移動先である第1領域及び第2領域の状態を予測し、各領域までの移動体の行動を評価することができる。また、評価結果をマップに重畳して提示することで、ユーザは、移動体の自律移動の根拠を認識することができる。
実施の形態2
第三者に発見されないように偵察を行うタスクを自律移動ロボット(移動体とも呼ばれる)に行わせることを検討する。自律移動ロボットは、第三者に発見されるリスクを考慮した経路を生成し、偵察を行う。この際に、自律移動ロボットの行動を監視しているユーザが、自律移動ロボットの行動の根拠として、どの場所がどれくらい危険かを認識できるように、判断基準マップ(リスクマップとも呼ばれる)を提示することを目的とする。なお、ここでいうリスクは、単に、ロボットがある場所にいる際のリスク又は安全性ではなく、ある場所からある場所へ行く際のリスク又は安全性をいう。
第三者に発見されないように偵察を行うタスクを自律移動ロボット(移動体とも呼ばれる)に行わせることを検討する。自律移動ロボットは、第三者に発見されるリスクを考慮した経路を生成し、偵察を行う。この際に、自律移動ロボットの行動を監視しているユーザが、自律移動ロボットの行動の根拠として、どの場所がどれくらい危険かを認識できるように、判断基準マップ(リスクマップとも呼ばれる)を提示することを目的とする。なお、ここでいうリスクは、単に、ロボットがある場所にいる際のリスク又は安全性ではなく、ある場所からある場所へ行く際のリスク又は安全性をいう。
自律移動ロボットの制御について、シミュレータによる擬似的な環境下で、ロボットの座標と周辺情報を入力とし、ロボットの速度や方向を出力として、強化学習を行う。強化学習により得られた価値関数やポリシーから、ある行動を行うことによる局所的な危険度、すなわち、どの方向に、どれくらいの速度に、価値が一番高いかは明らかにすることができる。Grad-CAM(Gradient-weighted Class Activation Mapping)のような手法では、全体の中でどこが重要かはわかるが、時刻の変化を考慮しないため、その重要部がどう影響したかが不明である。マップ全体の中でどの場所が危険かといった局所的なエリアより更に先の危険度は不明である。そのため、自律移動ロボットが現在の行動をしている理由も、監視しているユーザには不明となる。更には、価値の高低への寄与や環境の時間変化についても、監視しているユーザには不明である。そこで、本開示は、強化学習によって学習された移動体制御及び経路計画のユーザへの提示の改善に関するものである。
図3は、実施形態2に係る行動評価提示システムの構成例を示すブロック図である。
行動評価提示システム1は、自律移動ロボットに搭載される制御部150と、行動評価提示装置100と、を備える。行動評価提示装置100は、例えば、自律移動ロボットを監視しているユーザにより使用され得る。行動評価提示装置100は、メモリ、プロセッサ、ディスプレイ等を備えるコンピュータにより実現され得る。行動評価提示装置100は、経路計画部101、状態予測部102、評価部103、提示部104及びマップ保持部110を備える。なお、行動評価提示装置100の構成は、単なる例示であり、構成要素の一部は、装置外に設けられてもよい。構成要素の一部が、異なるネットワーク装置上に設けられてもよいし、又はネットワークを介して接続されたクラウドコンピュータ上に設けられてもよい。また、各構成要素は、有線又は無線ネットワークを介して相互に接続され得る。
行動評価提示システム1は、自律移動ロボットに搭載される制御部150と、行動評価提示装置100と、を備える。行動評価提示装置100は、例えば、自律移動ロボットを監視しているユーザにより使用され得る。行動評価提示装置100は、メモリ、プロセッサ、ディスプレイ等を備えるコンピュータにより実現され得る。行動評価提示装置100は、経路計画部101、状態予測部102、評価部103、提示部104及びマップ保持部110を備える。なお、行動評価提示装置100の構成は、単なる例示であり、構成要素の一部は、装置外に設けられてもよい。構成要素の一部が、異なるネットワーク装置上に設けられてもよいし、又はネットワークを介して接続されたクラウドコンピュータ上に設けられてもよい。また、各構成要素は、有線又は無線ネットワークを介して相互に接続され得る。
制御部150は、移動体に備えられており、移動体の周囲の環境の情報(すなわち、現在の状況)を状態取得部151によって取得する。制御部150は、メモリ及びプロセッサ等からなるコンピュータにより構成される。制御部150は移動体の移動を制御することもできる。状態取得部151は、センサ部(例えば、カメラ、LiDAR(Light Detection and Ranging又はLaser Imaging Detection and Ranging))を介して、特定の時点(例えば、現在時点)における移動体のマップ上の位置(例えば、マップ上の座標)と、移動体の周辺環境情報を取得する。センサ部は、移動体に設けられたカメラであってもよいし、移動体が移動する環境(例えば、室内の天井や壁など)に設置された監視カメラであってもよい。センサ部(例えば、監視カメラ)が、移動体が移動する環境に設置されている場合には、状態取得部151は、センサ部から無線ネットワークを介して、移動体の周囲の環境の情報(すなわち、現在の状況)を取得してもよい。取得した環境の情報は、例えば、無線ネットワークを介して、行動評価提示装置100に送られる。いくつかの実施形態では、状態取得部151は、行動評価提示装置100内に設けられてもよい。なお、図示していないが、移動体は、自律移動ロボットであってもよく、自律走行を可能にするための駆動部等を備えることができる。本明細書においては、状態取得部は、状態取得手段とも呼ばれる。
マップ保持部110は、移動体周囲の環境の全体マップ(例えば、グリッドマップ)を保持する。マップは、移動体が移動可能なエリア又は移動不可能なエリアを示し得る全体マップであり得る。マップはユーザから与えられてもよいし、上述したセンサ部(例えば、カメラ、LiDAR)が収集した情報から生成されてもよい。いくつかの実施形態では、マップ保持部110は、移動体の記憶部又は行動評価提示装置100の記憶部に保持されていてもよい。マップ保持部110は、マップ保持手段とも呼ばれる。
経路計画部101は、経路計画手段とも呼ばれる。経路計画部101は、マップに基づき、移動体をある地点から別の地点への経路を計画する。また、経路計画部101は、別の地点までの移動体の駆動制御方法を算出することもできる。経路計画部101は、移動体の現在地から目標位置までの経路を、アルゴリズムを用いて算出することができる。このアルゴリズムは、例えば、A*であってもよいが、これに限定されず、当業者にとって既知の様々なものを用いることができる。目標位置は、ゴールでもよいし、マップ上の各地点、各領域(例えば、グリッドマップ上の各グリッド)等でもよい。経路計画部101は、移動体が実際に移動する経路だけでなく、移動体が移動可能なマップ上の各地点等までの複数の経路を算出することができる。
経路計画部101は、移動体が移動する複数の経路を計画する。経路計画部101は、特定の時点における移動体がマップ上の第1領域へ移動する第1経路を計画し、前記特定の時点における前記移動体が第2領域へ移動する第2経路を計画する。
状態予測部102は、状態予測手段、推定手段又は推定部とも呼ばれる。状態予測部102は、移動体の移動及び状態変化等に関するシミュレーションを行う。状態予測部102は、マップの情報と、移動体の周囲環境の情報に基づいて、環境状態の変化、その時の移動体の移動した位置、及び当該経路上で得られる報酬を推定する。
状態予測部102は、移動体が、計画された第1経路に沿って移動し、第1時点に第1領域に到達する場合に、特定の時点から第1時点までの当該移動に伴う経過時間に応じて、第1領域の環境の状態を予測する。また、状態予測部102は、移動体が、計画された前記第2経路に沿って移動し、第2時点に前記第2領域に到達する場合に、前記特定の時点から前記第2時点までの当該移動に伴う経過時間に応じて、第2領域の環境の状態を予測する。
状態予測部102は、移動体が第1経路に沿って移動し、各領域に到達した各時間における各領域の状態も予測する。状態予測部102は、移動体が第2経路に沿って移動し、経路上の領域に到達した時間における領域の状態も予測する。
評価部103は、移動体の現在地から、ある地点(例えば、グリッドマップ上の各グリッドなど)までの評価値を算出する。評価部103は、評価手段とも呼ばれる。評価値の算出方法は、次の通りである。
[maxQ(S’,*)+R]-maxQ(S,*)
なお、maxf(*)は*部分の引数について最大を取ったものを表す。
[maxQ(S’,*)+R]-maxQ(S,*)
なお、maxf(*)は*部分の引数について最大を取ったものを表す。
評価部103は、予測された第1領域の環境の状態に基づいて、第1領域まで移動した前記移動体の行動を評価し、予測された第2領域の環境の状態に基づいて、第2領域まで移動した前記移動体の行動を評価する。
評価部103は、予測された第1領域の環境の状態に基づいて、第1経路に沿って第1領域まで移動する移動体の行動を評価する。また、評価部103は、予測された第1領域までの各領域の環境の状態に基づいて、第1領域まで移動する移動体の行動を評価することができる。
また、評価部103は、予測された第2領域の環境の状態に基づいて、第2経路に沿って第2領域まで移動する移動体の行動を評価する。また、評価部103は、予測された第2領域までの各領域の環境の状態に基づいて、第2経路に沿って第2領域まで移動する移動体の行動を評価することができる。
評価部103は、前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する。評価部103は、前記移動体の状態S,前記移動体の終状態S’,基準関数V,シミュレータ上で状態SからS’に遷移する間に得られた報酬Rに関する式[V(S’)+R]-V(S)に基づいて、前記移動体の行動の評価値を算出する。
なお、これらの評価値、経路上で得られる報酬、各グリッドまでの複数の経路は、行動評価提示装置100の記憶部(不図示)に格納され、状態予測部102によるシミュレーションの際、又は評価部103による評価値の算出の際などに、必要に応じて、取得され得る。当該記憶部は、状態保持部とも呼ばれる。
提示部104は、例えば、ディスプレイ装置であり、評価部103により算出された評価結果を、マップ上に重畳して、ユーザに提示する。本明細書においては、評価結果が重畳したマップは、判断基準マップ又はリスクマップとも呼ばれる。この判断基準マップは、マップ上の任意の各地点又は各領域などの危険度を示し得る。移動体を監視しているユーザは、この判断基準マップをもとに、移動体の自律移動の根拠を認知することができる。
ここで、図4を参照して、マップ上を動く移動体と経路選択の根拠をマップ上に可視化する方法を説明する。
本実施形態では、Actor-Critic,Q学習など方策勾配系ではなく価値関数が必要となる。この価値関数Qが最大となるように移動体が移動するものとする。シミュレータ環境(S,a→S’,r)、学習によって得られた価値関数Q(S,a)、現在地sからマップ上の位置s’への経路を与えるアルゴリズムA(s,s’)とする。
本実施形態では、Actor-Critic,Q学習など方策勾配系ではなく価値関数が必要となる。この価値関数Qが最大となるように移動体が移動するものとする。シミュレータ環境(S,a→S’,r)、学習によって得られた価値関数Q(S,a)、現在地sからマップ上の位置s’への経路を与えるアルゴリズムA(s,s’)とする。
図4において、現在状態SにあるエージェントAGの強化学習を考える。マップ上の各点s’に対し、アルゴリズムAにより各経路をそれぞれ求める。次いで、シミュレータ上で各経路に沿ったエージェントAGの移動を実行する。その間に得られた報酬をR、移動後の状態をS’とする。
この時、マップ上の各地点又は各領域s’のスコアは、式(1)で与えられる。
[maxQ(S’,*)+R]-maxQ(S,*)・・・(1)
すなわち、[s’に向かったときの価値]-(現在の価値=最適な行動の価値)
として表示する。[s’に向かったときの価値]は、(移動後の状態の価値)と(s’までに得られた報酬)の合計として与えられる。なお、エージェントAGが移動中に終了条件を満たした場合は、エージェントAGが終了時に存在する地点又は領域のスコアは、式(2)で与えられる。
R-maxQ(S,*)・・・(2)
すなわち、[終了条件を満たすまでに得られた報酬]-(現在の価値=最適な行動の価値)
をマップ上に表示する。終了条件としては、例えば、ロボットが洪水に巻き込まれた場合、ロボットが障害物と接触した場合、ロボットが人と接近する場合など、様々な条件を任意に設定することができる。
この時、マップ上の各地点又は各領域s’のスコアは、式(1)で与えられる。
[maxQ(S’,*)+R]-maxQ(S,*)・・・(1)
すなわち、[s’に向かったときの価値]-(現在の価値=最適な行動の価値)
として表示する。[s’に向かったときの価値]は、(移動後の状態の価値)と(s’までに得られた報酬)の合計として与えられる。なお、エージェントAGが移動中に終了条件を満たした場合は、エージェントAGが終了時に存在する地点又は領域のスコアは、式(2)で与えられる。
R-maxQ(S,*)・・・(2)
すなわち、[終了条件を満たすまでに得られた報酬]-(現在の価値=最適な行動の価値)
をマップ上に表示する。終了条件としては、例えば、ロボットが洪水に巻き込まれた場合、ロボットが障害物と接触した場合、ロボットが人と接近する場合など、様々な条件を任意に設定することができる。
次に、図5を参照して、トイモデルにおける評価による判断基準マップの作成を説明する。
本例では、説明の簡略化のため、自律移動ロボットが一方向にのみ移動可能な一次元の経路を用いて説明する。
本例では、説明の簡略化のため、自律移動ロボットが一方向にのみ移動可能な一次元の経路を用いて説明する。
一次元経路の一端には、ゴールが設定されている。自律移動ロボットであるエージェントAGは、一次元経路上のいずれかのグリッドから移動を開始し、1ステップで、マップ上の現在位置から左右のどちらかの1マスに移動することができる。また、図5において、マップ上には洪水FDが存在する。洪水FDは、1ステップごと、洪水FDの現在位置に隣接するマスを1マスずつ洪水にする。すなわち、洪水FDは、状態変化として、自律移動ロボットの周囲環境を変化させるものである。1ステップごとにエージェントAGが得られる報酬Rを-0.1とし、ゴールでの報酬Rを+10とする。また、エージェントAGが洪水FDに飲み込まれるか、エージェントAGがゴールに達した場合、ゲームは終了するものとする。こうした条件は、本明細書において、終了条件とも呼ばれ得る。ここで示した終了状態は、単なる例示であり、様々な状態を設定可能である。
こうした条件の下、十分な学習を行うと、最終的に図5の上図で示した状態価値に収束する。図5の上部は、状態取得部151が取得した移動体の座標と、現在の環境の状態価値を示す。この場合、判断基準マップにおける各グリッドの値は、上記の式(1)および(2)により、求められる。具体的には、前述した経路計画部101は、現在位置から各グリッドまでの経路を計画する。状態予測部102は、エージェントAGが計画された経路に沿って各グリッドまで移動させた場合、各グリッドの環境状態の変化、その時の移動体の移動した位置、及び当該経路上で得られる報酬を推定する。評価部103は、上記の式(1)および(2)により、評価値を算出する。提示部104は、各グリッドに評価値を表記したマップを、ユーザに提示する。
現在時点でエージェントAGがいるグリッドにおける判断基準マップは、図5の下図に示す。本例における判断基準マップは、エージェントAGの位置と各グリッドにスコアを示している。また、判断基準マップには、エージェントAGが各グリッドに移動する際の到達時間を表示してもよい。
自律移動ロボットは、原則として、自身が持つ価値関数が最大となるように、ゴールに向かって自律的に移動する。自律移動ロボットが、例えば、監視しているユーザが想定していない経路を選択した場合に、判断基準マップは、当該ユーザに、ロボットの経路選択の根拠を提示するものである。すなわち、自律移動ロボットが、現在位置からマップ上の各グリッドに移動した場合、移動までの経過時間を考慮した状態変化により生じるリスク(例えば、洪水に飲み込まれるリスク)も、判断基準マップにより示される。自律移動ロボットを監視しているユーザは、こうして作成された判断基準マップに基づき、自律移動ロボットの経路選択の理由を認識することができる。
具体的には、図5に示す自律移動ロボットの現在位置における判断基準マップにおいては、0の値を示すグリッドは、よりリスクが低く、-9.7の値を示すグリッドは、よりリスクが高いこと(すなわち、洪水に飲み込まれるリスクが高いこと)を示している。-0.2の値を示すグリッドは、自律移動ロボットがそのグリッドに移動した時点では、洪水に飲み込まれるリスクはないが、その次のステップで、自律移動ロボットがゴールの方向に向かって移動しない限り、洪水に飲み込まれ得る。したがって、-0.2の値を示すグリッドは、0の値を示すグリッドより若干リスクが高いことを示している。
次に、図6及び図7を参照して、判断基準マップの作成の別の例を説明する。本例では、より複雑な二次元の経路を示す。
斜線で示した2つのグリッド(図7においてGoal_1及びGoal_2)がゴールである。洪水FDは、洪水の水源を示す。移動ルール、報酬及び終了条件等は、図5で示した上記の例と同様である。監視するユーザは、自律移動ロボットが、2つのゴールGoal_1及びGoal_2のうちどちらのゴールに向かって移動しているかを分からない。図6は、自律移動ロボットであるエージェントAGが図6に示す現在位置にいる場合のマップ上の各グリッドの状態価値を示す。言い換えると、図6は、状態取得部151が、現在時点における移動体の位置と、環境の状態を取得した環境を示す。
斜線で示した2つのグリッド(図7においてGoal_1及びGoal_2)がゴールである。洪水FDは、洪水の水源を示す。移動ルール、報酬及び終了条件等は、図5で示した上記の例と同様である。監視するユーザは、自律移動ロボットが、2つのゴールGoal_1及びGoal_2のうちどちらのゴールに向かって移動しているかを分からない。図6は、自律移動ロボットであるエージェントAGが図6に示す現在位置にいる場合のマップ上の各グリッドの状態価値を示す。言い換えると、図6は、状態取得部151が、現在時点における移動体の位置と、環境の状態を取得した環境を示す。
図7は、図6で示した現在位置における判断基準マップを示す。判断基準マップにおける各グリッドの値は、上記(1)及び(2)の式により、求められる。t=0のときの判断基準マップでは、現在位置の自律移動ロボットが、各グリットに到達するまでの時間がグリットごとに異なるので、判断基準マップの各グリッドは、異なる時間のリスク又は価値を示すことができる。例えば、図7に示すように、t=0におけるエージェントAGの現在位置から、1マス先のグリットは、t=1でロボットが当該グリッドに移動した際の価値を示す。同様に、2マス先のグリットは、t=2でロボットが当該グリッドに移動した際の価値を示す。3マス先のグリットは、t=3でロボットが当該グリッドに移動した際の価値を示す。この価値の算出に際して、移動に伴う時間経過による状態変化、すなわち、グリッドが洪水FDに飲み込まれることを考慮する。例えば、t=3では、現在位置から3マス先のグリットは、洪水になる。上記式(1)の[maxQ(S’,*)+R]は、ほぼ0になり、結果として、上記式(1)の値は、低くなる。このように、ロボットがゴールに向かう経路上のすべてのグリッドの値を、上記式(1)及び(2)により、算出する。
図6に示した例のように、各グリッドの値をマップ上に示してもよいが、本例における判断基準マップは、各グリッド上に、価値又はリスクの違いを示すように異なる模様を示している。無模様の白で示したグリッドは、スコアが0付近の値であること、すなわちリスクが相対的に低いことを示している。一方、図7のパターンで示したグリッドは、スコアが-10付近の値であること、すなわちリスクが相対的に高いことを示している。図7のパターンで示したグリッドは、前述したように、ロボットが各グリッドに移動した際に、移動に伴う時間経過を考慮すると、洪水FDにより飲み込まれることを示す。言い換えると、図7のパターンで示したグリッドは、無模様の白で示したグリッドよりリスクが高いことを示している。図7に示した判断基準マップは、自律移動ロボットが、Goal_1よりGoal_2を向かって移動する方が、無模様の白で示したグリッドからなる経路を通って到達できるので、リスクが低いことを示している。なお、いくつかの実施形態では、提示部104は、複数の経路のうち、リスクが低い経路に沿って、マップ上に矢印を示すことができる。また、提示部104は、複数の経路のうち、リスクが低い経路に案内するように他の態様(例えば、ナビゲーション表示)で提示してもよい。このように、監視するユーザは、判断基準マップを用いて、自律移動ロボットがGoal_1ではなく、Goal_2を向かう経路を選択する根拠を認識することができる。
以下に、移動体が、第1領域(例えば、図7のグリッドG03)と、第2領域(例えば、図7のグリッドG12)へ移動する例を具体的に説明する。
経路計画部101は、特定の時点(例えば、t=0)で特定の領域(例えば、G00)における移動体がマップ上の第1領域(例えば、図7のグリッドG03)へ移動する第1経路(例えば、G00→G01→G02→G03)を計画する。また、経路計画部101は、特定の時点(例えば、t=0)で特定の領域(例えば、G00)における移動体がマップ上の第2領域(例えば、図7のグリッドG12)へ移動する第2経路(例えば、G00→G01→G12)を計画する。
経路計画部101は、特定の時点(例えば、t=0)で特定の領域(例えば、G00)における移動体がマップ上の第1領域(例えば、図7のグリッドG03)へ移動する第1経路(例えば、G00→G01→G02→G03)を計画する。また、経路計画部101は、特定の時点(例えば、t=0)で特定の領域(例えば、G00)における移動体がマップ上の第2領域(例えば、図7のグリッドG12)へ移動する第2経路(例えば、G00→G01→G12)を計画する。
状態予測部102は、移動体が、計画された第1経路に沿って移動し、第1時点(例えば、t=3)に第1領域(例えば、図7のグリッドG03)に到達する場合に、特定の時点(例えば、t=0)から第1時点(例えば、t=3)までの当該移動に伴う経過時間(例えば、3秒)に応じて、第1領域の環境の状態(例えば、洪水)を予測する。また、状態予測部102は、移動体が第1経路に沿って移動し、各領域(例えば、G01,G02)に到達した時間(例えば、t=1、t=2)における各領域の状態(例えば、いずれも非洪水)も予測する。
また、状態予測部102は、移動体が、計画された第2経路に沿って移動し、第2時点(例えば、t=2)に第2領域(例えば、図7のグリッドG12)に到達する場合に、特定の時点(例えば、t=0)から第2時点(例えば、t=2)までの当該移動に伴う経過時間(2秒)に応じて、第2領域の環境の状態(例えば、非洪水)を予測する。
また、状態予測部102は、移動体が第2経路に沿って移動し、経路上の領域(例えば、G01)に到達する時間(例えば、t=1)における領域(例えば、G01)の状態(例えば、非洪水)も予測する。
さらに、状態予測部102は、移動体が、計画された第1経路に沿って第1領域(例えば、図7のグリッドG03)まで移動する場合に、第1経路上で得られた報酬を推定する。また、状態予測部102は、移動体が、計画された第2経路に沿って第2領域(例えば、図7のグリッドG12)まで移動する場合に、第2経路上で得られた報酬を予測する。
また、状態予測部102は、移動体が第1経路に沿って移動し、各領域(例えば、G01,G02)に到達する場合、各領域に到達するまでに得られた報酬を予測する。状態予測部102は、移動体が第2経路に沿って移動し、経路上の領域(例えば、G01)に到達する場合、領域に到達するまでに得られた報酬を予測する。
評価部103は、予測された第1領域(例えば、G03)の環境の状態(例えば、洪水)に基づいて、第1経路に沿って第1領域まで移動する移動体の行動を評価する。また、評価部103は、予測された第1領域までの途中にある各領域(例えば、G01、G02)の環境の状態(例えば、いずれも非洪水)に基づいて、第1領域まで移動する移動体の行動を評価することができる。
また、評価部103は、予測された第2領域(例えば、G12)の環境の状態(例えば、非洪水)に基づいて、第2経路に沿って第2領域まで移動する移動体の行動を評価する。また、評価部103は、予測された第2領域までの途中にある領域(例えば、G01)の環境の状態(例えば、非洪水)に基づいて、第2経路に沿って第2領域まで移動する移動体の行動を評価することができる。
評価部103は、予測された、移動体が第1経路上を移動して第1領域までに得られた報酬に基づいて、第1領域まで移動する移動体の行動を評価することができる。評価部103は、予測された、移動体が第2経路を移動して第2領域までに得られた報酬に基づいて、第2領域まで移動する移動体の行動を評価することができる。
提示部104は、第1領域(例えば、G03)における評価(-10付近の値であるので、図7のパターンで示す)及び第2領域(例えば、G12)における評価(0付近の値であるので、図7の白で示す)を、マップ上に重畳して提示する。また、いくつかの実施形態では、提示部103は、第1領域及び第1領域までの各領域(例えば、G01、G02)における評価(図7では、いずれも白)、並びに、第2領域及び第2領域までの各領域(例えば、G0)における評価(図7では、白)を、マップ上に重畳して提示することができる。
なお、図7で示した判断基準マップでは、各グリッドの模様の違いにより、各グリッドの価値又はリスクの違いを表現しているが、色の違いなどで表現してもよい。この場合、例えば、白のグリッドはリスクが相対的に低く、オレンジのグリッドはリスクが相対的に高いなどで表現することができる。また、この場合、ゴールは、赤のグリッドで、洪水の水源は、青のグリッドで表現してもよい。また、現在時点における移動体が複数の経路をとり得る場合に、リスクが低い経路の方を選択することを示すように、マップの該当経路上に矢印を表示してもよい。このように、判断基準マップは、監視しているユーザが、経路のリスクを容易に判断できるように、様々な表記法が用いられ得る。
なお、上記例では、t=0のときの判断基準マップを示したが、t=1のとき、状態変化が予想通りであれば、判断基準マップは変わらない。しかし、t=1のとき、予期しない状態変化が起こった場合は、t=1のときの判断基準マップは、t=0のときの判断基準マップとは異なるように更新されてもよい。その場合、t=1のとき、状態変化後の現在の状態を状態取得部(例えば、センサ等)により認識し、再度、経路計画部101、状態予測部102、評価部103、及び提示部104などによる処理を実行してもよい。
図8および上記式(1)を参照して、シミュレーションによる時間を考慮したマップ作成方法を説明する。
行動評価提示装置100の状態予測部102は、ロボットがマップ上の各グリッドに移動した過程をシミュレートする。
上記式(1)の[max Q(S’,*)+R]において、max Q(S’,*)の項は、ロボットが現在位置からそのグリッドに到達した時間(t=k)における環境の状態を考慮していることを示し、Rは、それまでのロボットの移動過程で得られる報酬を考慮していることを示している。また、上記式(1)では、[max Q(S’,*)+R]を、現在価値max Q(S,*)と比較することで各グリッドのスコアを算出する。現在価値は、現在の状態で一番損をしない行動をしたときの価値、すなわち、最適な行動の価値ということができる。このスコアの算出を、自律移動ロボットがゴールに到達する時刻t=nまで繰り返す。これにより、t=0のときの判断基準マップは、時間経過を考慮したリスクを表すことができる。
行動評価提示装置100の状態予測部102は、ロボットがマップ上の各グリッドに移動した過程をシミュレートする。
上記式(1)の[max Q(S’,*)+R]において、max Q(S’,*)の項は、ロボットが現在位置からそのグリッドに到達した時間(t=k)における環境の状態を考慮していることを示し、Rは、それまでのロボットの移動過程で得られる報酬を考慮していることを示している。また、上記式(1)では、[max Q(S’,*)+R]を、現在価値max Q(S,*)と比較することで各グリッドのスコアを算出する。現在価値は、現在の状態で一番損をしない行動をしたときの価値、すなわち、最適な行動の価値ということができる。このスコアの算出を、自律移動ロボットがゴールに到達する時刻t=nまで繰り返す。これにより、t=0のときの判断基準マップは、時間経過を考慮したリスクを表すことができる。
<その他の実施形態>
上記実施形態では、状態行動価値関数Q(s,a)を学習した場合について説明したが、いくつかの実施形態では、学習時に報酬の分散Va(s,a)も同時に学習するように組み込むことができる。この場合、F(s,a)=Q(s,a)-βVa(s,a)という指標を用いることができる。自律移動ロボットは、Fを最大化するように行動させる。このためには、当該指標F(s,a)は、Qをより大きくしながら、β>0の場合、報酬の分散Vaを抑制する必要がある。すなわち、F(s,a)=Q(s,a)-βVa(s,a)という指標は、リスクセンシティブな強化学習の指標と呼ばれ得る。本実施形態は、Q(s,a)をF(s,a)に置き換えることで、そのままリスク込みの価値関数として応用できる。
上記実施形態では、状態行動価値関数Q(s,a)を学習した場合について説明したが、いくつかの実施形態では、学習時に報酬の分散Va(s,a)も同時に学習するように組み込むことができる。この場合、F(s,a)=Q(s,a)-βVa(s,a)という指標を用いることができる。自律移動ロボットは、Fを最大化するように行動させる。このためには、当該指標F(s,a)は、Qをより大きくしながら、β>0の場合、報酬の分散Vaを抑制する必要がある。すなわち、F(s,a)=Q(s,a)-βVa(s,a)という指標は、リスクセンシティブな強化学習の指標と呼ばれ得る。本実施形態は、Q(s,a)をF(s,a)に置き換えることで、そのままリスク込みの価値関数として応用できる。
次に図9を参照して、部分観測系の場合を説明する。
実際には、状態取得部151が、すべての領域についての状態を観測できない場合もある。例えば、図9の例では、Goal_2付近に視界制限がある場合を検討する。すなわち、状態取得部151は、移動体の現在位置や視界制限の手前までの環境の状態を把握できるが、視界の障害物等により、Goal_2付近の状態を把握することができない。この場合、状態予測部102は、以下の方法で状態を予測してもよい。
実際には、状態取得部151が、すべての領域についての状態を観測できない場合もある。例えば、図9の例では、Goal_2付近に視界制限がある場合を検討する。すなわち、状態取得部151は、移動体の現在位置や視界制限の手前までの環境の状態を把握できるが、視界の障害物等により、Goal_2付近の状態を把握することができない。この場合、状態予測部102は、以下の方法で状態を予測してもよい。
観測可能な領域については、現在の状態が確定している。一方、各グリッドの観測不可能な状態については、状態予測部102は、各グリッドの可能な状態を仮定する分布を作成し、サンプリングを行う。例えば、上記した例と同様に、洪水が発生し得る環境では、1マスの可能な状態は、ゴール、洪水状態、又は非洪水状態の3つの状態のいずれかである。仮に、エージェントAGが、現在位置から遠く領域の状態、すなわち、Goal_2付近の状態を観測できない場合には、観測できない領域については、とり得る各状態が一様に分布するものとしてサンプリングする。本例では、視界制限の各グリッドの状態を、ゴール、洪水状態、及び非洪水状態の3つの状態のうちいずれかであるとして1/3ずつでサンプリングする。状態予測部102は、エージェントAGがグリッドG21までの経路について、前述したとおり、各グリッドの状態と、報酬を予測する。状態予測部102は、これらの処理を所定回数繰り返す。その後、評価部103は、[maxQ(S’,*)+R]-maxQ(S,*)の値のサンプル平均を算出する。グリッドG22、グリッドG23についても、同様に、状態予測部102と評価部103の処理を実行する。
あるいは、状態予測部102は、事前知識を利用して、視界制限の各グリッドの状態を予測してもよい。例えば、事前知識として、行動評価提示システム1は、マップ上のゴールの位置を認識している。行動評価提示システム1は、視界制限のある領域において、洪水である確率は非洪水である確率より低いことを認識している。この場合、状態予測部102は、ゴールのグリッドの位置は確定しているものとして、ゴール手前のその他2マスについては、洪水である確率が1/10であるとして、非洪水である確率が9/10であるとしてサンプリングを行う。状態予測部102は、エージェントAGがグリッドG21までの経路について、前述したとおり、各グリッドの状態と、報酬を予測する。状態予測部102は、これらの処理を所定回数繰り返す。その後、評価部103は、[maxQ(S’,*)+R]-maxQ(S,*)の値のサンプル平均を算出する。グリッドG22、グリッドG23についても、同様に、状態予測部102と評価部103の処理を実行する。この場合、判断基準マップ上の各グリッドには、[maxQ(S’,*)+R]-maxQ(S,*)の値のサンプル平均を表示することができる。
図10は、他の実施形態にかかる経路計画部による経路計画法を説明する図である。
移動体が移動する環境が連続空間である場合、経路計画部101は、当該連続空間を図10に示すように、格子状に区分し、各格子から代表点(例えば、中央の点など)を選択することができる。経路計画部101は、移動体の駆動制御方法(例えば、移動体の車輪の回転数など)を計画することができる。その後、前述したとおり、経路計画部101、状態予測部102、評価部103、及び提示部104における各処理が実行されてもよい。
移動体が移動する環境が連続空間である場合、経路計画部101は、当該連続空間を図10に示すように、格子状に区分し、各格子から代表点(例えば、中央の点など)を選択することができる。経路計画部101は、移動体の駆動制御方法(例えば、移動体の車輪の回転数など)を計画することができる。その後、前述したとおり、経路計画部101、状態予測部102、評価部103、及び提示部104における各処理が実行されてもよい。
強化学習では一般的に、現在からnステップ後に得られる報酬の価値を、時間割引率α(0-1)を用いて、α^nとして評価する。時間割引率は、例えば、無限に続くエピソードの報酬を収束させるためなどに使用され得る。時間割引がある場合状態sでr0という報酬をもらい、r1,r2...と報酬をもらっていく場合には状態sの評価は
V(s)=r0+α*r1+α^2*r2+...
となる。上記した実施形態におけるトイモデルでは、時間割引なし(α=1)として説明したが、時間割引率を考慮してもよい。時間割引がある場合には、Rは各時刻の報酬にα^kをかけて足したもの(本明細書において、時間割引報酬とも呼ばれる)を用いて
経過時刻nに応じて
[max α^n×Q(S’,*)+R]-maxQ(S,*)
となる。
V(s)=r0+α*r1+α^2*r2+...
となる。上記した実施形態におけるトイモデルでは、時間割引なし(α=1)として説明したが、時間割引率を考慮してもよい。時間割引がある場合には、Rは各時刻の報酬にα^kをかけて足したもの(本明細書において、時間割引報酬とも呼ばれる)を用いて
経過時刻nに応じて
[max α^n×Q(S’,*)+R]-maxQ(S,*)
となる。
図11は、行動評価提示装置100及び制御部150(以下、行動評価提示装置100等とする)の構成例を示すブロック図である。図11を参照すると、行動評価提示装置100等は、ネットワーク・インターフェース1201、プロセッサ1202、及びメモリ1203を含む。ネットワーク・インターフェース1201は、通信システムを構成する他のネットワークノード装置と通信するために使用される。ネットワーク・インターフェース1201は、無線通信を行うために使用されてもよい。例えば、ネットワーク・インターフェース1201は、IEEE 802.11 seriesにおいて規定された無線LAN通信、もしくは3GPP(3rd Generation Partnership Project)において規定されたモバイル通信を行うために使用されてもよい。もしくは、ネットワーク・インターフェース1201は、例えば、IEEE 802.3 seriesに準拠したネットワークインターフェースカード(NIC)を含んでもよい。
プロセッサ1202は、メモリ1203からソフトウェア(コンピュータプログラム)を読み出して実行することで、上述の実施形態においてフローチャートもしくはシーケンスを用いて説明された行動評価提示装置100等の処理を行う。プロセッサ1202は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ1202は、複数のプロセッサを含んでもよい。
メモリ1203は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ1203は、プロセッサ1202から離れて配置されたストレージを含んでもよい。この場合、プロセッサ1202は、図示されていないI/Oインタフェースを介してメモリ1203にアクセスしてもよい。
図11の例では、メモリ1203は、ソフトウェアモジュール群を格納するために使用される。プロセッサ1202は、これらのソフトウェアモジュール群をメモリ1203から読み出して実行することで、上述の実施形態において説明された行動評価提示装置100等の処理を行うことができる。
図2を用いて説明したように、行動評価提示装置100等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む1又は複数のプログラムを実行する。
上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。以上で説明した複数の例は、適宜組み合わせて実施されることもできる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画する経路計画手段と、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える、行動評価提示システム。
(付記2)
前記状態予測手段は、前記移動体が前記第1経路に沿って、前記第1領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記移動体が前記第2経路に沿って、前記第2領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態とに基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態とに基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記提示手段は、前記第1領域及び前記第1領域までの各領域における前記評価、並びに、前記第2領域及び前記第2領域までの各領域における前記評価を、前記マップ上に重畳して提示する、付記1に記載の行動評価提示システム。
(付記3)
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態と、前記移動体が前記第1領域に移動するまでに得られた報酬と、に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態と、前記移動体が前記第2領域まで移動するまでに得られた報酬とに基づいて、前記第2領域まで移動した前記移動体の行動を評価する、付記1又は2に記載の行動評価提示システム。
(付記4)
前記評価手段は、前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する、付記1に記載の行動評価提示システム。
(付記5)
前記移動体の位置と、前記移動体が移動する環境の状態を取得する状態取得手段を更に備え、
前記状態予測手段は、前記取得した前記移動体の位置から、前記第1領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記取得した前記移動体の位置から、前記第2領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する、
付記1に記載の行動評価提示システム。
(付記6)
前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が一様に分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記5に記載の行動評価提示システム。
(付記7)
前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が、所定の確率で分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記5に記載の行動評価提示システム。
(付記8)
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画し、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測し、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する、行動評価提示方法。
(付記9)
前記移動体が前記第1経路に沿って、前記第1領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記移動体が前記第2経路に沿って、前記第2領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態とに基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態とに基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記第1領域及び前記第1領域までの各領域における前記評価、並びに、前記第2領域及び前記第2領域までの各領域における前記評価を、前記マップ上に重畳して提示する、付記8に記載の行動評価提示方法。
(付記10)
前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態と、前記移動体が前記第1領域に移動するまでに得られた報酬と、に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態と、前記移動体が前記第2領域まで移動するまでに得られた報酬とに基づいて、前記第2領域まで移動した前記移動体の行動を評価する、付記8又は9に記載の行動評価提示方法。
(付記11)
前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する、付記8に記載の行動評価提示方法。
(付記12)
前記移動体の位置と、前記移動体が移動する環境の状態を取得し、
前記移動体の位置から、前記第1領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記移動体の位置から、前記第2領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する、
付記8に記載の行動評価提示方法。
(付記13)
前記環境の状態を取得できない前記マップ上の領域については、
前記領域のとり得る各状態が一様に分布するものとして、状態を予測し、
前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記12に記載の行動評価提示方法。
(付記14)
前記環境の状態を取得できない前記マップ上の領域については、
前記領域のとり得る各状態が、所定の確率で分布するものとして、状態を予測し、
前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記12に記載の行動評価提示方法。
(付記15)
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画する経路計画手段と、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える、行動評価提示装置。
(付記16)
前記状態予測手段は、前記移動体が前記第1経路に沿って、前記第1領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記移動体が前記第2経路に沿って、前記第2領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態とに基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態とに基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記提示手段は、前記第1領域及び前記第1領域までの各領域における前記評価、並びに、前記第2領域及び前記第2領域までの各領域における前記評価を、前記マップ上に重畳して提示する、付記15に記載の行動評価提示装置。
(付記17)
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態と、前記移動体が前記第1領域に移動するまでに得られた報酬と、に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態と、前記移動体が前記第2領域まで移動するまでに得られた報酬とに基づいて、前記第2領域まで移動した前記移動体の行動を評価する、付記15又は16に記載の行動評価提示装置。
(付記18)
前記評価手段は、前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する、付記15に記載の行動評価提示装置。
(付記19)
前記移動体の位置と、前記移動体が移動する環境の状態を取得する状態取得手段を更に備え、
前記状態予測手段は、前記移動体の位置から、前記第1領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記移動体の位置から、前記第2領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する、
付記15に記載の行動評価提示装置。
(付記20)
前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が一様に分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記19に記載の行動評価提示装置。
(付記21)
前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が所定の確率で分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記19に記載の行動評価提示装置。
(付記1)
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画する経路計画手段と、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える、行動評価提示システム。
(付記2)
前記状態予測手段は、前記移動体が前記第1経路に沿って、前記第1領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記移動体が前記第2経路に沿って、前記第2領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態とに基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態とに基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記提示手段は、前記第1領域及び前記第1領域までの各領域における前記評価、並びに、前記第2領域及び前記第2領域までの各領域における前記評価を、前記マップ上に重畳して提示する、付記1に記載の行動評価提示システム。
(付記3)
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態と、前記移動体が前記第1領域に移動するまでに得られた報酬と、に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態と、前記移動体が前記第2領域まで移動するまでに得られた報酬とに基づいて、前記第2領域まで移動した前記移動体の行動を評価する、付記1又は2に記載の行動評価提示システム。
(付記4)
前記評価手段は、前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する、付記1に記載の行動評価提示システム。
(付記5)
前記移動体の位置と、前記移動体が移動する環境の状態を取得する状態取得手段を更に備え、
前記状態予測手段は、前記取得した前記移動体の位置から、前記第1領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記取得した前記移動体の位置から、前記第2領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する、
付記1に記載の行動評価提示システム。
(付記6)
前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が一様に分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記5に記載の行動評価提示システム。
(付記7)
前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が、所定の確率で分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記5に記載の行動評価提示システム。
(付記8)
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画し、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測し、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する、行動評価提示方法。
(付記9)
前記移動体が前記第1経路に沿って、前記第1領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記移動体が前記第2経路に沿って、前記第2領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態とに基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態とに基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記第1領域及び前記第1領域までの各領域における前記評価、並びに、前記第2領域及び前記第2領域までの各領域における前記評価を、前記マップ上に重畳して提示する、付記8に記載の行動評価提示方法。
(付記10)
前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態と、前記移動体が前記第1領域に移動するまでに得られた報酬と、に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態と、前記移動体が前記第2領域まで移動するまでに得られた報酬とに基づいて、前記第2領域まで移動した前記移動体の行動を評価する、付記8又は9に記載の行動評価提示方法。
(付記11)
前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する、付記8に記載の行動評価提示方法。
(付記12)
前記移動体の位置と、前記移動体が移動する環境の状態を取得し、
前記移動体の位置から、前記第1領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記移動体の位置から、前記第2領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する、
付記8に記載の行動評価提示方法。
(付記13)
前記環境の状態を取得できない前記マップ上の領域については、
前記領域のとり得る各状態が一様に分布するものとして、状態を予測し、
前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記12に記載の行動評価提示方法。
(付記14)
前記環境の状態を取得できない前記マップ上の領域については、
前記領域のとり得る各状態が、所定の確率で分布するものとして、状態を予測し、
前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記12に記載の行動評価提示方法。
(付記15)
移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画する経路計画手段と、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える、行動評価提示装置。
(付記16)
前記状態予測手段は、前記移動体が前記第1経路に沿って、前記第1領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記移動体が前記第2経路に沿って、前記第2領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態とに基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態とに基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記提示手段は、前記第1領域及び前記第1領域までの各領域における前記評価、並びに、前記第2領域及び前記第2領域までの各領域における前記評価を、前記マップ上に重畳して提示する、付記15に記載の行動評価提示装置。
(付記17)
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態と、前記移動体が前記第1領域に移動するまでに得られた報酬と、に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態と、前記移動体が前記第2領域まで移動するまでに得られた報酬とに基づいて、前記第2領域まで移動した前記移動体の行動を評価する、付記15又は16に記載の行動評価提示装置。
(付記18)
前記評価手段は、前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する、付記15に記載の行動評価提示装置。
(付記19)
前記移動体の位置と、前記移動体が移動する環境の状態を取得する状態取得手段を更に備え、
前記状態予測手段は、前記移動体の位置から、前記第1領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記移動体の位置から、前記第2領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する、
付記15に記載の行動評価提示装置。
(付記20)
前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が一様に分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記19に記載の行動評価提示装置。
(付記21)
前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が所定の確率で分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、付記19に記載の行動評価提示装置。
1 行動評価提示システム
100 行動評価提示装置
101 経路計画部
102 状態予測部
103 評価部
104 提示部
110 マップ保持部
150 制御部
151 状態取得部
FD 洪水
AG エージェント
100 行動評価提示装置
101 経路計画部
102 状態予測部
103 評価部
104 提示部
110 マップ保持部
150 制御部
151 状態取得部
FD 洪水
AG エージェント
Claims (21)
- 移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画する経路計画手段と、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える、行動評価提示システム。 - 前記状態予測手段は、前記移動体が前記第1経路に沿って、前記第1領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記移動体が前記第2経路に沿って、前記第2領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態とに基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態とに基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記提示手段は、前記第1領域及び前記第1領域までの各領域における前記評価、並びに、前記第2領域及び前記第2領域までの各領域における前記評価を、前記マップ上に重畳して提示する、請求項1に記載の行動評価提示システム。 - 前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態と、前記移動体が前記第1領域に移動するまでに得られた報酬と、に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態と、前記移動体が前記第2領域まで移動するまでに得られた報酬とに基づいて、前記第2領域まで移動した前記移動体の行動を評価する、請求項1又は2に記載の行動評価提示システム。
- 前記評価手段は、前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する、請求項1に記載の行動評価提示システム。
- 前記移動体の位置と、前記移動体が移動する環境の状態を取得する状態取得手段を更に備え、
前記状態予測手段は、前記取得した前記移動体の位置から、前記第1領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記取得した前記移動体の位置から、前記第2領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する、
請求項1に記載の行動評価提示システム。 - 前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が一様に分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、請求項5に記載の行動評価提示システム。 - 前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が、所定の確率で分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、請求項5に記載の行動評価提示システム。 - 移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画し、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測し、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する、行動評価提示方法。 - 前記移動体が前記第1経路に沿って、前記第1領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記移動体が前記第2経路に沿って、前記第2領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態とに基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態とに基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記第1領域及び前記第1領域までの各領域における前記評価、並びに、前記第2領域及び前記第2領域までの各領域における前記評価を、前記マップ上に重畳して提示する、請求項8に記載の行動評価提示方法。 - 前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態と、前記移動体が前記第1領域に移動するまでに得られた報酬と、に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態と、前記移動体が前記第2領域まで移動するまでに得られた報酬とに基づいて、前記第2領域まで移動した前記移動体の行動を評価する、請求項8又は9に記載の行動評価提示方法。
- 前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する、請求項8に記載の行動評価提示方法。
- 前記移動体の位置と、前記移動体が移動する環境の状態を取得し、
前記移動体の位置から、前記第1領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記移動体の位置から、前記第2領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する、
請求項8に記載の行動評価提示方法。 - 前記環境の状態を取得できない前記マップ上の領域については、
前記領域のとり得る各状態が一様に分布するものとして、状態を予測し、
前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、請求項12に記載の行動評価提示方法。 - 前記環境の状態を取得できない前記マップ上の領域については、
前記領域のとり得る各状態が、所定の確率で分布するものとして、状態を予測し、
前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、請求項12に記載の行動評価提示方法。 - 移動体がマップ上の第1領域へ移動する第1経路と、前記移動体が前記マップ上の第2領域へ移動する第2経路とを計画する経路計画手段と、
前記第1経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記第2経路に沿った前記移動体の移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する状態予測手段と、
前記予測された前記第1領域の環境の状態に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態に基づいて、前記第2領域まで移動した前記移動体の行動を評価する評価手段と、
前記第1領域における前記評価及び前記第2領域における前記評価を、前記マップ上に重畳して提示する提示手段と、
を備える、行動評価提示装置。 - 前記状態予測手段は、前記移動体が前記第1経路に沿って、前記第1領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記移動体が前記第2経路に沿って、前記第2領域までの途中にある各領域に到達すると推定される時間における各領域の状態を予測し、
前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態とに基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態とに基づいて、前記第2領域まで移動した前記移動体の行動を評価し、
前記提示手段は、前記第1領域及び前記第1領域までの各領域における前記評価、並びに、前記第2領域及び前記第2領域までの各領域における前記評価を、前記マップ上に重畳して提示する、請求項15に記載の行動評価提示装置。 - 前記評価手段は、前記予測された前記第1領域の環境の状態と、予測された前記第1領域までの各領域の状態と、前記移動体が前記第1領域に移動するまでに得られた報酬と、に基づいて、前記第1領域まで移動した前記移動体の行動を評価し、前記予測された前記第2領域の環境の状態と、予測された前記第2領域までの各領域の状態と、前記移動体が前記第2領域まで移動するまでに得られた報酬とに基づいて、前記第2領域まで移動した前記移動体の行動を評価する、請求項15又は16に記載の行動評価提示装置。
- 前記評価手段は、前記移動体の経路を示す経路情報と前記予測された環境の状態と前記移動体の行動の指標を示す基準関数と、に基づいて、前記経路の各領域における前記移動体の行動の評価値を算出する、請求項15に記載の行動評価提示装置。
- 前記移動体の位置と、前記移動体が移動する環境の状態を取得する状態取得手段を更に備え、
前記状態予測手段は、前記移動体の位置から、前記第1領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第1領域の環境の状態を予測し、
前記移動体の位置から、前記第2領域に到達するまでの移動に要すると推定される経過時間に応じて、前記第2領域の環境の状態を予測する、
請求項15に記載の行動評価提示装置。 - 前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が一様に分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、請求項19に記載の行動評価提示装置。 - 前記状態予測手段は、前記状態取得手段が前記環境の状態を取得できない前記マップ上の領域については、前記領域のとり得る各状態が所定の確率で分布するものとして、状態を予測し、
前記評価手段は、前記第1領域まで移動した前記移動体の行動と前記第2領域まで移動した前記移動体の行動とを評価する、請求項19に記載の行動評価提示装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024511090A JPWO2023188341A5 (ja) | 2022-03-31 | 行動評価提示システム、行動評価提示方法、行動評価提示装置及びプログラム | |
| PCT/JP2022/016720 WO2023188341A1 (ja) | 2022-03-31 | 2022-03-31 | 行動評価提示システム、行動評価提示方法、及び行動評価提示装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2022/016720 WO2023188341A1 (ja) | 2022-03-31 | 2022-03-31 | 行動評価提示システム、行動評価提示方法、及び行動評価提示装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2023188341A1 true WO2023188341A1 (ja) | 2023-10-05 |
Family
ID=88200366
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2022/016720 Ceased WO2023188341A1 (ja) | 2022-03-31 | 2022-03-31 | 行動評価提示システム、行動評価提示方法、及び行動評価提示装置 |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2023188341A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118506283A (zh) * | 2024-06-07 | 2024-08-16 | 深圳点点电工网络科技有限公司 | 一种智慧场站内的监控方法、装置、设备及存储介质 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2004068399A1 (ja) * | 2003-01-31 | 2004-08-12 | Matsushita Electric Industrial Co. Ltd. | 予測型行動決定装置および行動決定方法 |
| JP2005313308A (ja) * | 2004-03-30 | 2005-11-10 | Nec Corp | ロボット、ロボット制御方法、ロボット制御プログラム、ならびに思考装置 |
| JP2016050922A (ja) * | 2014-09-02 | 2016-04-11 | 日産自動車株式会社 | 災害時経路提供装置、及び災害時経路提供方法 |
| JP2017215625A (ja) * | 2016-05-30 | 2017-12-07 | ホーチキ株式会社 | 防災連携システム |
| WO2020262189A1 (ja) * | 2019-06-27 | 2020-12-30 | ソニー株式会社 | 移動体、制御方法、およびプログラム |
| JP2021144435A (ja) * | 2020-03-11 | 2021-09-24 | 日本電産株式会社 | 衝突防止装置、移動体及びプログラム |
-
2022
- 2022-03-31 WO PCT/JP2022/016720 patent/WO2023188341A1/ja not_active Ceased
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2004068399A1 (ja) * | 2003-01-31 | 2004-08-12 | Matsushita Electric Industrial Co. Ltd. | 予測型行動決定装置および行動決定方法 |
| JP2005313308A (ja) * | 2004-03-30 | 2005-11-10 | Nec Corp | ロボット、ロボット制御方法、ロボット制御プログラム、ならびに思考装置 |
| JP2016050922A (ja) * | 2014-09-02 | 2016-04-11 | 日産自動車株式会社 | 災害時経路提供装置、及び災害時経路提供方法 |
| JP2017215625A (ja) * | 2016-05-30 | 2017-12-07 | ホーチキ株式会社 | 防災連携システム |
| WO2020262189A1 (ja) * | 2019-06-27 | 2020-12-30 | ソニー株式会社 | 移動体、制御方法、およびプログラム |
| JP2021144435A (ja) * | 2020-03-11 | 2021-09-24 | 日本電産株式会社 | 衝突防止装置、移動体及びプログラム |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118506283A (zh) * | 2024-06-07 | 2024-08-16 | 深圳点点电工网络科技有限公司 | 一种智慧场站内的监控方法、装置、设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2023188341A1 (ja) | 2023-10-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Krantz et al. | Waypoint models for instruction-guided navigation in continuous environments | |
| US12164296B2 (en) | Autonomous vehicle simulation system for analyzing motion planners | |
| Jesus et al. | Deep deterministic policy gradient for navigation of mobile robots in simulated environments | |
| JP7471397B2 (ja) | 道路シーンにおける多様な長期将来軌道のシミュレーション | |
| Garzón et al. | Game theoretic decision making for autonomous vehicles’ merge manoeuvre in high traffic scenarios | |
| KR20140137068A (ko) | 피난 시뮬레이션 시스템 및 그 제공방법 | |
| JP7776808B2 (ja) | 経路探索装置、経路探索方法、及びプログラム | |
| Kobayashi et al. | Robot navigation based on predicting of human interaction and its reproducible evaluation in a densely crowded environment | |
| Mokhtari et al. | Safe deep q-network for autonomous vehicles at unsignalized intersection | |
| WO2023188341A1 (ja) | 行動評価提示システム、行動評価提示方法、及び行動評価提示装置 | |
| Kästner et al. | Arena-rosnav 2.0: A development and benchmarking platform for robot navigation in highly dynamic environments | |
| Mugnai et al. | Towards autonomous firefighting uavs: Online planners for obstacle avoidance and payload delivery | |
| Farkhodov et al. | Deep reinforcement learning tf-agent-based object tracking with virtual autonomous drone in a game engine | |
| Nam et al. | SLAM-DRLnav: A SLAM-enhanced deep reinforcement learning navigation framework for indoor self-driving | |
| Garcia et al. | ACoPla: a multiagent simulator to study individual strategies in dynamic situations | |
| Khider et al. | A novel three dimensional movement model for pedestrian navigation | |
| Hartmann et al. | “Pedestrian in the Loop”: An approach using augmented reality | |
| Shen et al. | Simulating Optimal Flood Evacuation Using Heuristic Algorithms and Path-Choice Behaviors | |
| Zhang et al. | Shrinking pomcp: a framework for real-time UAV search and rescue | |
| Clark et al. | A navigation and obstacle avoidance algorithm for mobile robots operating in unknown, maze-type environments | |
| Worley et al. | Topological robot localization in a large-scale water pipe network | |
| KR101273662B1 (ko) | 어포던스 기반 에이전트 모델을 이용한 인간 행동패턴 인식방법 | |
| CN119512128B (zh) | 搜救环境下的快速搜寻路径规划方法及装置 | |
| CN116766225B (zh) | 脱困方法、装置、设备及可读存储介质 | |
| KR20250051848A (ko) | 드론 또는 로봇이 객체를 추적하면서 자동으로 이동하도록 인공신경망 모델을 구축하는 방법 및 장치 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22935482 Country of ref document: EP Kind code of ref document: A1 |
|
| ENP | Entry into the national phase |
Ref document number: 2024511090 Country of ref document: JP Kind code of ref document: A |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 22935482 Country of ref document: EP Kind code of ref document: A1 |