[go: up one dir, main page]

WO2025164369A1 - 画像認識装置及び画像認識方法 - Google Patents

画像認識装置及び画像認識方法

Info

Publication number
WO2025164369A1
WO2025164369A1 PCT/JP2025/001345 JP2025001345W WO2025164369A1 WO 2025164369 A1 WO2025164369 A1 WO 2025164369A1 JP 2025001345 W JP2025001345 W JP 2025001345W WO 2025164369 A1 WO2025164369 A1 WO 2025164369A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image recognition
processing
unit
recognition tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
PCT/JP2025/001345
Other languages
English (en)
French (fr)
Inventor
博昭 五十嵐
健一 米司
育郎 佐藤
康太 石川
哲平 鈴木
雄介 関川
満 安倍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Publication of WO2025164369A1 publication Critical patent/WO2025164369A1/ja
Pending legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • This disclosure relates to an image recognition device and an image recognition method.
  • Patent Document 1 discloses technology for detecting objects from input image data using three detectors with different object detection accuracy or speed. It also discloses that a controller selects one of the three detectors for each frame of image data and performs object detection. In the technology disclosed in Patent Document 1, the controller selects one of the three detectors depending on the data load, which is information indicating the amount of image data to be processed. The controller frequently selects a high-speed detector when the data load is large, and frequently selects a high-precision detector when the data load is small.
  • An image recognition task may be easy or difficult to process depending on the scene depicted in the image. Furthermore, the necessity of each of multiple image recognition tasks may differ depending on the scene depicted in the image. Therefore, when performing multitasking, it is preferable to be able to change the degree of priority given to the processing accuracy or processing speed of each image recognition task depending on the scene depicted in the image. In contrast, the technology disclosed in Patent Document 1 can only select detectors with different object detection accuracy or detection speed depending on the data load, which is information indicating the amount of image data. Therefore, when performing multitasking, it is difficult to perform multiple image recognition tasks with a more desirable balance of processing accuracy and processing speed depending on the scene.
  • One objective of this disclosure is to provide an image recognition device and an image recognition method that make it easier to perform image recognition tasks with a more desirable balance of accuracy and speed depending on the scene.
  • the image recognition device disclosed herein is capable of multitasking, performing multiple image recognition tasks on an image, and is equipped with an image processing unit that is capable of adjusting the processing content of the image recognition tasks, and a controller unit that adjusts the processing content of the multiple image recognition tasks in the image processing unit.
  • the controller unit takes an image as input and dynamically changes the processing content of the multiple image recognition tasks in the image processing unit according to the tendencies of the image content.
  • the image recognition method disclosed herein includes an image processing step executed by at least one processor, which is capable of multitasking by executing multiple image recognition tasks on an image and is capable of adjusting the processing content of the image recognition tasks, and a controller step that adjusts the processing content of the multiple image recognition tasks in the image processing step, and the controller step takes an image as input and dynamically changes the processing content of the multiple image recognition tasks in the image processing step according to the trends in the content of the image.
  • the content of multitasking which executes multiple image recognition tasks on an image
  • the content of multitasking can be dynamically changed according to the trends in the image content. This makes it possible to dynamically change the balance between the processing speed and processing accuracy of multiple image recognition tasks according to the scene represented by the image content. As a result, it becomes easier to perform image recognition tasks with a more desirable balance of accuracy and speed depending on the scene.
  • FIG. 1 is a diagram illustrating an example of a schematic configuration of an image recognition system.
  • FIG. 1 is a diagram illustrating an example of a schematic configuration of an image recognition device according to a first embodiment.
  • FIG. 10 is a diagram illustrating an example of a learning method for the controller unit. 10A and 10B are diagrams for explaining an example in which the NW structure of the detector cannot be dynamically changed.
  • FIG. 10 is a diagram for explaining an example in which the NW structure of the detector can be dynamically changed.
  • FIG. 10 is a diagram illustrating an example of a schematic configuration of an image recognition device according to a second embodiment.
  • FIG. 10 is a diagram illustrating an example of a schematic configuration of an image recognition device according to a third embodiment.
  • the image recognition system 1 shown in FIG. 1 can be used in a vehicle.
  • the image recognition system 1 includes an image recognition device 10, a locator 11, a map database (hereinafter referred to as a map DB) 12, a vehicle state sensor 13, a perimeter monitoring sensor 14, a vehicle control ECU 15, a driving assistance ECU 16, an interior camera 17, a presentation device 18, and an HCU (Human Machine Interface Control Unit) 19.
  • the image recognition device 10, the locator 11, the map DB 12, the vehicle state sensor 13, the perimeter monitoring sensor 14, the vehicle control ECU 15, the driving assistance ECU 16, and the HCU 20 may be configured to be connected to an in-vehicle LAN (LAN) (see the LAN in FIG. 1 ).
  • LAN in-vehicle LAN
  • the vehicle using the image recognition system 1 is not necessarily limited to an automobile, the following description will be given taking an example of use in an automobile.
  • a vehicle using the image recognition system 1 may be a vehicle capable of autonomous driving (hereinafter referred to as an autonomous vehicle).
  • automation levels There may be multiple levels of autonomous driving for an autonomous vehicle (hereinafter referred to as automation levels), as defined, for example, by the SAE.
  • Automation levels are divided, for example, into LV0 to 5 as follows: LV0 is the level at which the driver performs all driving tasks without system intervention. Driving tasks may also be referred to as dynamic driving tasks. Examples of driving tasks include steering, acceleration/deceleration, and periphery monitoring. LV0 corresponds to so-called manual driving.
  • LV1 is the level at which the system assists with either steering or acceleration/deceleration. LV1 corresponds to so-called driver assistance.
  • LV2 is the level at which the system assists with both steering and acceleration/deceleration. LV2 corresponds to so-called partial driving automation. Note that LV1 and LV2 are also considered to be part of autonomous driving.
  • LV3 autonomous driving is a level at which the system can perform all driving tasks under certain conditions, with the driver taking control of the vehicle in an emergency.
  • Level 4 autonomous driving is a level at which the system can perform all driving tasks except under certain circumstances such as on unmanageable roads or in extreme environments. Level 4 corresponds to what is known as highly automated driving.
  • Level 5 autonomous driving is a level at which the system can perform all driving tasks in any environment. Level 5 corresponds to fully automated driving. The following explanation will be given using as an example a case where a vehicle using image recognition system 1 has an automation level of at least LV1 or higher.
  • the locator 11 is equipped with a GNSS (Global Navigation Satellite System) receiver and an inertial sensor.
  • the GNSS receiver receives positioning signals from multiple positioning satellites.
  • the inertial sensor includes, for example, a gyro sensor and an acceleration sensor.
  • the locator 11 sequentially determines the vehicle position of the vehicle (hereinafter referred to as the vehicle position) by combining the positioning signals received by the GNSS receiver with the measurement results of the inertial sensor.
  • the vehicle position may be expressed, for example, in latitude and longitude coordinates. Note that the vehicle position may also be determined using the travel distance calculated from signals sequentially output from a vehicle speed sensor installed in the vehicle.
  • Map DB12 is a non-volatile memory that stores map data used for route guidance by the navigation device.
  • the map data used for route guidance includes link data, node data, etc.
  • Link data consists of data such as a link ID that identifies the link, a link length indicating the length of the link, link direction, link travel time, link shape information, node coordinates (latitude/longitude) of the start and end of the link, and road attributes.
  • Road attributes include road name, road type, road width, and speed limit.
  • Node data consists of data such as a node ID assigned a unique number for each node on the map, node coordinates, node name, node type, connecting link IDs that describe the link IDs of links connecting to the node, and intersection types.
  • Map DB12 may also store high-precision map data.
  • High-precision map data is map data with higher precision than the map data used for route guidance.
  • High-precision map data includes information that can be used for driving assistance, such as three-dimensional road shape information, number of lanes, and information indicating the permitted direction of travel for each lane.
  • the vehicle condition sensor 13 is a group of sensors for detecting various conditions of the vehicle.
  • the vehicle condition sensor 13 includes a vehicle speed sensor.
  • the vehicle speed sensor detects the speed of the vehicle.
  • the vehicle condition sensor 13 outputs the detected sensing information to the in-vehicle LAN. Note that the sensing information detected by the vehicle condition sensor 13 may also be configured to be output to the in-vehicle LAN via an ECU installed in the vehicle.
  • the perimeter monitoring sensor 14 monitors the environment around the vehicle.
  • the perimeter monitoring sensor 14 detects obstacles around the vehicle, such as moving objects such as pedestrians and other vehicles, and stationary objects such as fallen objects on the road. It also detects road markings such as lane markings around the vehicle.
  • the perimeter monitoring sensor 14 includes a perimeter monitoring camera 141.
  • the perimeter monitoring camera 141 sequentially outputs captured images as sensing information.
  • the captured images sequentially output from the perimeter monitoring camera 141 are, more specifically, image data as captured image data.
  • the captured images sequentially output from the perimeter monitoring camera 141 will be referred to as perimeter image data.
  • the perimeter monitoring camera 141 may be multiple cameras with different imaging ranges.
  • the perimeter monitoring sensor 14 may also include a search wave sensor.
  • search wave sensors include millimeter wave radar, sonar, and LiDAR (Light Detection and Ranging/Laser Imaging Detection and Ranging).
  • the search wave sensor sequentially outputs scanning results based on the received signal obtained when receiving waves reflected by an obstacle as sensing information.
  • the vehicle control ECU 15 is an electronic control device that controls the driving of the vehicle. Driving control includes acceleration/deceleration control and/or steering control.
  • the vehicle control ECU 15 includes a steering ECU that controls steering, a power unit control ECU that controls acceleration/deceleration, and a brake ECU.
  • the vehicle control ECU 15 controls driving by outputting control signals to each driving control device installed in the vehicle.
  • Driving control devices include an electronically controlled throttle, brake actuator, EPS (Electric Power Steering) motor, etc.
  • the driving assistance ECU 16 is an electronic control unit that provides driving assistance for the vehicle.
  • the driving assistance ECU 16 performs processing related to driving assistance based on signals input from the various in-vehicle devices described above.
  • the driving assistance ECU 16 works in conjunction with the vehicle control ECU 15 to perform acceleration/deceleration control and steering control for the vehicle. Examples of driving assistance include ACC (Adaptive Cruise Control), PCS (Pre-Collision Safety), and AEB (Automatic Emergency Braking).
  • the interior camera 17 captures an image of a specified range within the vehicle's interior.
  • the interior camera 17 captures an image of an area that includes at least the driver's seat of the vehicle.
  • the interior camera 17 is composed of, for example, a near-infrared light source and a near-infrared camera, and a control unit that controls these.
  • the interior camera 17 uses the near-infrared camera to capture an image of the driver illuminated with near-infrared light by the near-infrared light source.
  • the image captured by the near-infrared camera is analyzed by the control unit.
  • the control unit analyzes the captured image to detect the driver's facial orientation, line of sight, and other conditions.
  • the interior camera 17 sequentially outputs the detected driver's condition to the HCU 19.
  • the presentation device 18 is installed in the vehicle and presents information to the interior of the vehicle. In other words, the presentation device 18 presents information to the driver of the vehicle.
  • the presentation device 18 presents information in accordance with instructions from the HCU 19.
  • the presentation device 18 includes a display device 181.
  • the display device 181 presents information by displaying it.
  • the display device 181 can be, for example, a meter MID (Multi Information Display), a CID (Center Information Display), or a HUD (Head-Up Display).
  • the meter MID is a display device installed in front of the driver's seat inside the vehicle. As an example, the meter MID may be installed in a meter panel.
  • the CID is a display device located in the center of the instrument panel of the vehicle.
  • the HUD is installed in the vehicle interior, for example, on the instrument panel.
  • the HUD projects a display image formed by a projector onto a predetermined projection area on the front windshield, which serves as a projection member.
  • the HUD may be configured to project a display image onto a combiner located in front of the driver's seat instead of onto the front windshield.
  • the presentation device 18 may also include an audio output device that presents information by outputting sound.
  • HCU 19 is an electronic control unit that executes various processes related to interactions between the occupants and the vehicle's systems. HCU 19 causes the presentation device 18 to present information. HCU 19 acquires the driver's state detected by the interior camera 17. Note that HCU 20 may identify the driver's state from images captured by the interior camera 17. In other words, HCU 19 may take on some of the functions of the control unit of the interior camera 17.
  • the image recognition device 10 is primarily composed of a computer equipped with, for example, a processor, volatile memory, non-volatile memory, I/O, and buses connecting these.
  • the image recognition device 10 performs image recognition processing by executing a control program stored in the non-volatile memory.
  • the image recognition device 10 performs an image recognition task (hereinafter referred to as the image recognition task) on an image captured by the perimeter monitoring camera 141, and recognizes an object according to the image recognition task. For example, if the image recognition task is semantic segmentation, class identification is performed and regions on the image are divided by class.
  • a class in this case is a semantic unit, such as "road,” “person,” or “bicycle.”
  • the image recognition task is traffic light detection, the color and flashing state of the traffic light are recognized.
  • the image recognition task is branch road detection, the branch road is recognized.
  • the image recognition task may also recognize things other than those described above from an image.
  • the image recognition device 10 performs multiple image recognition tasks. In other words, the image recognition device 10 performs multitasking processing. The configuration of the image recognition device 10 is described in detail below.
  • the image recognition device 10 includes an image acquisition unit 101, a vehicle-related acquisition unit 102, a detector 103, and a controller unit 104 as functional blocks. Execution of processing by each functional block of the image recognition device 10 by a computer corresponds to execution of an image recognition method. Note that some or all of the functions executed by the image recognition device 10 may be configured as hardware using one or more ICs or the like. Furthermore, some or all of the functional blocks included in the image recognition device 10 may be realized by a combination of software execution by a processor and hardware components.
  • the image acquisition unit 101 acquires surrounding image data sequentially output from the surrounding monitoring camera 141.
  • the example will be described using the surrounding image data captured by the surrounding monitoring camera 141 for image recognition, but this is not necessarily limited to this.
  • the sensing results detected by other surrounding monitoring sensors 14 that can be used for image recognition, such as LiDAR, may also be used for image recognition. In this case, these sensing results may also be included in the surrounding image data.
  • the vehicle-related acquisition unit 102 acquires information related to the vehicle other than the surrounding image data (hereinafter referred to as vehicle-related information). Examples of vehicle-related information include information on the vehicle's speed, map information, information on the driver's status, and information on sensor characteristics. Information on the vehicle's speed will be referred to as vehicle speed information below.
  • the vehicle-related acquisition unit 102 may acquire vehicle speed information from the vehicle speed sensor of the vehicle state sensor 13.
  • the vehicle-related acquisition unit 102 may acquire map information from the map DB 12.
  • the vehicle-related acquisition unit 102 may acquire map information limited to the area around the vehicle's position determined by the locator 11.
  • the vehicle-related acquisition unit 102 may acquire the driver's state from the HCU 19.
  • the driver's state may be, for example, the line of sight direction detected using the interior camera 17.
  • the vehicle-related acquisition unit 102 may acquire sensor characteristics from the perimeter monitoring sensor 14.
  • the non-volatile memory of the perimeter monitoring sensor 14 may be configured to store sensor characteristics for each sensor included in the perimeter monitoring sensor 14 in advance.
  • the sensor characteristics may be data indicating the difficult objects and difficult situations for each sensor included in the perimeter monitoring sensor 14.
  • An difficult object is an object that is difficult to detect due to the characteristics of the sensor's detection principle.
  • An difficult situation indicates a situation in which the object detection performance may deteriorate.
  • difficult objects may include objects that are likely to be mistaken for other types of objects, and objects for which the detection results are unstable.
  • the detector 103 executes multiple image recognition tasks on the peripheral images acquired by the image acquisition unit 101.
  • the detector 103 is capable of multitasking on the peripheral images acquired by the image acquisition unit 101.
  • This detector 103 corresponds to the image processing unit.
  • the processing by this detector 103 corresponds to the image processing step.
  • the detector 103 executes multiple image recognition tasks on the peripheral images, thereby recognizing the recognition target for each image recognition task from the peripheral images. This recognition can also be referred to as detection.
  • the detector 103 may execute multiple image recognition tasks using a machine learning model.
  • This machine learning model is a model generated by performing machine learning so that it can input peripheral images and output recognition targets for each of the multiple image recognition tasks.
  • the detector 103 may execute multiple image recognition tasks using a neural network (hereinafter referred to as NN), which is one of the machine learning models.
  • NN neural network
  • the detector 103 may execute multiple image recognition tasks using a machine learning model other than a network structure such as a NN.
  • a random forest which is a tree-structured machine learning model, may be used. The following explanation will continue using an example in which a NN is used as the detector 103.
  • the detector 103 is capable of dynamically changing the processing content of the multiple image recognition tasks.
  • the detector 103 is capable of dynamically changing the network structure and parameters of the NN.
  • the parameters are, for example, at least one of the weights and biases of each layer in the NN.
  • the processing content of the multiple image recognition tasks corresponds to the network structure and weights of the NN.
  • the controller unit 104 adjusts the processing content of multiple image recognition tasks in the detector 103.
  • the controller unit 104 receives a peripheral image as input and dynamically changes the processing content of multiple image recognition tasks in the detector 103 according to the trends in the content of the peripheral image.
  • the peripheral image input to the controller unit 104 may be the peripheral image acquired by the image acquisition unit 101.
  • the processing in the controller unit 104 corresponds to the controller process.
  • the content of multitasking which executes multiple image recognition tasks on a peripheral image
  • the trends in the content of peripheral images are highly correlated, changing according to the scene depicted in the content of the peripheral images. Therefore, it is possible to dynamically change the balance between the processing speed and processing accuracy of multiple image recognition tasks according to the scene depicted in the image content. As a result, it becomes easier to perform image recognition tasks with a more desirable balance of accuracy and speed according to the scene.
  • the controller unit 104 can dynamically change the processing content of multiple image recognition tasks in the detector 103 by changing at least one of the NN network structure and parameters.
  • the processing content of the image recognition task automatically switches for peripheral images, so it is possible to eliminate processing time margins when designing the detector 103. Therefore, when processing accuracy is fixed, faster recognition processing is achieved. As a secondary effect, power consumption is reduced.
  • the processing content of the image recognition task automatically switches for peripheral images, it is possible to reduce unimportant processing and spend more time on important processing. Therefore, when processing time is fixed, more accurate recognition processing is achieved.
  • Figure 3 is a diagram illustrating an example where the content of multitasking cannot be dynamically changed.
  • Figure 4 is a diagram illustrating an example where the content of multitasking can be dynamically changed.
  • Figures 3 and 4 illustrate an example where semantic segmentation, traffic light detection, and branch road detection are performed as multiple image recognition tasks in multitasking.
  • SS in Figures 3 and 4 indicates semantic segmentation among the multiple image recognition tasks.
  • TL in Figures 3 and 4 indicates traffic light detection among the multiple image recognition tasks.
  • Br in Figures 3 and 4 indicates branch road detection among the multiple image recognition tasks.
  • PC in Figures 3 and 4 schematically illustrates the performance balance and computational load of the multiple image recognition tasks. Here, performance can be rephrased as processing accuracy.
  • the ratio of each patterned area in PC indicates the performance balance of the multiple image recognition tasks. Furthermore, the size of PC indicates the overall computational load of the multiple image recognition tasks. This computational load affects the processing speed of the image recognition tasks.
  • NS in Figures 3 and 4 indicates the network structure of the NN.
  • PB in Figures 3 and 4 indicates the processing blocks of the NN.
  • De, IP, and HR in Figure 4 each indicate a different scene. De is the default scene. IP is the scene of driving at an intersection. HR is the scene of driving on a highway. In the example of Figure 4, a scene that is neither driving at an intersection nor driving on a highway can be set as the default scene. In Figure 4, unused processing blocks are indicated by dashed lines, and used processing blocks are indicated by solid lines.
  • the processing speed and processing accuracy of multiple image recognition tasks cannot be changed regardless of the scene.
  • the processing speed and processing accuracy of multiple image recognition tasks can be changed depending on the scene. For example, in a scene of driving at an intersection, it is possible to prioritize and improve the processing accuracy of semantic segmentation and traffic light detection, which are considered more necessary for driving at an intersection, over branch road detection. In addition, in a scene of driving on a highway, as shown in Figure 4, it is possible to prioritize and improve the processing accuracy of semantic segmentation and branch road detection over the processing accuracy of traffic light detection, which is considered less necessary for driving on a highway. Furthermore, in scenes of driving on a highway with fewer external disturbances, it is also possible to change the processing speed of multiple image recognition tasks so as to reduce the overall amount of calculation compared to other scenes.
  • the controller unit 104 may use a machine learning model to change the processing speed and processing accuracy of multiple image recognition tasks according to the scene.
  • This machine learning model may be a machine learning model that learns the NN network structure and parameters that balance the processing speed and processing accuracy of multiple image recognition tasks according to the trends in the content of the surrounding images, according to the trends in the content of the surrounding images. This learning may be performed so as to minimize the loss of accuracy calculated from the detection results of each image recognition task and the amount of calculation calculated from the network configuration.
  • This machine learning model may be realized by a hypernetwork such as a CNN (convolutional neural network).
  • Figure 5 is a diagram for explaining an example of learning by the controller unit 104.
  • the calculation amount calculation unit 105, calculation amount table 106, accuracy loss calculation unit 107, and correct answer label 108 in Figure 5 may be provided as functional blocks in the image recognition device 10.
  • the computational amount calculation unit 105 calculates the amount of computation for the NN of the detector 103 generated by the controller unit 104.
  • the computational amount calculation unit 105 calculates the amount of computation by referencing the computational amount table 106.
  • the computational amount table 106 may be a database that pre-stores the amount of computation for each unit, such as a node or edge, of the network structure. This computational amount can also be described as the amount of computation for each layer of the NN.
  • the computational amount may also include the amount of data communication between hardware.
  • the computational amount table 106 may be realized using, for example, non-volatile memory.
  • the computational amount calculation unit 105 calculates the amount of computation for the NN by referencing the computational amount table 106 and adding up the amount of computation for each unit that makes up the network structure for which the computational amount is to be calculated.
  • the accuracy loss calculation unit 107 calculates the accuracy loss in recognition using the NN of the detector 103 from the detection results of the detector 103.
  • the accuracy loss calculation unit 107 calculates the accuracy loss by referring to the correct answer label 108.
  • the correct answer label 108 may be a database that pre-stores the correct recognition results for each surrounding image used for learning.
  • the accuracy loss calculation unit 107 may refer to the correct answer label 108 and calculate the accuracy loss depending on how accurate the detection results of the detector 103 were.
  • the NN calculation volume and accuracy loss are calculated while changing the network structure and parameters of the NN of the detector 103 generated by the controller unit 104. Then, the network structure and parameters that minimize the NN calculation volume and accuracy loss are learned according to the tendencies of the content of the surrounding images used for learning. This enables the controller unit 104 to generate a NN network structure and parameters that can balance the processing speed and processing accuracy of the image recognition task according to the tendencies of the content of the surrounding images.
  • the controller unit 104 may dynamically change the processing content of the multiple image recognition tasks in the detector 103, depending on the trends in the content of the surrounding images, so that the processing accuracy of each of the multiple image recognition tasks is maximized within the given processing time constraints. This can be achieved using the learning results of learning the processing content of the image recognition tasks that maximize the processing accuracy of each of the multiple image recognition tasks within the given processing time constraints, depending on the trends in the content of the surrounding images. This makes it easier to perform image recognition tasks so that the processing accuracy of each of the multiple image recognition tasks is maximized within the given processing time constraints, depending on the scene.
  • the controller unit 104 may dynamically change the processing content of the multiple image recognition tasks in the detector 103 so as to minimize the total processing speed of each of the multiple image recognition tasks within a given processing accuracy constraint, depending on the tendency of the content of the surrounding images. This can be achieved using the learning results of learning the processing content of the image recognition tasks that minimize the total processing speed of each of the multiple image recognition tasks within a given processing accuracy constraint, depending on the tendency of the content of the surrounding images. This makes it easier to perform image recognition tasks so as to minimize the total processing speed of each of the multiple image recognition tasks within a given processing speed constraint, depending on the scene.
  • the controller unit 104 may dynamically change the processing content of the multiple image recognition tasks in the detector 103 so as to minimize the total amount of hardware resource usage for each of the multiple image recognition tasks within a given processing accuracy constraint, depending on the tendency of the content of the surrounding image. This may be achieved using the learning results of learning the processing content of the image recognition tasks that minimize the total amount of hardware resource usage for each of the multiple image recognition tasks within a given processing accuracy constraint, depending on the tendency of the content of the surrounding image. This makes it easier to perform image recognition tasks so as to minimize the total amount of hardware resource usage for each of the multiple image recognition tasks within a given processing accuracy constraint, depending on the scene.
  • the hardware resource may be, for example, memory.
  • the hardware resource may also include a processor, storage, etc.
  • the controller unit 104 preferably has a scene classification unit 1041 as a sub-functional block.
  • the scene classification unit 1041 may be configured to be separate from the controller unit 104.
  • the scene classification unit 1041 receives a peripheral image as input and classifies the scene indicated by the content of the peripheral image.
  • the controller unit 104 preferably dynamically changes the processing content of multiple image recognition tasks in the detector 103 according to the scene classified by the scene classification unit 1041 as a tendency of the content of the peripheral image. This makes it possible to more accurately execute image recognition tasks with a more desirable balance of accuracy and speed according to the scene.
  • the scene classification unit 1041 may be rule-based or learning-based. If learning-based, it may be configured to classify scenes from peripheral images using a machine learning model.
  • the machine learning model may, for example, be a neural network trained to classify scenes from peripheral images. Examples of scenes to be classified include highways, parking lots, and the areas around intersections.
  • the controller unit 104 may be configured to perform processing in response to inputs other than peripheral images. Examples of inputs other than peripheral images include vehicle-related information and time series information acquired by the vehicle-related acquisition unit 102. The time series information may be the detection results of the detector 103 for the peripheral image of the previous frame. The controller unit 104 may also use the vehicle-related information and time series information to dynamically change the processing content of multiple image recognition tasks in the detector 103. The controller unit 104 may also dynamically change the processing content of multiple image recognition tasks in the detector 103 in response to the vehicle-related information and time series information. In this case, the controller unit 104 may dynamically change the processing content of multiple image recognition tasks in the detector 103 based on the learning results of learning the balance of processing of multiple image recognition tasks in response to the vehicle-related information and time series information.
  • the controller unit 104 can dynamically change the processing content of the multiple image recognition tasks in the detector 103 in accordance with the vehicle speed information acquired by the vehicle-related acquisition unit 102. For example, the controller unit 104 can change the processing speed of the multiple image recognition tasks so that it is faster as the vehicle speed increases than when the vehicle speed is slower. The faster the vehicle speed, the greater the changes in the surrounding image in a short period of time, so a higher processing speed is required. With the above configuration, it is easy to meet this requirement.
  • the controller unit 104 also utilizes map information acquired by the vehicle-related acquisition unit 102.
  • the controller unit 104 may use map information to reinforce or correct the scene classification performed by the scene classification unit 1041.
  • the controller unit 104 may dynamically change the processing content of multiple image recognition tasks in the detector 103 in accordance with the driver's state acquired by the vehicle-related acquisition unit 102.
  • the controller unit 104 may, for example, change the processing accuracy of image recognition tasks in directions the driver is not looking at to increase the processing accuracy. For example, if the driver is looking to the right, the processing accuracy of image recognition tasks for recognizing objects to the left and in front may be increased.
  • the processing content of multiple image recognition tasks may be changed to increase the processing accuracy of peripheral images in directions the driver is not looking at.
  • the controller unit 104 may dynamically change the processing content of the multiple image recognition tasks in the detector 103 in accordance with the sensor characteristics acquired by the vehicle-related acquisition unit 102. For example, the controller unit 104 may make changes to increase the processing accuracy of the multiple image recognition tasks in the detector 103 in a scene that is an unsuitable situation for a perimeter monitoring sensor 14 other than the perimeter monitoring camera 141. The controller unit 104 may determine whether or not the scene is an unsuitable situation based on the scene classified by the scene classification unit 1041 and the sensor characteristics. With the above configuration, it becomes easier to compensate for deterioration in detection accuracy by the perimeter monitoring sensor 14 in an unsuitable situation in sensor fusion.
  • the controller unit 104 may dynamically change the processing content of the multiple image recognition tasks in the detector 103 in accordance with the time-series information.
  • the controller unit 104 may dynamically change the processing content of the multiple image recognition tasks in the detector 103 in accordance with the detection result of the detector 103 for the peripheral image of the previous frame.
  • the controller unit 104 may make the change depending on whether the detection result is predicted to be difficult to recognize or easy to recognize. Whether recognition is difficult or easy may be determined by the number of recognition objects, such as pedestrians or cars. If the detection result is predicted to be difficult to recognize, the controller unit 104 may change the processing content of the multiple image recognition tasks to be appropriate for cases where recognition is predicted to be difficult.
  • the controller unit 104 may learn the processing content of the multiple image recognition tasks according to the difficulty of recognition through machine learning. With the above configuration, it is possible to perform image recognition task processing appropriate to the difficulty of image recognition.
  • controller unit 104 may turn off unnecessary image recognition tasks depending on the scene. For example, on a highway where pedestrians are not expected to be present, the image recognition task for detecting pedestrians may be turned off.
  • the controller unit 104 may perform processing related to outputs other than control of the detector 103. An example of this processing is described below.
  • the controller unit 104 may request the driver to decelerate or perform deceleration control when the processing load of the detector 103 exceeds a specified value. This makes it possible to reduce the processing load of the detector 103 by decelerating the vehicle.
  • the processing load of the detector 103 exceeds the specified value when the machine learning model of the detector 103 controlled by the controller unit 104 can no longer satisfy the processing time and processing accuracy constraints imposed during learning.
  • the deceleration request may be made by the presentation device 18.
  • the deceleration control may be made by the driving assistance ECU 16. When deceleration control is performed, the presentation device 18 may also present the reason for deceleration. This makes it possible to reduce the anxiety of the vehicle occupants regarding the deceleration control.
  • the controller unit 104 may instruct the periphery monitoring camera 141 to lengthen the imaging cycle when the processing load of the controller unit 104 exceeds a specified value. This makes it possible to reduce the processing load of the controller unit 104.
  • the controller unit 104 may also change the imaging cycle of the periphery monitoring camera 141 depending on the scene classified by the scene classification unit 1041. For example, in simple scenes with little disturbance, such as on a highway, the controller unit 104 may instruct the periphery monitoring camera 141 to lengthen the imaging cycle. On the other hand, in scenes where recognition processing is difficult, the controller unit 104 may instruct the periphery monitoring camera 141 to lengthen the imaging cycle.
  • the controller unit 104 may instruct the periphery monitoring camera 141 to lower the resolution of the peripheral image when the processing load of the controller unit 104 exceeds a specified value. This makes it possible to reduce the processing load of the controller unit 104.
  • the controller unit 104 may change the resolution of the periphery monitoring camera 141 depending on the scene classified by the scene classification unit 1041. For example, in a simple scene with little disturbance, such as a highway, the controller unit 104 may instruct the periphery monitoring camera 141 to lower the resolution. On the other hand, in a scene where recognition processing is difficult, the controller unit 104 may instruct the periphery monitoring camera 141 to increase the resolution.
  • the configuration of the embodiment 2 described below may be adopted instead of the configuration of the above-described embodiment.
  • An example of the configuration of the embodiment 2 will be described below with reference to the drawings.
  • the image recognition system 1 of the embodiment 2 is similar to the image recognition system 1 of the embodiment 1, except that it includes an image recognition device 10a instead of the image recognition device 10.
  • the image recognition device 10a includes an image acquisition unit 101, a vehicle-related acquisition unit 102, a detector 103, and a controller unit 104a as functional blocks.
  • the image recognition device 10a is similar to the image recognition device 10 of the first embodiment except that the image recognition device 10a includes the controller unit 104a instead of the controller unit 104.
  • the execution of processing by a computer of each functional block of the image recognition device 10a corresponds to the execution of an image recognition method.
  • the controller unit 104a has a scene classification unit 1041 and an uncertainty prediction unit 1042 as sub-functional blocks.
  • the controller unit 104a is similar to the controller unit 104 of embodiment 1, except that it has the uncertainty prediction unit 1042.
  • the uncertainty prediction unit 1042 may be configured to be provided separately from the controller unit 104a.
  • the uncertainty prediction unit 1042 corresponds to a first uncertainty prediction unit.
  • the uncertainty prediction unit 1042 predicts data uncertainty (Aleatoric uncertainty).
  • the uncertainty prediction unit 1042 may predict data uncertainty using, for example, Bayesian estimation. In a configuration in which the image recognition device 10a is equipped with a scene classification unit 1041, the uncertainty prediction unit 1042 predicts the uncertainty of scenes classified by the scene classification unit 1041. In this case, data uncertainty becomes the uncertainty of scenes classified by the scene classification unit 1041. Scene uncertainty can be rephrased as the difficulty of scene classification. In cases in which the image recognition device 10a is not required to be equipped with a scene classification unit 1041, the uncertainty prediction unit 1042 may predict the uncertainty of the image recognition task carried out by the detector 103 controlled by the controller unit 104a from the tendency of the content of the surrounding images.
  • the controller unit 104a dynamically changes the processing content of multiple image recognition tasks in the detector 103, also using the data uncertainty predicted by the uncertainty prediction unit 1042. If the scene classification unit 1041 is a required component, scene uncertainty is used as data uncertainty.
  • the controller unit 104a may dynamically change the processing content of multiple image recognition tasks in the detector 103 according to the degree of uncertainty. The degree of uncertainty may be divided into two levels: a high uncertainty level and a low uncertainty level, separated by a predetermined threshold.
  • the controller unit 104a may change the processing content of multiple image recognition tasks appropriate for each level of uncertainty.
  • the controller unit 104a may learn the processing content of multiple image recognition tasks appropriate for each level of uncertainty through machine learning. The above configuration makes it possible to perform image recognition task processing appropriate for the data uncertainty.
  • the controller unit 104a may be configured without the scene classification unit 1041. In this case, the uncertainty prediction unit 1042 only needs to predict the uncertainty of the data input from the image acquisition unit 101 to the controller unit 104b.
  • the configuration of the image recognition system 1 of the third embodiment is not limited to the configuration of the above-described embodiments, and may be the configuration of the following third embodiment. An example of the configuration of the third embodiment will be described below with reference to the drawings.
  • the image recognition system 1 of the third embodiment is similar to the image recognition system 1 of the first embodiment, except that it includes an image recognition device 10b instead of the image recognition device 10.
  • the image recognition device 10b includes an image acquisition unit 101, a vehicle-related acquisition unit 102, a detector 103, and a controller unit 104b as functional blocks.
  • the image recognition device 10b is similar to the image recognition device 10 of the first embodiment except that the image recognition device 10b includes the controller unit 104b instead of the controller unit 104.
  • the execution of processing by a computer of each functional block of the image recognition device 10b corresponds to the execution of an image recognition method.
  • the controller unit 104b has a scene classification unit 1041 and an uncertainty prediction unit 1042b as sub-functional blocks.
  • the controller unit 104b is similar to the controller unit 104 of embodiment 1, except that it has the uncertainty prediction unit 1042b.
  • the uncertainty prediction unit 1042b may be configured to be provided separately from the controller unit 104b.
  • the uncertainty prediction unit 1042b corresponds to a second uncertainty prediction unit. In embodiment 3, it is not essential that the controller unit 104b has the scene classification unit 1041.
  • the uncertainty prediction unit 1042b predicts data uncertainty (Aleatoric uncertainty) and model uncertainty (Epistemic uncertainty).
  • the uncertainty prediction unit 1042b may predict data uncertainty in the same manner as the uncertainty prediction unit 1042. If the controller unit 104b has a scene classification unit 1041, the uncertainty prediction unit 1042b may predict scene uncertainty in the same manner as the uncertainty prediction unit 1042 of embodiment 2. If the controller unit 104b does not have a scene classification unit 1041, the uncertainty prediction unit 1042b may predict the uncertainty of the data input to the controller unit 104b from the image acquisition unit 101.
  • the uncertainty prediction unit 1042b may predict model uncertainty using, for example, probabilistic modeling. Model uncertainty is the uncertainty of the machine learning model of the detector 103 controlled by the controller unit 104b. For example, in the example of this embodiment, it may be the uncertainty of semantic segmentation, traffic light detection, and fork detection in the machine learning model for the image input from the image acquisition unit 101.
  • the controller unit 104b dynamically changes the processing content of the multiple image recognition tasks in the detector 103, using the data uncertainty and model uncertainty predicted by the uncertainty prediction unit 1042b.
  • the controller unit 104b may dynamically change the processing content of the multiple image recognition tasks in the detector 103 in accordance with the degree of uncertainty of the data and model.
  • the degree of uncertainty of the data and model may be in two levels: a high uncertainty level and a low uncertainty level, as described in embodiment 2.
  • the controller unit 104b may change the processing content of the multiple image recognition tasks appropriate for each combination of the degree of uncertainty of the data and model.
  • the controller unit 104a may learn, by machine learning, the processing content of the multiple image recognition tasks appropriate for each combination of the degree of uncertainty of the data and model. With the above configuration, it is possible to perform image recognition task processing appropriate for the data uncertainty and model uncertainty.
  • the uncertainty prediction unit 1042b may be configured to predict only the model uncertainty out of the data uncertainty and model uncertainty.
  • the controller unit 104b may be configured to dynamically change the processing content of multiple image recognition tasks in the detector 103 according to the degree of model uncertainty. This configuration also makes it possible to perform image recognition task processing appropriate to the model uncertainty.
  • An example of image recognition task processing appropriate to the model uncertainty is processing that allocates more resources to the more difficult tasks out of semantic segmentation, traffic light detection, and fork detection.
  • the image recognition devices 10, 10a, and 10b are provided in a vehicle, but this is not necessarily limited to this.
  • the image recognition devices 10, 10a, and 10b may be provided outside the vehicle.
  • they may be provided in a server outside the vehicle.
  • communication between the vehicle-side system and the image recognition devices 10, 10a, and 10b on the server may be performed via a communication module provided in the vehicle.
  • the image recognition devices 10, 10a, and 10b are described as being used for image recognition of a peripheral image captured by a vehicle's peripheral monitoring camera 141, but this is not necessarily limited to this.
  • the image recognition devices 10, 10a, and 10b may be configured to be used for image recognition of a peripheral image other than that captured by a vehicle's peripheral monitoring camera 141.
  • they may be used for image recognition of a peripheral image captured by a camera on a moving object such as a drone.
  • they may be used for image recognition of a peripheral image captured by a camera installed in a facility.
  • a peripheral image was used as the image used for image recognition, but this is not necessarily limited to this.
  • the image used for image recognition may be an image other than a peripheral image, as long as the content of the image has a tendency to be correlated with the scene.
  • the controller units 104, 104a, and 104b control the network structure of the detector 103 to dynamically change the processing of multiple image recognition tasks in accordance with trends in the content of surrounding images.
  • the detector 103 may be configured to be prepared in advance, with multiple detectors 103 having different processing patterns for multiple image recognition tasks, designed by a human.
  • the controller units 104, 104a, and 104b may then dynamically change the processing of the multiple image recognition tasks by selecting one of the multiple detectors 103.
  • the network structure and parameters of the multiple detectors 103 prepared in advance may be learned during the learning of the controller unit 104 described in FIG. 5 .
  • control unit and method described in the present disclosure may be realized by a special-purpose computer comprising a processor programmed to execute one or more functions embodied in a computer program.
  • the device and method described in the present disclosure may be realized by a special-purpose hardware logic circuit.
  • the device and method described in the present disclosure may be realized by one or more special-purpose computers configured by combining a processor that executes a computer program with one or more hardware logic circuits.
  • the computer program may be stored as instructions executed by a computer on a computer-readable non-transitory tangible recording medium.
  • (Technical thought 1) an image processing unit (103) capable of multitasking to execute a plurality of image recognition tasks on an image and capable of adjusting the processing content of the image recognition tasks; a controller unit (104, 104a, 104b) that adjusts the processing contents of a plurality of image recognition tasks in the image processing unit, The controller receives the image as an input and dynamically changes the processing contents of a plurality of image recognition tasks in the image processing unit according to the tendency of the content of the image.
  • the controller unit dynamically changes the processing content of the multiple image recognition tasks in the image processing unit in accordance with the tendency of the content of the image so as to maximize the processing accuracy of each of the multiple image recognition tasks within a given processing time constraint.
  • the controller unit dynamically changes the processing content of the multiple image recognition tasks in the image processing unit in accordance with the tendency of the content of the image so as to minimize the sum of the processing speeds of the multiple image recognition tasks within given processing accuracy constraints.
  • the controller unit dynamically changes the processing content of multiple image recognition tasks in the image processing unit according to the tendency of the image content so as to minimize the total amount of hardware resource usage for each of the multiple image recognition tasks within given processing accuracy constraints.
  • the controller unit has a scene classification unit (1041) that receives the image as an input and classifies the scene indicated by the content of the image, The controller unit dynamically changes the processing content of multiple image recognition tasks in the image processing unit according to the scene classified by the scene classification unit as a tendency of the content of the image.
  • the controller unit further comprises a first uncertainty prediction unit (1042) for predicting uncertainty of a scene to be classified by the scene classification unit;
  • the controller unit dynamically changes the processing content of multiple image recognition tasks in the image processing unit, also using the scene uncertainty predicted by the first uncertainty prediction unit.
  • the image processing unit performs the multitasking process using a machine learning model
  • the controller unit has a second uncertainty prediction unit (1042b) that predicts at least one of uncertainty regarding the image input to the controller unit and uncertainty of the machine learning model
  • the controller unit dynamically changes the processing contents of a plurality of image recognition tasks in the image processing unit, using the uncertainty predicted by the second uncertainty prediction unit.
  • the image processing unit is capable of multitasking to perform a plurality of image recognition tasks on a peripheral image, which is an image captured by a peripheral monitoring camera (141) that captures an image of the periphery of the vehicle,
  • the controller receives the peripheral image as an input and dynamically changes the processing contents of a plurality of image recognition tasks in the image processing unit according to the tendency of the content of the peripheral image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

周辺画像に対して複数の画像認識タスクを実行するマルチタスク処理が可能であって、且つ、画像認識タスクの処理内容の調整が可能な検出器(103)と、検出器(103)での複数の画像認識タスクの処理内容を調整するコントローラ部(104)とを備え、コントローラ部(104)は、周辺画像を入力として、その周辺画像の内容の傾向に応じて、検出器(103)での複数の画像認識タスクの処理内容を動的に変更する。

Description

画像認識装置及び画像認識方法 関連出願の相互参照
 この出願は、2024年2月1日に日本に出願された特許出願第2024-14409号を基礎としており、基礎の出願の内容を、全体的に、参照により援用している。
 本開示は、画像認識装置及び画像認識方法に関するものである。
 特許文献1には、物体の検出精度又は検出速度が異なる3つの検出器によって、入力される画像データから物体を検出する技術が開示されている。また、コントローラが、画像データのフレーム毎に、この3つの検出器のうちの1つの検出器を選択し、物体検出を行うことも開示されている。特許文献1に開示の技術では、コントローラは、処理すべき画像データ量を示す情報であるデータ負荷に応じて、3つの検出器のうちの1つの検出器を選択する。コントローラは、データ負荷が大きい場合に高速の検出器を頻繁に選択し、データ負荷が小さい場合に高精度の検出器を頻繁に選択する。
国際公開第2021/014643号
 しかしながら、特許文献1に開示の技術では、複数の画像認識のタスク(以下、画像認識タスク)を検出器が担うマルチタスク化を行う場合に、問題が生じると考えられる。詳しくは、以下の通りである。
 画像認識タスクは、画像の示すシーンによって、処理が容易な場合も困難な場合もある。また、複数の画像認識タスクは、画像の示すシーンによって、それぞれの画像認識タスクの必要性が異なる場合がある。よって、マルチタスク化を行う場合、画像の示すシーンに応じて、どの画像認識タスクの処理精度又は処理速度を、どの程度優先すべきかを変えられることが好ましい。これに対して、特許文献1に開示の技術では、物体の検出精度又は検出速度が異なる検出器を、画像データ量を示す情報であるデータ負荷に応じて選択することしかできない。よって、マルチタスク化を行う場合に、シーンに応じて、より好ましい処理精度及び処理速度のバランスで複数の画像認識タスクを行わせることが困難である。
 この開示の1つの目的は、シーンに応じて、より好ましい精度と速度とのバランスで画像認識タスクを行わせることを、より容易に可能とする画像認識装置及び画像認識方法を提供することにある。
 請求の範囲に記載した括弧内の符号は、1つの態様として後述する実施形態に記載の具体的手段との対応関係を示すものであって、本開示の技術的範囲を限定するものではない。
 上記目的を達成するために、本開示の画像認識装置は、画像に対して複数の画像認識タスクを実行するマルチタスク処理が可能であって、且つ、画像認識タスクの処理内容の調整が可能な画像処理部と、画像処理部での複数の画像認識タスクの処理内容を調整するコントローラ部とを備え、コントローラ部は、画像を入力として、その画像の内容の傾向に応じて、画像処理部での複数の画像認識タスクの処理内容を動的に変更する。
 上記目的を達成するために、本開示の画像認識方法は、少なくとも1つのプロセッサにより実行される、画像に対して複数の画像認識タスクを実行するマルチタスク処理が可能であって、且つ、画像認識タスクの処理内容の調整が可能な画像処理工程と、画像処理工程での複数の画像認識タスクの処理内容を調整するコントローラ工程とを含み、コントローラ工程では、画像を入力として、その画像の内容の傾向に応じて、画像処理工程での複数の画像認識タスクの処理内容を動的に変更する。
 以上の構成によれば、画像に対して複数の画像認識タスクを実行するマルチタスク処理の内容を、その画像の内容の傾向に応じて動的に変更できる。よって、画像の内容が示すシーンに応じて、複数の画像認識タスクの処理速度及び処理精度のバランスを動的に変更することが可能になる。その結果、シーンに応じて、より好ましい精度と速度とのバランスで画像認識タスクを行わせることが、より容易に可能になる。
画像認識システムの概略的な構成の一例を示す図である。 実施形態1における画像認識装置の概略的な構成の一例を示す図である。 コントローラ部の学習方法の一例について説明するための図である。 検出器のNW構造を動的に変更できない場合の例について説明するための図である。 検出器のNW構造を動的に変更できる場合の例について説明するための図である。 実施形態2における画像認識装置の概略的な構成の一例を示す図である。 実施形態3における画像認識装置の概略的な構成の一例を示す図である。
 図面を参照しながら、開示のための複数の実施形態を説明する。なお、説明の便宜上、複数の実施形態の間において、それまでの説明に用いた図に示した部分と同一の機能を有する部分については、同一の符号を付し、その説明を省略する場合がある。同一の符号を付した部分については、他の実施形態における説明を参照することができる。
 (実施形態1)
 <画像認識システム1の概略構成>
 以下、本開示の実施形態1について、図面を用いて説明する。図1に示す画像認識システム1は、車両で用いることが可能なものである。画像認識システム1は、図1に示すように、画像認識装置10、ロケータ11、地図データベース(以下、地図DB)12、車両状態センサ13、周辺監視センサ14、車両制御ECU15、運転支援ECU16、室内カメラ17、提示装置18、及びHCU(Human Machine Interface Control Unit)19を含んでいる。例えば、画像認識装置10、ロケータ11、地図DB12、車両状態センサ13、周辺監視センサ14、車両制御ECU15、運転支援ECU16、及びHCU20は、車内LAN(図1のLAN参照)と接続される構成とすればよい。画像認識システム1を用いる車両は、必ずしも自動車に限るものではないが、以下では自動車に用いる場合を例に挙げて説明を行う。
 画像認識システム1を用いる車両は、自動運転が可能な車両(以下、自動運転車両)であってもよい。自動運転車両の自動運転の段階(以下、自動化レベル)としては、例えばSAEが定義しているように、複数のレベルが存在し得る。自動化レベルは、例えば以下のようにLV0~5に区分される。LV0は、システムが介入せずに運転者が全ての運転タスクを実施するレベルである。運転タスクは動的運転タスクと言い換えてもよい。運転タスクは、例えば操舵、加減速、及び周辺監視とする。LV0は、いわゆる手動運転に相当する。LV1は、システムが操舵と加減速とのいずれかを支援するレベルである。LV1は、いわゆる運転支援に相当する。LV2は、システムが操舵と加減速とのいずれをも支援するレベルである。LV2は、いわゆる部分運転自動化に相当する。なお、LV1~2も自動運転の一部であるものとする。LV3の自動運転は、特定の条件下ではシステムが全ての運転タスクを実施可能であり、緊急時に運転者が運転操作を行うレベルである。LV4の自動運転は、対応不可能な道路,極限環境等の特定状況下を除き、システムが全ての運転タスクを実施可能なレベルである。LV4は、いわゆる高度運転自動化に相当する。LV5の自動運転は、あらゆる環境下でシステムが全ての運転タスクを実施可能なレベルである。LV5は、いわゆる完全運転自動化に相当する。以下では、画像認識システム1を用いる車両が、少なくとも自動化レベルがLV1以上である場合を例に挙げて説明を行う。
 ロケータ11は、GNSS(Global Navigation Satellite System)受信機及び慣性センサを備えている。GNSS受信機は、複数の測位衛星からの測位信号を受信する。慣性センサは、例えばジャイロセンサ及び加速度センサを備える。ロケータ11は、GNSS受信機で受信する測位信号と、慣性センサの計測結果とを組み合わせることにより、自車の車両位置(以下、自車位置)を逐次測位する。自車位置は、例えば緯度経度の座標で表されるものとすればよい。なお、自車位置の測位には、自車に搭載された車速センサから逐次出力される信号から求めた走行距離も用いる構成としてもよい。
 地図DB12は、不揮発性メモリであって、ナビゲーション装置での経路案内に用いる地図データを格納している。経路案内に用いる地図データは、リンクデータ、ノードデータ等である。リンクデータは、リンクを特定するリンクID、リンクの長さを示すリンク長、リンク方位、リンク旅行時間、リンクの形状情報、リンクの始端と終端とのノード座標(緯度/経度)、及び道路属性等の各データから構成される。道路属性としては、道路名称、道路種別、道路幅員、及び速度規制値等がある。ノードデータは、地図上のノード毎に固有の番号を付したノードID、ノード座標、ノード名称、ノード種別、ノードに接続するリンクのリンクIDが記述される接続リンクID、交差点種別等の各データから構成される。地図DB12は、高精度地図データを格納してもよい。高精度地図データは、経路案内に用いられる地図データよりも高精度な地図データである。高精度地図データには、例えば道路の三次元形状情報,車線数情報,各車線に許容された進行方向を示す情報等の運転支援に利用可能な情報が含まれている。
 車両状態センサ13は、自車の各種状態を検出するためのセンサ群である。車両状態センサ13としては、車速センサ等がある。車速センサは、自車の速度を検出する。車両状態センサ13は、検出したセンシング情報を車内LANへ出力する。なお、車両状態センサ13で検出したセンシング情報は、自車に搭載されるECUを介して車内LANへ出力される構成であってもよい。
 周辺監視センサ14は、自車の周辺環境を監視する。一例として、周辺監視センサ14は、歩行者,他車等の移動物体、及び路上の落下物等の静止物体といった自車周辺の障害物を検出する。他にも、自車周辺の走行区画線等の路面標示を検出する。周辺監視センサ14は、周辺監視カメラ141を含む。周辺監視カメラ141は、逐次撮像する撮像画像を、センシング情報として逐次出力する。周辺監視カメラ141から逐次出力される撮像画像は、詳しくは撮像画像のデータとしての画像データである。以下では、周辺監視カメラ141から逐次出力される撮像画像を、周辺画像データと呼ぶ。周辺監視カメラ141は、撮像範囲が異なる複数のカメラであってもよい。周辺監視センサ14は、周辺監視カメラ141の他に、探査波センサを含んでもよい。探査波センサとしては、ミリ波レーダ、ソナー、LiDAR(Light Detection and Ranging/Laser Imaging Detection and Ranging)等が挙げられる。探査波センサは、障害物によって反射された反射波を受信した場合に得られる受信信号に基づく走査結果を、センシング情報として逐次出力する。
 車両制御ECU15は、自車の走行制御を行う電子制御装置である。走行制御としては、加減速制御及び/又は操舵制御が挙げられる。車両制御ECU15としては、操舵制御を行う操舵ECU、加減速制御を行うパワーユニット制御ECU及びブレーキECU等がある。車両制御ECU15は、自車に搭載された各走行制御デバイスへ制御信号を出力することで走行制御を行う。走行制御デバイスとしては、電子制御スロットル,ブレーキアクチュエータ,EPS(Electric Power Steering)モータ等が挙げられる。
 運転支援ECU16は、自車の運転支援を行う電子制御装置である。運転支援ECU16は、上述した多様な車載デバイスから入力される信号に基づいて、運転支援に関する処理を実行する。運転支援ECU16は、車両制御ECU15との連携により、自車の加減速制御及び操舵制御等を実行する。運転支援の例としては、ACC(Adaptive Cruise Control)制御、PCS(Pre-Collision Safety)制御、AEB(Automatic Emergency Braking)制御等が挙げられる。
 室内カメラ17は、自車の車室内の所定範囲を撮像する。室内カメラ17は、少なくとも自車の運転席を含む範囲を撮像するものとする。室内カメラ17は、例えば近赤外光源及び近赤外カメラと、これらを制御する制御ユニット等とによって構成される。室内カメラ17は、近赤外光源によって近赤外光を照射された運転者を、近赤外カメラによって撮影する。近赤外カメラによる撮像画像は、制御ユニットによって画像解析される。制御ユニットは、撮像画像を画像解析して運転者の顔向き,視線方向等の状態を検出する。室内カメラ17は、検出した運転者の状態を、HCU19へ逐次出力する。
 提示装置18は、自車に設けられて、自車の室内へ向けて情報提示を行う。つまり、提示装置18は、自車の運転者に向けて情報提示を行う。提示装置18は、HCU19の指示に従って情報提示を行う。提示装置18には、表示装置181を含む。表示装置181は、情報を表示することで情報提示を行う。表示装置181としては、例えばメータMID(Multi Information Display),CID(Center Information Display),HUD(Head-Up Display)等を用いることができる。メータMIDは、自車の室内のうちの運転席の正面に設けられる表示装置である。一例として、メータMIDは、メータパネルに設けられる構成とすればよい。CIDは、自車のインスツルメントパネルの中央に配置される表示装置である。HUDは、車室内のうちの例えばインスツルメントパネルに設けられる。HUDは、プロジェクタによって形成される表示像を、投影部材としてのフロントウインドシールドに既定された投影領域に投影する。HUDは、フロントウインドシールドの代わりに、運転席の正面に設けられるコンバイナに表示像を投影する構成としてもよい。なお、提示装置18は、音を出力することで情報提示を行う音声出力装置を含んでもよい。
 HCU19は、乗員と自車のシステムとのやり取りに関する各種の処理を実行する電子制御装置である。HCU19は、提示装置18から情報提示を行わせる。HCU19は、室内カメラ17で検出した運転者の状態を取得する。なお、HCU20は、室内カメラ17で撮像した撮像画像から、運転者の状態を特定してもよい。つまり、室内カメラ17の制御ユニットの機能の一部を、HCU19が担ってもよい。
 画像認識装置10は、例えばプロセッサ、揮発性メモリ、不揮発性メモリ、I/O、これらを接続するバスを備えるコンピュータを主体として構成される。画像認識装置10は、不揮発性メモリに記憶された制御プログラムを実行することにより、画像認識に関する処理を実行する。画像認識装置10は、周辺監視カメラ141で撮像した画像に対して、画像認のタスク(以下、画像認識タスク)を実行し、画像認識タスクに応じた対象を認識する。例えば、画像認識タスクが、意味的分割(Semantic Segmentation)の場合には、クラス識別を行って、クラス別に画像上の領域分割を行う。この場合のクラスは、意味的な単位であって、例えば「道路」,「人」,「自転車」といった単位である。画像認識タスクが、信号機検出の場合には、信号機の灯色,点滅状態等を認識する。画像認識タスクが、分岐路検出の場合には、分岐路を認識する。画像認識タスクは、上述した以外を画像から認識するものであってもよい。画像認識装置10は、複数の画像認識タスクを行う。つまり、画像認識装置10は、マルチタスク処理を行う。画像認識装置10の構成については、以下で詳述する。
 <画像認識装置10の概略構成>
 続いて、図2を用いて画像認識装置10の概略構成についての説明を行う。画像認識装置10は、図2に示すように、画像取得部101、車両関連取得部102、検出器103、及びコントローラ部104を機能ブロックとして備える。また、コンピュータによって画像認識装置10の各機能ブロックの処理が実行されることが、画像認識方法が実行されることに相当する。なお、画像認識装置10が実行する機能の一部又は全部を、1つ或いは複数のIC等によりハードウェア的に構成してもよい。また、画像認識装置10が備える機能ブロックの一部又は全部は、プロセッサによるソフトウェアの実行とハードウェア部材との組み合わせによって実現されてもよい。
 画像取得部101は、周辺監視カメラ141から逐次出力されてくる周辺画像データを取得する。本実施形態の例では、周辺監視カメラ141で撮像した周辺画像のデータを画像認識に用いる場合を例に挙げて説明するが、必ずしもこれに限らない。例えば、LiDAR等の画像認識に用いることが可能な他の周辺監視センサ14で検出したセンシング結果を画像認識に用いる構成としてもよい。この場合、このセンシング結果も周辺画像データに含まれるものとすればよい。車両関連取得部102は、周辺画像データ以外の、車両に関連する情報(以下、車両関連情報)を取得する。車両関連情報としては、自車の車速の情報,地図情報,運転者状態の情報,センサ特性の情報等が挙げられる。自車の車速の情報を、以下では車速情報と呼ぶ。
 車両関連取得部102は、車速情報を、車両状態センサ13のうちの車速センサから取得すればよい。車両関連取得部102は、地図情報を、地図DB12から取得すればよい。車両関連取得部102は、ロケータ11で測位した自車位置の周辺に絞って、地図情報を取得してもよい。車両関連取得部102は、HCU19から運転者の状態を取得する。運転者の状態としては、例えば室内カメラ17を用いて検出した視線方向を取得すればよい。車両関連取得部102は、センサ特性を、周辺監視センサ14から取得すればよい。周辺監視センサ14の不揮発性メモリには、周辺監視センサ14に含まれるセンサごとのセンサ特性が予め記憶されているものとすればよい。例えば、センサ特性は、周辺監視センサ14に含まれるセンサごとの不得意物体及び不得意状況を示すデータとすればよい。不得意物体とは、センサの検出原理の特性に由来して検出困難な物体とする。不得意状況は、物体の検出性能が劣化しうる状況を示す。なお、不得意物体には、他の種別の物体と誤検知しやすい物体、検出結果が安定しない物体を含んでもよい。
 検出器103は、画像取得部101で取得した周辺画像に対して複数の画像認識タスクを実行する。つまり、検出器103は、画像取得部101で取得した周辺画像に対するマルチタスク処理が可能なものである。この検出器103が画像処理部に相当する。また、この検出器103での処理が画像処理工程に相当する。検出器103は、周辺画像に対して、複数の画像認識タスクを実行することで、周辺画像から画像認識タスクごとの認識対象を認識する。この認識は、検出と言い換えてもよい。
 検出器103は、複数の画像認識タスクの実行を、機械学習モデルを用いて行えばよい。この機械学習モデルは、周辺画像を入力として、複数の画像認識タスクのそれぞれの認識対象を出力できるように機械学習を行って生成したモデルである。検出器103は、複数の画像認識タスクの実行を、機械学習モデルのうちのニューラルネットワーク(以下、NN)を用いて行えばよい。なお、検出器103は、NNのようなネットワーク構造以外の機械学習モデルを用いて、複数の画像認識タスクの実行を行ってもよい。例えば、ツリー構造の機械学習モデルであるランダムフォレスト等を用いてもよい。以下では、検出器103としてNNを用いる場合を例に挙げて説明を続ける。検出器103は、複数の画像認識タスクの処理内容を動的に変更することが可能なものとする。本実施形態の例では、検出器103は、NNのネットワーク構造及びパラメータを動的に変更することが可能なものとする。パラメータとは、例えばNNにおける各層の重み及びバイアスの少なくともいずれかである。本実施形態の例では、複数の画像認識タスクの処理内容が、NNのネットワーク構造及び重みに対応する。
 コントローラ部104は、検出器103での複数の画像認識タスクの処理内容を調整する。コントローラ部104は、周辺画像を入力として、その周辺画像の内容の傾向に応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更する。コントローラ部104に入力される周辺画像は、画像取得部101で取得する周辺画像とすればよい。コントローラ部104での処理がコントローラ工程に相当する。
 以上の構成によれば、周辺画像に対して複数の画像認識タスクを実行するマルチタスク処理の内容を、その画像の内容の傾向に応じて動的に変更できる。周辺画像の内容の傾向は、周辺画像の内容が示すシーンに応じて変化する相関性が強い。よって、画像の内容が示すシーンに応じて、複数の画像認識タスクの処理速度及び処理精度のバランスを動的に変更することが可能になる。その結果、シーンに応じて、より好ましい精度と速度とのバランスで画像認識タスクを行わせることが、より容易に可能になる。コントローラ部104は、NNのネットワーク構造及びパラメータのうちの少なくともいずれかを変更することで、検出器103での複数の画像認識タスクの処理内容を動的に変更すればよい。
 また、以上の構成によれば、周辺画像に対して画像認識タスクの処理内容が自動で切り替わるため、検出器103を設計する際の処理時間のマージンを省略することができる。よって、処理精度を固定とした場合、より高速な認識処理が達成される。また、副次的な効果として消費電力が低下する。他にも、周辺画像に対して画像認識タスクの処理内容が自動で切り替わるため、重要でない処理を低減し、重要な処理により時間を費やすことができる。よって、処理時間を固定とした場合、より高精度な認識処理が達成される。
 ここで、上述した効果について、図3及び図4を用いて説明する。図3は、マルチタスク処理の内容を動的に変更できない場合の例を説明するための図である。図4は、マルチタスク処理の内容を動的に変更できる場合の例を説明するための図である。図3及び図4では、マルチタスク処理での複数の画像認識タスクとして、意味的分割、信号機検出、及び分岐路検出を行う場合を例に挙げて説明する。図3及び図4のSSが、複数の画像認識タスクのうちの意味的分割を示す。図3及び図4のTLが、複数の画像認識タスクのうちの信号機検出を示す。図3及び図4のBrが、複数の画像認識タスクのうちの分岐路検出を示す。図3及び図4のPCは、複数の画像認識タスクの性能のバランスと演算量とを模式的に示すものである。ここで言うところの性能とは、処理精度と言い換えることができる。PCのパターン分けされた各領域の比率が、複数の画像認識タスクの性能のバランスを示す。また、PCの大きさが、複数の画像認識タスクの全体での演算量を示す。この演算量は画像認識タスクの処理速度に影響する。図3及び図4のNSが、NNのネットワーク構造を示す。図3及び図4のPBが、NNの処理ブロックを示す。図4のDe,IP,HRがそれぞれ異なるシーンを示す。Deがデフォルトのシーンとする。IPが交差点走行のシーンとする。HRが高速道路走行のシーンとする。図4の例では、交差点走行及び高速道路走行のいずれでもない場合をデフォルトのシーンとすればよい。図4では、未使用の処理ブロックを破線で示し、使用する処理ブロックを実線で示している。
 図3に示すように、マルチタスク処理の内容を動的に変更できない場合、シーンにかかわらず、複数の画像認識タスクの処理速度及び処理精度は変更できない。一方、図4に示すように、マルチタスク処理の内容を動的に変更できる場合、シーンに応じて、複数の画像認識タスクの処理速度及び処理精度を変更できる。例えば、交差点走行のシーンの場合、交差点走行に必要性がより高いと考えられる意味分割及び信号機検出の処理精度を分岐路検出に優先して高めることが可能になる。他にも、高速道路走行のシーンの場合、図4に示すように、高速道路走行に必要性がより低いと考えられる信号機検出の処理精度よりも意味分割及び分岐路検出の処理精度を優先して高めることが可能になる。また、外乱の少ない高速道路走行のシーンの場合、他のシーンよりも全体の演算量を抑えるように、複数の画像認識タスクの処理速度を変更することも可能になる。
 コントローラ部104は、機械学習モデルによって、シーンに応じた複数の画像認識タスクの処理速度及び処理精度の変更を行えばよい。この機械学習モデルは、周辺画像の内容の傾向に合った複数の画像認識タスクの処理速度及び処理精度のバランスとなるNNのネットワーク構造及びパラメータを、周辺画像の内容の傾向別に学習した機械学習モデルとすればよい。この学習は、各画像認識タスクの検出結果から計算する精度損失とネットワーク構成から計算する演算量とを最小化するように行えばよい。この機械学習モデルは、例えばCNN(convolutional neural network)のようなHypernetworkによって実現すればよい。
 ここで、図5を用いて、各画像認識タスクの検出結果から計算する精度損失とネットワーク構成から計算する演算量とを最小化する学習について説明する。図5は、コントローラ部104の学習の一例について説明するための図である。図5の演算量計算部105、演算量テーブル106、精度損失計算部107、及び正解ラベル108は、機能ブロックとして画像認識装置10が備えるものとすればよい。
 演算量計算部105は、コントローラ部104が生成する検出器103のNNについて、演算量を計算する。演算量計算部105は、演算量テーブル106を参照して、演算量を計算する。演算量テーブル106は、ネットワーク構造のノード,エッジといった単位別の演算量を予め記憶したデータベースとすればよい。この演算量は、NNの各層の演算量と言い換えることもできる。演算量には、ハードウェア間のデータ通信量を含めてもよい。演算量テーブル106は、例えば不揮発性メモリを用いて実現すればよい。演算量計算部105は、演算量テーブル106を参照し、演算量の計算の対象となるネットワーク構造を構成する単位ごとの演算量を足し合わせることで、NNの演算量を計算すればよい。
 精度損失計算部107は、検出器103での検出結果から、検出器103のNNを用いた認識における精度損失を計算する。精度損失計算部107は、正解ラベル108を参照して、精度損失を計算する。正解ラベル108は、学習に用いる周辺画像別の正解の認識結果を予め記憶したデータベースとすればよい。精度損失計算部107は、正解ラベル108を参照し、検出器103での検出結果がどの程度正しかったかによって、精度損失を計算すればよい。
 図5で例を示す学習では、コントローラ部104が生成する検出器103のNNのネットワーク構造及びパラメータを変化させながら、NNの演算量及び精度損失を計算していく。そして、学習に用いる周辺画像の内容の傾向別に、NNの演算量及び精度損失が最小化するネットワーク構造及びパラメータを学習する。これにより、周辺画像の内容の傾向に応じた、画像認識タスクの処理速度及び処理精度とのバランスをとることのできるNNのネットワーク構造及びパラメータを、コントローラ部104が生成できるようにする。
 コントローラ部104は、周辺画像の内容の傾向に応じて、与えられる処理時間の制約に対して複数の画像認識タスクの各々の処理精度が最大化するように、検出器103での複数の画像認識タスクの処理内容を動的に変更してもよい。これは、周辺画像の内容の傾向に応じて、与えられる処理時間の制約に対して複数の画像認識タスクの各々の処理精度が最大化する画像認識タスクの処理内容を学習した学習結果を用いて実現すればよい。これによれば、シーンに応じて、与えられる処理時間の制約に対する複数の画像認識タスクの各々の処理精度が最大化するように画像認識タスクを行わせることが、より容易に可能になる。
 コントローラ部104は、周辺画像の内容の傾向に応じて、与えられる処理精度の制約に対して複数の画像認識タスクの各々の処理速度の合計が最小化するように、検出器103での複数の画像認識タスクの処理内容を動的に変更してもよい。これは、周辺画像の内容の傾向に応じて、与えられる処理精度の制約に対して複数の画像認識タスクの各々の処理速度の合計が最小化する画像認識タスクの処理内容を学習した学習結果を用いて実現すればよい。これによれば、シーンに応じて、与えられる処理速度の制約に対する複数の画像認識タスクの各々の処理速度の合計が最小化するように画像認識タスクを行わせることが、より容易に可能になる。
 コントローラ部104は、周辺画像の内容の傾向に応じて、与えられる処理精度の制約に対して複数の画像認識タスクの各々のハードウェアリソースの使用量の合計が最小化するように、検出器103での複数の画像認識タスクの処理内容を動的に変更してもよい。これは、周辺画像の内容の傾向に応じて、与えられる処理精度の制約に対して複数の画像認識タスクの各々のハードウェアリソースの使用量の合計が最小化する画像認識タスクの処理内容を学習した学習結果を用いて実現すればよい。これによれば、シーンに応じて、与えられる処理精度の制約に対する複数の画像認識タスクの各々のハードウェアリソースの使用量の合計が最小化するように画像認識タスクを行わせることが、より容易に可能になる。ハードウェアリソースは、例えばメモリとすればよい。ハードウェアリソースは、プロセッサ,ストレージ等を含んでもよい。
 コントローラ部104は、シーン分類部1041をサブ機能ブロックとして有することが好ましい。なお、シーン分類部1041は、コントローラ部104と別体に設けられる構成としても構わない。シーン分類部1041は、周辺画像を入力として、その周辺画像の内容が示すシーンを分類する。コントローラ部104は、周辺画像の内容の傾向として、シーン分類部1041で分類したシーンに応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更することが好ましい。これによれば、シーンに応じて、より好ましい精度と速度とのバランスで画像認識タスクを行わせることを、より精度良く実行可能になる。シーン分類部1041は、ルールベースであっても学習ベースであってもよい。学習ベースの場合は、機械学習モデルによって、周辺画像からシーンを分類する構成とすればよい。機械学習モデルとしては、例えば周辺画像からシーンを分類できるように学習したNNを用いればよい。分類されるシーンとしては、例えば高速道路、駐車場、交差点周辺等が挙げられる。
 コントローラ部104は、周辺画像以外の入力に応じた処理を行う構成としてもよい。周辺画像以外の入力の例として、車両関連取得部102で取得する車両関連情報、時系列情報等が挙げられる。時系列情報は、前フレームの周辺画像についての検出器103での検出結果とすればよい。コントローラ部104は、車両関連情報,時系列情報も利用して、検出器103での複数の画像認識タスクの処理内容を動的に変更してもよい。コントローラ部104は、車両関連情報,時系列情報にも応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更してもよい。この場合、コントローラ部104は、車両関連情報、時系列情報にも応じた複数の画像認識タスクの処理のバランスを学習した学習結果から、検出器103での複数の画像認識タスクの処理内容を動的に変更すればよい。
 コントローラ部104は、車両関連取得部102で取得する車速情報にも応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更すればよい。コントローラ部104は、例えば車速が速くなるのに応じて、車速がより遅い場合よりも、複数の画像認識タスクの処理速度がより大きくなるように変更すればよい。車速が速くなるほど短時間での周辺画像の変化が大きくなるため、より大きな処理速度が必要となる。以上の構成によれば、この要求に応えることが容易に可能となる。
 コントローラ部104は、車両関連取得部102で取得する地図情報も利用することが好ましい。例えば、コントローラ部104は、シーン分類部1041でのシーンの分類を、地図情報を用いて補強したり修正したりしてもよい。以上の構成によれば、シーンに応じて、より好ましい精度と速度とのバランスで画像認識タスクを行わせることを、さらに精度良く実行可能になる。
 コントローラ部104は、車両関連取得部102で取得する運転者の状態にも応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更すればよい。コントローラ部104は、例えば運転者の視線が向いていない方向にあたる画像認識タスクについて、処理精度がより高くなるように変更すればよい。例えば、視線が右方向の場合には、左方向,正面の物体認識についての画像認識タスクの処理精度をより高くするように変更すればよい。他にも、撮像方向別に検出器103で画像認識を行う場合には、運転者の視線が向いていない方向にあたる周辺画像について、処理精度がより高くなるように複数の画像認識タスクの処理内容を変更すればよい。以上の構成によれば、運転者が注視していない領域の画像認識の精度を優先的に高くし、自車のシステム側に運転支援をより任せやすくすることが可能となる。
 コントローラ部104は、車両関連取得部102で取得するセンサ特性にも応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更すればよい。例えばコントローラ部104は、周辺監視カメラ141以外の周辺監視センサ14にとって不得意状況にあたるシーンでは、検出器103での複数の画像認識タスクの処理精度を上げるように変更すればよい。不得意状況にあたるシーンか否かは、シーン分類部1041で分類したシーンとセンサ特性とから、コントローラ部104が判断すればよい。以上の構成によれば、センサフュージョンにおいて、不得意状況にあたる周辺監視センサ14による検出精度の劣化を補いやすくなる。
 コントローラ部104は、時系列情報に応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更すればよい。コントローラ部104は、前フレームの周辺画像についての検出器103での検出結果に応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更すればよい。コントローラ部104は、認識が難しいと推測される検出結果だったか認識が容易と推測される検出結果だったかで変更を行えばよい。認識が難しいか容易かは、歩行者,車といった認識対象の多さで区別すればよい。コントローラ部104は、認識が難しいと推測される検出結果だった場合には、認識が難しいと推測される場合に適した複数の画像認識タスクの処理内容に変更すればよい。コントローラ部104は、認識が難しさに応じた複数の画像認識タスクの処理内容は、機械学習によって学習しておけばよい。以上の構成によれば、画像認識の難しさに応じて適した画像認識タスクの処理を行わせることが可能になる。
 他にも、コントローラ部104は、シーンに応じて不要な画像認識タスクをオフにしてもよい。例えば、歩行者が存在しない筈の高速道路では、歩行者を検出する画像認識タスクをオフにしてもよい。
 コントローラ部104は、検出器103の制御以外の出力に関する処理を行ってもよい。以下では、この処理の例について説明する。コントローラ部104は、検出器103の処理負荷が規定値以上となった場合に、運転者に対する減速要請を行ったり、減速制御を行ったりしてもよい。これによれば、自車が減速することで、検出器103の処理負荷を下げることが可能になる。検出器103の処理負荷が規定値以上となる場合とは、コントローラ部104が制御する検出器103の機械学習モデルについて、学習時に与えた処理時間及び処理精度の制約を満たせなくなった場合にあたる。減速要請は、提示装置18から行わせればよい。減速制御は、運転支援ECU16から行わせればよい。減速制御を行わせる場合、提示装置18から減速の理由も提示させればよい。これによれば、減速制御に対しての自車の乗員の不安感を抑えることが可能になる。
 コントローラ部104は、コントローラ部104の処理負荷が規定値以上となった場合に、撮像周期を長くするよう周辺監視カメラ141に指示を行ってもよい。これによれば、コントローラ部104の処理負荷を下げることが可能になる。コントローラ部104は、シーン分類部1041で分類するシーンに応じて、周辺監視カメラ141の撮像周期を変更させてもよい。例えば、高速道路といった外乱が少ない簡単なシーンでは、撮像周期を長くするよう周辺監視カメラ141に指示を行ってもよい。一方、認識処理が難しいシーンでは、撮像周期を長くするよう周辺監視カメラ141に指示を行ってもよい。
 コントローラ部104は、コントローラ部104の処理負荷が規定値以上となった場合に、周辺画像の解像度を低くするよう周辺監視カメラ141に指示を行ってもよい。これによれば、コントローラ部104の処理負荷を下げることが可能になる。コントローラ部104は、シーン分類部1041で分類するシーンに応じて、周辺監視カメラ141の解像度を変更させてもよい。例えば、高速道路といった外乱が少ない簡単なシーンでは、解像度を低くするよう周辺監視カメラ141に指示を行ってもよい。一方、認識処理が難しいシーンでは、解像度を高くするよう周辺監視カメラ141に指示を行ってもよい。
 (実施形態2)
 前述の実施形態の構成に限らず、以下の実施形態2の構成としてもよい。以下では、実施形態2の構成の一例について図を用いて説明する。実施形態2の画像認識システム1は、画像認識装置10の代わりに画像認識装置10aを含む点を除けは、実施形態1の画像認識システム1と同様である。
 <画像認識装置10aの概略構成>
 続いて、図6を用いて画像認識装置10aの概略構成についての説明を行う。画像認識装置10aは、図6に示すように、画像取得部101、車両関連取得部102、検出器103、及びコントローラ部104aを機能ブロックとして備える。画像認識装置10aは、コントローラ部104の代わりにコントローラ部104aを備える点を除けば、実施形態1の画像認識装置10と同様である。また、コンピュータによって画像認識装置10aの各機能ブロックの処理が実行されることが、画像認識方法が実行されることに相当する。
 コントローラ部104aは、シーン分類部1041及び不確実性予測部1042をサブ機能ブロックとして有する。コントローラ部104aは、不確実性予測部1042を有する点を除けば、実施形態1のコントローラ部104と同様である。なお、不確実性予測部1042は、コントローラ部104aと別体に設けられる構成としても構わない。不確実性予測部1042が、第1不確実性予測部に相当する。
 不確実性予測部1042は、データの不確実性(Aleatoric uncertainty)を予測する。不確実性予測部1042は、データの不確実性を、例えばベイズ推定等を用いて予測すればよい。不確実性予測部1042は、画像認識装置10aにシーン分類部1041を備える構成では、シーン分類部1041で分類するシーンの不確実性を予測する。この場合のデータの不確実性は、シーン分類部1041で分類するシーンの不確実性になる。シーンの不確実性は、シーンの分類の難しさと言い換えることができる。不確実性予測部1042は、画像認識装置10aにシーン分類部1041を備える構成を必須としない場合には、コントローラ部104aで制御する検出器103が担う画像認識タスクの不確実性を周辺画像の内容の傾向から予測すればよい。
 コントローラ部104aは、不確実性予測部1042で予測するデータの不確実性も用いて、検出器103での複数の画像認識タスクの処理内容を動的に変更する。シーン分類部1041を必須の構成とする場合には、データの不確実性として、シーンの不確実性を用いる。コントローラ部104aは、不確実性の大きさの度合いにも応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更すればよい。不確実性の大きさの度合いは、所定の閾値で区分される、不確実性が大きいレベルと不確実性が小さいレベルとの2段階であってもよい。コントローラ部104aは、不確実性の高さの度合いごとに適した、複数の画像認識タスクの処理内容に変更すればよい。コントローラ部104aは、不確実性の高さの度合いごとに適した、複数の画像認識タスクの処理内容を、機械学習によって学習しておけばよい。以上の構成によれば、データの不確実性に応じて適した画像認識タスクの処理を行わせることが可能になる。なお、実施形態2において、コントローラ部104aがシーン分類部1041を有さない構成としてもよい。この場合、不確実性予測部1042は、画像取得部101からコントローラ部104bに入力されるデータの不確実性を予測すればよい。
 (実施形態3)
 前述の実施形態の構成に限らず、以下の実施形態3の構成としてもよい。以下では、実施形態3の構成の一例について図を用いて説明する。実施形態3の画像認識システム1は、画像認識装置10の代わりに画像認識装置10bを含む点を除けは、実施形態1の画像認識システム1と同様である。
 <画像認識装置10bの概略構成>
 続いて、図7を用いて画像認識装置10bの概略構成についての説明を行う。画像認識装置10bは、図7に示すように、画像取得部101、車両関連取得部102、検出器103、及びコントローラ部104bを機能ブロックとして備える。画像認識装置10bは、コントローラ部104の代わりにコントローラ部104bを備える点を除けば、実施形態1の画像認識装置10と同様である。また、コンピュータによって画像認識装置10bの各機能ブロックの処理が実行されることが、画像認識方法が実行されることに相当する。
 コントローラ部104bは、シーン分類部1041及び不確実性予測部1042bをサブ機能ブロックとして有する。コントローラ部104bは、不確実性予測部1042bを有する点を除けば、実施形態1のコントローラ部104と同様である。なお、不確実性予測部1042bは、コントローラ部104bと別体に設けられる構成としても構わない。不確実性予測部1042bが、第2不確実性予測部に相当する。実施形態3では、コントローラ部104bがシーン分類部1041を有することは、必須ではない。
 不確実性予測部1042bは、データの不確実性(Aleatoric uncertainty)及びモデルの不確実性(Epistemic uncertainty)を予測する。不確実性予測部1042bは、データの不確実性については、不確実性予測部1042と同様にして予測すればよい。不確実性予測部1042bは、コントローラ部104bがシーン分類部1041を有する場合には、実施形態2の不確実性予測部1042と同様に、シーンの不確実性を予測すればよい。不確実性予測部1042bは、コントローラ部104bがシーン分類部1041を有さない場合には、画像取得部101からコントローラ部104bに入力されるデータの不確実性を予測すればよい。不確実性予測部1042bは、モデルの不確実性については、例えば確率論的モデリング等を用いて予測すればよい。モデルの不確実性とは、コントローラ部104bが制御する検出器103の機械学習モデルの不確実性である。例えば、本実施形態の例では、画像取得部101から入力される画像に対する、機械学習モデルでの意味的分割、信号機検出、及び分岐路検出のそれぞれの不確実性とすればよい。
 コントローラ部104bは、不確実性予測部1042bで予測するデータの不確実性及びモデルの不確実性も用いて、検出器103での複数の画像認識タスクの処理内容を動的に変更する。コントローラ部104bは、データ及びモデルの不確実性の大きさの度合いにも応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更すればよい。データ及びモデルの不確実性のそれぞれの大きさの度合いは、実施形態2で述べたような不確実性が大きいレベルと不確実性が小さいレベルとの2段階であってもよい。コントローラ部104bは、データ及びモデルのそれぞれの不確実性の高さの度合いの組み合わせごとに適した、複数の画像認識タスクの処理内容に変更すればよい。コントローラ部104aは、データ及びモデルのそれぞれの不確実性の高さの度合いの組み合わせごとに適した、複数の画像認識タスクの処理内容を、機械学習によって学習しておけばよい。以上の構成によれば、データの不確実性及びモデルの不確実性に応じて適した画像認識タスクの処理を行わせることが可能になる。
 なお、不確実性予測部1042bは、データの不確実性及びモデルの不確実性のうちのモデルの不確実性のみを予測する構成としてもよい。この場合、コントローラ部104bは、モデルの不確実性の大きさの度合いにも応じて、検出器103での複数の画像認識タスクの処理内容を動的に変更する構成とすればよい。この構成によっても、モデルの不確実性に応じて適した画像認識タスクの処理を行わせることが可能になる。モデルの不確実性に応じて適した画像認識タスクの処理の例としては、意味的分割、信号機検出、及び分岐路検出のうちの難しいタスクに多くのリソースを割く処理が挙げられる。
 (実施形態4)
 前述の実施形態では、画像認識装置10,10a,10bを車両に備える場合を例に挙げて説明したが、必ずしもこれに限らない。画像認識装置10,10a,10bは、車外に備えられる構成としてもよい。例えば、車外のサーバに備えられる構成としてもよい。この場合、車両側のシステムとサーバの画像認識装置10,10a,10bとの通信は、車両に備えられる通信モジュールを介して行う構成とすればよい。
 (実施形態5)
 前述の実施形態では、画像認識装置10,10a,10bが、車両の周辺監視カメラ141で撮像した周辺画像の画像認識に用いられる場合を例に挙げて説明したが、必ずしもこれに限らない。画像認識装置10,10a,10bは、車両の周辺監視カメラ141で撮像した周辺画像以外の周辺画像の画像認識に用いる構成としてもよい。例えば、ドローン等の移動体にカメラで撮像した周辺画像の画像認識に用いてもよい。他にも、施設に設置されるカメラで撮像した周辺画像の画像認識に用いてもよい。また、前述の実施形態では、画像認識に用いる画像として、周辺画像を用いる例を挙げたが、必ずしもこれに限らない。画像認識に用いる画像は、内容の傾向がシーンに相関性を有する画像であれば、周辺画像以外の画像であってもよい。
 (実施形態6)
 前述の実施形態では、コントローラ部104,104a,104bが、検出器103のネットワーク構造を制御することで、周辺画像の内容の傾向に応じた複数の画像認識タスクの処理の動的な変更を行う場合を例に挙げて説明したが、必ずしもこれに限らない。例えば、検出器103としては、人のデザインによって、複数の画像認識タスクの処理のパターンの異なる検出器103を予め複数用意しておく構成としてもよい。そして、コントローラ部104,104a,104bは、この複数の検出器103を選択することで、複数の画像認識タスクの処理の動的な変更を行う構成としてもよい。なお、予め用意しておく複数の検出器103のネットワーク構造及びパラメータは、図5で説明したコントローラ部104の学習時に、併せて学習を行ってもよい。
 なお、本開示は、上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本開示の技術的範囲に含まれる。また、本開示に記載の制御部及びその手法は、コンピュータプログラムにより具体化された1つ乃至は複数の機能を実行するようにプログラムされたプロセッサを構成する専用コンピュータにより、実現されてもよい。あるいは、本開示に記載の装置及びその手法は、専用ハードウェア論理回路により、実現されてもよい。もしくは、本開示に記載の装置及びその手法は、コンピュータプログラムを実行するプロセッサと1つ以上のハードウェア論理回路との組み合わせにより構成された1つ以上の専用コンピュータにより、実現されてもよい。また、コンピュータプログラムは、コンピュータにより実行されるインストラクションとして、コンピュータ読み取り可能な非遷移有形記録媒体に記憶されていてもよい。
 (開示されている技術的思想)
 この明細書は、以下に列挙された複数の項に記載された複数の技術的思想を開示している。いくつかの項は、後続の項において先行する項を択一的に引用する多項従属形式(a multiple dependent form)により記載されている場合がある。さらに、いくつかの項は、他の多項従属形式の項を引用する多項従属形式(a multiple dependent form referring to another multiple dependent form)により記載されている場合がある。これらの多項従属形式で記載された項は、複数の技術的思想を定義している。
 (技術的思想1)
 画像に対して複数の画像認識タスクを実行するマルチタスク処理が可能であって、且つ、画像認識タスクの処理内容の調整が可能な画像処理部(103)と、
 前記画像処理部での複数の画像認識タスクの処理内容を調整するコントローラ部(104,104a,104b)とを備え、
 前記コントローラ部は、前記画像を入力として、その画像の内容の傾向に応じて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
 (技術的思想2)
 技術的思想1に記載の画像認識装置であって、
 前記コントローラ部は、前記画像の内容の傾向に応じて、与えられる処理時間の制約に対して複数の画像認識タスクの各々の処理精度が最大化するように、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
 (技術的思想3)
 技術的思想1に記載の画像認識装置であって、
 前記コントローラ部は、前記画像の内容の傾向に応じて、与えられる処理精度の制約に対して複数の画像認識タスクの各々の処理速度の合計が最小化するように、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
 (技術的思想4)
 技術的思想1に記載の画像認識装置であって、
 前記コントローラ部は、前記画像の内容の傾向に応じて、与えられる処理精度の制約に対して複数の画像認識タスクの各々のハードウェアリソースの使用量の合計が最小化するように、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
 (技術的思想5)
 技術的思想1~4のいずれか1項に記載の画像認識装置であって、
 前記コントローラ部は、前記画像を入力として前記画像の内容が示すシーンを分類するシーン分類部(1041)を有し、
 前記コントローラ部は、前記画像の内容の傾向として、前記シーン分類部で分類したシーンに応じて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
 (技術的思想6)
 技術的思想5に記載の画像認識装置であって、
 前記コントローラ部は、前記シーン分類部で分類するシーンの不確実性を予測する第1不確実性予測部(1042)をさらに有し、
 前記コントローラ部は、前記第1不確実性予測部で予測するシーンの不確実性も用いて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
 (技術的思想7)
 技術的思想1~5のいずれか1項に記載の画像認識装置であって、
 前記画像処理部は、前記マルチタスク処理を、機械学習モデルを用いて行うものであり、
 前記コントローラ部は、前記コントローラ部に入力される前記画像に関する不確実性と前記機械学習モデルの不確実性の少なくともいずれかの不確実性を予測する第2不確実性予測部(1042b)を有し、
 前記コントローラ部は、前記第2不確実性予測部で予測する不確実性も用いて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
 (技術的思想8)
 技術的思想1~7のいずれか1項に記載の画像認識装置であって、
 前記画像処理部は、前記マルチタスク処理を、機械学習モデルのうちのニューラルネットワークを用いて行うものであり、
 前記コントローラ部は、前記ニューラルネットワークのネットワーク構造及びパラメータのうちの少なくともいずれかを変更することで、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
 (技術的思想9)
 技術的思想1~8のいずれか1項に記載の画像認識装置であって、
 前記画像処理部は、車両の周辺を撮像する周辺監視カメラ(141)で撮像した画像である周辺画像に対して複数の画像認識タスクを実行するマルチタスク処理が可能なものであり、
 前記コントローラ部は、前記周辺画像を入力として、その周辺画像の内容の傾向に応じて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。

Claims (10)

  1.  画像に対して複数の画像認識タスクを実行するマルチタスク処理が可能であって、且つ、画像認識タスクの処理内容の調整が可能な画像処理部(103)と、
     前記画像処理部での複数の画像認識タスクの処理内容を調整するコントローラ部(104,104a,104b)とを備え、
     前記コントローラ部は、前記画像を入力として、その画像の内容の傾向に応じて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
  2.  請求項1に記載の画像認識装置であって、
     前記コントローラ部は、前記画像の内容の傾向に応じて、与えられる処理時間の制約に対して複数の画像認識タスクの各々の処理精度が最大化するように、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
  3.  請求項1に記載の画像認識装置であって、
     前記コントローラ部は、前記画像の内容の傾向に応じて、与えられる処理精度の制約に対して複数の画像認識タスクの各々の処理速度の合計が最小化するように、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
  4.  請求項1に記載の画像認識装置であって、
     前記コントローラ部は、前記画像の内容の傾向に応じて、与えられる処理精度の制約に対して複数の画像認識タスクの各々のハードウェアリソースの使用量の合計が最小化するように、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
  5.  請求項1~4のいずれか1項に記載の画像認識装置であって、
     前記コントローラ部は、前記画像を入力として前記画像の内容が示すシーンを分類するシーン分類部(1041)を有し、
     前記コントローラ部は、前記画像の内容の傾向として、前記シーン分類部で分類したシーンに応じて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
  6.  請求項5に記載の画像認識装置であって、
     前記コントローラ部は、前記シーン分類部で分類するシーンの不確実性を予測する第1不確実性予測部(1042)をさらに有し、
     前記コントローラ部は、前記第1不確実性予測部で予測するシーンの不確実性も用いて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
  7.  請求項1に記載の画像認識装置であって、
     前記画像処理部は、前記マルチタスク処理を、機械学習モデルを用いて行うものであり、
     前記コントローラ部は、前記コントローラ部に入力される前記画像に関する不確実性と前記機械学習モデルの不確実性の少なくともいずれかの不確実性を予測する第2不確実性予測部(1042b)を有し、
     前記コントローラ部は、前記第2不確実性予測部で予測する不確実性も用いて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
  8.  請求項1に記載の画像認識装置であって、
     前記画像処理部は、前記マルチタスク処理を、機械学習モデルのうちのニューラルネットワークを用いて行うものであり、
     前記コントローラ部は、前記ニューラルネットワークのネットワーク構造及びパラメータのうちの少なくともいずれかを変更することで、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
  9.  請求項1に記載の画像認識装置であって、
     前記画像処理部は、車両の周辺を撮像する周辺監視カメラ(141)で撮像した画像である周辺画像に対して複数の画像認識タスクを実行するマルチタスク処理が可能なものであり、
     前記コントローラ部は、前記周辺画像を入力として、その周辺画像の内容の傾向に応じて、前記画像処理部での複数の画像認識タスクの処理内容を動的に変更する画像認識装置。
  10.  少なくとも1つのプロセッサにより実行される、
     画像に対して複数の画像認識タスクを実行するマルチタスク処理が可能であって、且つ、画像認識タスクの処理内容の調整が可能な画像処理工程と、
     前記画像処理工程での複数の画像認識タスクの処理内容を調整するコントローラ工程とを含み、
     前記コントローラ工程では、前記画像を入力として、その画像の内容の傾向に応じて、前記画像処理工程での複数の画像認識タスクの処理内容を動的に変更する画像認識方法。
PCT/JP2025/001345 2024-02-01 2025-01-17 画像認識装置及び画像認識方法 Pending WO2025164369A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2024-014409 2024-02-01
JP2024014409 2024-02-01

Publications (1)

Publication Number Publication Date
WO2025164369A1 true WO2025164369A1 (ja) 2025-08-07

Family

ID=96589999

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2025/001345 Pending WO2025164369A1 (ja) 2024-02-01 2025-01-17 画像認識装置及び画像認識方法

Country Status (1)

Country Link
WO (1) WO2025164369A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242860A (ja) * 2010-05-14 2011-12-01 Toyota Motor Corp 障害物認識装置
WO2014132747A1 (ja) * 2013-02-27 2014-09-04 日立オートモティブシステムズ株式会社 物体検知装置
JP2018010568A (ja) * 2016-07-15 2018-01-18 パナソニックIpマネジメント株式会社 画像認識システム
WO2020100408A1 (ja) * 2018-11-13 2020-05-22 日本電気株式会社 危険シーン予測装置、危険シーン予測方法および危険シーン予測プログラム
JP2020144482A (ja) * 2019-03-04 2020-09-10 株式会社東芝 機械学習モデル圧縮システム、機械学習モデル圧縮方法及びプログラム
JP2020173730A (ja) * 2019-04-12 2020-10-22 株式会社デンソー 道路種別判定装置および運転支援装置
JP2020204839A (ja) * 2019-06-14 2020-12-24 マツダ株式会社 外部環境認識装置
WO2021241496A1 (ja) * 2020-05-26 2021-12-02 日本精機株式会社 ヘッドアップディスプレイ装置
JP2023072231A (ja) * 2021-11-12 2023-05-24 富士通株式会社 画像認識システム、評価装置、画像認識方法、評価方法及び評価プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242860A (ja) * 2010-05-14 2011-12-01 Toyota Motor Corp 障害物認識装置
WO2014132747A1 (ja) * 2013-02-27 2014-09-04 日立オートモティブシステムズ株式会社 物体検知装置
JP2018010568A (ja) * 2016-07-15 2018-01-18 パナソニックIpマネジメント株式会社 画像認識システム
WO2020100408A1 (ja) * 2018-11-13 2020-05-22 日本電気株式会社 危険シーン予測装置、危険シーン予測方法および危険シーン予測プログラム
JP2020144482A (ja) * 2019-03-04 2020-09-10 株式会社東芝 機械学習モデル圧縮システム、機械学習モデル圧縮方法及びプログラム
JP2020173730A (ja) * 2019-04-12 2020-10-22 株式会社デンソー 道路種別判定装置および運転支援装置
JP2020204839A (ja) * 2019-06-14 2020-12-24 マツダ株式会社 外部環境認識装置
WO2021241496A1 (ja) * 2020-05-26 2021-12-02 日本精機株式会社 ヘッドアップディスプレイ装置
JP2023072231A (ja) * 2021-11-12 2023-05-24 富士通株式会社 画像認識システム、評価装置、画像認識方法、評価方法及び評価プログラム

Similar Documents

Publication Publication Date Title
JP7644716B2 (ja) 自律マシン・アプリケーションのためのマップ情報で拡張されたグラウンド・トゥルース・データを使用するニューラル・ネットワーク・トレーニング
CN113056749B (zh) 用于自主机器应用的未来对象轨迹预测
CN113454636B (zh) 自主机器应用中障碍物检测的距离
CN114450724A (zh) 用于自主机器应用的多活动者环境中的未来轨迹预测
CN114155272A (zh) 自主机器应用中的自适应目标跟踪算法
CN114008685A (zh) 用于自主机器应用的路口区域检测和分类
CN111133448A (zh) 使用安全到达时间控制自动驾驶车辆
US9956958B2 (en) Vehicle driving control device and control device
CN115136148A (zh) 投影使用鱼眼镜头捕获的图像用于自主机器应用中的特征检测
US10803307B2 (en) Vehicle control apparatus, vehicle, vehicle control method, and storage medium
US11285957B2 (en) Traveling control apparatus, traveling control method, and non-transitory computer-readable storage medium storing program
US20200247415A1 (en) Vehicle, and control apparatus and control method thereof
JP6906175B2 (ja) 運転支援方法およびそれを利用した運転支援装置、自動運転制御装置、車両、プログラム、運転支援システム
US20220319191A1 (en) Control device and control method for mobile object, and storage medium
JP6852107B2 (ja) 車両制御装置、車両制御方法、車両およびプログラム
US11893715B2 (en) Control device and control method for mobile object, storage medium, and vehicle
US11440546B2 (en) Travel control apparatus, vehicle, travel control method, and non-transitory computer-readable storage medium
US20220009494A1 (en) Control device, control method, and vehicle
US12151698B2 (en) Notification control device for vehicle and notification control method for vehicle
JP2025061981A (ja) 車両用制御装置及び車両用制御方法
JP2025067926A (ja) 車両用制御装置及び車両用制御方法
WO2025164369A1 (ja) 画像認識装置及び画像認識方法
US20230166596A1 (en) Vehicle display control device, vehicle display control system, and vehicle display control method
US20220309797A1 (en) Information processing apparatus, vehicle, and storage medium
US20210284163A1 (en) Vehicle control apparatus, vehicle, vehicle control method, and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 25748365

Country of ref document: EP

Kind code of ref document: A1