EP1281157A1 - Method and device for determining an object in an image - Google Patents
Method and device for determining an object in an imageInfo
- Publication number
- EP1281157A1 EP1281157A1 EP01940216A EP01940216A EP1281157A1 EP 1281157 A1 EP1281157 A1 EP 1281157A1 EP 01940216 A EP01940216 A EP 01940216A EP 01940216 A EP01940216 A EP 01940216A EP 1281157 A1 EP1281157 A1 EP 1281157A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- information
- image
- local resolution
- partial area
- recorded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
- G06V10/7515—Shifting the patterns to accommodate for positional errors
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
Definitions
- the invention relates to a method for determining an object in an image and arrangements for determining an object in an image.
- the method is ended and the recognized object for which the extracted features have been formed is output as a recognized object.
- the method is carried out iteratively for different sub-areas of the image until the object has been determined or until a predetermined termination criterion is fulfilled, for example a predetermined number of iterations or the object to be recognized is recognized with sufficient accuracy.
- a disadvantage of this procedure is in particular the very large computing time required to determine an object in the image to be examined. This is due in particular to the fact that all partial areas of the image are treated in the same way, that is to say the local resolution is the same for all partial areas of the image in the context of the method for object detection.
- the two-dimensional Gabor transformations are basic functions that use local spatial bandpass filters to achieve the theoretical optimal overall resolution in the spatial and frequency ranges, that is, in the one-dimensional spatial range and in the two-dimensional frequency range.
- the invention is based on the problem of determining an object in an image, the determination being able to be carried out with a statistically lower computing time requirement. Furthermore, the invention is based on the problem of training an arrangement capable of learning in such a way that it can be used in the context of determining an object in an image, so that less computing time is required to determine the object in an image using the trained arrangement capable of learning than with the known procedure.
- a method for determining an object in an image information is acquired from the image with a first local resolution.
- a first feature extraction is carried out for the recorded information.
- At least one partial area in which the object could be located is selected from the image.
- Information with a second local resolution is also acquired from the selected partial area.
- the second local resolution is larger than the first local resolution.
- a second feature extraction is carried out for the information that has been acquired with the second local resolution, and a check is carried out to determine whether a predetermined criterion regarding the features extracted from the information by means of the second feature extraction is fulfilled.
- the predefined criterion In the event that the predefined criterion is not met, information is iteratively recorded from at least one sub-region of the selected sub-region, in each case with a higher local resolution, and it is checked whether the information recorded with the respectively higher local resolution fulfills the predefined criterion for as long as until the specified criterion is met, or a further partial area is selected from the image and information from the further partial area is recorded with a second local resolution. Alternatively, the process can be ended.
- the information can be brightness information and / or color information that is / are assigned to pixels of a digitized image.
- the invention achieves considerable computing time savings in the context of the determination of an object in an image.
- the invention is clearly based on the knowledge that in the context of the visual perception of a living being Probably a hierarchical approach to the perception of individual areas of different sizes with different local resolution usually leads to the goal of recognizing a searched object.
- the invention is clearly to be seen in that, in order to determine an object in an image, hierarchical sub-areas and sub-sub-areas are selected, each of which is recorded with a different resolution on each hierarchical level and is compared with features of the object to be recognized after feature extraction has taken place. If the object is recognized with sufficient certainty, the object to be recognized is output as the recognized object. However, if this is not the case, there are alternatively the options available either to select a further sub-area of the current sub-area and to acquire information from this sub-area with a further increased local resolution, or to select a different sub-area and then in turn to this according to the object to be recognized investigate.
- an image that contains an object to be determined is captured.
- the position of the object to be recognized within the image and the object itself are predefined.
- Several feature extractions are carried out for the object, each with a different local resolution.
- the further refinements relate both to the methods, the arrangements, the computer-readable storage medium and the computer program element.
- the test can be used as a predetermined criterion as to whether the information recorded with the respective local resolution is sufficient to determine the object with sufficient accuracy.
- the predefined criterion can also be a predefined number of iterations, that is to say a predefined number of maximum iterations, in each of which a lower part area is selected and examined with an increased local resolution.
- the predefined criterion can be a predefined number of subareas to be examined or maximum subareas to be examined.
- the feature extraction can take place by means of a transformation with different local resolutions.
- a wavelet transformation is preferably used as the transformation, preferably a two-dimensional Gabor transformation (2D Gabor transformation).
- the image information is encoded in an optimal manner both in the spatial area and in the spectral area, that is to say an optimal compromise is achieved in the context of the reduction of redundancy information between the local area coding and the frequency area coding.
- Any transformation that meets the following requirements in particular can be used as a transformation:
- the aspect ratio of the elliptical Gaussian envelope should be essentially 2: 1; • the plane wave should have its direction of propagation along the shorter axis of the elliptical Gaussian envelope;
- the half-amplitude bandwidth of the frequency response should have approximately 1 to 1.5 octaves along the optimal direction.
- the mean value of the transformation should have the value zero in order to ensure a permissible functional basis for the wavelet transformation.
- the transformation can take place by means of a neural network or a plurality of neural networks, preferably by means of a recurrent neural network.
- a very fast transformation arrangement that can be adapted to the object to be recognized or to the correspondingly captured image information is used in particular.
- a plurality of partial areas is determined in the image, with a probability being determined for each partial area that the corresponding partial area contains the object to be recognized.
- the iterative procedure is carried out for detail areas in the order according to the falling probability of belonging to the object to be determined accordingly. This procedure results in a further reduction in the computing time required, since an optimal procedure for determining the object to be recognized is specified from a statistical point of view.
- At least one neural network can be used as an arrangement capable of learning.
- the neurons of the neural network are preferably arranged topographically.
- FIG. 1 is a block diagram in which the architecture of the
- FIG. 2 shows a block diagram in which the structure of the module for carrying out the two-dimensional Gabor
- FIG. 3 shows a block diagram in which the recognition module from FIG. 1 according to the exemplary embodiment is shown in detail
- FIG. 4 is a block diagram showing the architecture of the
- FIGS. 5a and 5b show sketches of an image with different objects from which the object to be determined is to be determined, the different recorded objects being shown in FIG. 5a and the recognition result having been determined in FIG. 5b at different local resolutions;
- FIG. 6 is a flowchart showing the individual steps of the method according to the embodiment of the invention.
- FIG. 1 shows a sketch of an arrangement 100 with which the object to be determined is determined.
- the arrangement 100 has a visual field 101.
- a detection unit 102 is provided, with which information from the image can be detected via the visual field 101 with different local resolution.
- the detection unit 102 has one
- FIG. 1 shows in the acquisition unit 102 a multiplicity of feature extraction units 103, each of which acquires information from the image with a different local resolution.
- Features extracted from the captured image information are fed to the recognition module, that is to say the recognition unit 104, as feature vector 105 by the feature extraction unit 103.
- a pattern comparison of the feature vector 105 with a previously formed feature vector is carried out in the manner explained in more detail below.
- the recognition result is fed to a control unit 106, from which it is decided which sub-area or sub-area, as will be explained in more detail below, of the image is selected, and with which local resolution the respective sub-area or sub-area is examined.
- the control unit 106 also has a decision unit in which it is checked whether a predefined criterion with regard to the extracted features is met.
- Arrows 107 symbolically indicate that the individual detection units 104 are "switched" to acquire information in different detection areas 108, 109, 110, each with a different local resolution, depending on control signals from the control unit 106.
- each recorded frequency is referred to as an octave.
- Each octave is referred to below as a local resolution.
- Each unit that performs a wavelet transformation at a given local resolution has an arrangement of neurons whose detection range corresponds to a two-dimensional Gabor function and is dependent on a specific orientation.
- Each feature extraction unit 103 has a recurrent neural network 200, as shown in FIG. 2.
- n 128, that is to say according to the exemplary embodiment, the image has 16384 pixels).
- Each pixel is a brightness value I? ⁇ 1 ⁇ between "0 *
- the brightness value I ° f ig denotes the
- the image 201 that is to say the pixels which lie in the respective detection area, becomes an average brightness value DC,
- the brightness values I ° -g of the pixels of the image 201 which lie in the detection range and the average brightness value DC is determined by a
- Contrast correction unit 202 is subtracted from the brightness values I? J lg of each pixel.
- the result is a set of brightness values that are contrast invariant.
- Brightness values of the pixels in the detection area are formed in accordance with the following regulation:
- the DC-free brightness values are fed to a neuron layer 203, the neurons of which carry out an extraction of simple features.
- the neurons in the neuron layer 203 have receptive ones
- the Gabor Wavelet is at
- the frequency bandwidth is determined with the constant K.
- a family of a discrete 2D Gabor wavelet G] pg_ (x, y) can be determined by discretizing the frequencies, orientations and centers of the continuous wavelet function (3) according to the following rule:
- Gkpql / y a "k ⁇ ⁇ l (a ⁇ k x - pb, a ⁇ k y - qb), (7)
- ⁇ ⁇ l ⁇ (x cos (l ⁇ 0 ) + y sin (l ⁇ 0 ), - x sin (l ⁇ o) + y cos (l ⁇ 0 )) (8)
- the activation of a neuron in the neuron layer 203 is also referred to as rj qi.
- the activation rj qi depends on a certain local frequency, which is dependent on the octave k for a preferred orientation, which is determined by the rotation index 1 and an excitation at the center, determined by the indices p and q.
- Neuron layer 203 is defined as the convolution of the corresponding receptive field and the image, that is to say that
- Brightness values of the pixels which results in the activation rj qi of a neuron according to the following rule:
- Detection unit is designated with the corresponding local resolution k.
- the activation rj ⁇ q] _ of a neuron is a complex number, which is why the exemplary embodiment uses two neurons for coding a brightness value Ij_j, one neuron for the real part of a brightness value Iij and one neuron for the imaginary part of the transformed brightness information Iij.
- the neurons 206 of the neuron layer 205 which detect the transformed brightness signal 204, generate a neuron output value 207.
- a reconstructed image 209 is formed in an image reconstruction unit 208 by means of the neuron output signal 207.
- Image reconstruction unit 208 neurons that perform a Gabor wavelet transformation.
- the image reconstruction unit 208 has neurons that operate according to a feed-forward structure connected to each other that correspond to a Gabor-receptive field.
- a constant C denotes the density of the wavelet base used. Due to the non-orthogonality of the Gabor-Wavelet basic functions, regulation (13) and its linear superposition do not guarantee that a minimum of a reconstruction error E, which is formed according to the following regulation:
- a correction of this regulation (14) can be obtained by dynamically optimizing the reconstruction error E by means of a feedback connection.
- a feedback correction term r or 1 r is formed for each neuron 206 of the neuron layer 205.
- the dynamics of the recurrent neural network 200 are determined in such a way that a dynamic reconstruction error is formed in accordance with the following regulation:
- the dynamic reconstruction error of the recurrent neural network 200 is minimized.
- the constant C is formed according to the following rule:
- the reconstruction error signal 214 is formed by means of a differential unit 210.
- the contrast-free brightness signal 211 and the reconstructed brightness signal 212 are fed to the differential unit 210.
- a reconstruction error value 213 is formed, which is fed to the receptive field, that is to say the Gabor filter.
- a training method according to regulation (16) is carried out for each object to be determined from a set of objects to be determined, that is to say to be recognized, and for each local resolution in the feature extraction unit 103 described above.
- the recognition unit 104 stores the extracted feature vectors 105 in their weights of the neurons individually for each local resolution.
- Different feature extraction units 103 are thus trained in accordance with each local resolution for each object to be determined, as is indicated in FIG. 1 by the different feature extraction units 103.
- the positions of the centers of the receptive fields are discretized and result for a local resolution of the degree k
- the receptive fields cover the entire detection area in the same way at every local resolution, that is to say they always overlap in the same way.
- a feature extraction unit 103 thus has the local resolution k
- the Gabor neurons are clearly identified by means of the index kpql and the activation ⁇ ], ql, which, as described above, are given by the folding of the corresponding receptive field with the brightness values I j of the pixels of the detection area.
- a feature extraction unit 103 which is preferably used, quickly becomes one through the forward-looking Gabor connections a sufficiently good set of wavelet basis functions for the greatly improved coding of the brightness values is determined, which is formed by the recurrent dynamic analysis of the reconstruction error value 213, so that a smaller number of iterations is achieved in order to determine the minimum of the reconstruction error value 213.
- the feedback reconstruction error E is used according to the exemplary embodiment in order to dynamically improve the forward-facing Gabor representation of the image 201 in the sense that the problem of redundancy set out above in the description of the image information is dynamically corrected on account of the non-orthogonality of the Gabor wavelets ,
- the redundancy of the Gabor feature description has therefore been dynamically reduced considerably by improving the reconstruction in accordance with the internal representation of the image information.
- the number of iterations required to achieve optimal predictive coding of the image information can be further reduced by using an over-complete number of Gabor neurons for the feature coding.
- a base that is thus complete allows a larger number of base vectors than input signals.
- Characteristics corresponding to the octave at least the number of number given by the local resolution K is used.
- the neurons of the neuron layer 205 are explained in detail below (see FIG. 3).
- each neuron 206 (a neuron 300 is provided for a real part and a neuron 301 for the imaginary part of the Gabor transformation, as explained above, that is to say two neurons for a “logical” neuron) with the corresponding connections to the feature extraction unit 103 in each case as weight information, which the description is stored by means of feature vectors of an object for a specific local resolution and a specific position of the object in the detection area.
- the neurons 206 of the neuron layer 205 are arranged in columns so that the neurons are arranged topographically.
- the receptive fields of the recognition neurons are set up in such a way that only a limited square detection area of the neuron input values is transmitted around a certain center area.
- the size of the quadratic receptive fields of the recognition neurons is constant and the recognition neurons are set up in such a way that only the signals from neurons 206 of the neuron layer 205 which are located within the detection range of the respective recognition neurons 301, 302 are taken into account.
- the center of the receptive field is in the brightness center of the respective object.
- Translation invariance is achieved in that for each object to be learned, that is to say to be recognized in the application phase, of identical recognition neurons, that is to say neurons that share the same weights but have different centers, are distributed over the entire coverage area.
- Rotation invariance is achieved by storing the sum of the wavelet coefficients along the different orientations at each position.
- a separate number of recognition neurons is provided for each new object to be learned during the learning phase, which store in their weights the corresponding wavelet-based internal description of the respective object, that is to say the feature vectors that describe the objects.
- a recognition neuron For each local resolution, a recognition neuron is generated which corresponds to the respective internal description in accordance with the corresponding octave, that is to say the corresponding local one Resolution corresponds and the respective recognition neuron for all center positions is distributed in the entire detection area.
- the recognition neurons are linear neurons, which output a linear correlation coefficient between its input weights and the input signal, which are formed by the neurons 206 of the neuron layer, which are located in the feature extraction unit 103.
- each object is clearly provided at a time in the detection area at a predetermined, freely definable position ,
- the recognition neurons store the wavelet-based information in their weights. For a given PPoossiittion, that is, a center with the pixel coordinates ⁇ C ⁇ f Cyj, two recognition neurons are provided for each object to be learned, one for storing the real part of the wavelet description and one for storing the imaginary part of the internal wavelet description.
- Re () denotes the real part and Im () denotes the imaginary part and applies to the indices p and q:
- R is the width of the receptive field in recorded pixels.
- R 32 pixels is selected.
- the center (c x , Cyj is formed by the center of brightness of the respective object, which is given according to:
- Neurons that are activated due to excitation in another center are formed in the same way, with the same weights for recognizing the same object be used in a shifted position within the detection range.
- Correlation coefficient that describes the correlation between the weights and the output of the neurons 206 of the neuron layer 205.
- the output of a recognition neuron in the recognition unit 104 at a local resolution k based on the real parts of the neurons 206 of the neuron layer 205).
- the local resolution k and related to the center ⁇ z x ,, Zzy y ]) given by:
- (A) denotes the mean value and ⁇ a the standard deviation of a variable a over the detection range, i.e. over all indices p, q.
- the neurons are activated at every local resolution depending on the detection of the same object but also on the different positions, since the same weights are stored for different positions according to the object.
- the different detection units 104 are thus activated serially by the control unit 106, as will be described below.
- a check is carried out to determine whether a predetermined criterion is met or not, the activation of the recognition neurons with the greatest activation being determined in accordance with the octave, which is greater than or equal to the current octave, that is to say by taking into account only the activated ones Detection units 104 at the appropriate time.
- a so-called winner-takes-all strategy is used in deciding which recognition neuron is selected in such a way that the selected recognition neuron, which is assigned to a specific center and a specific object, is analyzed by the control unit 106.
- control unit 106 can further decide whether the identification of the corresponding object is sufficiently precise or whether a more precise analysis of the object by selecting a smaller, more detailed area with a higher local resolution is required. If this is the case, then further neurons are activated in the further feature extraction units 103 or recognition units 104, so that the local resolution is increased.
- a priority map is formed by the recognition unit 104 for the detection area with the coarsest local resolution, individual priority areas of the image area being indicated by the priority map and the probability being assigned to the corresponding area areas, indicating how likely it is is that the object to be recognized is in the partial area (see FIG.).
- a partial area 401 is characterized by a center 402 of the partial area 401.
- a serial feedback mechanism is provided for masking the detection areas, whereby successive others
- Detection units 102 and feature extraction units 103 and detection units 104 are activated in accordance with the respectively selected increased resolution k, that is to say the control unit 106 regulates the positioning and size of the detection area in which visual information is received by the system and processed further.
- this rough local resolution usually only the position of the object is practically recognizable and a very rough determination of the global shape of an object is determined.
- control unit stores the result of the recognition unit as a priority map and selects a partial area of the image in which, as will be described below, image information is examined.
- the corresponding selection of the partial area is fed back through the same feedback connections through the activated wavelet module.
- the selection of the sub-area is dependent on the pixels which describe the object of the last activated local resolution.
- the corresponding pixels are selected on the basis of the pixels which enable a good reconstruction, that is to say a reconstruction with a small reconstruction error, and by pixels which do not correspond to a filtered black background.
- the attention mechanism is object-based in the sense that only the areas in which the object lies are further analyzed in series with a higher local resolution.
- the attention mechanism is described mathematically using a matrix G ⁇ j, the elements of which have the value "1 * if the corresponding pixels are to be taken into account and have the value "0" if the corresponding pixels are not to be taken into account.
- the priority map is generated and the control unit 106 decides which object is to be analyzed in more detail in a further step, so that only the pixels which lie in the image area, that is to say in the selected partial area, are taken into account in the context of the next higher local resolution.
- the first condition is that the reconstructed image has brightness values I j> 0 and the second condition is that the reconstruction error is not greater than a predetermined threshold, that is to say:
- the control unit 106 thus decides that the object is analyzed in more detail at a center (c x , Cy) in the priority map, then the mask, given by the matrix Gij, is updated in accordance with the following regulations:
- the attention feedback between the local resolution k and the subsequent local resolution k - 1 i.e. the increased local
- a new matrix value G j is therefore defined in accordance with the exemplary embodiment for the activation of the next, increased local resolution k-1 in accordance with the following regulation:
- a first object 501 has a global form of an H and has object components of the form T as local elements, which is why the first object is called Ht.
- the second object 502 has a global H-shape and also H-shaped components as local object components, which is why the second object 502 is referred to as Hh.
- a third object 503 has a global and also a local T-shaped structure, which is why the third object 503 is referred to as Tt.
- a fourth object 504 has a global T-shape and a local H-shape of the individual object components, which is why the fourth object 504 is referred to as Th.
- 5b shows the recognition results of a device according to the invention for different local resolutions, in each case for the first object 501 (recognized object at first local resolution 510, at second local resolution 511, at third local resolution 512, at fourth local resolution 513).
- 5b also shows the recognition results of a device according to the invention for different local resolutions, in each case for the second object 502 (recognized object at first local resolution 520, at second local resolution 521, at third local resolution 512, at fourth local resolution 523).
- 5b also shows the recognition results of a device according to the invention for different local resolutions, in each case for the third object 503 (recognized object at first local resolution 530, at second local resolution 531, at third local resolution 532, at fourth local resolution 533).
- 5b also shows the recognition results of a device according to the invention for different local resolutions, in each case for the fourth object 504 (recognized object with first local resolution 540, with second local resolution 541, with third local resolution 542, with fourth local resolution 543).
- the respective object is already recognized with a very good, at least sufficient accuracy, at the highest local resolution.
- step 601 the for the pixels, that is, for the brightness values
- a feature extraction with a first local resolution j-1 is carried out on the captured image (step 602).
- a first partial area Tbi is formed from the image (step 603).
- a probability is determined that the object to be determined is in the corresponding sub-area Tbi.
- the result is a priority map that contains the respective assignments probability and partial area (step 604).
- a test step 608 it is checked whether the object has been recognized with sufficient certainty (step 608).
- the recognized object is output as a recognized object (step 609). If this is not the case, then in a further test step (step 610) it is checked whether a predetermined termination criterion has been met, according to the exemplary embodiment, whether a predetermined number of iterations has been reached.
- step 611 If this is the case, the method is ended (step 611).
- step 612 it is checked in a further test step (step 612) whether a further lower part area should be selected.
- Step 613 and the method continues in step 606 by incrementing the local resolution for the corresponding sub-area.
- a further partial area Tbi + 1 is selected from the priority map (step 614), and the method is continued in a further step (step 605).
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
Description
VERFAHREN UND ANORDNUNG ZUM ERMITTELN EINES OBJEKTS IN EINEM BILDMETHOD AND ARRANGEMENT FOR DETERMINING AN OBJECT IN AN IMAGE
Die Erfindung betrifft ein Verfahren zum Ermitteln eines Objekts in einem Bild sowie Anordnungen zum Ermitteln eines Objekts in einem Bild.The invention relates to a method for determining an object in an image and arrangements for determining an object in an image.
Ein solches Verfahren und eine solche Anordnung sind aus [1] bekannt.Such a method and such an arrangement are known from [1].
Bei der aus [1] bekannten Vorgehensweise wird aus einem mittels einer Kamera aufgenommenen Bild, in dem ein zu erkennendes Objekt enthalten ist, Information jeweils in einem Teilbereich des Bildes erfasst. Für die erfasste Information wird eine Merkmalsextraktion durchgeführt und mittels eines bekannten Mustererkennungsverfahrens werden die extrahierten Merkmale aus dem Teilbereich mit zuvor extrahierten Merkmalen, die das zu erkennende Objekt beschreiben, verglichen.In the procedure known from [1], information is recorded in a partial area of the image from an image recorded by means of a camera, in which an object to be recognized is contained. A feature extraction is carried out for the recorded information and, using a known pattern recognition method, the extracted features from the partial area are compared with previously extracted features that describe the object to be recognized.
Ist die Ähnlichkeit zwischen den extrahierten Merkmalen aus dem Teilbereich und den vorgegebenen Merkmalen, die das zu erkennende Objekt beschreiben, ausreichend groß, so wird das Verfahren beendet und das erkannte Objekt, für das die extrahierten Merkmale gebildet worden sind, wird als erkanntes Objekt ausgegeben.If the similarity between the extracted features from the partial area and the specified features that describe the object to be recognized is sufficiently great, the method is ended and the recognized object for which the extracted features have been formed is output as a recognized object.
Das Verfahren wird iterativ für verschiedene Teilbereiche des Bildes durchgeführt solange, bis das Objekt ermittelt worden ist oder bis ein vorgegebenes Abbruchkriterium erfüllt ist, beispielsweise eine vorgegebene Anzahl von Iterationen oder ein mit ausreichender Genauigkeit Erkennen des zu erkennenden Objekts. Nachteilig an dieser Vorgehensweise ist insbesondere der sehr große Rechenzeitbedarf zur Ermittlung eines Objekts in dem zu untersuchenden Bild. Dies ist insbesondere darauf zurückzuführen, dass alle Teilbereiche des Bildes auf gleiche Weise behandelt werden, das heißt die örtliche Auflösung für alle Teilbereiche des Bildes gleich ist im Rahmen des Verfahrens zur Objektermittlung.The method is carried out iteratively for different sub-areas of the image until the object has been determined or until a predetermined termination criterion is fulfilled, for example a predetermined number of iterations or the object to be recognized is recognized with sufficient accuracy. A disadvantage of this procedure is in particular the very large computing time required to determine an object in the image to be examined. This is due in particular to the fact that all partial areas of the image are treated in the same way, that is to say the local resolution is the same for all partial areas of the image in the context of the method for object detection.
Weiterhin ist aus [2] eine sogenannte zweidimensionale Gabor- Transformation als Wavelet-Transformation bekannt. Die zweidimensionalen Gabor-Transformationen sind Basisfunktionen, die mittels lokaler räumlicher Bandpassfilter, die die theoretische optimale Gesamtauflösung im Ortsbereich und im Frequenzbereich, das heißt im eindimensionalen Ortsbereich und im zweidimensionalen Frequenzbereich erzielt.Furthermore, a so-called two-dimensional Gabor transformation is known from [2] as a wavelet transformation. The two-dimensional Gabor transformations are basic functions that use local spatial bandpass filters to achieve the theoretical optimal overall resolution in the spatial and frequency ranges, that is, in the one-dimensional spatial range and in the two-dimensional frequency range.
Aus [3] und [4] sind weitere Transformationen bekannt.Further transformations are known from [3] and [4].
Der Erfindung liegt das Problem zugrunde, in einem Bild ein Objekt zu ermitteln, wobei das Ermitteln mit statistisch geringerem Rechenzeitbedarf durchgeführt werden kann. Weiterhin liegt der Erfindung das Problem zugrunde, eine lernfähige Anordnung derart zu trainieren, dass sie im Rahmen einer Ermittlung eines Objekts in einem Bild eingesetzt werden kann, so dass zum Ermitteln des Objekts in einem Bild unter Einsatz der trainierten lernfähigen Anordnung ein geringerer Rechenzeitbedarf erreicht wird als bei der bekannten Vorgehensweise.The invention is based on the problem of determining an object in an image, the determination being able to be carried out with a statistically lower computing time requirement. Furthermore, the invention is based on the problem of training an arrangement capable of learning in such a way that it can be used in the context of determining an object in an image, so that less computing time is required to determine the object in an image using the trained arrangement capable of learning than with the known procedure.
Die Probleme werden durch die Verfahren, die Anordnungen, das Computerprogramm-Element sowie das Computerlesbare Speichermedium mit dem Merkmalen gemäß den unabhängigen Patentansprüchen gelöst. Bei einem Verfahren zum Ermitteln eines Objekts in einem Bild wird aus dem Bild Information mit einer ersten örtlichen Auflösung erfasst. Für die erfasste Information wird eine erste Merkmalsextraktion durchgeführt. Aus dem Bild wird aufgrund der ersten Merkmalsextraktion mindestens ein Teilbereich ausgewählt, in dem sich das Objekt befinden könnte. Aus dem ausgewählten Teilbereich wird weiterhin Information mit einer zweiten örtlichen Auflösung erfasst. Die zweite örtliche Auflösung ist größer als die erste örtliche Auflösung. Für die Information, die mit der zweiten örtlichen Auflösung erfasst worden ist, wird eine zweite Merkmalsextraktion durchgeführt und es wird geprüft, ob ein vorgegebenes Kriterium bezüglich der mittels der zweiten Merkmalsextraktion extrahierten Merkmale aus der Information erfüllt ist. Für den Fall, dass das vorgegebene Kriterium nicht erfüllt ist, wird iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereichs erfasst, jeweils mit einer höheren örtlichen Auflösung und es wird geprüft, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt solange, bis das vorgegebene Kriterium erfüllt ist, oder es wird aus dem Bild ein weiterer Teilbereich ausgewählt und Information aus dem weiteren Teilbereich mit einer zweiten örtlichen Auflösung erfasst. Alternativ kann das Verfahren beendet werden.The problems are solved by the methods, the arrangements, the computer program element and the computer-readable storage medium with the features according to the independent patent claims. In a method for determining an object in an image, information is acquired from the image with a first local resolution. A first feature extraction is carried out for the recorded information. On the basis of the first feature extraction, at least one partial area in which the object could be located is selected from the image. Information with a second local resolution is also acquired from the selected partial area. The second local resolution is larger than the first local resolution. A second feature extraction is carried out for the information that has been acquired with the second local resolution, and a check is carried out to determine whether a predetermined criterion regarding the features extracted from the information by means of the second feature extraction is fulfilled. In the event that the predefined criterion is not met, information is iteratively recorded from at least one sub-region of the selected sub-region, in each case with a higher local resolution, and it is checked whether the information recorded with the respectively higher local resolution fulfills the predefined criterion for as long as until the specified criterion is met, or a further partial area is selected from the image and information from the further partial area is recorded with a second local resolution. Alternatively, the process can be ended.
Die Information kann beispielsweise im Rahmen der digitalen Bildverarbeitung Helligkeitsinformation und/oder Farbinformation sein, die Bildpunkten eines digitalisierten Bildes zugeordnet ist/sind.In the context of digital image processing, the information can be brightness information and / or color information that is / are assigned to pixels of a digitized image.
Durch die Erfindung wird eine erhebliche Rechenzeiteinsparung im Rahmen der Ermittlung eines Objekts in einem Bild erreicht .The invention achieves considerable computing time savings in the context of the determination of an object in an image.
Anschaulich orientiert sich die Erfindung an der Erkenntnis, dass im Rahmen der visuellen Wahrnehmung eines Lebewesens wahrscheinlich eine hierarchische Vorgehensweise der Wahrnehmung einzelner Bereiche unterschiedlicher Größe mit unterschiedlicher örtlicher Auflösung üblicherweise zu dem Ziel führt, ein gesuchtes Objekt zu erkennen.The invention is clearly based on the knowledge that in the context of the visual perception of a living being Probably a hierarchical approach to the perception of individual areas of different sizes with different local resolution usually leads to the goal of recognizing a searched object.
Anschaulich ist die Erfindung darin zu sehen, dass zur Ermittlung eines Objekts in einem Bild hierarchisch Teilbereiche und Unterteilbereiche ausgewählt werden, die jeweils mit unterschiedlicher Auflösung auf jeder hierarchischen Ebene aufgenommen werden und nach erfolgter Merkmalsextraktion mit Merkmalen des zu erkennenden Objekts verglichen werden. Ist das Objekt mit ausreichender Sicherheit erkannt, so wird das zu erkennende Objekt als erkanntes Objekt ausgegeben. Ist dies jedoch nicht der Fall, so stehen alternativ die Möglichkeiten zur Verfügung, entweder einen weiteren Unterteilbereich des aktuellen Teilbereichs auszuwählen und aus diesem Unterteilbereich Information mit einer wiederum erhöhten örtlichen Auflösung zu erfassen oder einen anderen Teilbereich auszuwählen und diesen wiederum nach dem zu erkennenden Objekt zu untersuchen.The invention is clearly to be seen in that, in order to determine an object in an image, hierarchical sub-areas and sub-sub-areas are selected, each of which is recorded with a different resolution on each hierarchical level and is compared with features of the object to be recognized after feature extraction has taken place. If the object is recognized with sufficient certainty, the object to be recognized is output as the recognized object. However, if this is not the case, there are alternatively the options available either to select a further sub-area of the current sub-area and to acquire information from this sub-area with a further increased local resolution, or to select a different sub-area and then in turn to this according to the object to be recognized investigate.
Bei einem Verfahren zum Trainieren einer lernfähigen Anordnung, die zum Ermitteln eines Objekts in einem Bild verwendet werden kann, wird ein Bild, welches ein zu ermittelndes Objekt enthält, erfasst. Die Position des zu erkennenden Objekts innerhalb des Bildes und das Objekt selbst sind vorgegeben. Für das Objekt werden mehrere Merkmalsextraktionen durchgeführt, jeweils mit einer unterschiedlichen örtlichen Auflösung. Die lernfähigeIn a method for training an adaptable arrangement that can be used to determine an object in an image, an image that contains an object to be determined is captured. The position of the object to be recognized within the image and the object itself are predefined. Several feature extractions are carried out for the object, each with a different local resolution. The learnable
Anordnung wird mit den extrahierten Merkmalen jeweils für eine unterschiedliche örtliche Auflösung trainiert.Arrangement is trained with the extracted features for a different local resolution.
Die im Erfindung kann sowohl mittels eines Computerprogramms, das heißt in Software, implementiert werden, als auch mittels einer speziellen elektronischen Schaltung, das heißt in Hardware . Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.That in the invention can be implemented both by means of a computer program, that is to say in software, and by means of a special electronic circuit, that is to say in hardware. Preferred developments of the invention result from the dependent claims.
Die weiteren Ausgestaltungen betreffen sowohl die Verfahren, die Anordnungen, das Computerlesbares Speichermedium als auch das Computerprogramm-Element .The further refinements relate both to the methods, the arrangements, the computer-readable storage medium and the computer program element.
Als vorgegebenes Kriterium kann die Prüfung verwendet werden, ob die mit der jeweiligen örtlichen Auflösung erfasste Information ausreicht, um das Objekt mit ausreichender Genauigkeit zu ermitteln.The test can be used as a predetermined criterion as to whether the information recorded with the respective local resolution is sufficient to determine the object with sufficient accuracy.
Das vorgegebene Kriterium kann weiterhin eine vorgegebene Anzahl von Iterationen sein, das heißt eine vorgegebene Anzahl maximaler Iterationen, in denen jeweils ein Unterteilbereich ausgewählt wird und mit einer erhöhten örtlichen Auflösung untersucht wird.The predefined criterion can also be a predefined number of iterations, that is to say a predefined number of maximum iterations, in each of which a lower part area is selected and examined with an increased local resolution.
Weiterhin kann das vorgegebene Kriterium eine vorgegebene Anzahl zu untersuchender Teilbereiche bzw. maximal zu untersuchende Unterteilbereiche sein.Furthermore, the predefined criterion can be a predefined number of subareas to be examined or maximum subareas to be examined.
Die Merkmalsextraktion kann mittels einer Transformation mit jeweils unterschiedlicher örtlicher Auflösung erfolgen.The feature extraction can take place by means of a transformation with different local resolutions.
Als Transformation wird bevorzugt eine Wavelet-Transformation eingesetzt, vorzugsweise eine zweidimensionale Gabor- Transformation (2D-Gabor-Transformation) .A wavelet transformation is preferably used as the transformation, preferably a two-dimensional Gabor transformation (2D Gabor transformation).
Durch Einsatz der zweidimensionalen Gabor-Transformation wird die Bildinformation in optimaler Weise sowohl im Ortsbereich als auch im Spektralbereich codiert, das heißt es wird ein optimaler Kompromiss im Rahmen der Reduktion von Redundanzinformation zwischen Ortsbereic s-Codierung und Frequenzbereichs-Codierung erreicht . Als Transformation kann jede Transformation eingesetzt werden, die insbesondere folgende Voraussetzungen erfüllt:By using the two-dimensional Gabor transformation, the image information is encoded in an optimal manner both in the spatial area and in the spectral area, that is to say an optimal compromise is achieved in the context of the reduction of redundancy information between the local area coding and the frequency area coding. Any transformation that meets the following requirements in particular can be used as a transformation:
• das Aspektverhältnis der elliptischen gaussianisehen Einhüllenden sollte im wesentlichen 2:1 betragen; • die ebene Welle sollte ihre Ausbreitungsrichtung entlang der kürzeren Achse der elliptischen gaussianischen Einhüllenden aufweisen;• The aspect ratio of the elliptical Gaussian envelope should be essentially 2: 1; • the plane wave should have its direction of propagation along the shorter axis of the elliptical Gaussian envelope;
• weiterhin sollte die Halb-Amplituden-Bandbreite der Frequenzantwort ungefähr 1 bis 1,5 Oktaven entlang der optimalen Richtung aufweisen.• Furthermore, the half-amplitude bandwidth of the frequency response should have approximately 1 to 1.5 octaves along the optimal direction.
Weiterhin sollte der Mittelwert der Transformation den Wert Null aufweisen, um eine zulässige Funktionsbasis für die Wavelet-Transformation zu gewährleisten.Furthermore, the mean value of the transformation should have the value zero in order to ensure a permissible functional basis for the wavelet transformation.
Alternativ können auch die in [3] und [4] beschriebenen Transformationen verwendet werden.Alternatively, the transformations described in [3] and [4] can also be used.
Die Transformation kann mittels eines neuronalen Netzes oder mehrerer neuronaler Netze erfolgen, vorzugsweise mittels eines rekurrenten neuronalen Netzes.The transformation can take place by means of a neural network or a plurality of neural networks, preferably by means of a recurrent neural network.
Durch Einsatz eines neuronalen Netzes wird insbesondere eine sehr schnelle und an das jeweils zu erkennende Objekt bzw. an die entsprechend erfasste Bildinformation anpassbare Transformationsanordnung eingesetzt.By using a neural network, a very fast transformation arrangement that can be adapted to the object to be recognized or to the correspondingly captured image information is used in particular.
In einer weiteren Ausgestaltung der Erfindung wird in dem Bild eine Mehrzahl von Teilbereichen ermittelt, wobei für jeden Teilbereich jeweils eine Wahrscheinlichkeit dafür ermittelt wird, dass der entsprechende Teilbereich das zu erkennende Objekt enthält. Das iterative Verfahren wird für Detailbereiche in der Reihenfolge entsprechend fallender Zugehörigkeitswahrscheinlichkeit des entsprechend zu ermittelnden Objekts durchgeführt. Durch diese Vorgehensweise wird eine weitere Reduktion des benötigten Rechenzeitbedarfs erreicht, da aus statistischer Sicht eine optimale Vorgehensweise zur Ermittlung des zu erkennenden Objekts angegeben wird.In a further embodiment of the invention, a plurality of partial areas is determined in the image, with a probability being determined for each partial area that the corresponding partial area contains the object to be recognized. The iterative procedure is carried out for detail areas in the order according to the falling probability of belonging to the object to be determined accordingly. This procedure results in a further reduction in the computing time required, since an optimal procedure for determining the object to be recognized is specified from a statistical point of view.
Zur weiteren Reduktion des benötigten Rechenzeitbedarfs ist es in einer Weiterbildung der Erfindung vorgesehen, die Form eines ausgewählten Teilbereichs im wesentlichen der Form des zu ermittelnden Objekts anzupassen.To further reduce the required computing time, it is provided in a further development of the invention to adapt the shape of a selected partial area essentially to the shape of the object to be determined.
Auf diese Weise wird jeweils ein Teilbereich oder auch ein Unterteilbereich untersucht, der für sich schon im wesentlichen dem zu ermittelnden Objekt entspricht. Damit wird vermieden, dass ein Bildbereich untersucht wird, in dem sich das zu ermittelnde Objekt sicher nicht befindet, da der entsprechende Bildbereich dann ohnehin schon eine andere Form aufweist.In this way, a subarea or a subarea is examined, which essentially corresponds to the object to be determined. This avoids examining an image area in which the object to be determined is certainly not located, since the corresponding image area then already has a different shape.
Als lernfähige Anordnung kann mindestens ein neuronales Netz verwendet werden.At least one neural network can be used as an arrangement capable of learning.
Vorzugsweise sind die Neuronen des neuronalen Netzes topographisch angeordnet.The neurons of the neural network are preferably arranged topographically.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im weiteren näher erläutert.An embodiment of the invention is shown in the figures and is explained in more detail below.
Es zeigenShow it
Figur 1 ein Blockdiagramm, in dem die Architektur derFigure 1 is a block diagram in which the architecture of the
Anordnung zum Ermitteln des Objekts gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist;Arrangement for determining the object according to an embodiment of the invention is shown;
Figur 2 ein Blockdiagramm, in dem der Aufbau des Moduls zur Durchführung der zweidimensionalen Gabor-FIG. 2 shows a block diagram in which the structure of the module for carrying out the two-dimensional Gabor
Transformation aus Figur 1 gemäß dem Ausführungsbeispiel der Erfindung im Detail dargestellt ist;Transformation from Figure 1 according to the Embodiment of the invention is shown in detail;
Figur 3 ein Blockdiagramm, in dem das Erkennungsmodul aus Figur 1 gemäß dem Ausführungsbeispiel im Detail dargestellt ist;FIG. 3 shows a block diagram in which the recognition module from FIG. 1 according to the exemplary embodiment is shown in detail;
Figur 4 ein Blockdiagramm, in dem die Architektur derFigure 4 is a block diagram showing the architecture of the
Anordnung zum Ermitteln des Objekts gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist, wobei die Ermittlung einer Prioritätskarte im Detail dargestellt ist;Arrangement for determining the object according to an embodiment of the invention is shown, the determination of a priority map being shown in detail;
Figuren 5a und 5b Skizzen eines Bildes mit unterschiedlichen Objekten, aus denen das zu ermittelnde Objekt zu ermitteln ist, wobei in Figur 5a die unterschiedlichen aufgenommenen Objekte dargestellt sind und in Figur 5b das Erkennungsergebnis bei unterschiedlichen örtlichen Auflösungen ermittelt worden ist;FIGS. 5a and 5b show sketches of an image with different objects from which the object to be determined is to be determined, the different recorded objects being shown in FIG. 5a and the recognition result having been determined in FIG. 5b at different local resolutions;
Figur 6 ein Ablaufdiagramm, in dem die einzelnen Schritte des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung dargestellt sind.Figure 6 is a flowchart showing the individual steps of the method according to the embodiment of the invention.
Fig.l zeigt eine Skizze einer Anordnung 100, mit der das zu ermittelnde Objekt ermittelt wird.1 shows a sketch of an arrangement 100 with which the object to be determined is determined.
Die Anordnung 100 weist ein visuelles Feld 101 auf.The arrangement 100 has a visual field 101.
Weiterhin ist eine Erfassungseinheit 102 vorgesehen, mit der Information aus dem Bild über das visuelle Feld 101 mit unterschiedlicher örtlicher Auflösung erfasst werden kann.Furthermore, a detection unit 102 is provided, with which information from the image can be detected via the visual field 101 with different local resolution.
Die Erfassungseinheit 102 weist eineThe detection unit 102 has one
Merkmalsextraktionseinheit 103 sowie eine Erkennungseinheit 104 auf. Fig.l zeigt in der Erfassungseinheit 102 eine Vielzahl von Merkmalsextraktionseinheiten 103, die jeweils Information aus dem Bild mit einer unterschiedlichen örtlichen Auflösung erfasst.Feature extraction unit 103 and a recognition unit 104. FIG. 1 shows in the acquisition unit 102 a multiplicity of feature extraction units 103, each of which acquires information from the image with a different local resolution.
Von der Merkmalsextraktionseinheit 103 werden jeweils extrahierte Merkmale aus der erfassten Bildinformation dem Erkennungsmodul, das heißt der Erkennungseinheit 104 als Merkmalsvektor 105 zugeführt.Features extracted from the captured image information are fed to the recognition module, that is to say the recognition unit 104, as feature vector 105 by the feature extraction unit 103.
In der im weiteren näher erläuterten Erkennungseinheit 104 wird ein Mustervergleich des Merkmalsvektors 105 mit einem zuvor gebildeten Merkmalsvektor auf die im weiteren näher erläuterte Weise durchgeführt.In the recognition unit 104, which is explained in more detail below, a pattern comparison of the feature vector 105 with a previously formed feature vector is carried out in the manner explained in more detail below.
Das Erkennungsergebnis wird einer Steuerungseinheit 106 zugeführt, von der entschieden wird, welcher Teilbereich oder Unterteilbereich, wie im weiteren näher erläutert wird, des Bildes ausgewählt wird, und mit welcher örtlichen Auflösung der jeweilige Teilbereich oder Unterteilbereich untersucht wird. Die Steuerungseinheit 106 weist ferner eine Entscheidungseinheit auf, in der geprüft wird, ob ein vorgegebenes Kriterium hinsichtlich der extrahierten Merkmale erfüllt ist.The recognition result is fed to a control unit 106, from which it is decided which sub-area or sub-area, as will be explained in more detail below, of the image is selected, and with which local resolution the respective sub-area or sub-area is examined. The control unit 106 also has a decision unit in which it is checked whether a predefined criterion with regard to the extracted features is met.
Durch Pfeile 107 ist symbolisch angedeutet, dass zwischen den einzelnen Erkennungseinheiten 104 zu einer Erfassung von Information in unterschiedlichen Erfassungsbereichen 108, 109, 110 mit jeweils unterschiedlicher örtlicher Auflösung abhängig von Steuersignalen der Steuerungseinheit 106 "umgeschaltet" wird.Arrows 107 symbolically indicate that the individual detection units 104 are "switched" to acquire information in different detection areas 108, 109, 110, each with a different local resolution, depending on control signals from the control unit 106.
Im weiteren wird die in Fig.2 im Detail dargestellte Merkmalsextraktionseinheit 103 näher erläutert. Werden die zweidimensionalen Gabor-Wavelets derart eingerichtet, dass der Frequenzbereich in einer logarithmischen Aufteilung angeordnet sind, so wird jede erfasste Frequenz als Oktave bezeichnet. Jede Oktave wird im weiteren als eine örtliche Auflösung bezeichnet.The feature extraction unit 103 shown in detail in FIG. 2 is explained in more detail below. If the two-dimensional Gabor wavelets are set up in such a way that the frequency range is arranged in a logarithmic division, each recorded frequency is referred to as an octave. Each octave is referred to below as a local resolution.
Jede Einheit, die eine Wavelet-Transformation bei einer vorgegebenen örtlichen Auflösung durchführt, weist eine Anordnung von Neuronen auf, deren Erfassungsbereich einer zweidimensionalen Gabor-Funktion entspricht und von einer bestimmten Orientierung abhängig sind.Each unit that performs a wavelet transformation at a given local resolution has an arrangement of neurons whose detection range corresponds to a two-dimensional Gabor function and is dependent on a specific orientation.
Die Ausgabe des entsprechenden Neurons ist ferner abhängig von der vorgegebenen örtlichen Auflösung und ist symmetrisch. Jede Merkmalsextraktionseinheit 103 weist ein rekurrentes neuronales Netz 200 auf, wie in Fig.2 dargestellt.The output of the corresponding neuron is also dependent on the given local resolution and is symmetrical. Each feature extraction unit 103 has a recurrent neural network 200, as shown in FIG. 2.
Es wird im weiteren von einem digitalisierten Bild 201 mit n*n Bildpunkten ausgegangen (gemäß diesem Ausführungsbeispiel n = 128, das heißt gemäß dem Ausführungsbeispiel weist das Bild 16384 Bildpunkte auf) .In the following, a digitized image 201 with n * n pixels is assumed (according to this exemplary embodiment, n = 128, that is to say according to the exemplary embodiment, the image has 16384 pixels).
Jedem Bildpunkt ist ein Helligkeitswert I?^1^ zwischen „0*Each pixel is a brightness value I? ^ 1 ^ between "0 *
(schwarz) und „255λ (weiß) zugeordnet.(black) and "255 λ (white) assigned.
Der Helligkeitswert I°fig bezeichnet jeweils denThe brightness value I ° f ig denotes the
Helligkeitswert, der einem Bildpunkt zugeordnet ist, welcher Bildpunkt sich an der durch die Indizes i, j bezeichneten örtlichen Koordinaten innerhalb des Bildes 201 befindet.Brightness value that is assigned to a pixel, which pixel is located at the local coordinates denoted by the indices i, j within the image 201.
Aus dem Bild 201, das heißt aus den Bildpunkten, die in dem jeweiligen Erfassungsbereich liegen, wird ein mittlerer Helligkeitswert DC, The image 201, that is to say the pixels which lie in the respective detection area, becomes an average brightness value DC,
der Helligkeitswerte I°- g der Bildpunkte des Bildes 201 ermittelt, die in dem Erfassungsbereich liegen und der mittlere Helligkeitswert DC wird durch einethe brightness values I ° -g of the pixels of the image 201 which lie in the detection range and the average brightness value DC is determined by a
Kontrastkorrektureinheit 202 von den Helligkeitswerten I?Jlg jedes Bildpunktes abgezogen.Contrast correction unit 202 is subtracted from the brightness values I? J lg of each pixel.
Ergebnis ist eine Menge von Helligkeitswerten, die kontrast- invariant sind. Die kontrast-invariante Beschreibung derThe result is a set of brightness values that are contrast invariant. The contrast-invariant description of the
Helligkeitswerte der Bildpunkte in dem Erfassungsbereich wird gemäß folgender Vorschrift gebildet:Brightness values of the pixels in the detection area are formed in accordance with the following regulation:
Die DC-freien Helligkeitswerte werden einer Neuronenschicht 203 zugeführt, deren Neuronen eine Extraktion einfacher Merkmale durchführt.The DC-free brightness values are fed to a neuron layer 203, the neurons of which carry out an extraction of simple features.
Die Neuronen in der Neuronenschicht 203 haben rezeptiveThe neurons in the neuron layer 203 have receptive ones
Felder, die eine zweidimensionale Gabor-Transformation gemäß folgender Vorschrift durchführen.Fields that perform a two-dimensional Gabor transformation in accordance with the following regulation.
cos Θ+y sin ©)2+(-x sin Θ+y cos θ)2) c os Θ + y s i n ©) 2 + (- x sin Θ + y cos θ) 2 )
K* K *
5iωo(x cos Θ+y sin θ) 5 iωo (x cos Θ + y sin θ)
o:O:
wobei mit • (Dg eine Kreisfrequenz in Radianten pro Längeneinheit, undbeing with • (Dg is an angular frequency in radians per unit length, and
• Θ die Orientierungsrichtung des Wavelets in Radianten bezeichnet wird.• Θ the orientation direction of the wavelet is designated in radians.
Das Gabor-Wavelet ist beiThe Gabor Wavelet is at
x = y = 0 (4)x = y = 0 (4)
o zentriert und mittels einer L -Norm normalisiert derart, dass gilt:o centered and normalized using an L standard such that:
(Ψ, Ψ) = 1. (5)(Ψ, Ψ) = 1. (5)
Mit der Konstante K wird die Frequenzbandbreite bestimmt.The frequency bandwidth is determined with the constant K.
Gemäß diesem Ausführungsbeispiel wirdAccording to this embodiment
K = π (6)K = π (6)
verwendet, was einer Frequenzbandbreite einer Oktave entspricht.used, which corresponds to a frequency bandwidth of an octave.
Eine Familie einer diskreten 2D-Gabor-Wavelet G]pg_(x, y) kann ermittelt werden durch Diskretisierung der Frequenzen, Orientierungen und der Zentren der kontinuierlichen Wavelet- Funktion (3) gemäß folgender Vorschrift:A family of a discrete 2D Gabor wavelet G] pg_ (x, y) can be determined by discretizing the frequencies, orientations and centers of the continuous wavelet function (3) according to the following rule:
Gkpql / y) = a"kΨΘl(a~kx - pb, a~ky - qb), (7)Gkpql / y) = a "k Ψ Θl (a ~ k x - pb, a ~ k y - qb), (7)
mitWith
ΨΘl = ψ(x cos(lΘ0) + y sin(lΘ0),-x sin(lΘo) + y cos(lΘ0)) (8)Ψ Θl = ψ (x cos (lΘ 0 ) + y sin (lΘ 0 ), - x sin (lΘo) + y cos (lΘ 0 )) (8)
und der Basis-Wavelet : and the base wavelet:
Gemäß dieser Vorschrift bezeichnetDesignated according to this regulation
Θg = — die Schrittgröße der jeweiligen Winkeldrehung, LΘg = - the step size of the respective angle rotation, L
1 den Index der Rotation entsprechend der bevorzugten Orientierung Θ]_ = — , k die jeweilige Oktave, und p und q die Position des Zentrums des rezeptiven Felds (cx pba und Cy = qba )1 the index of rotation according to the preferred orientation Θ] _ = -, k the respective octave, and p and q the position of the center of the receptive field (c x pba and Cy = qba)
Für eine gegebene Oktave k ergeben sich die Maximalwerte von p und q gemäßFor a given octave k, the maximum values of p and q result according to
undand
nn
Q = dl! ba'Q = dl! ba '
wobei mit |_xj die größte Integer-Zahl bezeichnet wird, die kleiner als x ist.where | _xj is the largest integer number that is less than x.
Im weiteren wird mit rj qi die Aktivierung eines Neurons in der Neuronenschicht 203 bezeichnet.The activation of a neuron in the neuron layer 203 is also referred to as rj qi.
Die Aktivierung rj qi ist abhängig von einer bestimmten örtlichen Frequenz, die durch die Oktave k zu einer bevorzugten Orientierung, die durch den Rotationsindex 1 und zu einer Anregung an dem Zentrum, bestimmt durch die Indizes p und q abhängig ist. Die Aktivierung ηcpqi des Neurons in der jeweiligenThe activation rj qi depends on a certain local frequency, which is dependent on the octave k for a preferred orientation, which is determined by the rotation index 1 and an excitation at the center, determined by the indices p and q. The activation ηcpqi of the neuron in the respective
Neuronenschicht 203 ist definiert als die Faltung des entsprechenden rezeptiven Feldes und dem Bild, das heißt denNeuron layer 203 is defined as the convolution of the corresponding receptive field and the image, that is to say that
Helligkeitswerten der Bildpunkte, wodurch sich die Aktivierung rj qi eines Neurons gemäß folgender Vorschrift ergibt:Brightness values of the pixels, which results in the activation rj qi of a neuron according to the following rule:
n n rpql = (Gkpql' τ) = ∑ ∑ Gkpql(i' j) • xij • 9ij # (12) i=lj=lnn rpql = ( G kpql ' τ ) = ∑ ∑ G kpql (i' j) • x ij • 9ij # (12) i = lj = l
wobei mit gj_j ein Gewichtswert für den Bildpunkt (i, j) derwhere with gj_j a weight value for the pixel (i, j) of the
Erfassungseinheit mit der entsprechenden örtlichen Auflösung k bezeichnet wird.Detection unit is designated with the corresponding local resolution k.
Es ist anzumerken, dass die Aktivierung rjφq]_ eines Neurons eine komplexe Zahl ist, weshalb dem Ausführungsbeispiel zwei Neuronen zur Codierung eines Helligkeitswerts Ij_j eingesetzt wird, ein Neuron für den Realteil eines Helligkeitswerts Iij und ein Neuron für den Imaginärteil der transformierten Helligkeitsinformation Iij .It should be noted that the activation rjφq] _ of a neuron is a complex number, which is why the exemplary embodiment uses two neurons for coding a brightness value Ij_j, one neuron for the real part of a brightness value Iij and one neuron for the imaginary part of the transformed brightness information Iij.
Die Neuronen 206 der Neuronenschicht 205, die das transformierte Helligkeitssignal 204 erfassen, erzeugen einen Neuronen-Ausgangswert 207.The neurons 206 of the neuron layer 205, which detect the transformed brightness signal 204, generate a neuron output value 207.
Mittels des Neuronen-Ausgangssignals 207 wird in einer Bildrekonstruktions'-Einheit 208 ein rekonstruiertes Bild 209 gebildet.A reconstructed image 209 is formed in an image reconstruction unit 208 by means of the neuron output signal 207.
Gemäß diesem Ausführungsbeispiel weist dieAccording to this embodiment, the
Bildrekonstruktions-Einheit 208 Neuronen auf, die eine Gabor- Wavelet-Transformation durchführen.Image reconstruction unit 208 neurons that perform a Gabor wavelet transformation.
Zu diesem Zweck weist die Bildrekonstruktions-Einheit 208 Neuronen auf, die gemäß einer Feed-Forward-Struktur miteinander verbunden sind, die einem Gabor-rezeptiven Feld entsprechen.For this purpose, the image reconstruction unit 208 has neurons that operate according to a feed-forward structure connected to each other that correspond to a Gabor-receptive field.
In anderen Worten ausgedrückt bedeutet dies, dass die Bildrekonstruktion gemäß folgender Vorschrift erfolgt:In other words, this means that the image is reconstructed according to the following rule:
K P Q L-l !ij = CΣ Σ Σ Σ rkpqlGkpql (i, j) # (13) k = 0p = 0q = 01 = 0KPQ Ll! Ij = C Σ Σ Σ Σ r kpql G kpql (i, j ) # (13) k = 0p = 0q = 01 = 0
wobei mit K die maximale Auflösung bezeichnet wird.where K is the maximum resolution.
Mit einer Konstante C wird die Dichte der verwendeten Wavelet-Basis bezeichnet. Aufgrund der Nicht-Orthogonalität der Gabor-Wavelet-Basisfunktionen wird durch die Vorschrift (13) und durch deren lineare Superposition nicht garantiert, dass ein Minimum eines Rekonstruktionsfehlers E, der gemäß folgender Vorschrift gebildet wird:A constant C denotes the density of the wavelet base used. Due to the non-orthogonality of the Gabor-Wavelet basic functions, regulation (13) and its linear superposition do not guarantee that a minimum of a reconstruction error E, which is formed according to the following regulation:
erreicht wird.is achieved.
Eine Korrektur dieser Vorschrift (14) kann erhalten werden durch dynamische Optimierung des Rekonstruktionsfehlers E mittels einer Rückkopplungsverbindung.A correction of this regulation (14) can be obtained by dynamically optimizing the reconstruction error E by means of a feedback connection.
Im weiteren wird ein rückgekoppelter Korrektur-Term r or 1 r für jedes Neuron 206 der Neuronenschicht 205 gebildet.Furthermore, a feedback correction term r or 1 r is formed for each neuron 206 of the neuron layer 205.
Die Dynamik des rekurrenten neuronalen Netzes 200 wird derart bestimmt, dass ein dynamischer Rekonstruktionsfehler gemäß folgender Vorschrift gebildet wird: The dynamics of the recurrent neural network 200 are determined in such a way that a dynamic reconstruction error is formed in accordance with the following regulation:
(15)(15)
Der dynamische Rekonstruktionsfehler des rekurrenten neuronalen Netzes 200 wird minimiert.The dynamic reconstruction error of the recurrent neural network 200 is minimized.
Dies wird erreicht durch dynamische Anpassung des Korrektur-This is achieved by dynamically adjusting the correction
„corr"corr
Ter s gemäß folgender Vorschrift :Ter s according to the following regulation:
= corr ijEijGkpqlC j) = η(G pqι, E) , = corr ij E ijGkpqlC j) = η (G pq ι, E),
( 16 )(16)
wobeiin which
K P Q L-lj ^ E iD ij " C Σ Σ Σ Σ feql + rkpql pkpqlfc j) Ü7) k=0p = 0q=01 = 0KPQ L-lj ^ E iD ij "C Σ Σ Σ Σ feql + r kpql pkpqlfc j ) Ü7) k = 0p = 0q = 01 = 0
und mit η ein Änderungskoeffizient bezeichnet wird (gemäß dem Ausführungsbeispiel η = 0,1).and η denotes a change coefficient (according to the exemplary embodiment η = 0.1).
Die Konstante C wird gemäß folgender Vorschrift gebildet: The constant C is formed according to the following rule:
wobei mit max() der maximale Wert der jeweiligen Werte bezeichnet wird.where max () denotes the maximum value of the respective values.
Diese oben beschriebene Dynamik kann auf folgende Weise anschaulich interpretiert werden. Wenn das Rekonstruktionsfehlersignal E rückgekoppelt und mit den gleichen Gabor-rezeptiven Feldern Gkpql, EJ gefaltet wird, dann konvergiert das gesamte dynamische System zu einem Attraktor, der dem Minimum des Rekonstruktionsfehlersignals 214 entspricht.This dynamic described above can be interpreted clearly in the following way. If the reconstruction error signal E is fed back and folded with the same Gabor-receptive fields Gkpql, EJ, then the entire dynamic system converges to an attractor that corresponds to the minimum of the reconstruction error signal 214.
Das Rekonstruktionsfehlersignal 214 wird gebildet mittels einer Differenzeinheit 210. Der Differenzeinheit 210 wird das kontrastfreie Helligkeitssignal 211 sowie das rekonstruierte Helligkeitssignal 212 zugeführt. Durch Differenzbildung zwischen dem kontrastfreien Helligkeitswert 211 und dem jeweiligen rekonstruierten Helligkeitswert 212 wird jeweils ein Rekonstruktionsfehlerwert 213 gebildet, der dem rezeptiven Feld, das heißt dem Gabor-Filter zugeführt wird.The reconstruction error signal 214 is formed by means of a differential unit 210. The contrast-free brightness signal 211 and the reconstructed brightness signal 212 are fed to the differential unit 210. By forming the difference between the contrast-free brightness value 211 and the respective reconstructed brightness value 212, a reconstruction error value 213 is formed, which is fed to the receptive field, that is to say the Gabor filter.
In einer Lernphase wird für jedes zu ermittelnde Objekt aus einer Menge zu ermittelnder, das heißt zu erkennender Objekte und für jede örtliche Auflösung in der oben beschriebenen Merkmalsextraktionseinheit 103 ein Trainingsverfahren gemäß Vorschrift (16) durchgeführt.In a learning phase, a training method according to regulation (16) is carried out for each object to be determined from a set of objects to be determined, that is to say to be recognized, and for each local resolution in the feature extraction unit 103 described above.
Dies erfolgt durch Extraktion der entsprechenden 2D-Gabor- Wavelet-Merkmale für jedes Objekt zu jeder örtlichen Auflösung.This is done by extracting the corresponding 2D Gabor wavelet features for each object at any local resolution.
Die Erkennungseinheit 104 speichert in ihren Gewichten der Neuronen die extrahierten Merkmalsvektoren 105 für jede örtliche Auflösung einzeln.The recognition unit 104 stores the extracted feature vectors 105 in their weights of the neurons individually for each local resolution.
Somit werden unterschiedliche- Merkmalsextraktionseinheiten 103 entsprechend jeder örtlichen Auflösung für jedes zu ermittelnde Objekt trainiert, wie dies in Fig.l durch die verschiedenen Merkmalsextraktionseinheiten 103 angedeutet ist. Die Positionen der Zentren der rezeptiven Felder sind diskretisiert und ergeben sich für eine örtliche Auflösung des Grades k zuDifferent feature extraction units 103 are thus trained in accordance with each local resolution for each object to be determined, as is indicated in FIG. 1 by the different feature extraction units 103. The positions of the centers of the receptive fields are discretized and result for a local resolution of the degree k
cx = pbak (18)c x = pba k (18)
undand
cy = qbak. (19)c y = qba k . (19)
Dies bedeutet anschaulich, dass räumlich näher liegende Wavelets durch geringere Schritte getrennt sind und weiter entfernte Wavelets durch größere Schritte.This clearly means that spatially closer wavelets are separated by smaller steps and more distant wavelets by larger steps.
Gemäß diesem Ausführungsbeispiel überdecken die rezeptiven Felder bei jeder örtlichen Auflösung den gesamten Erfassungsbereich auf gleiche Weise, das heißt sie überlappen sich immer in der gleichen Weise.According to this exemplary embodiment, the receptive fields cover the entire detection area in the same way at every local resolution, that is to say they always overlap in the same way.
Somit weist eine Merkmalsextraktionseinheit 103 der örtlichen Auflösung kA feature extraction unit 103 thus has the local resolution k
Gabor-Neuronen auf.Gabor neurons.
Die Gabor-Neuronen werden eindeutig mittels des Indexes kpql und der Aktivierung ^] ,ql bezeichnet, welche, wie oben beschrieben worden ist, durch die Faltung des entsprechenden rezeptiven Feldes mit den Helligkeitswerten I j der Bildpunkte des Erfassungsbereichs gegeben sind.The Gabor neurons are clearly identified by means of the index kpql and the activation ^], ql, which, as described above, are given by the folding of the corresponding receptive field with the brightness values I j of the pixels of the detection area.
Durch die oben beschriebene Vorgehensweise wird mittels der vorzugsweise eingesetzten Merkmalsextraktionseinheit 103 durch die vorwärtsgerichteten Gabor-Verbindungen schnell eine ausreichend gute Menge von Wavelet-Basisfunktionen zum stark verbesserten Codieren der Helligkeitswerte ermittelt, welche durch die rekurrente dynamische Analyse des Rekonstruktionsfehlerwerts 213 gebildet wird, so dass eine geringere Anzahl von Iterationen erreicht wird, um das Minimum des Rekonstruktionsfehlerwerts 213 zu ermitteln.Due to the procedure described above, a feature extraction unit 103, which is preferably used, quickly becomes one through the forward-looking Gabor connections a sufficiently good set of wavelet basis functions for the greatly improved coding of the brightness values is determined, which is formed by the recurrent dynamic analysis of the reconstruction error value 213, so that a smaller number of iterations is achieved in order to determine the minimum of the reconstruction error value 213.
Der rückgekoppelte Rekonstruktionsfehler E wird gemäß dem Ausführungsbeispiel verwendet, um die vorwärtsgerichtete Gabor-Repräsentation des Bildes 201 dynamisch zu verbessern in dem Sinne, dass das oben dargelegte Problem der Redundanz in der Beschreibung der Bildinformation aufgrund der Nicht- Orthogonalität der Gabor-Wavelets dynamisch korrigiert wird.The feedback reconstruction error E is used according to the exemplary embodiment in order to dynamically improve the forward-facing Gabor representation of the image 201 in the sense that the problem of redundancy set out above in the description of the image information is dynamically corrected on account of the non-orthogonality of the Gabor wavelets ,
Die Redundanz der Gabor-Merkmalsbeschreibung ist deshalb dynamisch erheblich verringert worden durch Verbesserung der Rekonstruktion gemäß der internen Repräsentation der Bildinformation.The redundancy of the Gabor feature description has therefore been dynamically reduced considerably by improving the reconstruction in accordance with the internal representation of the image information.
Durch diese Struktur wird deshalb eine nicht-lineareThis structure therefore makes it non-linear
Korrektur der üblichen linearen Darstellung eines Gabor- Filters erreicht, wodurch eine effizientere prädiktive Codierung der Bildinformation erzielt wird.Correction of the usual linear representation of a Gabor filter is achieved, whereby a more efficient predictive coding of the image information is achieved.
Die Anzahl benötigter Iterationen, um ein optimales prädiktives Codieren der Bildinformation zu erreichen, kann weiter dadurch reduziert werden, dass eine übervollständige Anzahl von Gabor-Neuronen zum Merkmalscodieren verwendet werden.The number of iterations required to achieve optimal predictive coding of the image information can be further reduced by using an over-complete number of Gabor neurons for the feature coding.
Eine somit übervollständige Basis erlaubt eine größere Anzahl von Basisvektoren als Eingangssignale. Für eine Merkmalsextraktionseinheit 103 der örtlichen Auflösung K werden gemäß dem Ausführungsbeispiel zur Rekonstruktion der internen Repräsentation der Gabor-Neuronen mit Wavelet-A base that is thus complete allows a larger number of base vectors than input signals. For a feature extraction unit 103 of the local resolution K, according to the exemplary embodiment for the reconstruction of the internal representation of the Gabor neurons with wavelet
Merkmalen entsprechend der Oktave mindestens die Anzahl der durch die örtliche Auflösung K vorgegebene Zahl ist, verwendet .Characteristics corresponding to the octave at least the number of number given by the local resolution K is used.
Gemäß dem Ausführungsbeispiel werden sechs Oktaven, das heißt sechs Merkmalsextraktionseinheiten 103 (N = 6) mit acht Orientierungen (L = 8), mit b = 1 und a = 2 eingesetzt, so dass bei Einsatz aller Grade der AuflösungAccording to the exemplary embodiment, six octaves, that is to say six feature extraction units 103 (N = 6) with eight orientations (L = 8), with b = 1 and a = 2 are used, so that all degrees of resolution are used
codierende Gabor-Neuronen verwendet werden,coding Gabor neurons are used
Da gemäß dem Ausführungsbeispiel 16.384 Bildpunkte in dem Bild enthalten sind, werden 174.080 codierende Gabor-Neuronen zum Bilden der übervollständigen Basis eingesetzt.Since 16,384 pixels are contained in the image according to the exemplary embodiment, 174,080 coding Gabor neurons are used to form the overcomplete base.
Im weiteren werden die Neuronen der Neuronenschicht 205 im Detail erläutert (vgl. Fig.3) .The neurons of the neuron layer 205 are explained in detail below (see FIG. 3).
Es wird gemäß dem Ausführungsbeispiel angenommen, dass für jedes Neuron 206 (wobei ein Neuron 300 für einen Realteil und ein Neuron 301 für den Imaginärteil der Gabor-Transformation vorgesehen ist, wie oben erläutert wurde, das heißt zwei Neuronen für ein "logisches" Neuron) mit den entsprechenden Verbindungen zu der Merkmalsextraktionseinheit 103 jeweils als Gewichtsinformation, die die Beschreibung mittels Merkmalsvektoren eines Objekts zu einer bestimmten örtlichen Auflösung und einer bestimmten Position des Objekts in dem Erfassungsbereich gespeichert wird.It is assumed according to the exemplary embodiment that for each neuron 206 (a neuron 300 is provided for a real part and a neuron 301 for the imaginary part of the Gabor transformation, as explained above, that is to say two neurons for a “logical” neuron) with the corresponding connections to the feature extraction unit 103 in each case as weight information, which the description is stored by means of feature vectors of an object for a specific local resolution and a specific position of the object in the detection area.
Die Neuronen 206 der Neuronenschicht 205 sind in Spalten organisiert angeordnet, so dass die Neuronen topographisch angeordnet sind. Die rezeptiven Felder der Erkennungsneuronen sind derart eingerichtet, dass nur ein beschränkter quadratischer Erfassungsbereich der Neuronen-Eingangswerte um einen bestimmten Zentrumsbereich übertragen wird.The neurons 206 of the neuron layer 205 are arranged in columns so that the neurons are arranged topographically. The receptive fields of the recognition neurons are set up in such a way that only a limited square detection area of the neuron input values is transmitted around a certain center area.
Die Größe der quadratischen rezeptiven Felder der Erkennungsneuronen ist konstant und die Erkennungsneuronen sind derart eingerichtet, dass nur die Signale von Neuronen 206 der Neuronenschicht 205 berücksichtigt werden, die sich innerhalb des Erfassungsbereichs des jeweiligen Erkennungsneurons 301, 302 befindet.The size of the quadratic receptive fields of the recognition neurons is constant and the recognition neurons are set up in such a way that only the signals from neurons 206 of the neuron layer 205 which are located within the detection range of the respective recognition neurons 301, 302 are taken into account.
Im Rahmen der Trainingsphase befindet sich das Zentrum des rezeptiven Feldes in dem Helligkeitszentrum des jeweiligen Objekts.As part of the training phase, the center of the receptive field is in the brightness center of the respective object.
Translationsinvarianz wird erreicht, indem für jedes zu lernende, das heißt in der Anwendungsphase zu erkennende Objekt identischer Erkennungsneuronen, das heißt Neuronen, die sich die gleichen Gewichte teilen, aber unterschiedlicher Zentren aufweisen, über den gesamten Abfassungsbereich verteilt sind.Translation invariance is achieved in that for each object to be learned, that is to say to be recognized in the application phase, of identical recognition neurons, that is to say neurons that share the same weights but have different centers, are distributed over the entire coverage area.
Rotationsinvarianz wird dadurch erreicht, dass an jeder Position die Summe der Wavelet-Koeffizienten entlang der unterschiedlichen Orientierungen gespeichert werden.Rotation invariance is achieved by storing the sum of the wavelet coefficients along the different orientations at each position.
Zusammenfassend wird gemäß dem Ausführungsbeispiel während der Lernphase für jedes neu zu lernende Objekt eine eigene Anzahl von Erkennungsneuronen vorgesehen, die in ihren Gewichten die entsprechenden Wavelet-basierende interne Beschreibung des jeweiligen Objekts, das heißt der Merkmalsvektoren, die die Objekte beschreiben, speichern.In summary, according to the exemplary embodiment, a separate number of recognition neurons is provided for each new object to be learned during the learning phase, which store in their weights the corresponding wavelet-based internal description of the respective object, that is to say the feature vectors that describe the objects.
Für jede örtliche Auflösung wird ein Erkennungsneuron erzeugt, das der jeweiligen internen Beschreibung gemäß der entsprechenden Oktave, das heißt der entsprechenden örtlichen Auflösung entspricht und es wird das jeweilige Erkennungsneuron für alle Zentrenpositionen in dem gesamten Erfassungsbereich verteilt angeordnet.For each local resolution, a recognition neuron is generated which corresponds to the respective internal description in accordance with the corresponding octave, that is to say the corresponding local one Resolution corresponds and the respective recognition neuron for all center positions is distributed in the entire detection area.
Die Erkennungsneuronen sind lineare Neuronen, die als Ausgabewert einen linearen Korrelationskoeffizienten zwischen seinen Eingangsgewichten und dem Eingangssignal, die von den Neuronen 206 der Neuronenschicht gebildet werden, die sich in der Merkmalsextraktionseinheit 103 befinden.The recognition neurons are linear neurons, which output a linear correlation coefficient between its input weights and the input signal, which are formed by the neurons 206 of the neuron layer, which are located in the feature extraction unit 103.
Fig.3 zeigt für unterschiedliche Objekte 303, 304 die jeweiligen Erkennungsneuronen 305, 306, 307, 308, 309, 310, 311, 312. Anschaulich wird während der Trainingsphase jedes Objekt zu einer Zeit in dem Erfassungsbereich an einer vorgegebenen, frei vorgebbaren Position bereitgestellt.3 shows the respective recognition neurons 305, 306, 307, 308, 309, 310, 311, 312 for different objects 303, 304. During the training phase, each object is clearly provided at a time in the detection area at a predetermined, freely definable position ,
Die Erkennungsneuronen speichern in ihren Gewichten die Wavelet-basierte Information. Für eine gegebenee PPoossiittion, das heißt einem Zentrum mit den Pixelkoordinaten \Cχf Cyj, sind zwei Erkennungsneuronen für jedes zu lernende Objekt vorgesehen, eines zum Speichern des Realteils der Wavelet- Beschreibung und eines zum Speichern des Imaginärteils der internen Wavelet-Beschreibung.The recognition neurons store the wavelet-based information in their weights. For a given PPoossiittion, that is, a center with the pixel coordinates \ Cχ f Cyj, two recognition neurons are provided for each object to be learned, one for storing the real part of the wavelet description and one for storing the imaginary part of the internal wavelet description.
Die interne Beschreibung der Neuronen nach erfolgterThe internal description of the neurons after
Konvergenz der rekurrenten Dynamik, wie sie oben beschrieben wurde, ist gemäß der folgenden zwei Tensoren gespeichert:Convergence of the recurrent dynamics as described above is stored according to the following two tensors:
wkpq = + rk(p+rcχ)(q+cy)l (2i; w kpq = + r k (p + r c χ ) (q + cy) l (2i;
undand
wobei mit Re ( ) jeweils der Realteil und mit Im() jeweils der Imaginärteil bezeichnet wird und für die Indizes p und q gilt: where Re () denotes the real part and Im () denotes the imaginary part and applies to the indices p and q:
p, q e [- R, R], (23)p, q e [- R, R], (23)
wobei mit R die Breite des rezeptiven Feldes in erfassten Bildpunkten bezeichnet wird.where R is the width of the receptive field in recorded pixels.
Gemäß dem Ausführungsbeispiel wird R = 32 Bildpunkte gewählt.According to the exemplary embodiment, R = 32 pixels is selected.
Während der Trainingsphase wird das Zentrum (cx, Cyj gebildet durch das Helligkeitszentrum des jeweiligen Objekts, welches gegeben ist gemäß :During the training phase, the center (c x , Cyj is formed by the center of brightness of the respective object, which is given according to:
n cx = (24) n n c x = (24) n
undand
Durch Bilden der Summe über alle Indizes 1 wird eine rotationsinvariante Beschreibung des entsprechenden Objekts erreicht.By forming the sum over all indices 1, a rotation-invariant description of the corresponding object is achieved.
Neuronen, die aufgrund einer Anregung in einem anderen Zentrum aktiviert werden, werden auf gleiche Weise gebildet, wobei die gleichen Gewichte zum Erkennen des gleichen Objekts an einer verschobenen Position innerhalb des Erfassungsbereichs verwendet werden.Neurons that are activated due to excitation in another center are formed in the same way, with the same weights for recognizing the same object be used in a shifted position within the detection range.
Die Ausgabe eines Erkennungsneurons im Rahmen der Erkennungsphase ist gegeben durch einenThe output of a recognition neuron in the context of the recognition phase is given by one
Korrelationskoeffizienten, der die Korrelation zwischen den Gewichten und der Ausgabe der Neuronen 206 der Neuronenschicht 205 beschreibt.Correlation coefficient that describes the correlation between the weights and the output of the neurons 206 of the neuron layer 205.
Gemäß dem Ausführungsbeispiel wird die Ausgabe eines Erkennungsneurons in der Erkennungseinheit 104 bei einer örtlichen Auflösung k, bezogen auf die Realteile der Neuronen 206 der Neuronenschicht 205 ) zzuu. der örtlichen Auflösung k und bezogen auf das Zentrum \zx,, Zzyy]) gegeben durch:According to the exemplary embodiment, the output of a recognition neuron in the recognition unit 104 at a local resolution k, based on the real parts of the neurons 206 of the neuron layer 205). the local resolution k and related to the center \ z x ,, Zzy y ]) given by:
Die Ausgabe des entsprechenden Erkennungsneurons für den Imaginärteil ist gegeben durch:The output of the corresponding recognition neuron for the imaginary part is given by:
Λzχ/Zy] _ Λ z χ / Z y] _
Mit (a) wird der Mittelwert und mit σa die Standardabweichung einer Variable a über den Erfassungsbereich, das heißt über alle Indizes p, q, bezeichnet.(A) denotes the mean value and σ a the standard deviation of a variable a over the detection range, i.e. over all indices p, q.
Es ist anzumerken, dass die Neuronen bei jeder örtlichen Auflösung aktiviert werden abhängig von dem Erfassen des gleichen Objekts aber auch abhängig von den unterschiedlichen Positionen, da die gleichen Gewichte entsprechend des Objekts für unterschiedliche Positionen gespeichert sind. Gemäß dem Ausführungsbeispiel sind die Zentren der Erkennungsneuronen derart über den Erfassungsbereich angeordnet, dass sie den Erfassungsbereich vollständig überdecken und jeweils ein Neuron sich mit dem Erfassungsbereich eines weiteren Neurons halb überlappt, das heißt für n = 128 und R = 64 werden neun Zentren an folgenden Positionen angeordnet ((32, 32) (32, 64) (32, 96) (64, 32) (64, 64) (64, 96) (96, 32) (96, 64) (96, 96)).It should be noted that the neurons are activated at every local resolution depending on the detection of the same object but also on the different positions, since the same weights are stored for different positions according to the object. According to the exemplary embodiment, the centers of the recognition neurons are arranged over the detection area in such a way that they completely cover the detection area and one neuron in each case overlaps half with the detection area of another neuron, that is to say for n = 128 and R = 64, nine centers become at the following positions arranged ((32, 32) (32, 64) (32, 96) (64, 32) (64, 64) (64, 96) (96, 32) (96, 64) (96, 96)).
Während der Erkennungsphase werden somit die unterschiedlichen Erkennungseinheiten 104 seriell durch die Steuerungseinheit 106 aktiviert, wie im weiteren beschrieben wird.During the detection phase, the different detection units 104 are thus activated serially by the control unit 106, as will be described below.
Nach der Aktivierung der entsprechenden Erkennungseinheit 104 wird geprüft, ob ein vorgegebenes Kriterium erfüllt ist oder nicht, wobei die Aktivierung der Erkennungsneuronen mit der größten Aktivierung entsprechend der Oktave ermittelt wird, die größer oder gleich ist der aktuellen Oktave, das heißt durch Berücksichtigen nur der aktivierten Erkennungseinheiten 104 zu der entsprechenden Zeit.After the activation of the corresponding recognition unit 104, a check is carried out to determine whether a predetermined criterion is met or not, the activation of the recognition neurons with the greatest activation being determined in accordance with the octave, which is greater than or equal to the current octave, that is to say by taking into account only the activated ones Detection units 104 at the appropriate time.
Anders ausgedrückt wird eine sogenannte Winner-takes-all- Strategie bei der Entscheidung, welches Erkennungsneuron ausgewählt wird, verwendet in einer Weise, dass das ausgewählte Erkennungsneuron, das einem bestimmten Zentrum und einem bestimmten Objekt zugeordnet ist, von der Steuerungseinheit 106 analysiert wird.In other words, a so-called winner-takes-all strategy is used in deciding which recognition neuron is selected in such a way that the selected recognition neuron, which is assigned to a specific center and a specific object, is analyzed by the control unit 106.
Wie im weiteren erläutert wird, kann von der Steuerungseinheit 106 weiterhin entschieden werden, ob die Identifikation des- entsprechenden Objekts ausreichend genau ist, oder eine ob genauere Analyse des Objekts durch Auswahl eines kleineren, detaillierteren Bereichs mit höherer örtlichen Auflösung erforderlich ist. Ist dies der Fall, so werden weitere Neuronen in den weiteren Merkmalsextraktionseinheiten 103 bzw. Erkennungseinheiten 104 aktiviert, so dass die örtliche Auflösung erhöht wird.As will be explained further below, the control unit 106 can further decide whether the identification of the corresponding object is sufficiently precise or whether a more precise analysis of the object by selecting a smaller, more detailed area with a higher local resolution is required. If this is the case, then further neurons are activated in the further feature extraction units 103 or recognition units 104, so that the local resolution is increased.
Wie in Fig. gezeigt ist, wird für den Erfassungsbereich bei gröbster örtlicher Auflösung eine Prioritätskarte von der Erkennungseinheit 104 gebildet, wobei durch die Prioritätskarte einzelne Teilbereiche des Bildbereichs angegeben werden und den entsprechenden Teilbereichen eine Wahrscheinlichkeit zugeordnet wird, mit der angegeben wird, wie wahrscheinlich es ist, dass sich das zu erkennende Objekt in dem Teilbereich befindet (vgl. Fig. ) .As shown in FIG. 1, a priority map is formed by the recognition unit 104 for the detection area with the coarsest local resolution, individual priority areas of the image area being indicated by the priority map and the probability being assigned to the corresponding area areas, indicating how likely it is is that the object to be recognized is in the partial area (see FIG.).
Die Prioritätskarte ist in Fig.4 mit 400 symbolisiert. Ein Teilbereich 401 ist charakterisiert durch ein Zentrum 402 des Teilbereichs 401.The priority card is symbolized with 400 in FIG. A partial area 401 is characterized by a center 402 of the partial area 401.
Die einzelnen Iterationen, in denen verschiedene Teilbereiche und Unterteilbereiche ausgewählt werden und mit jeweils höherer örtlicher Auflösung untersucht werden, wird im weiteren näher erläutert.The individual iterations in which different sub-areas and sub-areas are selected and examined with higher local resolution are explained in more detail below.
Gemäß dem Ausführungsbeispiel ist ein serieller Rückkopplungs-Mechanismus zur Maskierung der Erfassungsbereiche vorgesehen, wodurch sukzessive weitereAccording to the exemplary embodiment, a serial feedback mechanism is provided for masking the detection areas, whereby successive others
Erfassungseinheiten 102 und Merkmalsextraktionseinheiten 103 sowie Erkennungseinheiten 104 entsprechend der jeweils gewählten erhöhten Auflösung k aktiviert werden, das heißt die Steuerungseinheit 106 regelt die Positionierung und Größe des Erfassungsbereichs, in dem visuelle Information von dem System aufgenommen wird und weiterverarbeitet wird.Detection units 102 and feature extraction units 103 and detection units 104 are activated in accordance with the respectively selected increased resolution k, that is to say the control unit 106 regulates the positioning and size of the detection area in which visual information is received by the system and processed further.
In einem ersten Schritt wird das gesamte Bild 201 verarbeitet, jedoch mit der gröbsten örtlichen Auflösung, das heißt es ist nur die erste Erkennungseinheit und Merkmalsextraktionseinheit mit k = N aktiviert. Bei dieser groben örtlichen Auflösung ist üblicherweise praktisch nur die Position des Objekts erkennbar und es wird eine sehr grobe Bestimmung der globalen Form eines Objekts bestimmt.In a first step, the entire image 201 is processed, but with the coarsest local resolution, that is to say only the first recognition unit and feature extraction unit with k = N is activated. With this rough local resolution, usually only the position of the object is practically recognizable and a very rough determination of the global shape of an object is determined.
Abhängig von der jeweiligen Aufgabe wird von der Steuerungseinheit das Ergebnis der Erkennungseinheit als Prioritätskarte gespeichert und es wird ein Teilbereich des Bildes ausgewählt, in dem, wie im weiteren beschrieben wird, Bildinformation untersucht wird.Depending on the respective task, the control unit stores the result of the recognition unit as a priority map and selects a partial area of the image in which, as will be described below, image information is examined.
Die entsprechende Auswahl des Teilbereichs wird durch die gleichen Rückkopplungsverbindungen durch das aktivierte Wavelet-Modul rückgekoppelt.The corresponding selection of the partial area is fed back through the same feedback connections through the activated wavelet module.
Die Auswahl des Teilbereichs, das heißt der Angabe, welche Bildpunkte mit erhöhter örtlicher Auflösung näher untersucht werden, erfolgt abhängig von den Bildpunkten, die das Objekt der zuletzt aktivierten örtlichen Auflösung beschreiben.The selection of the sub-area, that is to say the specification of which pixels are examined in greater detail with increased local resolution, is dependent on the pixels which describe the object of the last activated local resolution.
Die entsprechenden Bildpunkte werden ausgewählt aufgrund der Bildpunkte, die eine gute Rekonstruktion, das heißt eine Rekonstruktion mit einem geringen Rekonstruktionsfehler, sowie durch Bildpunkte, die nicht einem gefilterten schwarzen Hintergrund entsprechen, ermöglicht.The corresponding pixels are selected on the basis of the pixels which enable a good reconstruction, that is to say a reconstruction with a small reconstruction error, and by pixels which do not correspond to a filtered black background.
In anderen Worten ist der Aufmerksamkeits-Mechanismus objektbasiert in dem Sinne, dass nur die Bereiche, in denen das Objekt liegt, seriell mit einer höheren örtlichen Auflösung weiter analysiert werden.In other words, the attention mechanism is object-based in the sense that only the areas in which the object lies are further analyzed in series with a higher local resolution.
Dies bedeutet, dass die entsprechenden niedrigeren Oktaven seriell aktiviert werden, jedoch nur in dem ausgewählten Teilbereich.This means that the corresponding lower octaves are activated serially, but only in the selected section.
Der Aufmerksamkeits-Mechanismus wird mathematisch mittels einer Matrix G^j beschrieben, deren Elemente den Wert „1* aufweisen, wenn die entsprechenden Bildpunkte berücksichtigt werden sollen und den Wert „0' aufweisen, wenn der entsprechende Bildpunkt nicht berücksichtigt werden soll.The attention mechanism is described mathematically using a matrix G ^ j, the elements of which have the value "1 * if the corresponding pixels are to be taken into account and have the value "0" if the corresponding pixels are not to be taken into account.
Bei der gröbsten örtlichen Auflösung im Rahmen derAt the grossest local dissolution within the framework of the
Objekterkennung (k = N) wird das gesamte Bild 201 analysiert, das heißtObject detection (k = N) the entire image 201 is analyzed, that is
gij = 1 Vi, j (28;gij = 1 Vi, j (28;
Die Prioritätskarte wird erzeugt und die Steuerungseinheit 106 entscheidet, welches Objekt in einem weiteren Schritt näher analysiert wird, so dass im Rahmen der nächsthöheren örtlichen Auflösung nur die Bildpunkte, die in dem Bildbereich, das heißt in dem ausgewählten Teilbereich, liegen, berücksichtigt werden.The priority map is generated and the control unit 106 decides which object is to be analyzed in more detail in a further step, so that only the pixels which lie in the image area, that is to say in the selected partial area, are taken into account in the context of the next higher local resolution.
Es werden gemäß dem Ausführungsbeispiel zwei weitere Bedingungen angenommen.According to the exemplary embodiment, two further conditions are assumed.
Die erste Bedingung ist, dass das rekonstruierte Bild Helligkeitswerte I j > 0 aufweist und die zweite Bedingung ist, dass der Rekonstruktionsfehler nicht größer als eine vorgegebene Schwelle ist, das heißt das gilt:The first condition is that the reconstructed image has brightness values I j> 0 and the second condition is that the reconstruction error is not greater than a predetermined threshold, that is to say:
g jE j < α. (29)g jE j <α. (29)
Somit entscheidet die Steuerungseinheit 106, dass das Objekt näher analysiert wird bei einem Zentrum (cx, Cy) in der Prioritätskarte, dann wird die Maske, gegeben durch die Matrix Gij gemäß folgenden Vorschriften aktualisiert: The control unit 106 thus decides that the object is analyzed in more detail at a center (c x , Cy) in the priority map, then the mask, given by the matrix Gij, is updated in accordance with the following regulations:
Im allgemeinen wird die Aufmerksamkeits-Rückkopplung zwischen der örtlichen Auflösung k und der folgenden örtlichen Auflösung k - 1 (das heißt der erhöhten örtlichenIn general, the attention feedback between the local resolution k and the subsequent local resolution k - 1 (i.e. the increased local
Aufmerksamkeit) für k > N nur durch die zwei oben erwähnten Bedingungen geregelt.Attention) for k> N is only regulated by the two conditions mentioned above.
Ein neuer Matrixwert G j ist deshalb gemäß dem Ausführungsbeispiel für die Aktivierung der nächsten, erhöhten örtlichen Auflösung k - 1 definiert gemäß folgender Vorschrift definiert:A new matrix value G j is therefore defined in accordance with the exemplary embodiment for the activation of the next, increased local resolution k-1 in accordance with the following regulation:
Im weiteren wird der Verlauf der verschiedenen Iterationen der Untersuchung der einzelnen Teilbereiche und Unterteilbereiche mit unterschiedlichen örtlichen Auflösungen für eine konkrete Objekterkennung beschrieben.The course of the different iterations of the examination of the individual sub-areas and sub-areas with different local resolutions is described for a concrete object recognition.
Im Rahmen dieses Beispiels sind vier Arten von Objekten vorgesehen, wie sie in Fig.5a gezeigt sind.In this example, four types of objects are provided, as shown in Fig. 5a.
Ein erstes Objekt 501 weist eine globale Form eines H auf und hat als lokale Elemente Objektkomponenten der Form T, weshalb das erste Objekt Ht bezeichnet wird.A first object 501 has a global form of an H and has object components of the form T as local elements, which is why the first object is called Ht.
Das zweite Objekt 502 weist eine globale H-Form auf und als lokale Objektkomponenten ebenfalls H-förmige Komponenten, weshalb das zweite Objekt 502 mit Hh bezeichnet wird. Ein drittes Objekt 503 weist eine globale sowie auch eine lokale T-förmige Struktur auf, weshalb das dritte Objekt 503 mit Tt bezeichnet wird.The second object 502 has a global H-shape and also H-shaped components as local object components, which is why the second object 502 is referred to as Hh. A third object 503 has a global and also a local T-shaped structure, which is why the third object 503 is referred to as Tt.
Ein viertes Objekt 504 weist eine globale T-Form und eine lokale H-Form der einzelnen Objektkomponenten auf, weshalb das vierte Objekt 504 mit Th bezeichnet wird.A fourth object 504 has a global T-shape and a local H-shape of the individual object components, which is why the fourth object 504 is referred to as Th.
Fig.5b zeigt die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das erste Objekt 501 (erkanntes Objekt bei erster örtlicher Auflösung 510, bei zweiter örtlicher Auflösung 511, bei dritter örtlicher Auflösung 512, bei vierter örtlicher Auflösung 513) .5b shows the recognition results of a device according to the invention for different local resolutions, in each case for the first object 501 (recognized object at first local resolution 510, at second local resolution 511, at third local resolution 512, at fourth local resolution 513).
Fig.5b zeigt die ferner die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das zweite Objekt 502 (erkanntes Objekt bei erster örtlicher Auflösung 520, bei zweiter örtlicher Auflösung 521, bei dritter örtlicher Auflösung 512, bei vierter örtlicher Auflösung 523) .5b also shows the recognition results of a device according to the invention for different local resolutions, in each case for the second object 502 (recognized object at first local resolution 520, at second local resolution 521, at third local resolution 512, at fourth local resolution 523).
Fig.5b zeigt weiterhin die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das dritte Objekt 503 (erkanntes Objekt bei erster örtlicher Auflösung 530, bei zweiter örtlicher Auflösung 531, bei dritter örtlicher Auflösung 532, bei vierter örtlicher Auflösung 533) .5b also shows the recognition results of a device according to the invention for different local resolutions, in each case for the third object 503 (recognized object at first local resolution 530, at second local resolution 531, at third local resolution 532, at fourth local resolution 533).
Fig.5b zeigt weiterhin die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das vierte Objekt 504 (erkanntes Objekt bei erster örtlicher Auflösung 540, bei • zweiter örtlicher Auflösung 541, bei dritter örtlicher Auflösung 542, bei vierter örtlicher Auflösung 543) . Wie aus Fig.5b ersichtlich, wird bei der höchsten örtlichen Auflösung das jeweilige Objekt schon mit einer sehr guten, zumindest ausreichenden Genauigkeit erkannt.5b also shows the recognition results of a device according to the invention for different local resolutions, in each case for the fourth object 504 (recognized object with first local resolution 540, with second local resolution 541, with third local resolution 542, with fourth local resolution 543). As can be seen from FIG. 5b, the respective object is already recognized with a very good, at least sufficient accuracy, at the highest local resolution.
Unter Bezugnahme auf Fig.6 wird das Verfahren zur Ermittlung eines Objekts in einem Bild anschaulich noch einmal erläutert.The method for determining an object in an image is clearly explained again with reference to FIG.
In einem ersten Schritt (Schritt 601) wird für die Bildpunkte, das heißt für die Helligkeitswerte derIn a first step (step 601) the for the pixels, that is, for the brightness values
Bildpunkte, des erfassten Bildes eine Merkmalsextraktion mit einer ersten örtlichen Auflösung j - 1 durchgeführt (Schritt 602) .Pixels, a feature extraction with a first local resolution j-1 is carried out on the captured image (step 602).
In einem weiteren Schritt wird aus dem Bild ein erster Teilbereich Tbi gebildet (Schritt 603) .In a further step, a first partial area Tbi is formed from the image (step 603).
Für jeden gebildeten Teilbereich Tbi wird eine Wahrscheinlichkeit dafür ermittelt, dass sich das zu ermittelnde Objekt in dem entsprechenden Teilbereich Tbi befindet. Ergebnis ist eine Prioritätskarte, die die jeweiligen Zuordnungen Wahrscheinlichkeit und Teilbereich enthält (Schritt 604) .For each sub-area Tbi that is formed, a probability is determined that the object to be determined is in the corresponding sub-area Tbi. The result is a priority map that contains the respective assignments probability and partial area (step 604).
Gemäß der gebildeten Prioritätskarte wird ein ersterAccording to the priority card formed, a first one
Teilbereich Tbi mit i = 1 ausgewählt und es werden die Neuronen aktiviert, so dass der ausgewählte Teilbereich in Schritt 605 um dem Wert 1 inkrementiert wird, so dass der ausgewählte Teilbereich Tbi mit einer erhöhten örtlichen Auflösung untersucht wird (Schritte 606, 607) .Partial area Tbi with i = 1 is selected and the neurons are activated, so that the selected partial area is incremented by the value 1 in step 605, so that the selected partial area Tbi is examined with an increased local resolution (steps 606, 607).
In einem Prüfschritt 608 wird geprüft, ob das Objekt mit ausreichender Sicherheit erkannt worden ist (Schritt 608) .In a test step 608, it is checked whether the object has been recognized with sufficient certainty (step 608).
Ist dies der Fall, so wird das erkannte Objekt als erkanntes Objekt ausgegeben (Schritt 609) . Ist dies nicht der Fall, so wird in einem weiteren Prüfschritt (Schritt 610) überprüft, ob ein vorgegebenes Abbruchkriterium erfüllt ist, gemäß dem Ausführungsbeispiel, ob eine vorgegebene Anzahl von Iterationen erreicht ist.If this is the case, the recognized object is output as a recognized object (step 609). If this is not the case, then in a further test step (step 610) it is checked whether a predetermined termination criterion has been met, according to the exemplary embodiment, whether a predetermined number of iterations has been reached.
Ist dies der Fall, so wird das Verfahren beendet (Schritt 611) .If this is the case, the method is ended (step 611).
Ist dies nicht der Fall, so wird in einem weiteren Prüfschritt überprüft (Schritt 612) , ob ein weiterer Unterteilbereich ausgewählt werden soll.If this is not the case, it is checked in a further test step (step 612) whether a further lower part area should be selected.
Soll ein weiterer Unterteilbereich, der mit einer erhöhten Auflösung untersucht werden soll, ausgewählt werden, so wird dieser entsprechende Unterteilbereich ausgewähltIf a further subsection area that is to be examined with an increased resolution is to be selected, this corresponding subsection area is selected
(Schritt 613) und das Verfahren wird in Schritt 606 weitergeführt durch Inkrementierung der örtlichen Auflösung für den entsprechenden Unterteilbereich.(Step 613) and the method continues in step 606 by incrementing the local resolution for the corresponding sub-area.
Ist dies jedoch nicht der Fall, so wird ein weiterer Teilbereich Tbi + 1 aus der Prioritätskarte ausgewählt (Schritt 614), und das Verfahren wird in einem weiteren Schritt (Schritt 605) weitergeführt. However, if this is not the case, a further partial area Tbi + 1 is selected from the priority map (step 614), and the method is continued in a further step (step 605).
In diesem Dokument sind folgende Veröffentlichungen zitiert:The following publications are cited in this document:
[1] A. Treisman, Perceptual Grouping and Attention in Visual Search for Features and for Objects, Journal of Experimental Psychology: Human Perception and Performance, Vol. 8, S. 194 - 214, 1982[1] A. Treisman, Perceptual Grouping and Attention in Visual Search for Features and for Objects, Journal of Experimental Psychology: Human Perception and Performance, Vol. 8, pp. 194-214, 1982
[2] J. Daugman, Complete Discrete 2D-Gabor-Transforms by Neural Networks for Image Analysis and Compression, IEEE-Transactions on Acoustics, Speed and Signal Processing, Vol. 36, S. 1169 - 1179, 1988[2] J. Daugman, Complete Discrete 2D-Gabor-Transforms by Neural Networks for Image Analysis and Compression, IEEE-Transactions on Acoustics, Speed and Signal Processing, Vol. 36, pp. 1169-1179, 1988
[3] D.J. Heeger, Nonlinear Model of Neural Responses in Cat Visual Cortex, Computational Models of Visual Processing, Edited by M. Landy and J.A. Movshon, Cambridge, MA, MIT Press, S. 119 - 133, 1991[3] D.J. Heeger, Nonlinear Model of Neural Responses in Cat Visual Cortex, Computational Models of Visual Processing, Edited by M. Landy and J.A. Movshon, Cambridge, MA, MIT Press, pp. 119-133, 1991
[4] D.J. Heeger, Normalization of Cell Responses in Cat[4] D.J. Heeger, Normalization of Cell Responses in Cat
Striate Cortex, Visual Neuro Science, Vol. 9, S. 181 - 197, 1992 Striate Cortex, Visual Neuro Science, Vol. 9, pp. 181-197, 1992
Claims
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10022480 | 2000-05-09 | ||
| DE10022480 | 2000-05-09 | ||
| PCT/DE2001/001744 WO2001086585A1 (en) | 2000-05-09 | 2001-05-07 | Method and device for determining an object in an image |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| EP1281157A1 true EP1281157A1 (en) | 2003-02-05 |
Family
ID=7641256
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP01940216A Withdrawn EP1281157A1 (en) | 2000-05-09 | 2001-05-07 | Method and device for determining an object in an image |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20030133611A1 (en) |
| EP (1) | EP1281157A1 (en) |
| JP (1) | JP2003533785A (en) |
| CN (1) | CN1440538A (en) |
| WO (1) | WO2001086585A1 (en) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE10163002A1 (en) * | 2001-12-20 | 2003-07-17 | Siemens Ag | Create an interest profile of a person with the help of a neurocognitive unit |
| JP3863775B2 (en) * | 2001-12-25 | 2006-12-27 | 株式会社九州エレクトロニクスシステム | Image information compression method, image information compression apparatus, and image information compression program |
| GB2430574B (en) * | 2004-05-26 | 2010-05-05 | Bae Systems Information | System and method for transitioning from a missile warning system to a fine tracking system in a directional infrared countermeasures system |
| US8370755B2 (en) * | 2007-12-27 | 2013-02-05 | Core Wireless Licensing S.A.R.L. | User interface controlled by environmental cues |
| US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
| US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
| US10192327B1 (en) * | 2016-02-04 | 2019-01-29 | Google Llc | Image compression with recurrent neural networks |
| JP6796085B2 (en) * | 2016-12-02 | 2020-12-02 | アヴェント インコーポレイテッド | Systems and methods for navigation to targeted anatomical objects in medical imaging-based procedures |
| CN107728143B (en) * | 2017-09-18 | 2021-01-19 | 西安电子科技大学 | Radar high-resolution range profile target identification method based on one-dimensional convolutional neural network |
| US12171592B2 (en) | 2019-08-30 | 2024-12-24 | Avent, Inc. | System and method for identification, labeling, and tracking of a medical instrument |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5579439A (en) * | 1993-03-24 | 1996-11-26 | National Semiconductor Corporation | Fuzzy logic design generator using a neural network to generate fuzzy logic rules and membership functions for use in intelligent systems |
| US6714665B1 (en) * | 1994-09-02 | 2004-03-30 | Sarnoff Corporation | Fully automated iris recognition system utilizing wide and narrow fields of view |
| US6263122B1 (en) * | 1998-09-23 | 2001-07-17 | Hewlett Packard Company | System and method for manipulating regions in a scanned image |
| US6639998B1 (en) * | 1999-01-11 | 2003-10-28 | Lg Electronics Inc. | Method of detecting a specific object in an image signal |
-
2001
- 2001-05-07 CN CN01812200A patent/CN1440538A/en active Pending
- 2001-05-07 US US10/276,069 patent/US20030133611A1/en not_active Abandoned
- 2001-05-07 EP EP01940216A patent/EP1281157A1/en not_active Withdrawn
- 2001-05-07 WO PCT/DE2001/001744 patent/WO2001086585A1/en not_active Ceased
- 2001-05-07 JP JP2001583457A patent/JP2003533785A/en not_active Withdrawn
Non-Patent Citations (1)
| Title |
|---|
| See references of WO0186585A1 * |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2001086585A1 (en) | 2001-11-15 |
| JP2003533785A (en) | 2003-11-11 |
| US20030133611A1 (en) | 2003-07-17 |
| CN1440538A (en) | 2003-09-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0780002B1 (en) | Process and apparatus for reconstructing raster-shaped line structures | |
| DE60130742T2 (en) | Pattern recognition with hierarchical networks | |
| DE69516733T2 (en) | Method and system with neural network for determining the position and orientation | |
| DE69031774T2 (en) | Adaptive grouper | |
| DE69610689T2 (en) | System for classifying fingerprints | |
| DE69919464T2 (en) | Electronic device for image alignment | |
| DE4406020C1 (en) | Automatic digital image recognition system | |
| WO2020192849A1 (en) | Automatic identification and classification of adversarial attacks | |
| EP4046049B1 (en) | Attack-deterrent generator, method for preventing an attack on an ai unit and computer-readable storage medium | |
| DE112020000448T5 (en) | CAMERA SELF CALIBRATION NETWORK | |
| DE102019209644A1 (en) | Method for training a neural network | |
| DE60037416T2 (en) | TURNING CORRECTION AND DUPLICATE IMAGES DETECTING WITH PATTERN CORRELATION BY DISCRETER FOURIER TRANSFORM | |
| DE69805280T2 (en) | DEVICE AND METHOD FOR DETECTING PATTERNS. | |
| EP1281157A1 (en) | Method and device for determining an object in an image | |
| DE102018100315B4 (en) | Generating input data for a convolutional neural network | |
| DE69230940T2 (en) | Method for deriving the characteristics of characters in a character recognition system | |
| EP1180258A1 (en) | Pattern recognition by means of an examination of supplementary features after a partial processing | |
| DE102021124252A1 (en) | Neural network systems for abstract thinking | |
| DE102021207613A1 (en) | Process for quality assurance of a system | |
| EP0981802B1 (en) | Method for identifying fingerprints | |
| EP1359539A2 (en) | Neurodynamic model of processing visual information | |
| DE10126375B4 (en) | Object detection method and system | |
| EP4205047A1 (en) | Quality assurance method for an example-based system | |
| EP4097647A1 (en) | Quality assurance method for an example-based system | |
| DE112020001526T5 (en) | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, INFORMATION PROCESSING PROGRAM AND INFORMATION PROCESSING SYSTEM |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| 17P | Request for examination filed |
Effective date: 20021023 |
|
| AK | Designated contracting states |
Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
| AX | Request for extension of the european patent |
Extension state: AL LT LV MK RO SI |
|
| 17Q | First examination report despatched |
Effective date: 20030422 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
| 18D | Application deemed to be withdrawn |
Effective date: 20030903 |
|
| RBV | Designated contracting states (corrected) |
Designated state(s): DE FR GB IT SE |