WO2003053231A2 - Erstellen eines interessenprofils einer person mit hilfe einer neurokognitiven einheit - Google Patents
Erstellen eines interessenprofils einer person mit hilfe einer neurokognitiven einheit Download PDFInfo
- Publication number
- WO2003053231A2 WO2003053231A2 PCT/DE2002/004604 DE0204604W WO03053231A2 WO 2003053231 A2 WO2003053231 A2 WO 2003053231A2 DE 0204604 W DE0204604 W DE 0204604W WO 03053231 A2 WO03053231 A2 WO 03053231A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- unit
- person
- arrangement according
- neurocognitive
- recognition unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/113—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
Definitions
- the gaze direction of the person is determined using a saccade tracker.
- the viewing direction of the person is assigned the objects located in the detected viewing direction, for example text passages or
- the object of the invention is to expand the possibilities for the automated creation of a person's interest profile.
- the Internet and e-business activities should also be taken into account.
- the arrangement for creating an interest profile of a person accordingly has gaze direction detection means for detecting the gaze direction of the person. Furthermore, it has a neurocognitive unit that does this in the Detected object's gaze direction analyzed object based on visual information about the object.
- the visual information is supplied to the neurocognitive unit for the analysis.
- Analyzing includes, for example, recognizing what the object is and where it is. Recognizing what the object is corresponds to a class division in which the object is assigned to different classes, such as cars, trees, etc.
- Intentions of the person can be estimated directly from their viewing behavior on websites.
- the interest profile is thus obtained from a much more original data pool than surfing behavior.
- An iterative estimation process is used to determine and save the person's preferences or current focus of interest from the content of the sections of the website viewed.
- the neurocognitive unit preferably contains an object representation subunit in which the object is represented.
- the object representation subunit is designed to use an adaptive multi-scale feature representation for the object. This is preferably done by a wavelet transformation, in particular a Gabor wavelet transformation. In a bottom-up analysis, the
- Object representation subunit made up of a large number of objects with typical contents, for example images extracted randomly from the Internet, the multiscale representation of the typical image contents.
- the representation combines the advantages of a sparse, distributed code with those of a compact code.
- a sparsely distributed code represents the important features of its length scale with the help of specialized nodes in a high-dimensional space and can thus create complex statistical structures in the
- a compact code strives for representation in as few dimensions as possible, i.e. data compression.
- the training of the object representation subunit of the neurocognitive unit is carried out by means of a learning rule which maximizes the sparseness of the code via the objects under the condition of an optimal object reconstruction.
- the object representation subunit has nodes, compactness is achieved by neglecting the least active nodes at each level.
- the next more global representation is obtained from the previous representation using the same principle.
- the neurocognitive unit preferably has a recognition unit that is associated with a
- Object recognition unit analyzes what the object is.
- the object recognition unit is preferably designed in such a way that it uses prototypical feature vectors for classes of typical objects.
- the recognition subunit also has a location recognition unit that analyzes where the object is.
- the recognition subunit of the neurocognitive unit is based on the recurrent, multiareal visual signal processing in the mammalian vision system. Accordingly, the object recognition unit and the location recognition unit of the recognition subunit are preferably designed separately and interact only with the object representation subunit. During a training phase, neural connections that are now working in the feed forward are switched off by the
- Object representation subunit trained to the object recognition unit and the location recognition unit. They then store prototypical feature vectors for classes of typical objects and typical locations in a recurrent network.
- the trained connections are used as feed-back connections, i.e. in the opposite direction to the training phase, and can be derived from a given object representation of the object in the
- Object representation subunit determine its most likely location and the confidence of its identity through an iterative calculation process in the recurrent network.
- the visual information about the object can be obtained either by evaluating a display on which the object is displayed or by taking a picture in the direction of the person's view.
- the object can be displayed on a display and the visual information about the object is determined by evaluating the display. This procedure is particularly recommended if a person's interest profile is to be created with regard to the websites viewed.
- the objects are, in particular, images displayed on the Internet pages or elements of the images displayed on the Internet pages.
- the arrangement has recording means, in particular in the form of a camera, with which the visual information about the object can be determined by an optical recording. For this purpose, the recording means take a picture in the line of sight of the person.
- This variant is technically more complex to implement, since the recording means cannot generally be arranged directly on the person's eye, so that paralax compensation must be carried out.
- an interest profile of the person can finally be created.
- the analysis preferably determines both what the object is and where it is located.
- the direction of the person's gaze is detected and an object located in the detected direction of the person's gaze is analyzed with the aid of visual information about the object with the aid of a neurocognitive unit.
- the method can be designed in accordance with the advantageous embodiments specified for the arrangement.
- a program product for a data processing system which contains software code sections with which one of the described methods can be carried out on the data processing system, can be implemented by suitable ones
- a program product is understood to mean the program as a tradable product. It can be in any form, such as Example on paper, a computer-readable data medium or distributed over a network.
- Figure 1 shows an arrangement for creating an interest profile of a person
- Figure 2 shows the structure of a neurocognitive unit
- FIG. 1 shows an arrangement for creating an interest profile for a person.
- This arrangement contains virtual reality glasses 11.
- the virtual reality glasses 11 have a display 12 on which, for example, Internet pages, films or any other content can be displayed in two and / or three dimensions.
- the person's head coordinate system is fixed relatively well and the direction of view can be detected by means of direction of view detection 13 in the form of pupil trackers together with a miniaturized CCD camera.
- the use of viewing direction detection means 3 is usually sufficient for only one pupil.
- a movement sensor for example in the form of a gyro sensor, is preferably arranged on the glasses 11 or otherwise on the head of the person, which measures the movements of the head of the person and thus together with the Pupil trackers 13 the
- the person's line of sight is detected.
- the display takes place then externally on a monitor or the person looks at real objects in the room.
- the arrangement preferably also contains optical recording means in the form of a camera, not shown, with which visual information about the object can be determined by an optical recording.
- the optical recording means are preferably arranged in the immediate vicinity of the pupils of the person in order to be able to control the recording direction of the optical recording means directly as a function of the detected viewing direction of the person and to avoid parallax errors.
- the arrangement has an electronic display 12 which can be evaluated directly in order to determine the visual information about an object displayed on the display 12 and viewed by the person.
- the display 12 like the detection of the
- the data processing system 14 is connected to the virtual reality glasses 1 via cables or a radio link.
- the data processing system 14 thus has the viewing direction of the person and the visual information about the object located in the detected viewing direction of the person.
- the data processing system 14 has a neurocognitive unit, which analyzes the object located in the detected line of sight of the person on the basis of visual information about the object.
- the structure of the neurocognitive unit will now be described in detail with reference to Figure 2, which is a schematic diagram of the unit.
- the neurocognitive unit 20 has an object representation subunit 21 that conceptually mimics the early visual areas of mammals, such as VI and V2.
- the neurocognitive unit 20 has a recognition subunit, which in turn has an object recognition unit 22 and a location recognition unit 23.
- the recognition subunit 22 is based on the recurrent multiareal visual signal processing in the mammalian vision system.
- the object recognition unit 22 analyzes what the object is and simulates the ventral current in a simplified form.
- the location detection unit analyzes where the object is and simulates the dorsal current in a simplified form.
- the object representation unit 21 contains orientation-selective, complex cells and hypersplits, as can also be found in the primary visual cortex.
- the object recognition unit 22 contains neural pools which represent specific classes of objects, as happens in the inferotemporal cortex.
- the location recognition unit 23 contains a map which reproduces the positions in retionotropic coordinates.
- the object representation subunit 21 and the object recognition unit 22 are connected to symmetrical connections 24 which are formed by Hebbian learning.
- the object representation subunit 21 and the location recognition unit 23 are connected to symmetrical, localized connections 25, which are modeled by Gaussian weights.
- a competitive interaction within each unit is mediated by inhibitory pools.
- the connections between the units are exciting, whereby a default is made to shape the competitive dynamics in each module.
- the concentration of neural activities in an individual pool in the object recognition unit 22 corresponds to the recognition of an object.
- Concentration of neural activities in a small number of neighboring pools in the location recognition unit 23 corresponds to a localization of the object.
- the object representation subunit 21 provides a buffer on which the object recognition unit 22 and the location recognition unit 23 interact.
- the object representation subunit 21 receives visual information about the object, comparable to a retinal input, and carries out a Gabor wavelet transformation of the input visual information.
- Each pool of neurons encodes a specific spatial frequency
- the responses of the neurons are modeled using complex cell responses.
- the exciting neuronal pools inhibit each other with competitive interaction or lateral inhibition.
- Competitive dynamics are mediated by a number of inhibitory neural pools in each unit.
- the neurocognitive object recognition unit 22 receives a top-down preset that specifies the object class.
- the neurocognitive location recognition unit 23 receives a top-down preset in which the spatial localization is specified.
- the object representation subunit 21 is connected to the object recognition unit 22 and the location recognition unit 23 via feed-forward and feed-back
- the feed-forward connections introduce bottom-up inputs into each unit, while the feed-back connections provide top-down presets for each exciting neural pool in the object representation sub-unit 21.
- the competition in the object representation subunit is carried out with neurons that encode both location and object information.
- the location recognition unit 23 abstracts location information and mediates competition on the spatial level.
- the object recognition unit 22 abstracts information from classes of objects and mediates a competition at the level of the classes of objects.
- the activities of the neural pools are modeled using the mean field approximation. Many areas of the brain organize groups of neurons with similar properties in columns or field assemblies, such as orientation columns, in the primary visual cortex and in the somatosensory cortex. These groups of neurons, called pools, are composed of a large and homogeneous population of neurons that receive similar external input, are mutually coupled, and are likely to function together as a unit. These pools can form a more robust processing and coding unit because of their current
- each pool is modeled by an element.
- the activity of each pool i is characterized by two variables: its activation or immediate mean rate of fire XJ_ and an input current I j _ which is characteristic of all cells in the pool and which fulfills the following input / output relationship:
- Exciting cell pools in each unit compete against each other, which is mediated by an inhibitory pool that receives the exciting input from all exciting pools and a uniform inhibitory feedback to everyone exciting pools.
- the temporal development of the activity of one of the exciting pools as a function of the inhibitory and exciting inputs for the pool is given by the following dynamic equation:
- the first term is a disintegration term through habituation.
- the second term records the recurrent self-excitation to maintain the activity of the neural pool. It mediates the cooperative, exciting interaction in the pool.
- the third term is the inhibitory input from the inhibitory pool.
- Ij_ E is the specific excitatory bottom-up input is for the pool i from a lower cortical unit and Ij_ A specific exciting top-down preset input to the pool of higher cortical module.
- IQ and v are the diffuse spontaneous background input and an additive noise that has a Gaussian mean of zero.
- the inhibitory pool integrates information from all the exciting pools in the unit and returns non-specific inhibition uniformly to all the exciting pools. It mediates the normalization of lateral inhibition or competitive interaction between the exciting pools in the module. Its dynamism is given by:
- the object representation subunit 21 contains a 33 x 33 grid of hyper columns. Each of the hypercolumns contains 24 elements that represent 24 complex pools with 8 different orientations and three scales. The complex pools are modeled by Gabor wavelet filters. The wavelength of the Gabor filters of the three scales is given by 8 pixels, 16 pixels and 32 pixels.
- the retinotopic Map of the object representation subunit 21 covers a visual area of 256 x 256 pixels.
- the fourth term is the bottom-up input
- the fifth term is the top-down feed-back from the location recognition unit 23
- the sixth term is the top-down feed-back from the object recognition unit 22.
- This feed-back Terms are described in the description of the object recognition unit 22 and the location recognition unit 23.
- I 0 and v are spontaneous inputs and noise with the Gaussian mean zero. In the implementation presented here, although there is an exciting pool for any spatial location,
- n the scale index
- the first term is a decay term
- the second term mediates self-excitement between the members of the pool
- the third term is a function of the sum of the activities of all exciting pools on a given scale in the whole unit.
- the inhibitory pool receives input from neurons on a particular scale and inhibits neurons on the same scale.
- the location recognition unit 23 reproduces the spatial localization and ensures the spatial
- Attention selection It is implemented by a grid of 33 x 33 pools, each of which is an input from
- Object representation subunit 21 receives.
- the connection between the pool Ij_j DM in the location recognition unit 23 and a pool I ⁇ -lq ⁇ i n of the object representation subunit 21 is symmetrical and is modeled by Gaussian weights:
- the output current Ij_j of a specific pool is used to display the name of the pool itself.
- the dynamic equation representing the output current activity of the exciting pools in the location detection unit 23 is defined in practically the same way as that in the object representation subunit 21:
- Attention preset that is applied to the pool of the location recognition unit 23.
- the feed forward input i ⁇ DM-EM of, - ⁇ it to the pool of local recognition unit 23 at location (i, j) is given object representation subunit 21 by:
- Ig «- *» ® ⁇ W mlpq F ⁇ I TM q (t)). m, l, p, q
- Object representation subunit 21 is also given by the following Gaussian connection:
- the object recognition unit 22 contains only 5 pools of neurons in the present implementation. Each pool of the object recognition unit 22 is complete with each pool in the object representation subunit 21. Each of these pools represents a specific object.
- the memory of a specific object class c is in the connection weight w cm] _p g between the pool I c of the object recognition unit 22 and the pools I m lpq
- Object representation subunit 21 is reproduced and is trained by supervised Hebbian learning in the following manner: a top-down object attention presetting is imposed on the pool c of the object recognition unit 22 and a top-down attention presetting is imposed on the pool of the location recognition unit 23, which indicates the retinotopic localization, at which the object appears in the overall scene shown on the display 12.
- the active pool of the location recognition unit 23 highlights the corresponding hyperspaces in the object representation subunit 21.
- the co-activation of the corresponding part of the object representation subunit 21 and the object recognition unit 22 reinforce the association of the pool c of the object recognition unit and the reproduced image pattern which is represented in the object representation subunit 21. With each presentation of the stimulus and the top-down preset signal, the system is allowed to enter a stable state. After convergence, all relevant EM-VM connections are updated using the following Hebbian learning rule:
- the object detection unit 22 is similar to the other units in that it has a number of exciting pools and an inhibitory pool that allows competition between the exciting pools.
- the dynamics of a pool of the object recognition unit 22 are given by:
- the feed forward input Object representation subunit 21 for pool c of object recognition unit 22 is given by:
- the feedback from the object recognition unit 22 to the object representation subunit 21 is also established by symmetrical, reciprocal connections:
- the dynamic of the inhibitory pool is given by:
- the interest profile consists of a list of objects that the person viewed particularly often, sorted by and provided with the frequency of the observation. If objects are viewed in the form of images or parts of images, the stored object consists of a feature vector of the neurocognitive unit with the aim of the visual content to characterize the part of the image under consideration, for example to identify the image in question, that is, to recognize it.
- codebook vectors that is, prototypical representatives of a class of similar considered content, are created by a cluster analysis, and the frequency of the cluster members is provided.
- the frequency of viewing is also stored for entire images together with their complete representation, i.e. their feature vector.
- the list and code book vectors are updated throughout the session. A change of interest in the person can result from the increased appearance of new codebook vectors, for example by looking at scientific ones
- Line drawings instead of landscape images, are detected and, if necessary, used to create a new interest profile.
- the person's behavior can be used directly to estimate his current focus of interest and to predict his immediate intentions.
- the use of a neurocognitive unit based on the principles of biological signal processing enables a generalization of the interest profile of the person to image content.
- a keyword search with a conventional search engine can be used to search for websites with similar content, store them in a memory for the pages and make them available to the person.
- a keyword search with a conventional search engine can be used to search for websites with similar content, store them in a memory for the pages and make them available to the person.
- the presentation of existing products in the e-commerce area can be optimized by evaluating the interest profile. This can be done as follows:
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Human Computer Interaction (AREA)
- Heart & Thoracic Surgery (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Biophysics (AREA)
- Ophthalmology & Optometry (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Image Analysis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Percussion Or Vibration Massage (AREA)
Abstract
Die Erfindung betrifft das Erstellen eines Interessensprofils einer Person mit Hilfe einer neurokognitiven Einheit (20).
Description
Beschreibung
Erstellen eines Interessenprofils einer Person mit Hilfe einer neurokognitiven Einheit
In vielen Situationen ist es von großer Bedeutung, das Interessenprofil einer Person zu kennen. Als Beispiel sei hier die klassische Marktanalyse genannt. Mit Hilfe des Internets lassen sich inzwischen die Interessen von Personen aus ihrem Kaufverhalten, aus Statistiken des Surfverhaltens oder auch aus der interaktiven Abfrage ihrer Akzeptanz gegenüber neuen Produkten oder deren Präsentation abfragen. Alle diese Verfahren erfordern jedoch die Durchführung von Aktionen bzw. Transaktionen der Person.
Darüber hinaus sind Anordnungen bekannt, bei denen die Blickrichtung der Person mit Hilfe eines Sakkaden-Trackers bestimmt wird. Der Blickrichtung der Person werden die jeweils in der detektierten Blickrichtung befindlichen Objekte zugeordnet, die beispielsweise Textpassagen oder
Bilder in einer Zeitschrift sind.
Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, die Möglichkeiten des automatisierten Erstellens eines Interessensprofils einer Person zu erweitern. Dabei sollen insbesondere auch das Internet und E-Business-Aktivitäten berücksichtigt werden können.
Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen finden sich in den Unteransprüchen.
Die Anordnung zum Erstellen eines Interessenprofils einer Person weist demnach Blickrichtungsdetektionsmittel zur Detektion der Blickrichtung der Person auf. Weiterhin verfügt sie über eine neurokognitive Einheit, die das in der
detektierten Blickrichtung der Person befindliche Objekt anhand visueller Informationen über das Objekt analysiert.
Für die Analyse werden der neurokognitiven Einheit die visuellen Informationen zugeleitet. Verschiedene
Möglichkeiten des Ermitteins und Zuleitens der visuellen Informationen sind weiter unten beschrieben.
Das Analysieren beinhaltet beispielsweise das Erkennen, was das Objekt ist und wo es sich befindet. Das Erkennen, was das Objekt ist, entspricht einer Klasseneinteilung, bei der das Objekt unterschiedlichen Klassen, wie etwa Auto, Baum etc., zugeordnet wird.
Die Anordnung ist nicht mehr auf die vorherige Kenntnis der Bildinhalte angewiesen, die die Person betrachtet, sondern das betrachtete Objekt in Form eines Bildinhalts wird durch die neurokognitive Einheit analysiert und so der Auswertung zum Erstellen des Interessensprofils der Person zugänglich gemacht. Dadurch können die gegenwärtigen Interessen bzw.
Absichten der Person direkt aus seinem Betrachtungsverhalten von Internetseiten geschätzt werden. Das Interessenprofil wird so aus einem viel ursprünglicheren Datenpool als dem Surfverhalten gewonnen. Aus den Inhalten der betrachteten Internetseitenabschnitte werden durch ein iteratives Schätzverfahren die Vorlieben bzw. der gegenwärtige Interessensfokus der Person ermittelt und abgespeichert.
Die neurokognitive Einheit enthält vorzugsweise eine Objektrepräsentationsuntereinheit, in der das Objekt repräsentiert wird. Die Objektrepräsentationsuntereinheit ist so ausgestaltet, dass sie eine adaptive Multiskalen- Merkmalsrepräsentation für das Objekt verwendet. Diese erfolgt vorzugsweise durch eine Wavelet -Transformation, insbesondere eine Gabor-Wavelet-Transformation.
Im Rahmen einer Bottom-Up-Analyse erlernt die
Objektrepräsentationsuntereinheit aus einer großen Anzahl von Objekten mit typischen Inhalten, zum Beispiel zufällig aus dem Internet extrahierten Bildern, die Multiskalen- Repräsentation der typischen Bildinhalte. Die Repräsentation kombiniert die Vorteile eines spärlichen, verteilten Codes mit denen eines kompakten Codes. Ein spärlich verteilter Code repräsentiert die wichtigen Merkmale seiner Längenskala mit Hilfe von spezialisierten Knoten in einem hochdimensionalen Raum und kann damit komplexe statistische Strukturen im
Bildmaterial einfangen. Dagegen strebt ein kompakter Code eine Repräsentation in möglichst wenigen Dimensionen an, also eine Datenkompression. Das- Training der Objektrepräsentationsuntereinheit der neurokognitiven Einheit erfolgt durch eine Lernregel, die die Spärlichkeit des Codes über die Objekte unter der Nebenbedingung einer optimalen Objektrekonstruktion maximiert . Soweit die Objektrepräsentationsuntereinheit Knoten aufweist, wird Kompaktheit durch Vernachlässigung der am wenigsten aktiven Knoten auf jeder Stufe erreicht. Die nächst globalere Repräsentation wird über dasselbe Prinzip aus der vorhergehenden Repräsentation gewonnen. Eine so erhaltene Objektrepräsentation, die an Prinzipien der neuronalen Kodierung im Sehsystem von Säugetieren angelehnt ist, kombiniert hohe Flexibilität mit optimaler
Diskriminierbarkeit von Objekten in Form von Bildinhalten auf mehreren Längenskalen.
Darüber hinaus weist die neurokognitive Einheit vorzugsweise eine Erkennungseinheit auf, die mit einer
Objekterkennungseinheit analysiert, was das Objekt ist. Die Objekterkennungseinheit ist vorzugsweise so ausgestaltet, dass sie prototypische Merkmalsvektoren für Klassen typischer Objekte verwendet.
Die Erkennungsuntereinheit weist alternativ oder darüber hinaus auch noch eine Ortserkennungseinheit auf, die analysiert, wo das Objekt ist.
Die Erkennungsuntereinheit der neurokognitiven Einheit ist der rekurrenten, multiarealen visuellen Signalverarbeitung im Sehsystem von Säugetieren nachempfunden. Dementsprechend sind Objekterkennungseinheit und Ortserkennungseinheit der Erkennungsuntereinheit vorzugsweise getrennt ausgeführt und wechselwirken nur mit der Objektrepräsentationsuntereinheit. Während einer Trainingsphase werden neuronale, jetzt im Feed- Forward arbeitende Verbindungen von der
Objektrepräsentationsuntereinheit zur Objekterkennungseinheit und zur Ortserkennungseinheit trainiert. Sie speichern anschließend prototypische Merkmalsvektoren für Klassen typischer Objekte und typische Orte in einem rekurrenten Netz. Während der Arbeitsphase werden die trainierten Verbindungen als Feed-Back-Verbindungen, also in umgekehrter Richtung zur Trainingsphase, genutzt und können aus einer gegebenen Objektrepräsentation des Objekts in der
Objektrepräsentationsuntereinheit durch einen iterativen Rechenvorgang im rekurrenten Netz seinen wahrscheinlichsten Ort sowie die Konfidenz seiner Identität bestimmen.
Die visuellen Informationen über das Objekt lassen sich entweder durch Auswerten einer Anzeige gewinnen, auf der das Objekt angezeigt wird, oder durch eine Aufnahme in Blickrichtung der Person.
Nach der ersten Variante ist das Objekt auf einer Anzeige anzeigbar und die visuellen Informationen über das Objekt werden durch Auswerten der Anzeige ermittelt. Diese Vorgehensweise empfiehlt sich insbesondere, wenn ein Interessensprofil einer Person in Hinsicht auf betrachtete Internetseiten erstellt werden soll. Die Objekte sind dabei insbesondere auf den Internetseiten angezeigte Bilder oder Elemente der auf den Internetseiten angezeigten Bilder.
Gemäß der zweiten Variante weist die Anordnung Aufnahmemittel, insbesondere in Form einer Kamera auf, mit denen die visuellen Informationen über das Objekt durch eine optische Aufnahme ermittelbar sind. Die Aufnahmemittel machen hierzu eine Aufnahme in Blickrichtung der Person. Diese Variante ist in ihrer Realisierung technisch anspruchsvoller, da die Aufnahmemittel in der Regel nicht unmittelbar am Auge der Person angeordnet werden können, so dass ein Paralaxenausgleich vorgenommen werden muss.
Durch die Analyse einer Mehrzahl von durch die Person betrachteten Objekten durch die neurokognitive Einheit lässt sich schließlich ein Interessensprofil der Person erstellen. Die Analyse ermittelt dabei vorzugsweise sowohl was das Objekt ist, als auch, wo es sich befindet.
Bei dem Verfahren zum automatischen Erstellen eines Interessensprofils einer Person, wird die Blickrichtung der Person detektiert und mit Hilfe einer neurokognitiven Einheit ein in der detektierten Blickrichtung der Person befindliches Objekt anhand visueller Informationen über das Objekt analysiert . Das Verfahren lässt sich gemäß den für die Anordnung angegebenen vorteilhaften Ausführungsformen ausgestalten.
Ein Programmprodukt für eine Datenverarbeitungsanlage, das Softwarecodeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete
Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Softwarecodeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum
Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.
Weitere wesentliche Merkmale und Vorteile der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Zeichnungen. Dabei zeigt:
Figur 1 eine Anordnung zum Erstellen eines Interessensprofils einer Person und
Figur 2 den Aufbau einer neurokognitiven Einheit
In Figur 1 erkennt man eine Anordnung zum Erstellen eines Interessensprofils einer Person. Diese Anordnung enthält eine Virtual-Reality-Brille 11. Die Virtual-Reality-Brille 11 weist eine Anzeige 12 auf, auf der beispielsweise InternetSeiten, Filme oder beliebige andere Inhalte 2- und/oder 3-dimensional darstellbar sind. Relativ zur Virtual- Reality-Brille ist das Kopf-Koordinatensystem der Person relativ gut fixiert und die Detektion der Blickrichtung kann durch Blickrichtungsdetektionsmittel 13 in Form von Pupillen- Trackern zusammen mit einer miniaturisierten CCD-Kamera erfolgen. Bei einer 2-dimensionalen Anzeige ist in der Regel die Verwendung von Blickrichtungsdetektionsmitteln 3 für nur eine Pupille ausreichend. Bei 3-dimensionalen Anzeigen oder beim Betrachten von realen Objekten im Raum kann durch die Verwendung von Blickrichtungsdetektionsmitteln für beide Pupillen und Vergleich der Blickrichtungen die Entfernung zum durch die Person betrachteten Objekt gemessen werden.
Wird auf die Anzeige 12 in der Brille 11 verzichtet, so ist vorzugsweise an der Brille 11 oder sonst am Kopf der Person ein Bewegungssensor, etwa in Form eines Gyro-Sensors, angeordnet, der die Bewegungen des Kopfes der Person misst und so zusammen mit den Pupillen-Trackern 13 die
Blickrichtung der Person detektiert. Das Anzeigen erfolgt
dann extern auf einem Monitor oder die Person betrachtet reale Objekte im Raum.
Bei der Betrachtung von realen Objekten enthält die Anordnung vorzugsweise noch optische Aufnahmemittel in Form einer nicht dargestellten Kamera, mit denen visuelle Informationen über das Objekt durch eine optische Aufnahme ermittelbar sind. Die optischen Aufnahmemittel sind vorzugsweise in unmittelbarer Nähe der Pupillen der Person angeordnet, um die Aufnahmerichtung der optischen Aufnahmemittel direkt in Abhängigkeit der detektierten Blickrichtung der Person steuern zu können und Parallaxefehler zu vermeiden.
Im in Figur 1 dargestellten Ausführungsbeispiel verfügt die Anordnung über eine elektronische Anzeige 12, die direkt ausgewertet werden kann, um die visuellen Informationen über ein auf der Anzeige 12 angezeigtes und von der Person betrachtetes Objekt zu ermitteln.
Die Anzeige 12 wird ebenso wie die Detektion der
Blickrichtung von einer Datenverarbeitungsanlage 14 gesteuert . Die Datenverarbeitungsanlage 14 ist dazu über Kabel oder eine Funkstrecke mit der Virtual-Reality-Brille 1 verbunden. Der Datenverarbeitungsanlage 14 liegen somit die Blickrichtung der Person und die visuellen Informationen über das in der detektierten Blickrichtung der Person befindliche Objekt vor. Die Datenverarbeitungsanlage 14 weist eine neurokognitive Einheit auf, die das in der detektierten Blickrichtung der Person befindliche Objekt anhand visueller Informationen über das Objekt analysiert.
Der Aufbau der neurokognitiven Einheit wird nun im Detail mit Bezug auf Figur 2 beschrieben, die ein schematisches Diagramm der Einheit darstellt. Die neurokognitive Einheit 20 weist eine Objektrepräsentationsuntereinheit 21 auf, die konzeptionell die frühen visuellen Bereiche von Säugetieren nachbildet, wie beispielsweise VI und V2.
Weiterhin weist die neurokognitive Einheit 20 eine Erkennungsuntereinheit auf, die ihrerseits eine Objekterkennungseinheit 22 und eine Ortserkennungseinheit 23 aufweist. Die Erkennungsuntereinheit 22 ist der rekurrenten multiarealen visuellen Signalverarbeitung im Sehsystem von Säugetieren nachempfunden. Die Objekterkennungseinheit 22 analysiert, was das Objekt ist, und bildet dazu in vereinfachter Form den ventralen Strom nach. Die Ortserkennungseinheit analysiert, wo das Objekt ist, und bildet dazu in vereinfachter Form den dorsalen Strom nach.
Die Objektrepräsentationseinheit 21 enthält orientierungsselektive, komplexe Zellen und Hyperspalten, wie sie auch im primären visuellen Kortex zu finden sind. Die Objekterkennungseinheit 22 enthält neuronale Pools, die spezifische Klassen von Objekten wiedergeben, wie das im inferotemporalen Kortex geschieht. Die Ortserkennungseinheit 23 enthält eine Karte, die die Positionen in retionotropischen Koordinaten wiedergibt.
Die Objektrepräsentationsuntereinheit 21 und die Objekterkennungseinheit 22 sind mit symmetrischen Verbindungen 24 verbunden, die durch Hebbsches Lernen ausgebildet werden. Die Objektrepräsentationsuntereinheit 21 und die Ortserkennungseinheit 23 sind mit symmetrischen, lokalisierten Verbindungen 25 verbunden, die durch Gaußsche Gewichte modelliert werden. Eine kompetitive Interaktion innerhalb jeder Einheit wird durch hemmende Pools vermittelt. Die Verbindungen zwischen den Einheiten sind erregend, wodurch eine Voreinstellung vorgenommen wird, um die kompetitive Dynamik in jedem Modul zu gestalten. Die Konzentration von neuronalen Aktivitäten in einem individuellen Pool in der Objekterkennungseinheit 22 korrespondiert mit der Erkennung eines Objekts. Die
Konzentration von neuronalen Aktivitäten in einer kleinen Anzahl benachbarter Pools in der Ortserkennungseinheit 23
korrespondiert mit einer Lokalisierung des Objekts. Die Objektrepräsentationsuntereinheit 21 stellt einen Puffer zur Verfügung, auf dem die Objekterkennungseinheit 22 und die Ortserkennungseinheit 23 interagieren.
Die Objektrepräsentationsuntereinheit 21 erhält visuelle Informationen über das Objekt, vergleichbar einer retinalen Eingabe, und führt eine Gabor-Wavelet-Transformation der eingegebenen visuellen Informationen durch. Jeder Pool von Neuronen kodiert eine spezifische räumliche Frequenz,
Orientierung und räumliche Lokalisierung. Die Antworten der Neuronen werden durch komplexe Zellantworten modelliert.
In jeder Einheit hemmen die erregenden neuronalen Pools einander mit kompetitiver Interaktion oder lateraler Hemmung. Die kompetitive Dynamik wird durch eine Anzahl von hemmenden neuronalen Pools in jeder Einheit vermittelt.
Die neurokognitive Objekterkennungseinheit 22 erhält eine Top-Down-Voreinstellung, die die Objektsklasse spezifiziert. Die neurokognitive Ortserkennungseinheit 23 erhält eine Top- Down-Voreinstellung, in die die räumliche Lokalisierung spezifiziert. Die Objektrepräsentationsuntereinheit 21 ist mit der Objekterkennungseinheit 22 und der Ortserkennungseinheit 23 über Feed-Forward- und Feed-Back-
Verbindungen gekoppelt. Die Feed-Forward-Verbindungen führen Bottom-Up-Eingaben in jede Einheit ein, während die Feed- Back-Verbindungen Top-Down-Voreinstellungen für jeden erregenden neuronalen Pool in der Objektrepräsentationsuntereinheit 21 zur Verfügung stellen.
Der Wettbewerb in der Objektrepräsentationsuntereinheit wird mit Neuronen durchgeführt, die sowohl Orts- als auch Objektinformationen kodieren. Die Ortserkennungseinheit 23 abstrahiert Ortsinformationen und vermittelt einen Wettbewerb auf der räumlichen Ebene. Die Objekterkennungseinheit 22 abstrahiert Informationen von Klassen von Objekten und
vermittelt einen Wettbewerb auf der Ebene der Klassen von Objekten.
Die Aktivitäten der neuronalen Pools werden unter Verwendung der Mean-Field-Näherung modelliert. Viele Bereiche des Gehirns organisieren Gruppen von Neuronen mit ähnlichen Eigenschaften in Spalten oder Feldzusammenstellungen, wie beispielsweise Orientierungsspalten, im primären visuellen Kortex und im somatosensorischen Kortex. Diese Gruppen von Neuronen, die Pools genannt werden, sind aus einer großen und homogenen Population von Neuronen zusammengesetzt, die eine ähnliche externe Eingabe empfangen, gegenseitig verkoppelt sind und wahrscheinlich zusammen als eine Einheit fungieren. Diese Pools können eine robustere Verarbeitungs- und Kodierungseinheit bilden, weil ihre momentane
Populationsmittelwertantwort, im Gegensatz zum zeitlichen Mittel eines relativ stochastischen Neurons in einem großen Zeitfenster, besser an die Analyse von schnellen Wechseln in der realen Welt angepasst ist.
In der Mean-Field-Näherung wird jeder Pool durch ein Element modelliert. Die Aktivität eines jeden Pools i wird durch zwei Variablen charakterisiert: Seine Aktivierung oder sofortige mittlere Feuerrate XJ_ und einen Eingangsstrom Ij_, der für alle Zellen in dem Pool charakteristisch ist und wobei die folgende Eingabe-/Ausgabebeziehung erfüllt wird:
Xi(t) = FiUit)) =
Tr - rlog(l - X-) '
wobei Tr die absolute Erholdauer der Zelle ist, beispielsweise eine ms und T = 7 ms die Membranzeitkonstante.
Erregende Zellenpools in jeder Einheit stehen im Wettbewerb zueinander, was durch einen hemmenden Pool vermittelt wird, der die erregende Eingabe von allen erregenden Pools empfängt und einen gleichförmigen hemmenden Feed-Back an alle
erregenden Pools leitet. Die zeitliche Entwicklung der Aktivität eines der erregenden Pools als Funktion der hemmenden und erregenden Eingaben für den Pool wird durch die folgende dynamische Gleichung gegeben:
= -h + μF(h(t)) - ηF(IJ(t)) + l (t) + I?(t) + ID + v for - = 1, ...m ,
wobei m die Anzahl der Zellpools in jeder kortikalen Einheit ist. Der erste Term ist ein Zerfallsterm durch Gewöhnung. Der zweite Term erfasst die rekurrente Selbsterregung zum Erhalt der Aktivität des neuronalen Pools. Er vermittelt die kooperative erregende Interaktion in dem Pool . Der dritte Term ist die hemmende Eingabe vom hemmenden Pool. Ij_E ist die spezifische erregende Bottom-Up-Eingabe für den Pool i von einer unteren kortikalen Einheit und I-j_A ist die spezifische erregende Top-Down-Voreinstellungs-Eingabe für den Pool von einem höheren kortikalen Modul. IQ und v sind die diffuse spontane Hintergrundeingabe und ein additives Rauschen, das den Gaußschen Mittelwert Null hat.
Der hemmende Pool integriert Informationen von all den erregenden Pools in der Einheit und gibt eine unspezifische Hemmung gleichförmig an alle erregenden Pools zurück. Er vermittelt die Normalisierung der lateralen Hemmung oder kompetitiven Interaktion zwischen den erregenden Pools in dem Modul. Seine Dynamik ist gegeben durch:
Die Objektrepräsentationsuntereinheit 21 enthält ein 33 x 33 Gitter von Hyperspalten. Jede der Hyperspalten enthält 24 Elemente, die 24 komplexe Pools mit 8 verschiedenen Orientierungen und drei Skalen repräsentieren. Die komplexen Pools werden durch Gabor-Wavelet-Filter modelliert. Die Wellenlänge der Gabor-Filter der drei Skalen wird durch 8 Pixel, 16 Pixel und 32 Pixel gegeben. Die retinotopische
Karte der Objektrepräsentationsuntereinheit 21 deckt einen visuellen Bereich von 256 x 256 Pixel ab.
Die Entwicklung des Aktivitätsniveaus eines erregenden Pools in der Objektrepräsentationsuntereinheit 21 ist gegeben durch :
jEM r-^W = -lΑt) + »F(I%%,(t)) - 7F(I™ i)) + I™f(t) dt
wobei m, 1, p, q Indizes der Pools für unterschiedliche
Skalen m, Orientierungsselektivität 1 und räumliche Position (x, y) = (p, q) sind. Der erste Term der Gleichung ist ein Zerfallsterm in Folge von Gewöhnung, der zweite Term ist die gegenseitige Selbsterregung zwischen den Mitgliedern desselben Pools, der dritte Term ist die kompetitive
Interaktion, die durch den hemmenden Pool vermittelt wird. Der vierte Term ist die Bottom-Up-Eingabe, der fünfte Term ist das Top-Down-Feed-Back von der Ortserkennungseinheit 23 und der sechste Term ist das Top-Down-Feed-Back von der Objekterkennungseinheit 22. Diese Feed-Back-Terme werden bei der Beschreibung der Objekterkennungseinheit 22 und der Ortserkennungseinheit 23 beschrieben. I0 und v sind spontane Eingaben und rauschen mit dem Gaußschen Mittelwert Null . In der hier vorgestellten Implementierung gibt es, obwohl es einen erregenden Pool für jede räumliche Lokalisierung,
Orientierung und Skala gibt, nur drei hemmende Pools in der Objektrepräsentationsuntereinheit 21. Die dynamische Gleichung für das Aktivitätsniveau des Ausgangsstroms iEMI von jedem dieser hemmenden Pools ist gegeben durch
wobei n der Skalenindex ist
Der erste Term ist ein Zerfallstem-, der zweite Term vermittelt die Selbsterregung zwischen den Mitgliedern des Pools, der dritte Term ist eine Funktion der Summe der Aktivitäten von allen erregenden Pools bei einer gegebenen Skala in der gesamten Einheit . Der hemmende Pool erhält eine Eingabe von Neuronen von einer bestimmten Skala und hemmt Neuronen in der gleichen Skala. In einer Simulation benutzte Parameter sind: μ=0,95, γ=0,8, .-=0,1, λ=0,l, Io=0,025 und die Standardabweichung ( σv ) des additiven Gaußschen Rauschens v= 0, 02. τ=τj= 7 ms.
Die Ortserkennungseinheit 23 gibt die räumliche Lokalisierung wieder und gewährleistet die räumliche
Aufmerksamkeitsselektion. Sie ist durch ein Gitter von 33 x 33 Pools implementiert, von denen jedes eine Eingabe von
Pools in einer Anzahl von Hyperspalten der
Objektrepräsentationsuntereinheit 21 erhält. Die Verbindung zwischen dem Pool Ij_jDM in der Ortserkennungseinheit 23 und einem Pool Iπ-l q^^ in der Objektrepräsentationsuntereinheit 21 ist symmetrisch und wird durch Gaußsche Gewichte modelliert :
P<7U ~~ ^ - B
Zur Vereinfachung der Notierung wird hier der Ausgangsstrom Ij_j eines bestimmten Pools benutzt, um den Namen des Pools selbst anzuzeigen. Die Gleichung sagt einfach, dass der EM- Pool am Ort p,q sehr positiv mit dem DM-Pool verbunden ist, der mit dem gleichen Ort korrespondiert, das heißt, wenn i=p und j=q ist. Es gibt auch eine negative Verbindung B zur Umgebung, was zu einer erregenden Zentrums-/hemmenden Umgebungsverbindungsstruktur führt .
Die dynamische Gleichung, die die Ausgangsstromaktivität der erregenden Pools in der Ortserkennungseinheit 23
überschreibt, ist praktisch auf die gleiche Weise definiert wie die in der Objektrepräsentationsuntereinheit 21:
*
wobei ι^ DM,A ^_e externe Top-Down-
Aufmerksamkeitsvoreinstellung ist, die auf den Pool der Ortserkennungseinheit 23 ausgeübt wird. Die Feed-Forward- Eingabe i^ DM-EM von ,-}er Objektrepräsentationsuntereinheit 21 zu dem Pool der Ortserkennungseinheit 23 am Ort (i,j) ist gegeben durch:
Ig«-*»® = ∑ WmlpqF{I™q(t)). m,l,p,q
Der Feed-Back von der Ortserkennungseinheit 23 zur
Objektrepräsentationsuntereinheit 21 wird auch durch folgende Gaußsche Verbindung gegeben:
In dieser Einheit gibt es nur einen hemmenden Pool, der eine Eingabe von allen erregenden Pools erhält und Feed-Back, um jeden Pool gleichförmig zu hemmen, was einen lateralen Winner-Take-All-Hemmmechanismus implementiert .
Die dynamische Gleichung, die die Stromaktivität dieses hemmenden Pools bestimmt, ist gegeben durch:
^ β/Wφ = _J„J _ χF{lDM {t)) + κ ∑ F{IVM{t))
Die Objekterkennungseinheit 22 enthält in der vorliegenden Implementierung nur 5 Pools von Neuronen. Jeder Pool der Objekterkennungseinheit 22 ist vollständig mit jedem Pool in
der Objektrepräsentationsuntereinheit 21 verbunden. Jeder dieser Pools gibt ein bestimmtes Objekt wieder. Die Erinnerung einer bestimmten Objektklasse c ist in dem Verbindungsgewicht wcm]_pg zwischen dem Pool Ic der Objekterkennungseinheit 22 und den Pools Imlpq der
Objektrepräsentationsuntereinheit 21 wiedergegeben und wird durch beaufsichtigtes Hebbsches Lernen in der folgenden Art trainiert: Eine Top-Down-Objektaufmerksamkeitsvoreinstellung wird dem Pool c der Objekterkennungseinheit 22 auferlegt und eine Top-Down-Aufmerksamkeitsvoreinstellung wird dem Pool der Ortserkennungseinheit 23 auferlegt, der die retinotopische Lokalisierung anzeigt, an der das Objekt in der insgesamt auf der Anzeige 12 dargestellten Szene erscheint. Der aktive Pool der Ortserkennungseinheit 23 hebt die korrespondierenden Hyperspalten in der Objektrepräsentationsuntereinheit 21 hervor. Die Koaktivierung des korrespondierenden Teils der Objektrepräsentationsuntereinheit 21 und der Objekterkennungseinheit 22 verstärken die Assoziation des Pools c der Objekterkennungseinheit und das wiedergegebene Bildmuster, das in der Objektrepräsentationsuntereinheit 21 repräsentiert wird. Mit jeder Präsentation des Stimulus und des Top-Down-Voreinstellungssignals ist es dem System gestattet, einen stabilen Zustand einzunehmen. Nach der Konvergenz werden alle relevanten EM-VM-Verbindungen unter Verwendung der folgenden Hebbschen Lernregel aktualisiert:
wobei δw die Veränderung des Gewichts und η der Lernkoeffizient ist. Das Verfahren wird für alle Objekte, die gelernt werden sollen, an allen möglichen Orten wiederholt, bis die Gewichte konvergieren.
Die Objekterkennungseinheit 22 ist insofern den anderen Einheiten ähnlich, dass sie eine Anzahl von erregenden Pools und ein hemmendes Pool aufweist, das den Wettbewerb zwischen
den erregenden Pools vermittelt. Die Dynamik eines Pools der Objekterkennungseinheit 22 ist gegeben durch:
τ*™μ = _/V(<)+/lF(/V(i))_7f(7VM,;(1)) +aI™-EM(t) + IC V^A + /„ + - / wobei IC IT A die externe Top-Down-
Aufmerksamkeitsvoreinstellung ist, die auf den Pool in der Objekterkennungseinheit angewandt wird. Die Feed-Forward- Eingabe
Objektrepräsentationsuntereinheit 21 zum Pool c der Objekterkennungseinheit 22 ist gegeben durch:
Der Feed-Back von der Objekterkennungseinheit 22 zur Objektrepräsentationsuntereinheit 21 wird auch durch symmetrische, reziproke Verbindungen hergestellt:
Die Dynamik des hemmenden Pools ist gegeben durch:
T[di^W = _//r,7 _ χF{Iιτ it)) + K F I( IT dt (*)).
Zur Erstellung des Interessensprofils der Person werden folgende Schritte ausgeführt :
In seiner Rohfassung besteht das Interessensprofil aus einer Liste von Objekten, die von der Person besonders oft betrachtet wurden, sortiert nach und versehen mit der Häufigkeit der Betrachtung. Werden Objekte in Form von Bildern oder Bildteilen betrachtet, so besteht das abgespeicherte Objekt in einem Merkmalsvektor der neurokognitiven Einheit mit dem Ziel, den visuellen Inhalt
des betrachteten Bildteils zu charakterisieren, also zum Beispiel das betrachtete Bild zu identifizieren, das heißt zu erkennen.
Aus den Merkmalsvektoren werden durch einen Clusteranalyse Codebuchvektoren, also prototypische Vertreter einer Klasse ähnlicher betrachteter Inhalte, erstellt, und mit der Häufigkeit der Clustermitglieder versehen. Darüber hinaus wird auch für ganze Bilder die Häufigkeit der Betrachtung zusammen mit ihrer vollständigen Repräsentation, also ihrem Merkmalsvektor, abgelegt. Während der gesamten Dauer der Sitzung werden die Liste sowie die Codebuchvektoren aktualisiert. Ein Interessenswechsel bei der Person kann durch ein verstärktes Auftreten neuer Codebuchvektoren, zum Beispiel durch Betrachten wissenschaftlicher
Strichzeichnungen, anstatt von Landschaftsbildern, detektiert und gegebenenfalls zur Anlage eines neuen Interessensprofils genutzt werden.
Das Verhalten der Person kann direkt zur Abschätzung seines gegenwärtigen Interessensfokusses sowie zur Prognose seiner unmittelbaren Absichten herangezogen werden. Zusätzlich ermöglicht die Verwendung einer an Prinzipien biologischer Signalverarbeitung angelehnten neurokognitiven Einheit eine Generalisierung des Interessensprofils der Person auf Bildinhalte .
Das Interessensprofil schafft Potential für mehrere Anwendungen :
1. Aus der Häufigkeitsverteilung der betrachteten Inhalte können durch eine Stichwortsuche mit einer herkömmlichen Suchmaschine, aber auch durch inhaltsbasierte Bilderabfrage Internetseiten mit ähnlichen Inhalten gesucht, in einem Speicher für die Seiten abgelegt und der Person verfügbar gemacht werden.
2. Durch Präsentation geplanter Produkte in Bild und Text im Internet und die Auswertung von automatisch erstellten Interessensprofilen wird es Firmen ermöglicht, die Akzeptanz von verschiedenen Produktideen, aber auch verschiedener Produkte-Designs auf breiter Basis und ohne großen Aufwand sowohl für Anbieter als auch für Kunden zu ermitteln. Eine breit angelegte Marktanalyse kann auf diese Weise einfach durchgeführt werden.
3. Die Präsentation bestehender Produkte im E-Commerce- Bereich kann durch Auswertung des Interessensprofils optimiert werden. Dies kann wie folgt geschehen:
- Im Rahmen eines Diversifikations-Selektionsschema werden für eine wenig beachtete Produktpräsentation mehrere Alternativen angeboten und anhand der durch das Interessensprofil ermittelten Benutzerakzeptanz bewertet. Es wird eine unbedingte Optimierung durchgeführt.
- Durch einen Vergleich der Interessensstatistik mit der tatsächlichen Online-Bestell-Statistik können ineffiziente Präsentationen durch ein hohes Verhältnis von visueller Attraktion zu Bestellungen identifiziert und anschließend verbessert werden. Beispielsweise könnte ein Produkt auch aufgrund seines besonders abstoßenden Charakters besonders oft betrachtet werden. Hierbei wird eine bedingte Optimierung durchgeführt .
Claims
1. Anordnung zum Erstellen eines Interessensprofils einer Person mit Blickrichtungsdetektionsmitteln (13) zur Detektion der Blickrichtung der Person, dadurch gekennzeichnet, dass die Anordnung eine neurokognitive Einheit (20) aufweist, die das in der detektierten Blickrichtung der Person befindliche Objekt anhand visueller Informationen über das Objekt analysiert.
2. Anordnung nach zumindest Anspruch 1, dadurch gekennzeichnet, dass die neurokognitive Einheit (20) eine Objektrepräsentationsuntereinheit (21) enthält, in der das Objekt repräsentiert wird.
3. Anordnung nach zumindest Anspruch 2, dadurch gekennzeichnet, dass die Objektrepräsentationsuntereinheit (21) so ausgebildet ist, dass sie eine adaptive Multiskalen- Merkmalsrepräsentation verwendet .
4. Anordnung nach zumindest Anspruch 3 , dadurch gekennzeichnet , dass die Objektrepräsentationsuntereinheit (21) so ausgestaltet ist, dass sie eine Wavelet -Transformation verwendet .
5. Anordnung nach zumindest einem der vorhergehenden Ansprüche , dadurch gekennzeichnet, dass die neurokognitive Einheit (20) eine Erkennungsuntereinheit (22, 23) aufweist.
6. Anordnung nach zumindest Anspruch 5, dadurch gekennzeichnet , dass die Erkennungsuntereinheit eine Objekterkennungseinheit (22) aufweist, die analysiert, was das Objekt ist.
7. Anordnung nach zumindest Anspruch 6, dadurch gekennzeichnet, dass die Objekterkennungseinheit (22) so ausgebildet ist, dass sie prototypische Merkmalsvektoren für klassentypische Objekte verwendet.
8. Anordnung nach zumindest Anspruch 7, dadurch gekennzeichnet, dass die prototypischen Merkmalsvektoren der Objekterkennungseinheit (22) in einer Trainingsphase trainierbar sind.
9. Anordnung nach zumindest Anspruch 5, dadurch gekennzeichnet, dass die Erkennungseinheit eine Ortserkennungseinheit (23! aufweist, die analysiert, wo das Objekt ist.
10. Anordnung nach zumindest einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Objekt auf einer Anzeige (12) anzeigbar ist und dass die visuellen Informationen über das Objekt durch Auswerten der Anzeige (12) ermittelbar sind.
11. Anordnung nach zumindest Anspruch 10, dadurch gekennzeichnet, dass das Objekt ein Element einer auf der Anzeige (12) dargestellten Internetseite ist.
12. Anordnung nach zumindest einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Anordnung optische Aufnahmemittel aufweist, mit denen die visuellen Informationen über das Objekt durch eine optische Aufnahme ermittelbar sind.
13. Anordnung nach zumindest einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass durch die Anordnung die durch die neurokognitive Einheit erstellte Analyse des Objekts und durch die neurokognitive Einheit erstellte Analysen von weiteren Objekten zu einem Interessensprofil der Person zusammenstellbar sind.
14. Verfahren zum Erstellen eines Interessensprofils einer Person, bei dem die Blickrichtung der Person detektiert wird, dadurch gekennzeichnet, dass mit Hilfe einer neurokognitiven Einheit (12) ein in der detektierten Blickrichtung der Person befindliches Objekt anhand visueller Informationen über das Objekt analysiert wird.
15. Programmprodukt für eine Datenverarbeitungsanlage, das Softwarecodeabschnitte enthält, mit denen ein Verfahren nach zumindest Anspruch 14 auf einer Datenverarbeitungsanlage (14) ausgeführt werden kann.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10163002.6 | 2001-12-20 | ||
| DE2001163002 DE10163002A1 (de) | 2001-12-20 | 2001-12-20 | Erstellen eines Interessenprofils einer Person mit Hilfe einer neurokognitiven Einheit |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| WO2003053231A2 true WO2003053231A2 (de) | 2003-07-03 |
| WO2003053231A3 WO2003053231A3 (de) | 2003-09-25 |
Family
ID=7710197
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/DE2002/004604 Ceased WO2003053231A2 (de) | 2001-12-20 | 2002-12-16 | Erstellen eines interessenprofils einer person mit hilfe einer neurokognitiven einheit |
Country Status (2)
| Country | Link |
|---|---|
| DE (1) | DE10163002A1 (de) |
| WO (1) | WO2003053231A2 (de) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102019000201A1 (de) | 2019-01-15 | 2020-07-16 | Michael Skopnik | System zur Regelung von Abläufen als Funktion einer Intensität, bevorzugt einer Interaktionsintensität oder Zeitintensität und ein jeweiliges darauf gerichtetes computerimplementiertes Verfahren |
| DE202019000168U1 (de) | 2019-01-15 | 2019-06-06 | Michael Skopnik | Vorrichtung für ein System zur Regelung von Abläufen als Funktion einer lntensität, bevorzugt einer Interaktionsintensität oder Zeitintensität |
| EP3912122A1 (de) | 2019-01-15 | 2021-11-24 | Clickle GmbH | Ablaufregelungssystem als funktion einer intensität, bevorzugt einer interaktionsintensität oder zeitintensität und ein jeweiliges darauf gerichtetes computerimplementiertes verfahren |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6102846A (en) * | 1998-02-26 | 2000-08-15 | Eastman Kodak Company | System and method of managing a psychological state of an individual using images |
| EP1281157A1 (de) * | 2000-05-09 | 2003-02-05 | Siemens Aktiengesellschaft | Verfahren und anordnung zum ermitteln eines objekts in einem bild |
-
2001
- 2001-12-20 DE DE2001163002 patent/DE10163002A1/de not_active Ceased
-
2002
- 2002-12-16 WO PCT/DE2002/004604 patent/WO2003053231A2/de not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| WO2003053231A3 (de) | 2003-09-25 |
| DE10163002A1 (de) | 2003-07-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE112012001984B4 (de) | Integrieren von Video-Metadaten in 3D-Modelle | |
| DE69217047T2 (de) | Verbesserungen in neuronalnetzen | |
| DE10306294B4 (de) | Evaluierung von Benutzerfreundlichkeitskenngrößen für ein Dialog-Anzeigegerät | |
| DE68928895T2 (de) | Verfahren und Gerät für universelle adaptiv lernende Bildmessung und -erkennung | |
| DE102019008142A1 (de) | Lernen von Darstellungen unter Nutzung gemeinsamer semantischer Vektoren | |
| DE69227648T2 (de) | Verbesserte Neuronalnetzwerkbenutzeroberfläche für Anwendungsprogramme | |
| DE112016001796T5 (de) | Feinkörnige bildklassifizierung durch erforschen von etiketten von einem bipartiten graphen | |
| EP3847578A1 (de) | Verfahren und vorrichtung zur klassifizierung von objekten | |
| DE112005000569T5 (de) | System und Verfahren zur Patientenidentifikation für klinische Untersuchungen unter Verwendung von inhaltsbasiertem Erlangen und Lernen | |
| WO2017153354A1 (de) | Verfahren und vorrichtung zum bewerten von blickabbildungen | |
| EP3557487B1 (de) | Generieren von validierungsdaten mit generativen kontradiktorischen netzwerken | |
| DE102017219282A1 (de) | Verfahren und Vorrichtung zum automatischen Erzeugen eines künstlichen neuronalen Netzes | |
| DE102018100315B4 (de) | Erzeugen von Eingabedaten für ein konvolutionelles neuronales Netzwerk | |
| DE102019107064A1 (de) | Anzeigeverfahren, elektronische Vorrichtung und Speichermedium damit | |
| DE112017007247B4 (de) | Bildverarbeitungsvorrichtung | |
| DE102020129018A1 (de) | Tiefe benutzermodellierung durch verhalten | |
| DE10306304B4 (de) | Vorrichtung zur Unterstützung der Benutzerfreundlichkeits-Evaluierung | |
| DE102012105664A1 (de) | Verfahren und Vorrichtung zur Kodierung von Augen- und Blickverlaufsdaten | |
| WO2003053231A2 (de) | Erstellen eines interessenprofils einer person mit hilfe einer neurokognitiven einheit | |
| DE102020208080A1 (de) | Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße | |
| EP1359539A2 (de) | Neurodynamisches Modell der Verarbeitung visueller Informationen | |
| DE102020106857A1 (de) | Mikroskopiesystem und verfahren zum verarbeiten von mikroskopbildern | |
| LU507005B1 (de) | Ein verfahren zur merkmalsextraktion von 3d-punktwolken basierend auf multimodaler aufmerksamkeitssteuerung | |
| BE1031749B1 (de) | KI-basierte Analyse eines Videostroms oder von Fotos zur Berechnung zeitlich veränderlicher Koordinaten und Bewegungswinkel der Gelenkpunkte von Vierbeinern | |
| Butko | Exploring the role of intrinsic plasticity for the learning of sensory representations |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| AK | Designated states |
Kind code of ref document: A2 Designated state(s): CN JP US |
|
| AL | Designated countries for regional patents |
Kind code of ref document: A2 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SI SK TR |
|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
| DFPE | Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101) | ||
| 122 | Ep: pct application non-entry in european phase | ||
| NENP | Non-entry into the national phase |
Ref country code: JP |
|
| WWW | Wipo information: withdrawn in national office |
Country of ref document: JP |