WO2019166591A1 - Système interactif de diffusion de contenu multimédia - Google Patents
Système interactif de diffusion de contenu multimédia Download PDFInfo
- Publication number
- WO2019166591A1 WO2019166591A1 PCT/EP2019/055072 EP2019055072W WO2019166591A1 WO 2019166591 A1 WO2019166591 A1 WO 2019166591A1 EP 2019055072 W EP2019055072 W EP 2019055072W WO 2019166591 A1 WO2019166591 A1 WO 2019166591A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- multimedia content
- computer device
- attributes
- multimedia
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/68—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
- A61B5/6887—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
- A61B5/6898—Portable consumer electronic devices, e.g. music players, telephones, tablet computers
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
- G06F16/636—Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/252—Processing of multiple end-users' preferences to derive collaborative data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2668—Creating a channel for a dedicated end-user group, e.g. insertion of targeted commercials based on end-user profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42201—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/375—Electroencephalography [EEG] using biofeedback
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/377—Electroencephalography [EEG] using evoked responses
- A61B5/38—Acoustic or auditory stimuli
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/68—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
- A61B5/6801—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient specially adapted to be attached to or worn on the body surface
- A61B5/6813—Specially adapted to be attached to a specific body part
- A61B5/6814—Head
- A61B5/6815—Ear
Definitions
- Neurowear's "Mico" headset concept model offers a musical listening routine in which brain waves are detected through the sensor positioned on the forehead, and the associated application analyzes the brain's condition. the user then to search for the most appropriate music possible in a database according to the status of the user.
- the music database has 100 songs that have been previously "neuro tagged” by testing the brain response of several people to these songs. If a user exhibits a brain activity similar to one of the reactions of the users observed previously, the corresponding music is played.
- the sensor on the forehead detects and analyzes the brain waves of the user, determines his mood and matches the user with the most appropriate song.
- WO 2016070188 proposes a musical listening routine also via an intelligent audio headset allowing to listen to music based this time on the emotions learned, the moods and / or The preferences.
- WO 2016040398 makes it possible, through a user interface device, to access multimedia contents, the user is led to indicate his preferences through a tactile surface present on the headset, he can slide his finger on the Touch surface to move to the next music or tap the touchpad to indicate that it likes the music being played to influence the next music.
- a taxonomy model has been implemented to classify the multimedia information units in accordance with a predetermined set of classification parameters and a correlation module based on the taxonomy model allows multimedia content to be played to the favorable reaction indices. . The information found is only when the user interacts with the touch surface. GENERAL PRESENTATION OF THE INVENTION
- the present invention provides a novel way of interacting with multimedia contents in all their forms through neuroscience and artificial intelligence.
- a general aim of the invention is to propose a system for broadcasting multimedia contents appreciated by the user resulting from the analysis of the physiological activity (bio-signals as electro-encephalograms (EEG)) and making it possible to replace the perception at the heart of the multimedia experience.
- EEG electro-encephalograms
- the present invention aims to interpret the brain activity of an individual in real time to adapt the musical listening experience and thus offer the user the music he deserves at every moment.
- the invention makes the musical listening much more immersive by creating new interactions with the multimedia content.
- the proposed system and method is based, in one aspect, on a model for measuring the degree of satisfaction and commitment of the user.
- the user listens to a music and our device is able to know if the user likes or dislikes this audio content by a block analysis, the level of appreciation is measured for each of them.
- the current research in the field of Musical Information Retrieval (RIM) is limited to the simple extraction of musical characteristics, the invention couples to this musical knowledge, a neuroscientific knowledge by the EEG reactions.
- the musical preferences of the user are measured accurately, in order to establish an accurate map of musical tastes.
- the audio contents of the music database do not need to be "neuro-tagged" during pre-listening, the invention thus offers the possibility of discovering a multitude of new multimedia contents perfectly corresponding to the expectations of the user. This last also benefits from the accumulated knowledge of the common pot of users.
- the proposed music recommendation system does not require any tactile interaction or specific gestures to measure the degree of satisfaction of the multimedia content being played.
- the experience can begin as soon as the user wears the headset.
- the musical listening routine is based on the analysis of physiological activity - brain activity as an example.
- the classification of the multimedia contents takes place within an intelligent music database where the physiological data collected by each of the user profiles are stored for each of the multimedia contents listened to.
- the level of satisfaction as well as the commitment do not relate to multimedia content as a whole.
- the analysis is done for each block that composes it. It is thus possible to measure the musical preferences of the user with precision and to propose contents with the appreciated musical attributes. From the first listenings the user obtains quality recommendations.
- the goal is to offer an ultimate musical journey to the user without having to touch anything (neither the headset nor the smartphone).
- the user no longer has to choose an artist, a song, an album, or a playlist on his smartphone (or any computer system). It is about making our musical tastes understood through a joint analysis of the EEG to the music with acoustic footprints of the sounds of which it is composed. From now on, the music "chooses" its user.
- a proposed solution uses in particular a database of users storing all the electrical signals emanating from the human-machine interfaces for each of the user profiles. EEG recordings are recorded continuously while the headphones are playing back content. These masses of data are stored in real-time cloud for each user during the consumption of the multimedia content. These masses of data enable the machine learning to determine how the user reacts to the content, for example, if he likes the piece of music being played and his reaction to the characteristics of the piece.
- a module for making any helmet intelligent can for example be clipped on the arch that surrounds the head of the listener.
- one or more electroencephalography (EEG) sensors measure the real-time brain activity of the subject.
- EEG electroencephalography
- the module then captures the associated user's neural responses.
- the headset understands the uniqueness of the individual and recommends content in an automated manner without the latter having to interact with his smartphone (or any other computer system).
- the reaction resulting from the consumption of multimedia content emanates only from the bio-signals.
- the data associated with the playback of the multimedia contents is stored and analyzed in real time. The more the user wears the headset, the better the choice of content associated with his profile, the latter also benefits from the accumulated knowledge of other users.
- One or more electrodes are positioned on the scalp to record cerebral electrical activity as signals, also called electroencephalography (EEG). These signals are converted and amplified by the device, the bio-signal is transmitted by telecommunication (Bluetooth for example) to a computer system, comprising at least one computing device that can be a telephone clever.
- the device can be easily incorporated into an audio headset but also VR headset (Virtual Reality) or AR headset (Augmented Reality) or headband connected.
- a computer program eg, a mobile application acquires and classifies bio-signals from brain activity to carry out rigorous analysis of biological feedback information and thereby broadcast multimedia content according to information from the user's brain. .
- the invention makes it possible to benefit from multimedia content appreciated by the user by analyzing his reaction to reading content, in particular music through his bio-signals.
- the analysis of the degree of satisfaction can relate to a piece as a whole or according to its intrinsic characteristics.
- One of the goals is to set up a music smart database (a cloud service for customers) that can select in real time the most appropriate content for the user. The latter will enable music players, music applications and streaming services to make smarter, intelligent choices for the user by analyzing the reaction of content and automated selection of appropriate content.
- the response to multimedia content emanates from cerebral responses - the degree of satisfaction of the individual is measured - a reaction report of the response to the musical content is generated.
- the EEG data is recorded for each of the contents being played, thus feeding our intelligent music database.
- the resulting bio-signals are associated.
- Deep learning allows us to measure the satisfaction of the user ("likes” or "I do not like") and thus enrich his musical experience continuously without the latter having to interact with his smartphone.
- the level of satisfaction of the first multimedia content influences the second, etc., the multimedia content being precoded intelligently in databases by means of descriptors.
- the idea is to build a solid cartography of appreciation of a music by an individual.
- the degree of satisfaction and emotions felt associated with multimedia content are detected.
- the invention proposes a system and a method for broadcasting interactive multimedia content.
- the system includes:
- At least one multimedia database storing multimedia contents and a plurality of characteristics associated with these contents, some of these characteristics being quantified attributes of multimedia contents;
- a media player headphones or mobile phone with a "player” type program in communication in order to read the multimedia contents in the database;
- a user database associating at least one attribute of multimedia content with a reaction characterization information of at least one user (the information or information being structured, for example, in terms of parameters defining a user profile);
- At least one computer device that implements the method.
- the method implements the following treatments
- the system includes at least one computing device adapted to divide the multimedia content into frames and process, for each frame, the cerebral signals corresponding to said frame to determine an indicator of the level of user satisfaction for one or more attributes constituting the said frame.
- the computing device is adapted to transform into one or more EEG images the signals of at least one sensor for measuring brain activity for each frame, these EEG images being processed. by neural network to determine an indicator of the level of satisfaction of the user.
- EEG images are here and throughout the present text images constructed from the EEG time series, acquired by the sensor or sensors for measuring brain activity.
- the computer device is particularly adapted to further analyze each frame and provide for it at least one descriptor that characterizes it, the frame descriptor (s) and satisfaction level indicators determined being processed to establish for the user an engine recommendation on the basis of at least one descriptor.
- the computing device is adapted to determine an EEG image from the cerebral signals for each musical phrase of N time, a neural network processing being applied to each EEG image individually.
- the computing device is adapted to determine multiple EEG images from the cerebral signals for each N time musical phrase, wherein neural network processing is applied to the resulting EEG image sequence.
- the media player and / or the computer device (s) are further adapted to select for the user and broadcast multimedia content according to the database characterization information.
- multimedia content it can be a very classical music, a mix of music, a music that evolves over time, or a piece made to measure.
- the various decision parameters emanate from the automated analysis of the physiological activity of the user (example: brain waves).
- Received data or data sets are saved in the user database for future reference.
- the multimedia database and the user database can be organized into a single database.
- a server stores and processes the cerebral signals, the remote computing device broadcasts media content that is appreciated by the consumer.
- MIDI melody (Musical Instrument Digital Interface) can be played by a VST ("Virtual Studio Technology”) instrument, as non-limiting examples, a kick, a hat, a snare , a drum, loops, samples, percussion, voice, bass, effects, drums, synths can accompany it synchronously.
- An evolutionary algorithm makes it possible to combine the various musical fragments in a judicious manner in order to generate music for the user group.
- the retained musical fragments are based on a selection of the user's favorite musical attributes.
- the user will be able to share this piece of custom music, then stored on the cloud, on social networks.
- Computer program when run by a processor: a. Presentation of a first multimedia stimulus to the user,
- EEG signals biological signal measurement
- the system can work in a coupled way to a smartphone, in this case, the media player is materialized by a mobile application for smartphone (remote computing device).
- the media player can be integrated directly into the system (headphones) with the possibility of automatically downloading the most appropriate content for the user when the headset is connected to the cloud service. This content can then be read even off-line at any time without being paired with a smartphone, hence the claim 21.
- the system further includes a communication network interface for communicating with the remote cloud of multimedia information units; the system establishes communication with the cloud to download the most appropriate multimedia content.
- a set of multimedia content can be loaded upstream directly on the system so that it is listening even without an internet connection (no Wi-Fi or mobile data service). This content is then loaded when the system is connected to a network (internet), only the content having meaning for the user is loaded.
- the update of the embedded music content directly on the system takes place automatically as soon as the headset is connected again to the cloud.
- the selection module uses the results of the reactions obtained by the user and thus the attributes appreciated, downloads multimedia content having characteristics similar to those appreciated by the user.
- the invention also proposes a virtual platform for consuming the multimedia content, it can be accessed directly through the system or via a smartphone connected to the same system.
- At least one computing device loses communication to the remote computing device present on the communication network (network transfer).
- the latter automatically plays back previously downloaded multimedia content.
- the cerebral signals are stored and will be transmitted to the remote computing device present on the communication network later, when the communication network resumes.
- the system also has the following different features taken alone or in combination:
- the system is able to synchronize several pieces of music - supposed to be appreciated by the user - between them so that a first song is synchronized with a second one according to the same BPM (beats per minute), a second with a third and so on so that the pieces are linked together to create a nice listening mix, in real time, in the same way that a DJ learns from the crowd.
- BPM beats per minute
- a “stems” is a multitrack audio format that usually allows DJs and live performers to separate tracks from a song and process them individually.
- the stems format divides the tracks into four different elements and then isolates them from each other.
- the system is able to edit audio content in real time.
- the user decides to play music content available on the cloud service. Reading the user's real-time physiological activity and the preferences observed at the user can enable or disable the volume of certain music items over time by always leaving at least one of the pieces of music active (bass, drums, synths, vocals, percussion, etc.). These bits of music are stored in the intelligent music database. Only bits of music that are supposed to be appreciated by the user will compose the musical streaming. Musical sound effects (presets) can also modulate music elements.
- the system is able to generate customized multimedia content, the music file is created in this case according to the intelligent music database according to a key and a beat per minute (BPM). On this basis comes to rest a melody in MIDI format, this melody marries an instrument (VST). A perfectly synchronized voice can come to rest, loops consisting of kicks, snare, hats, percussion; as well as effects can also accompany the other musical elements.
- the system is able to create chords and accompaniment by means of machine learning.
- At least one computing device is adapted to process the audio signal in blocks and to associate with each block one or more attributes.
- At least one computing device is adapted to divide the audio signal into predefined size frames and analyze each frame to provide at least one descriptor.
- the computer device is adapted so that the duration of the frames are a function of a musical parameter determined on the audio signal.
- a musical setting is a note attack or a tempo.
- An attribute belongs to the following list: duration, intensity, timbre, pitch, density, material, contrast, melodic movement, tempo.
- the system comprises a module adapted to be removably clipped on the arches of an audio headset and / or AR and / or VR, said module incorporating at least one sensor for measuring brain activity.
- the system further comprises a machine learning classifier (ML) adapted to classify cerebral signals and to analyze them to measure a degree of user satisfaction resulting from the playback of the multimedia content.
- ML machine learning classifier
- At least one computing device is configured to transmit satisfaction information of the multimedia content being read to a remote computing device present on the communication network.
- the computer device is adapted to transform the cerebral signals into images, these images being processed by convolutional neural networks (CNNs).
- CNNs convolutional neural networks
- the computing device is adapted to determine an image for each musical phrase of N time, the neural network processing being applied to each image individually.
- the computer device is adapted to determine several images for the same sentence, the neural network treatment being applied to the image sequence thus obtained.
- a computing device is adapted to implement an ESN processing on said brain signals and corrects the holes during an acquisition failure.
- a computer device is adapted to synchronize the acquisition of signals with respect to the playback of multimedia content.
- a computer device is adapted so that the acquisition of signals occurs during the broadcasting of multimedia content, intermittently, periodically or continuously.
- At least one computing device is configured to generate a user tracking report.
- At least one computer device updates the user database according to the acquisitions of cerebral signals. - At least one computer device updates the database with the results of the association processing when at the end of an offline period, it retrieves a communication allowing a remote update.
- At least one computing device comprises a learning mechanism that classifies the attributes constituting the multimedia content according to the level of satisfaction measured over the plays, the result of this classification is stored in the database, said database being searchable from the attributes.
- At least one computing device is adapted so that the multimedia content being read depends on a user profile and the accumulated knowledge of the other users using the system.
- the media player is suitable for querying the database, downloading remote multimedia contents with attributes similar to those appreciated by the user, and storing them for later offline reading, the media player automatically switches to reading previously downloaded content.
- At least one computer device is adapted so that the multimedia contents are automatically updated when a connection is re-established.
- At least one computer device is adapted to select several multimedia contents corresponding to a satisfaction rate higher than a given threshold and having certain similar attributes and implements a mixing of these contents in real time.
- At least one computer device is adapted to modify the multimedia content being read in according to the attributes it presents and the degree of satisfaction associated with these attributes for the user.
- At least one computing device is adapted so that elements of multimedia contents are deactivated when the degree of satisfaction associated with the attributes of these contents is below a threshold for the user.
- At least one computer device is adapted to generate multimedia content according to the attributes that are appreciated by the user.
- - Said computer device is adapted so that the multimedia content is generated according to a key and a beat per minute (BPM) previously selected.
- BPM beat per minute
- At least one computer device is adapted so that the multimedia content obtained is stored remotely.
- the system comprises a server adapted to interrogate the database of the attributes that are appreciated by a user, said database identifying at least one user having a similar listening history or a similarity of preferred attributes.
- At least one computer device is adapted to change the multimedia content played by replacing it with another when the degree of satisfaction of the user is below a given threshold.
- FIG. 1 illustrates the general principle of a possible implementation of the invention in the case of a headset coupled to an application
- FIG. 2 illustrates an exemplary EEG signal processing chain
- FIG. 3 illustrates a possible convolutional neural network
- FIG. 4 illustrates an implementation mode in which the LSTM layers are applied (multi-frame architecture);
- FIG. 5 illustrates the measurement of the level of satisfaction of the user from a splitting into frames of the audio signal (intelligent database);
- FIG. 6 illustrates a mode of implementation in which the headset is offline
- FIG. 7 illustrates a logic of selection of music by similarity of attributes (Logic A);
- FIG. 8 illustrates another logic of music selection by seeking similar reactions among other users (Logic B - musical travel according to the common pot of users);
- FIG. 9 illustrates the coupling of the logic illustrated in FIGS. 7 and 8 with a conventional musical content selection approach.
- the automatic analysis of the musical audio signal is linked to many criteria.
- the physical and acoustic characteristics of the musical sound (temporal evolution, transients, spectral analysis and frequencies) related to the parameters of the stimulation of the ear are taken into consideration.
- Music is a complex object, a multidimensional object. Any piece of music can be represented as a sequence of sounds organized in time. An interest is brought in the analysis of the temporal structure of a piece of music (temporal organization of the musical elements that compose it).
- the algorithms for analyzing the audio signal operate according to a block processing approach.
- the audio signal (500-a) is then divided into predefined size frames (500-b). Frame durations depend on a musical setting, such as note attacks or tempo.
- the algorithm analysis (500-c) then produces a descriptor (500-d).
- a descriptor is a numerical value extracted from the audio signal whose purpose is to represent a particular property or its content.
- Each frame is thus characterized by a set of attributes that can be descriptors (that is to say numerical values) or be constituted by another characterization information (example: presence of violin or voice).
- the attributes of each frame are for example chosen from the following attributes:
- Duration Represents sound spread over time (long / short). Duration is closely related to rhythm.
- Intensity Impression of strength or weakness produced by a sound. It is characterized by the sound volume (soft / loud). The intensity is related either to the power with which one plays an instrument (including the voice), or to the number of instruments put in play simultaneously.
- the timbre The specific quality of the sound, its "color”, characteristic of the presence and mobility of the harmonics that compose it. It allows a listener to "judge as dissimilar two sounds presented under the same conditions and having the same sound dynamics and the same height" (USA Standard Acoustical Terminology, Stamp, 1960). It can also be defined as the "identity card” of an instrument or a voice.
- One way of describing the timbre is to encode the spectral envelope of the portion of the audio signal (500-a) contained in the frame (500-b) associated therewith.
- MFCCs Mel Frequency Cepstral Coefficients
- the amplitude spectrum of a portion of the signal (500-a) is calculated by a discrete Fourier transform
- This log-spectrum is filtered by a bank of regularly spaced triangular filters on the Mel scale to take into account certain characteristics of human hearing,
- cepstral coefficients are obtained by performing a discrete cosine transform, the latter making it possible to obtain a compact and informative description of the timbrai content of the signal.
- the pitch Represents a serious or acute auditory sensation depending on whether the frequency of the vibration producing the sound will be higher or lower.
- the "tonal" type descriptors are intended to describe the content of a portion of the signal (500-a) in terms of a set of pitch values with reference to the chromatic scale of western music theory. They are useful for studying the signal from the point of view of melody, harmony, and tone.
- the harmonic content of a portion of the audio signal (500-a) is generally described via a chroma vector. It is usually defined as a vector of dimension 12 which represents the average energy associated with each half-tone of the chromatic scale, on all the octaves audible by a human ear. To obtain this descriptor, we calculate the power spectrum of the portion of the signal considered. Each frequency of the spectrum is labeled according to the half-tone that is closest to it. The arithmetic mean of the frequencies energies associated with each semitone is then calculated without octave distinction to obtain each coefficient of the chroma vector.
- Density This is the amount of sound elements contained in a music. The number can vary without changing the intensity. The sound space can be "ventilated” or “compact”.
- Contrast Created by the juxtaposition of intensities, heights, different timbres.
- the melodic movement It is the auditory direction that the melody takes. It is defined by two criteria: meaning (ascending or descending) and quality (joint or disjoint)
- Tempo This is the reference speed of the beat of a song and is measured in beats per minute (or beat per minute, BPM).
- the musical phrase The music is comparable to a narrative discourse, it is composed of sentences that have a beginning, a "middle", an end. The understanding of a sentence stems from rhythm and breathing. The sentences composing a music can be more or less long.
- the structure of the extract The pieces of music are characterized by the arrangement of characteristic structural segments, or musical form. Does it only form one theme? Many ? Does it have a verse / chorus form? The pieces of music are characterized by the arrangement of characteristic structural segments, or musical form.
- Sequential modeling is used to model the temporality of music and in particular to analyze repetitive structures.
- the analysis of the audio signal including the repetition of themes, sound patterns, rhythms, etc., can be the source of the pleasure produced by audio content.
- the analysis and tracking of repetitive structures enriches the course of musical content, including allowing the user to listen to a piece of music avoiding sections, less appreciated.
- the physiological activity of the individual is recorded.
- the individual II listens to a first music Ml (audio signal).
- the brain wave I1M101 of the individual II is stored during the playback of the music Ml to analyze its reaction to the attributes of the music for each of the frames.
- This same music Ml has been listened to previously by a set of other individuals (12, 13, 14, 15 ). During the reading of this content Ml, the resulting brain wave (02, 03, 04, 05 %) was stored for each individual.
- the computer program (reading device) will choose an M2 music with the attributes appreciated present within the music Ml.
- the individual II listens the music M2, we store the brain wave I1M201 of the individual II during the playback of the music M2 to analyze its reaction to the attributes of the music.
- DNNs Deep neural networks
- the traditional audio indexing approach is based on i) a phase of extraction of audio descriptors, ie the computation of new more compact representations of the essential information, and ii) a phase of modeling of the correlations between these descriptors for each category studied.
- MFCC Mel-Frequency Cepstral Coefficients
- KDE Kernel Density Estimation
- MLP multilayer perceptron classification
- neural networks particularly acyclic networks (feed-forward) such as convolutional neural networks (or convolutional neural networks, or ConvNet) for the extraction of characteristics, the classification being able to be realized by multilayer perceptron (multilayer perceptron MLP).
- feed-forward such as convolutional neural networks (or convolutional neural networks, or CNN or ConvNet)
- CNN or ConvNet convolutional neural networks
- This feature extraction can also be performed via a Deep Belief Network (DBN) on a Discrete Fourier Transform (DFT) audio and use SVMs as a classifier.
- DBN Deep Belief Network
- DFT Discrete Fourier Transform
- a Shift-Invariant Sparse Coding (SISC) processing provides a high level of input data representation.
- Convolutional Deep Belief Network (NBDB) processing can also be used to classify audio files.
- the sensations induced by the same musical content are specific to each, the same music can be perceived in a different way. In the same way, the sensation induced by a music can vary in the individual during his life.
- Various digital identification techniques such as "fingerprinting” (acoustic fingerprinting) make it possible to associate the digital audio content of a work with a fingerprint (or signature) linked to the musical content, which makes it possible to uniquely identify it within a database.
- the user listens to music offered by the system.
- Digital audio identification systems isolate a set of signal characteristics. These features are stored for each music on a database located on a central server.
- the headset will then proceed to the following request: Search for a musical work having a significant number of similarities appreciated (similarity of attributes) compared to the previous music.
- the learning can be done on the common pot of users ( Figure 8).
- logic A and B for the selection of music is illustrated in Figure 9.
- the selection of the appropriate musical content is based on logic A ( Figure 7) and / or logic B ( Figure 8) and on usual approach that takes into account the musical tastes of a user, tracking applications available on a smartphone, playlists of multimedia content, favorite tracks as well as data from social networks.
- the system comprises an EEG sensor headset 101, an intelligent module 102 (processors, memories) connected to the EEG biosensors of the headset 101.
- Said module 102 is itself connected to a headset 101.
- computer system 103 such as a telephone, a tablet, a laptop, connected watch with which it exchanges via telecommunication protocols (107): Long-range network (3G, 4G), communication via hub (Bluetooth, wifi), network short range (RFID, N FC).
- the computer system uses a software application 105 for reading media contents themselves stored in a database 104 on a remote server.
- the application 105 is for example able to integrate natively the various streaming services such as Spotify®, Deezer®, Soundcloud®, Apple Music®, Tidal®, YouTube Music®, Amazon Prime Music® ...
- the 105 application has been designed to be able to work with both mobile (iOS and Android) and fixed (Windows and Mac) device interfaces.
- the contents selected and sent to the computer system 103 and its application 105 are themselves transmitted by this application 105 to the headphones 101.
- the EEG sensors of the helmet 101 can be located on the headband of the helmet and / or on the loudspeakers and / or the front.
- the data produced by the equipment is stored in the "cloud”.
- the module 102 pre-processes the cerebral signals and transmits them to a remote server 106 (which may be the same as that of the database of the multimedia contents) on which different learning algorithms ("Machine Learning") are implemented. Described below.
- the content can be broadcast other than on a smart headset: speakers, headphones, headphones, glasses etc ...
- the pretreatment may not be implemented by the module 102 associated with the helmet 101 but may be performed with the rest of the processing on the cerebral signals at the server 106.
- the module 102 may be an independent element of the helmet 101 that incorporates biological sensors. It is adapted to clip on a conventional helmet and when it is clipped, position the sensors relative to areas of interest on the scalp of the user. In this way, it is possible to instantly transform any headset available on the market into a smart headset now able to acquire brainwave signals through integrated EEG sensors, to appreciate the changes in real time, and to deal effectively with them through the "Machine Learning" in particular to disseminate to the user of multimedia content having meaning.
- the technology is thus intended:
- the device also makes sense in the field of virtual reality (Virtual Reality VR - Oculus Rift, HTC Vive, VR Playstation, Google Cardboard, Samsung Gear VR, Homido) and augmented (Augmented Reality AR - Magic Leap, Microsoft HoloLens) the possibilities of applications are numerous.
- Virtual reality VR and Augmented Reality (AR) helmets for example, incorporate EEG sensors and a computer package equivalent to module 102.
- Professionals can also develop their own applications based on our technology.
- SDK Source Software Development Kit
- SDK Source Software Development Kit
- the proposed system is able to "read” the human brain in real time and via a machine learning algorithm to interpret these brain activity changes to give the user the right music at the right time.
- the user no longer has to choose an artist, a song, an album, or a playlist. From now on, the music "chooses" its user.
- the product responds to the problem of musical curation. It is difficult to find happiness among more than 40 million music available on the usual streaming platforms.
- the system thus constitutes for the user whoever it is (music lovers, sportsmen, office workers) and whatever the context in which it evolves (running, running, cycling, resting) an assistant staff able to learn and adapt to the unique character of each.
- the proposed system is a human-machine interface ("Brain-computer interface” (BCI) or “Direct Neural Interface” (IND)) which records in real time by brain signal sensors the physiological activity of the user.
- BCI Brain-computer interface
- IND Direct Neural Interface
- this consists of a set of dry electrodes in contact with the scalp.
- the electrical signals emitted by the neurons are then recorded in real time in a non-invasive manner for the user.
- Preprocessing - Signal amplification and digitization Once the analog electrical signals have been measured, the latter are digitized and pretreated to obtain a characterization of the brain waves in terms of frequency and amplitude. As illustrated in Figure 1, the spectrum can be divided into 4 frequency bands, in ascending order: Delta ( ⁇ 4 Hz), Theta (4-8 Hz), Alpha (8-13Hz), Beta (13- 30 Hz).
- Cerebral electrical activity is non-linear and non-stationary. EEG signals are variable in time.
- the pretreatment can be associated with a filtering to rid the recorded signals, artifacts such as background noise or muscle movements, in order to extract relevant information.
- the pretreatment can be carried out using a Fourier transform, or a discrete wavelet decomposition which offers the particular advantage of analyzing the evolution of the frequency content of the signal in the time.
- the cerebral signals are then classified, analyzed and interpreted at the level of the server 106.
- the duration of the signals, their frequency and their distribution in space are taken into account for this operation.
- Several techniques of machine learning (or "Machine Learning” in English) and classification can be implemented on the measured physiological data.
- the algorithms make predictions based on a set of examples.
- discrimination the machine is automatically taught to categorize an observation among a fixed and known number of categories, also called classes or labels. This is done using a learning set, that is, a set of examples of each class on which the classes are known. For example, for the measurement of a degree of satisfaction, learning can use two categories: satisfied, not satisfied. Intermediate categories could also be considered.
- the system can observe the degree of interest in the contents and classify them into two categories ("arouses an interest for the user""does not arouse the pure interest of the user") or more if one wants to introduce intermediate levels of perception of multimedia content, which constitutes complex problems for a machine.
- This categorization processing is implemented on the cerebral signals detected during the reading of a given multimedia content.
- this multimedia content is itself associated with attributes, the categorization makes it possible to associate a degree of satisfaction (that recorded on the multimedia content played) with an attribute present in the multimedia content in question.
- SVM wide-margin separators
- supervised learning examples include: k-nearest-neighbor method, bayesian na ⁇ ve classification, Bayesian networks, fuzzy logic model, boosting, decision trees (CART), random forests, multiple linear regression (MLR) ), partial least squares regression (PLS), sparse-PLS, principal component regression (PCR), version space, discriminant factor analysis (FDA), probabilistic classification models.
- the reliability of object classification rules can be measured, for example, by bootstrap or by cross-validation, there are at least three techniques (“test and validation” or “holdout method”, "k- fold cross-validation "and” leave-one-out cross-validation "(LOOCV)).
- learning can be unsupervised: k-means, self-organizing maps (SOM) or Kohonen, adaptive resonance theory (ART) [Carpenter & Grossberg (1987)], hierarchical ascending classification (CAH) [Lance & Williams (1967)].
- SOM self-organizing maps
- ART adaptive resonance theory
- CAH hierarchical ascending classification
- Semi-supervised learning makes it possible to combine data with labels and without labels.
- learning can be done using a learning and classification system based on networks of artificial neurons ("Deep Neural Networks").
- the EEG is decoded by implementing a deep learning treatment "Deep learning”.
- the sensor data is compared with the data the system has learned. He classifies them, with a certain probability of precision.
- FIG. 2 is a flowchart illustrating an exemplary EEG signal processing chain (200).
- CNNs convolutional neural networks
- RNNs recurrent neural networks
- each of the multimedia contents is previously divided into blocks, each of the blocks corresponding to a musical phrase of 8 beats.
- step 202 the EEG electrodes are placed on the scalp in a three-dimensional space, the latter measuring three frequency bands: theta (4-7Hz), alpha (8-13Hz) and beta (13-30Hz).
- the approach considered is based on a transformation of the EEG data into multi-dimensional input images (tensors) in order to maintain the data structure along the learning process according to three frequency bands of theta (4-7Hz), alpha ( 8-13Hz) and beta (13-30Hz).
- EEG electrical activity is transformed into multispectral images to preserve the topology.
- step 203 the brain activity measurements are transformed into a 2D image (203-a) to preserve the spatial structure and several color channels are used to represent the spectral dimension.
- the location of the electrodes of the three-dimensional space is projected onto a 2D surface.
- the Postel projection - which is none other than an equidistant azimuthal projection - the distances between the projection center and any other point are preserved. Apply this method on location of the 3D electrodes allows to obtain 2D projections of electrode locations.
- a "Clough-Tocher" (203-b) cutting is carried out.
- the Clough-Touch subdividing approach allows triangulation of the points formed by the electrodes positioned on the scalp, forming a network of triangles. Each triangle area is subdivided into three sub-triangles by joining the barycenter - mesh point - with the three vertices thus allowing to refine the mesh. This procedure is repeated for each of the frequency bands of interest.
- sequence of spectral topographic maps are merged to form a sequence of three color-channel images that are introduced into a recurrent-convolutional neural network for representation and classification.
- a convolutional neural network is driven based on image classification techniques to learn representations from the EEG image sequence (301). This method is particularly appropriate in order to preserve the spatial, spectral and temporal structure of the EEG and thus to find characteristics less sensitive to the variations and distortions in each dimension.
- the architecture implemented breaks down into two parts.
- the first part of the architecture consisting of a succession of convolution and aggregation layers, is dedicated to the automatic extraction of characteristics (302).
- the proposed architecture implements several deep neural networks comprising a succession of convolutional layers that processes the data of an alternating receiver field with aggregation layers ("pooling").
- This succession makes it possible to compress the information by reducing the size of the intermediate image in order to extract characteristics automatically.
- Spatial aggregation layers can be seen as aggregation functions, for example "max-pooling”. They then output the pixel whose value is maximum vis-à-vis the output of the convolution filters. This step makes it possible to reduce the size of the image.
- the "pooling" operation a subsampling step, saves computing time.
- ReLU Correction layers
- the second part of the architecture composed of layers of completely connected neurons, is dedicated to classification (303).
- a "top-level reasoning" type of processing is implemented. This treatment is done in the neural network via layers of fully connected neurons allowing classification. Neurons in a fully connected layer have connections to all the outputs of the previous layer. Once obtaining this last layer “fully connected”, the function softmax [C. Bishop, 1995] is used. For a set of values
- the alel e softmax provides a probability distribution of belonging to each class.
- Each class will have a real value in the range [0, 1] (step 205).
- step 204-a In order to classify the psychological states of the user, his degree of satisfaction, and the resulting perception of a multimedia content being read and the attributes constituting it, two approaches are possible: a single-frame approach (step 204-a) and a multi-frame approach (step 204-b).
- a single multi-channel image is constructed from the spectral measurements made over the duration of the full test corresponding to the duration of a sentence of the audio content (a sentence consisting of 8 times).
- the architecture can be sequentially structured according to different configurations of convolutional neural networks, by varying the depth.
- Figure 3 illustrates a possible convolutional neural network
- a possible neural network is a network consisting of two convolutional layers consisting of 32 filters of size 3 x 3 pixels (CNN3-32), followed by a ReLU activation function and then a max-pooling layer of size 2 x 2 (304).
- FC-512 fully connected neurons
- a multi-frame approach can be used, a sentence is divided into 8 times of shorter duration intervals and an image is constructed for each of these time intervals, thus giving several frames for the same sentence (8 fields per sentence ).
- the sequence of images derived from consecutive blocks (time windows) is used to take into account temporal changes in brain activity.
- the sequence of images is then used as input data for the recurrent-convolutional neural network.
- the various architectures highlighted in the single-frame approach can be used for each frame.
- several deep learning techniques can be used:
- the temporal convolution model applying a 1D convolution on the outputs of the convolutional neural networks for each one-dimensional convolution field.
- LSTM Long Short-Term Memory
- RNN recurrent neuron network
- the parameters w xh , w hh and w hy RNNs are the weight matrices associated with the recurrent connection, b h , b y the bias, and h 0 the initial hidden layer of the previous step for the first vector of the sequence for which nothing has yet been calculated.
- the H function used for hidden layers is usually a sigmoid. It is implemented using the following equations:
- h t o t tanh (c t ) (7) with s, the logistic sigmoid function.
- the state of the cell can be modified through a gate that allows or blocks the update, G "input rude" i.
- a gate checks if the cell state is communicated at the output of the LSTM unit, it is G “output gate” o.
- the "LSTM” uses a door allowing the reset of the state of the cell, the "forget /".
- the idea associated with the LSTM is that each computational unit is linked not only to a hidden state h but also to a state c of the cell that plays the role of memory.
- ESN Echo State Network
- RNNs recurrent neural networks
- the main property of the ESN is the echo state, which can be described as the fact that the tank must asymptotically forget its input history when powered by an external input.
- ESN demonstrated robust performance in the context of supervised learning, particularly for time series prediction and time series classification.
- the system is able to make predictions through predictive analysis, anticipating the user's reactions.
- a variety of techniques that can be used ranging from predictive modeling, machine learning, and data mining processing that analyzes current and historical facts in order to make predictions about the future or events still unknown.
- LPC Linear Predictive Coding
- the software products may be written in any combination of one or more programming languages, such as Python, Java, Ruby, PHP, C, C ++, C #, Pascal , Fortran, Perl, Matlab, SAS, SPSS, JavaScript, AJAX, including any similar programming language.
- the instructions may also be transmitted or received on a computer network by a "means of transmission". These can be transmitted using a network interface device and any transfer protocol (eg HTTP).
- the readable computer program code may run entirely on the user's computing device, partially on the user's computing device and stand-alone software, partially on the user's computing device and partly on a computing device remotely or entirely on the computing device or the remote server.
- the remote computer can be connected to the user's computer via any type of network, a personal area network (PAN), a local area network (LAN), a wide area network (WAN), a metropolitan area network (MAN), or the Internet, mobile telephone networks (eg a global mobile communications system (GSM), a long term evolution network (LTE)), and data networks without wire (for example, LiFi, WiFi, WiMAX networks) or any other appropriate wireless network or a combination of two or more thereof.
- PAN personal area network
- LAN local area network
- WAN wide area network
- MAN metropolitan area network
- mobile telephone networks eg a global mobile communications system (GSM), a long term evolution network (LTE)
- LTE long term evolution network
- data networks without wire for example, LiFi, WiFi, WiMAX networks
- EP 2507994 A1 Creative Technology Ltd. (Methods and Systems for the media of a group of at least two entities)
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Social Psychology (AREA)
- Surgery (AREA)
- Psychiatry (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Analytical Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Physiology (AREA)
- Neurosurgery (AREA)
- Chemical & Material Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Child & Adolescent Psychology (AREA)
- Developmental Disabilities (AREA)
- Educational Technology (AREA)
- Hospice & Palliative Care (AREA)
- Psychology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
L'invention concerne un système de diffusion de contenu multimédia interactif, ledit système comprenant : - au moins une base de données multimédia stockant des contenus multimédias et une pluralité de caractéristiques associées à ces contenus, certaines de ces caractéristiques étant des attributs quantifiés de contenus multimédias; - au moins un capteur de mesure de l'activité cérébrale en communication afin d'acquérir un ou plusieurs ensembles de données relatif à l'utilisateur; - un lecteur de média en communication afin de lire les contenus multimédias; - une base de données utilisateurs associant au moins un attribut de contenu multimédia à une information de caractérisation de réaction d'au moins un utilisateur; - au moins un dispositif informatique adapté pour la mise en œuvre de divers traitements, le lecteur de média et/ou le (ou des) dispositif(s) informatique(s) étant adaptés pour choisir pour l'utilisateur et lui diffuser un contenu multimédia en fonction des informations de caractérisation de la base de données.
Description
SYSTEME INTERACTIF DE DIFFUSION DE CONTENU
MULTIMEDIA
DOMAINE TECHNIQUE GÉNÉRAL ET ART ANTÉRIEUR
« La musique est la langue des émotions » - Emmanuel Kant. Elle incarne l'esprit humain et nous permet de nous exprimer au-delà des mots. Or lorsque l'on écoute de la musique, l’émotion qui fait vibrer tout notre corps prend racine dans notre cerveau. Cette dernière se révèle être une arme puissante, exerçant un effet profond sur l'être humain, et nous plonge ainsi dans un état psychologique et physiologique bien spécifique. Lorsqu'elle est bien choisie, elle stimule le circuit de la récompense, libérant ainsi de la dopamine. Or notre système de récompense repose sur une variabilité individuelle, ce qui singularise l'individu dans sa recherche du plaisir. Nous écoutons de la musique pour le plaisir qu'elle nous procure, et pratiquons sans le savoir une automédication par la musique, beaucoup d’entre nous ont leur playlist pour se redonner de l’énergie ou au contraire, se calmer, se libérer du stress, apaiser ses angoisses. Elle nous accompagne le long de notre vie pendant les moments les plus exaltants et nos plus grandes épreuves, offrant alors l'énergie nécessaire pour transformer notre réalité.
Chaque être humain réagit de façon différente par rapport à la musique. Nos besoins sont différents. Il existe différente façon de réagir à la musique. Il est d'autant plus difficile également pour certaines personnes de définir la musique qu'elles aiment, en réalité c'est beaucoup plus compliqué que ça, nos envies et goûts musicaux fluctuent au cours du temps. Il est désormais question d'« être » la musique en cours de lecture.
Le modèle de concept de casque audio « Mico » imaginé par Neurowear offre une routine d'écoute musicale selon laquelle des ondes cérébrales sont détectées à travers le capteur positionné sur le front, l'application associée permet d'analyser l'état du cerveau de l'utilisateur puis de rechercher une musique la plus appropriée possible dans une
base de données selon le statut de l'utilisateur. La base de données musicale est dotée de 100 morceaux qui ont été préalablement « neuro- tagués » en testant la réaction du cerveau de plusieurs personnes à ces chansons. Si un utilisateur présente une activité cérébrale similaire à l’une des réactions des utilisateurs observés précédemment, on joue la musique correspondante. Le capteur sur le front détecte et analyse les ondes cérébrales de l'utilisateur, détermine son humeur et fait correspondre l'utilisateur avec la chanson la plus appropriée.
Quant au système évoqué par WO 2016070188, ce dernier propose une routine d'écoute musicale par l'intermédiaire également d'un casque audio intelligent permettant d'écouter de la musique fondée cette fois-ci sur les émotions apprises, les humeurs et/ou les préférences.
Le système évoqué par WO 2016040398 permet à travers un dispositif d’interface utilisateur d'accéder à des contenus multimédias, l'utilisateur est amené à indiquer ses préférences à travers une surface tactile présente sur le casque, il peut faire glisser son doigt sur la surface tactile pour passer à la musique suivante ou bien taper sur la surface tactile pour indiquer qu'il aime la musique en cours de lecture afin d'influer sur la musique suivante. Un modèle de taxonomie a été mis en œuvre afin de classer les unités d'information multimédia conformément à un ensemble prédéterminé de paramètres de classification et un module de corrélation sur la base du modèle de taxonomie permet de jouer des contenus multimédias aux indices de réaction favorable. Les informations relevées ne le sont que lorsque l'utilisateur interagit avec la surface tactile.
PRÉSENTATION GÉNÉRALE DE L'INVENTION
La présente invention propose une façon nouvelle d'interagir avec des contenus multimédias sous toutes leurs formes grâce aux neurosciences et à l'intelligence artificielle.
Un but général de l'invention est de proposer un système de diffusion de contenus multimédias appréciés par l'utilisateur résultant de l'analyse de l'activité physiologique (bio-signaux comme électro- encéphalogrammes (EEG)) et permettant de replacer la perception humaine au cœur de l'expérience multimédia.
La présente invention a pour objectif d'interpréter l'activité cérébrale d'un individu en temps réel afin d'adapter l'expérience d'écoute musicale et ainsi offrir à l'utilisateur la musique qu'il mérite à chaque moment. L'invention rend l'écoute musicale beaucoup plus immersive par la création de nouvelles interactions avec le contenu multimédia.
Par opposition aux concepts de l'art antérieur, le système et le procédé proposés reposent, selon un aspect, sur un modèle de mesure du degré de satisfaction et d'engagement de l'utilisateur. L'utilisateur écoute une musique et notre dispositif est capable de savoir si l’utilisateur aime ou n’aime pas ce contenu audio par une analyse en blocs, le niveau d’appréciation est mesuré pour chacun d’eux. Alors que la recherche actuelle dans le domaine de la Récupération d’information Musicale (RIM) se cantonne à la simple extraction de caractéristiques musicales, l’invention couple à cette connaissance musicale, une connaissance neuroscientifique par les réactions EEG. Les préférences musicales de l’utilisateur sont mesurées avec précisions, afin d'établir une cartographie précise des goûts musicaux. Toutefois, les contenus audio de la base de données musicale n'ont pas besoin d'être « neuro- tagués » au cours d'écoutes préalables, l'invention offre ainsi la possibilité de découvrir une multitude de contenus multimédias nouveaux correspondant parfaitement aux attentes de l'utilisateur. Ce
dernier bénéficie également de la connaissance accumulée du pot commun d'utilisateurs.
Le système proposé de recommandation musicale ne nécessite pas d'interaction tactile ou de gestuelle particulière afin de mesurer le degré de satisfaction du contenu multimédia en cours de lecture. Par exemple, dans le cas d'une écoute par casque, l'expérience peut commencer dès que l'utilisateur porte le casque. La routine d'écoute musicale repose sur l'analyse de l'activité physiologique - l'activité cérébrale à titre d'exemple. La classification des contenus multimédias s'opère au sein d'une base de données musicale intelligente où les données physiologiques récoltées par chacun des profils utilisateurs sont stockées pour chacun des contenus multimédias écoutés. Le degré de satisfaction ainsi que l'engagement ne portent pas sur un contenu multimédia dans son ensemble. L'analyse est faite pour chaque bloc qui le compose. Il est ainsi possible de mesurer les préférences musicales de l'utilisateur avec précision et proposer des contenus aux attributs musicaux appréciés. Dès les premières écoutes l'utilisateur obtient des recommandations de qualité.
Ainsi, le but est d'offrir un voyage musical ultime à l'utilisateur sans avoir à toucher à quoi que ce soit (ni le casque, ni le smartphone). L'utilisateur n'a plus à choisir sans cesse un artiste, un morceau, un album, ou bien une playlist sur son smartphone (ou tout système informatique). Il s'agit de faire comprendre à la machine nos goûts musicaux grâce à une analyse conjointe de l'EEG à la musique dotée d'empreintes acoustiques des sons dont elle est composée. Désormais, la musique « choisit » son utilisateur.
Une solution proposée utilise en particulier une base de données d'utilisateurs stockant l'ensemble des signaux électriques émanant des interfaces hommes-machines pour chacun des profils utilisateurs. Les enregistrements EEG sont enregistrés en continu lorsque le casque est en train de lire du contenu. Ces masses de données sont stockées en cloud en temps réel pour chacun des utilisateurs pendant la consommation du contenu multimédia. Ces masses de données
permettent à la suite d'un apprentissage automatique (« machine learning ») de déterminer comment l'utilisateur réagit au contenu, savoir s'il apprécie par exemple le morceau musical en cours de lecture et sa réaction face aux caractéristiques constituant ce morceau.
Selon un autre aspect encore, il est proposé un module permettant de rendre intelligent n'importe quel casque. Ce module peut par exemple se clipser sur l'arceau qui enserre la tête de l’auditeur. De cette façon, un ou plusieurs capteurs d'électroencéphalographie (EEG) mesurent l'activité cérébrale en temps réel du sujet. Pendant la lecture du contenu audio, le module capture alors les réponses neurales de l'utilisateur associées.
Il est en outre proposé une nouvelle façon d'appréhender l'assistance personnelle grâce aux objets connectées. Une fois connecté, le casque comprend le caractère unique de l'individu et lui recommande du contenu de façon automatisée sans que ce dernier n'ait à interagir avec son smartphone (ou tout autre système informatique). La réaction résultant de la consommation de contenu multimédia émane uniquement des bio-signaux. Au cours de la routine d'écoute musicale, on ne presse aucun bouton sur le casque pour passer d'un contenu à l'autre ou bien indiquer le fait que l'on aime ou que l'on aime pas un contenu. Aucune interaction n'est requise de la part de l'utilisateur, ce dernier n'a pas à renseigner s'il est satisfait ou non d'un contenu sur une quelconque application mobile. Les données associées à la lecture des contenus multimédias sont stockées et analysées en temps réel. Plus l'utilisateur porte le casque, plus le choix de contenus associé à son profil sera de qualité, ce dernier bénéficie également de la connaissance accumulée des autres utilisateurs.
Un ou plusieurs électrodes sont positionnés sur le cuir chevelu afin d'enregistrer l'activité électrique cérébrale sous forme de signaux, encore appelé électroencéphalographie (EEG). Ces signaux sont convertis et amplifiés par l'appareil, le bio-signal est transmis par télécommunication (Bluetooth par exemple) à un système informatique, comprenant au moins un dispositif de calcul qui peut être un téléphone
intelligent. L'appareil peut être facilement incorporé à un casque audio mais également casque VR (Réalité Virtuelle) ou casque AR (Réalité Augmentée) ou bandeau connecté. Un programme informatique (une application mobile par exemple) acquiert et classifie les bio-signaux émanant de l'activité cérébrale afin de porter une analyse rigoureuse des informations de retour biologique et ainsi diffuser du contenu multimédia selon les informations émanant du cerveau de l'utilisateur.
Procédé et système
Ainsi, selon un aspect, l'invention permet de bénéficier de contenu multimédia apprécié par l'utilisateur par l'analyse de sa réaction aux contenus en lecture notamment la musique à travers ses bio-signaux. L'analyse du degré de satisfaction peut porter sur un morceau dans son ensemble ou bien selon ses caractéristiques intrinsèques. L'un des objectifs est de mettre en place d'une base de données intelligente musicale (un service cloud destiné aux clients) capable de sélectionner en temps réel le contenu le plus approprié pour l'utilisateur. Cette dernière permettra aux lecteurs de musique, applications musicales et services en streaming de réaliser des choix plus judicieux, intelligents pour l'utilisateur par l'analyse de la réaction des contenus et sélection automatisée de contenus appropriés. La réaction aux contenus multimédias émane des réponses cérébrales - on mesure le degré de satisfaction de l'individu - un rapport de suivi de la réaction face au contenu musicale est généré.
Les données EEG sont enregistrées pour chacun des contenus en cours de lecture, venant ainsi alimenter notre base de données intelligente musicale. Ainsi pour chaque signal audio, sont associés les bio-signaux résultants. Un apprentissage profond nous permet de mesurer la satisfaction de l'utilisateur (« J'aime » ou « J'aime pas ») et ainsi enrichir son expérience musicale en continu sans que ce dernier n'ait à interagir avec son smartphone. Le niveau de satisfaction du premier contenu multimédia influe sur le second etc ... le contenu multimédia étant préalablement classifié de façon intelligente dans des bases de données au moyen de descripteurs. L'idée est de bâtir une
cartographie solide d'appréciation d'une musique par un individu. On détecte le degré de satisfaction et des émotions ressenties associées à un contenu multimédia.
L'interprétation ne repose pas uniquement d'interprétation de ses propres bio-signaux mais de la combinaison de ses propres données et des autres utilisateurs (pot commun d'utilisateurs).
Ainsi notamment, l'invention propose un système et un procédé de diffusion de contenu multimédia interactif.
Le système comprend :
- au moins une base de données multimédia stockant des contenus multimédias et une pluralité de caractéristiques associées à ces contenus, certaines de ces caractéristiques étant des attributs quantifiés de contenus multimédias ;
- au moins un capteur de mesure de l'activité cérébrale ;
- un lecteur de media (casque audio ou téléphone portable avec un programme de type « player ») en communication afin de lire les contenus multimédias dans la base de données ;
- une base de données utilisateurs associant au moins un attribut de contenu multimédia à une information de caractérisation de réaction d'au moins un utilisateur (la ou les informations étant par exemple structurée(s) en termes de paramètres définissant un profil utilisateur) ;
- au moins un dispositif informatique qui met en œuvre le procédé.
Notamment, le procédé met en œuvre des traitements suivants
o lecture d'un ou plusieurs ensembles de données acquises par le ou les capteurs de bio-signaux, o catégorisation du ou des ensembles de données reçus pour catégoriser lesdits un ou plusieurs ensembles de données,
o analyse en temps réel desdites données catégorisées et détermination d'au moins une information (degré de
satisfaction, émotion, etc.) de caractérisation de la réaction de l'utilisateur pendant la consommation du contenu multimédia,
o association de l'information de caractérisation ainsi déterminée à un ou plusieurs attributs du contenu multimédia en lecture,
o mise à jour de la base de données utilisateurs en fonction de l'association ainsi déterminée.
Le système comporte au moins un dispositif informatique adapté pour diviser le contenu multimédia en trames et traiter, pour chaque trame, les signaux cérébraux correspondant à ladite trame afin de déterminer un indicateur du niveau de satisfaction de l'utilisateur pour un ou plusieurs attributs constituant la ladite trame.
Dans un mode de réalisation notamment, le dispositif informatique est adapté pour transformer en une ou plusieurs images EEG les signaux d’au moins un capteur de mesure de l'activité cérébrale pour chaque trame, ces images EEG faisant l'objet d'un traitement par réseau de neurones pour en déterminer un indicateur du niveau de satisfaction de l'utilisateur.
Par images EEG, on entend ici et dans tout le présent texte des images construites à partir des séries temporelles EEG, acquises par le ou les capteurs de mesure d'activité cérébrale.
Le dispositif informatique est notamment adapté pour en outre analyser chaque trame et fournir pour celle-ci au moins un descripteur qui la caractérise, le ou les descripteurs de trame et les indicateurs de niveau de satisfaction déterminés étant traités pour établir pour l'utilisateur un moteur de recommandation sur le fondement d'au moins un descripteur.
Dans un mode de réalisation, le dispositif informatique est adapté pour déterminer une image EEG à partir des signaux cérébraux pour chaque phrase musicale de N temps, un
traitement par réseau de neurones étant appliqué à chaque image EEG individuellement.
Dans un autre mode, le dispositif informatique est adapté pour déterminer plusieurs images EEG à partir des signaux cérébraux pour chaque phrase musicale de N temps, un traitement par réseau de neurones étant appliqué à la séquence d'images EEG ainsi obtenue.
Le lecteur de média et/ou le (ou les) dispositif(s) informatique(s) sont en outre adaptés pour choisir pour l'utilisateur et lui diffuser un contenu multimédia en fonction des informations de caractérisation de la base de données.
Par contenu multimédia il peut s'agir d'une musique tout à fait classique, d'un mix de musiques, d'une musique évolutive dans le temps, ou bien d'un morceau créé sur-mesure.
Les différents paramètres de décision émanent de l'analyse automatisée de l'activité physiologique de l'utilisateur (exemple : ondes cérébrales).
Les données ou ensembles de données reçus sont enregistrés dans la base de données utilisateurs pour référence future.
La base de données multimédia et la base de données utilisateurs peuvent être organisées en une seule base.
Un serveur stocke et traite les signaux cérébraux, le dispositif informatique à distance diffuse du contenu multimédia apprécié par le consommateur.
Les solutions proposées offrent de nombreux avantages :
• Phase d'apprentissage écourtée pour l'utilisateur car ce dernier bénéficie des réactions des n-1 autres utilisateurs ;
• Casque susceptible d'être partagé entre différents utilisateurs : L'utilisateur se connecte à son profil utilisateur (service cloud) ;
• Découverte de contenus selon ce que l'utilisateur aime véritablement, indépendamment de la popularité des contenus ;
• La musique peut tisser des liens entre les gens et créer des communautés. Notre solution offre la possibilité via une application (dans le cas où l'utilisateur souhaite utiliser son casque de façon couplée avec une application) de rentrer en contact avec des utilisateurs ayant les mêmes réactions musicales, des personnes qui réagissent de la même manière à la musique. Une application peut permettre de faire des rencontres, créer des interactions virtuelles avec des personnes ayant les mêmes goûts musicaux, plusieurs expériences sont possibles.
• Possibilité d'écouter de la musique émanant d'une vidéo (extraction du signal audio).
• Un mode offre la possibilité d'écouter des extraits musicaux plutôt que la totalité de la musique grâce aux « audio thumbails ». Ce mode de prévisualisation permet de ne pas être obligé d'écouter une musique non désirée entièrement et ainsi d'ajuster automatiquement sa propre liste de lecture.
• Possibilité de créer un morceau de musique sur mesure, généré par l'activité physiologique d'un seul utilisateur. Des bouts de musique s'agencent et le morceau de musique évolutif est lue en temps réel sur son lecteur multimédia. A titre d'exemple, une mélodie au format MIDI (« Musical Instrument Digital Interface ») peut être jouée par un instrument VST (« Virtual Studio Technology »), à titre d'exemples non limitatifs, un kick, un hat, un snare, un drum, des loops, des samples, une percussion, une voix, une basse, des effets, une batterie, des synthés peuvent l'accompagner de façon synchronisée. Un algorithme évolutif permet de combiner les différents fragments
musicaux de façon judicieuse afin de générer une musique unique pour l'utilisateur. Les fragments musicaux retenus reposent sur une sélection des attributs musicaux préférés de l'utilisateur. L'utilisateur pourra partager ce morceau de musique sur mesure, alors stocké sur le cloud, sur les réseaux sociaux.
• Possibilité de créer un morceau de musique sur mesure, généré par l'activité physiologique de plusieurs utilisateurs. Les utilisateurs portent leur propre casque et écoutent une musique commune qui va alors évoluer en temps réel selon les caractéristiques d'appréciation propres à chacun. La musique est alors générée par les utilisateurs ayant pris part à l'expérience. Des bouts de musique s'agencent et le morceau de musique évolutif est lu sur les différents lecteurs. A titre d'exemple, une mélodie au format MIDI (« Musical Instrument Digital Interface ») peut être jouée par un instrument VST (« Virtual Studio Technology »), à titre d'exemples non limitatifs, un kick, un hat, un snare, un drum, des loops, des samples, une percussion, une voix, une basse, des effets, une batterie, des synthés peuvent l'accompagner de façon synchronisée. Un algorithme évolutif permet de combiner les différents fragments musicaux de façon judicieuse afin de générer une musique pour le groupe d'utilisateurs. Les fragments musicaux retenus reposent sur une sélection des attributs musicaux préférés de l'utilisateur. L'utilisateur pourra partager ce morceau de musique sur mesure, alors stocké sur le cloud, sur les réseaux sociaux.
Programme informatique, lorsqu'il est exécuté par un processeur : a. Présentation d'un premier stimuli multimédia à l'utilisateur,
b. Acquisition d'au moins une mesure de signal biologique (des signaux EEG) provenant d'un utilisateur grâce à un capteur de mesure, c. Classer le signal EEG : Niveaux de satisfaction de l'utilisateur pour chaque attribut du contenu multimédia,
d. Association de l'utilisateur à des contenus multimédias présentant les caractéristiques similaires appréciées et/ou autres utilisateurs présentant même réaction au contenu, e. Lecture d'un contenu multimédia sur le dispositif compatible avec Internet.
Le système (casque audio) peut fonctionner de façon couplée à un smartphone, dans ce cas-là, le lecteur média est matérialisé par une application mobile pour smartphone (dispositif informatique à distance).
Toutefois, le lecteur média peut être intégré directement dans le système (casque audio) avec une possibilité de télécharger de façon automatique le contenu le plus approprié pour l'utilisateur lorsque le casque est connecté au service cloud. Ce contenu pourra donc être alors lu même hors réseau à tout moment sans être appairé à un smartphone, d'où la revendication 21.
Le système comprend en outre une interface de réseau de communication pour communiquer avec le cloud distant d’unités d’information multimédia ; le système établit une communication avec le cloud afin de télécharger les contenus multimédias les plus appropriés.
Un ensemble de contenus multimédias peut être chargé en amont directement sur le système afin que ce dernier soit en écoute même sans connexion internet (absence de Wi-Fi ou service de données mobile). Ce contenu est alors chargé lorsque le système est connecté à un réseau (internet), seul le contenu ayant du sens pour l'utilisateur est chargé. La mise à jour du contenu musical embarqué directement sur le système a lieu de façon automatique dès que le casque est connecté à nouveau au cloud.
Hors connexion, l'ensemble des retours liés à la consommation des contenus téléchargés sur le système sont stockés en mémoire et viendront alimenter la base de données utilisateurs dès que le système est à nouveau connecté à un réseau.
Le module de sélection utilise les résultats des réactions obtenus par l'utilisateur et ainsi les attributs appréciés, télécharge du contenu multimédia présentant des caractéristiques similaires à celles appréciées par l'utilisateur.
L'invention propose en outre une plate-forme virtuelle pour consommer le contenu multimédia, on peut y avoir accès directement grâce au système ou bien par l'intermédiaire d'un smartphone connecté à ce même système.
Au moins un dispositif informatique perd la communication au dispositif informatique à distance présent sur le réseau de communication (cession de réseau). Ce dernier passe automatiquement en lecture du contenu multimédia téléchargé préalablement. Les signaux cérébraux sont stockés et seront transmis au dispositif informatique à distance présent sur le réseau de communication ultérieurement, lorsque le réseau de communication reprend.
Le système présente en outre les différentes caractéristiques suivantes prises seules ou en combinaison :
- Le système est capable de synchroniser plusieurs morceaux de musique - censés être appréciés par
l'utilisateur - entre eux de façon à ce qu'un premier morceau soit synchronisé avec un second selon un même BPM (Battements par minute), un second avec un troisième et ainsi de suite de telle sorte à ce que les morceaux s'enchaînent de façon à constituer un mix agréable à l'écoute, et ce en temps réel, de la même façon qu'un DJ apprend de la foule.
- Le système est capable de former un contenu audio par un assemblage de « stems ». Un « stems » est un format audio multipiste qui permet généralement aux DJ et aux performeurs live de séparer les pistes d’un morceau et de les traiter individuellement. Le format stems permet de diviser les pistes en quatre éléments différents et ensuite de les isoler les uns des autres.
- Le système est capable de modifier un contenu audio en temps réel. L'utilisateur décide de jouer un contenu musical disponible sur le service cloud. La lecture de l'activité physiologique en temps réel de l'utilisateur et les préférences observées chez ce dernier peuvent activer ou désactiver le volume de certains éléments de musique au cours du temps en laissant toujours actif au moins un des bouts de musique (basse, batterie, synthés, voix, percussions, etc.). Ces bouts de musique sont stockés dans la base de données musicale intelligente. Seuls les bouts de musique censés être appréciés par l'utilisateur composeront le flux (streaming) musical. Des effets sonores musicaux (presets) peuvent également venir moduler les éléments de musique.
- Le système est capable de générer du contenu multimédia sur-mesure, le fichier musical est dans ce cas-là créé selon la base de données musicale intelligente selon une clé et un battement par minute
(BPM). Sur cette base vient se reposer une mélodie au format MIDI, cette mélodie épouse un instrument (VST). Une voix parfaitement synchronisée peut venir se déposer, des loops constitués de kicks, snare, hats, percussions ; ainsi que des effets peuvent également venir accompagner les autres éléments musicaux. Le système est capable de créer des accords et accompagnement au moyen d'un apprentissage automatique.
- Au moins un dispositif informatique est adapté pour traiter le signal audio par blocs et associer à chaque bloc un ou plusieurs attributs.
- Au moins dispositif informatique est adapté pour diviser le signal audio en trames de tailles prédéfinies et analyser chaque trame pour fournir au moins un descripteur.
- Le dispositif informatique est adapté pour que les durées des trames soient fonction d'un paramètre musical déterminé sur le signal audio.
- Un paramètre musical est une attaque de note ou un tempo.
- Un attribut appartient à la liste suivante : la durée, l'intensité, le timbre, la hauteur tonale, la densité, la matière, le contraste, le mouvement mélodique, le tempo.
- Le système comporte un module adapté pour être clipsé de façon amovible sur les arceaux d'un casque audio et/ou AR et/ou VR, le dit module intégrant au moins un capteur de mesure de l'activité cérébrale.
- Le système comprend en outre un classifieur par apprentissage machine (ML) adapté pour classifier les signaux cérébraux et les analyser afin de mesurer un
degré de satisfaction de l'utilisateur résultant de la lecture du contenu multimédia.
- Au moins un dispositif informatique est configuré pour transmettre une information de degré de satisfaction du contenu multimédia en cours de lecture à un dispositif informatique à distance présent sur le réseau de communication.
- Le dispositif informatique est adapté pour transformer les signaux cérébraux en images, ces images étant traitées par des réseaux de neurones convolutifs (CNNs).
- Le dispositif informatique est adapté pour déterminer une image pour chaque phrase musicale de N temps, le traitement par réseau de neurones étant appliqué à chaque image individuellement.
- Le dispositif informatique est adapté pour déterminer plusieurs images pour une même phrase, le traitement par réseau de neurones étant appliqué à la séquence d'images ainsi obtenue.
- Un dispositif informatique est adapté pour mettre en œuvre un traitement ESN sur lesdits signaux cérébraux et corrige les trous lors d'une défaillance d'acquisition.
- Un dispositif informatique est adapté pour synchroniser l'acquisition des signaux par rapport à la lecture de contenu multimédia.
- Un dispositif informatique est adapté pour que l'acquisition des signaux intervienne pendant la diffusion d'un contenu multimédia, par intermittence, de façon périodique ou continue.
- Au moins un dispositif informatique est configuré pour générer un rapport de suivi de l'utilisateur.
- Au moins un dispositif informatique met à jour la base de données utilisateurs en fonction des acquisitions de signaux cérébraux.
- Au moins un dispositif informatique met à jour la base de données avec les résultats des traitements d'association lorsqu'à l'issue d'une période hors connexion, il récupère une communication permettant une mise à jour à distance.
- Au moins un dispositif informatique comporte un mécanisme d'apprentissage qui classe les attributs constituant le contenu multimédia en fonction du niveau de satisfaction mesuré au fil des écoutes, le résultat de cette classification est mémorisé dans la base de données, ladite base de données étant interrogeable à partir des attributs.
- Au moins un dispositif informatique est adapté pour que le contenu multimédia en cours de lecture dépende d'un profil utilisateur et de la connaissance accumulée des autres utilisateurs utilisant le système.
- Le lecteur média est adapté pour interroger la base de données, télécharge des contenus multimédias à distance présentant des attributs similaires à ceux appréciés par l'utilisateur, et les mémorise en vue d'une lecture ultérieure hors connexion, le lecteur média passe automatiquement en lecture de contenus téléchargés préalablement.
- Au moins un dispositif informatique est adapté pour que les contenus multimédias sont mis à jour automatiquement lorsqu'une connexion est rétablie.
- Au moins un dispositif informatique est adapté pour sélectionner plusieurs contenus multimédias correspondant à un taux de satisfaction supérieur à un seuil donné et présentant certains attributs similaires et met en œuvre un mixage de ces contenus en temps réel.
- Au moins un dispositif informatique est adapté pour modifier le contenu multimédia en cours de lecture en
fonction des attributs qu'il présente et du degré de satisfaction associé à ces attributs pour l'utilisateur.
- Au moins un dispositif informatique est adapté pour que des éléments de contenus multimédias soient désactivés lorsque le degré de satisfaction associé aux attributs de ces contenus est inférieur à un seuil pour l'utilisateur.
- Au moins un dispositif informatique est adapté pour générer un contenu multimédia en fonction des attributs appréciés par l'utilisateur.
- Ledit dispositif informatique est adapté pour que le contenu multimédia soit généré en fonction d'une clef et d'un battement par minute (BPM) préalablement choisis.
- Au moins un dispositif informatique est adapté pour que le contenu multimédia obtenu soit mémorisé à distance. - Le système comprend un serveur adapté pour interroger la base de données sur les attributs appréciés par un utilisateur, ladite base de données identifiant au moins un utilisateur présentant un historique d'écoutes similaire ou bien une similarité d'attributs appréciés. - Au moins un dispositif informatique est adapté pour changer le contenu multimédia joué en le remplaçant par un autre lorsque le degré de satisfaction de l'utilisateur est inférieur à un seuil donné.
PRÉSENTATION DES FIGURES
D'autres caractéristiques et avantages de l'invention ressortiront encore de la description qui suit, laquelle est purement illustrative et non limitative, et doit être lue en regard des figures annexées sur lesquelles :
- la figure 1 illustre le principe général d'une mise en œuvre possible de l'invention dans le cas d'un casque couplé à une application ;
- la figure 2 illustre un exemple de chaîne de traitement des signaux EEG ;
- la figure 3 illustre un réseau de neurones convolutif possible ;
- la figure 4 illustre un mode mise en œuvre dans lequel les couches LSTM sont appliquées (architecture multi-trames) ;
- la figure 5 illustre la mesure du niveau de satisfaction de l'utilisateur à partir d'un découpage en trames du signal audio (base de données intelligente) ;
- la figure 6 illustre un mode de mise en œuvre dans lequel le casque est hors connexion ;
- la figure 7 illustre une logique de sélection de musique par similarité d'attributs (Logique A) ;
- la figure 8 illustre une autre logique de sélection de musique par recherche de réactions similaires chez les autres utilisateurs (Logique B - Voyage musical selon le pot commun d'utilisateurs) ;
- la figure 9 illustre le couplage des logiques illustrées sous les figures 7 et 8 avec une approche de sélection classique de contenu musical.
EXEMPLES DE PLUSIEURS MODES DE RÉALISATION Base de données musicale intelligente
On assiste depuis ces dernières années à une explosion du nombre de titres disponibles dû à une dématérialisation du contenu musical (profusion de l'information musicale). La grande majorité des dispositifs de lecture permettent une recherche d'informations musicales reposant principalement sur des informations éditoriales (titre, artiste, album, numéro de piste, date de parution). Ces informations sont parfois enrichies de données complémentaires comme la localisation de l'enregistrement ou le lien hypertexte menant au site internet du compositeur. Ces métadonnées, juxtaposées à l'information musicale, fournissent des descriptions annexes au contenu musical lui-même, et
sont destinées à indexer facilement les titres afin de les retrouver aisément sur les plateformes internet, en magasin ou encore au sein de sa propre bibliothèque musicale.
Désormais, il s'agit de décrire la musique par son contenu musical même et la perception des utilisateurs des éléments le constituant, et non plus par des informations relatives au simple contexte. Une telle approche possède l'avantage crucial de donner une description automatique pertinente sur le plan musical et unique afin de proposer du contenu multimédia ayant du sens pour l'utilisateur. L'analyse automatique du contenu audionumérique porte sur les critères musicaux (instruments, notes, rythmes présents dans un enregistrement). On se concentre entre autres sur la détermination des structures musicales abstraites encodées dans les signaux, et permet ainsi de nouvelles interactions avec l'information musicale. La recherche basée sur le contenu musical s'effectue sur des critères de caractérisation des morceaux de musique déduits du support de codage musical, tel que le signal audionumérique. Par conséquent, elle ne requiert pas d'effort d'annotation manuelle et reste indépendante de la popularité des morceaux de musique. De ce fait, l'approche par le contenu et perception humaine résultante élargit le champ d'interaction et de parcours avec une large base de données musicale en ouvrant la recherche d'information à différentes familles d'applications.
Analyse automatique par trames
En raison de la complexité et de la diversité de la donnée musicale, l'analyse automatique du signal audio musical est liée à de nombreux critères. Les caractéristiques tant physiques qu'acoustiques du son musical (évolution temporelle, transitoires, analyse spectrale et fréquences) liées aux paramètres de la stimulation de l'oreille sont pris en considération. La musique est un objet complexe, un objet multidimensionnel.
Tout morceau de musique peut être représenté comme une suite de sons organisés dans le temps. Un intérêt est porté à l'analyse de la structure temporelle d'un morceau de musique (organisation temporelle des éléments musicaux qui la compose).
Les algorithmes d'analyse du signal audio s'opèrent selon une approche de traitement par blocs. Le signal audio (500-a) est alors divisé en trames de tailles prédéfinies (500-b). Les durées de trames dépendent d'un paramètre musical, comme les attaques de notes ou le tempo. L'analyse par algorithme (500-c) produit alors un descripteur (500-d).
Un descripteur est une valeur numérique extraite du signal audio dont le but est de représenter une propriété particulière se son contenu.
Chaque trame est ainsi caractérisée par un ensemble d'attributs qui peuvent être des descripteurs (c'est à dire des valeurs numériques) ou être constitués par une autre information de caractérisation (exemple : présence de violon ou voix). Les attributs de chaque trame sont par exemple choisis parmi les attributs suivants :
• La durée : Représente l'étalement du son dans le temps (long/bref). La durée est étroitement liée au rythme.
• L'intensité : Impression de force ou de faiblesse produite par un son. Elle est caractérisée par le volume sonore (doux/fort). L'intensité est liée soit à la puissance avec laquelle on joue d’un instrument (y compris la voix), soit au nombre d'instruments mis en jeu simultanément.
• Le timbre : La qualité spécifique du son, sa « couleur », caractéristique liée à la présence et à la mobilité des harmoniques qui la composent. Elle permet à un auditeur de « juger comme dissimilaires deux sons présentés dans les mêmes conditions et possédant la même dynamique sonore et la même hauteur » (USA Standard Acoustical Terminology. Timbre, 1960). On peut également le définir comme la « carte d'identité » d'un instrument ou d'une voix.
Une façon de décrire le timbre consiste à encoder l'enveloppe spectrale de la portion du signal audio (500-a) contenue dans la trame (500-b) qui lui est associée.
Les descripteurs les plus utilisés dans ce cadre sont les coefficients cepstraux à l'échelle de Mel, ou MFCCs (Mel Frequency Cepstral Coefficients) [Davis, Mermelstein (1980)]. Les MFCCs d'une portion du signal (500-a) sont obtenus de la manière suivante :
- On calcule le spectre en amplitude d'une portion du signal (500-a) par une transformée de Fourier discrète,
- On calcule le logarithme du spectre en amplitude,
- Ce log-spectre est filtré par un banc de filtres triangulaires régulièrement espacés sur l'échelle de Mel afin de prendre en considération certaines caractéristiques de l'audition humaine,
- Les coefficients cepstraux sont obtenus en effectuant une transformée en cosinus discrète, ces derniers permettent d'obtenir une description compacte et informative du contenu timbrai du signal.
• La hauteur tonale : Représente une sensation auditive grave ou aigu selon que la fréquence de la vibration produisant le son sera plus ou moins élevée.
Les descripteurs de type « tonal » visent à décrire le contenu d'une portion du signal (500-a) en termes d'un ensemble de hauteurs tonales en référence à la gamme chromatique de la théorie de la musique occidentale. Ils sont utiles pour étudier le signal du point de vue de la mélodie, de l'harmonie, de la tonalité. Le contenu harmonique d'une portion du signal audio (500-a) est généralement décrit par l'intermédiaire d'un vecteur de chroma. Il est habituellement défini comme un vecteur de dimension 12 qui représente l'énergie moyenne associée à chaque demi-ton de la gamme chromatique, sur l'ensemble des octaves audibles par une une oreille humaine. Pour obtenir ce descripteur, on calcule
le spectre en puissance de la portion du signal considérée. Chaque fréquence du spectre est étiquetée selon le demi-ton qui lui est le plus proche. On calcule ensuite la moyenne arithmétique des énergies des fréquences associées à chaque demi-ton sans distinction d'octave pour obtenir chaque coefficient du vecteur de chroma.
Peuvent être ajoutés un certain nombre d'attributs repérables dans le déroulement d'un extrait :
• La densité : C'est la quantité d'éléments sonores contenus dans une musique. Le nombre peut varier sans modifier l'intensité. L'espace sonore peut être « aéré » ou « compact ».
• La matière : C'est l'aspect du son : lisse, rugueux, scintillant, épais, lourd.
• Le contraste : Créé par la juxtaposition d'intensités, de hauteurs, de timbres différents.
• Le mouvement mélodique : C'est la direction auditive que prend la mélodie. Il est défini par deux critères : le sens (ascendant ou descendant) et la qualité (conjointe ou disjointe)
• Le tempo : C'est la vitesse de référence de la pulsation d'un morceau et se mesure en pulsations par minute (ou beat per minute, BPM).
• La phrase musicale : La musique est comparable à un discours narratif, elle est composée de phrases qui ont un début, un « milieu », une fin. La compréhension d'une phrase découle du rythme et de la respiration. Les phrases composant une musique peuvent être plus ou moins longues.
• La structure de l'extrait : Les morceaux de musique sont caractérisés par l'agencement de segments structurels caractéristiques, ou forme musicale. Ne forme-t-il qu'un seul thème ? Plusieurs ? A-t-il une forme couplet/refrain ?
Les morceaux de musique sont caractérisés par l'agencement de segments structurels caractéristiques, ou forme musicale.
La modélisation séquentielle permet de modéliser la temporalité de la musique et notamment d'analyser les structures répétitives. L'analyse du signal audio, notamment la répétition de thèmes, de motifs sonores, de rythmes, etc., peut être à l'origine du plaisir produit par un contenu audio. L'analyse et le repérage des structures répétitives, permet d'enrichir le parcours du contenu musical, en permettant notamment à l'utilisateur d'écouter un morceau de musique en évitant certaines sections, moins appréciées.
Prise en considération de la réaction des individus dans le processus de sélection musicale.
Toute donnée émanant de l'utilisateur afin d'alimenter en continu les algorithmes de « machine learning ». Les données massives récoltées via le « pot commun » d'utilisateurs viennent enrichir le contenu multimédia mis à leur disposition en temps réel et accélérer l'apprentissage.
Pour chacune des trames définies précédemment, on enregistre l'activité physiologique de l'individu.
L'individu II écoute une première musique Ml (signal audio). On stocke l'onde cérébrale I1M101 de l'individu II pendant la lecture de la musique Ml afin d'analyser sa réaction face aux attributs de la musique et ce pour chacune des trames.
Cette même musique Ml a été écoutée précédemment par un ensemble d'autres individus (12, 13, 14, 15 ...). Pendant la lecture de ce contenu Ml, l'onde cérébrale résultante (02, 03, 04, 05 ...) a été stockée pour chacun des individus.
Le programme informatique (dispositif de lecture) va choisir une musique M2 possédant les attributs appréciés présents au sein de la musique Ml. De la même façon que précédemment, l'individu II écoute
la musique M2, on stocke l'onde cérébrale I1M201 de l'individu II pendant la lecture de la musique M2 afin d'analyser sa réaction face aux attributs de la musique.
Système de reconnaissance des émotions, du genre grâce à la
Récupération d'information Musicale (RIM).
Portée par une approche informatique, la recherche actuelle dans le domaine de la Récupération d’information Musicale (RIM) utilise des connaissances découlant aussi bien du traitement du signal, de l'apprentissage automatique (ou « Machine Learning » en anglais), de la théorie de l’information et de la théorie de la musique afin de reconnaître les caractéristiques d'une musique (tempo, clef, progressions d’accords, genre musical, ou encore de la structure). Ces algorithmes sont capables de reconnaître et extraire l'information, de permettra à des systèmes de réaliser d'importantes opérations de tri, de recherche, de recommandations musicales, de génération de données, de transcription et même de générer ou d'accompagner une performance musicale et ce en temps réel.
Notre système offre la possibilité également de décoder l'émotion pouvant être engendré par un morceau musical afin d'aller au-delà des simples informations éditoriales. Des réseaux de neurones profonds (Deep Neural Network DNNs) sont mis à contribution afin de classifier les morceaux de musique selon l'émotion qu'ils engendrent par exemple et également classifier les sous-ensembles constituant ces morceaux. Ces modèles sont génératifs et capable d'apprendre de façon non supervisée.
L'approche traditionnelle d'indexation audio repose sur i) une phase d'extraction de descripteurs audios, c'est-à-dire le calcul de nouvelles représentations plus compactes de l'information essentielle, et ii) une phase de modélisation des corrélations entre ces descripteurs pour chaque catégorie étudiée. On peut par exemple procéder à une
extraction de caractéristiques via Mel-Frequency Cepstral Coefficients (MFCC) et une estimation par noyau (ou encore méthode de Parzen- Rosenblatt ou Kernel Density Estimation (KDE)), la classification par perceptron multicouche (multilayer perceptron MLP). Toutefois, de nombreuses méthodes d'apprentissage profond peuvent être utilisées afin de procéder à l'extraction de caractéristiques. C'est le cas des réseaux de neurones artificiels, notamment acycliques (feed-forward) à l'image des réseaux de neurones convolutifs (ou réseau de neurones à convolution, ou CNN ou ConvNet) pour l’extraction de caractéristiques, la classification pouvant être réalisé par perceptron multicouche (multilayer perceptron MLP). Cette extraction de caractéristiques peut également être effectuée via un Deep Belief Network (DBN) sur une transformation de Fourier discrète (TFD) de l'audio et d'utiliser des machines à vecteurs de support (SVM) comme classifieur.
Un traitement de type « Shift-Invariant Sparse Coding (SISC) » offre un haut niveau de représentation des données en entrée. Des traitements de type « Convolutional Deep Belief Network » (CDBN) peuvent également permettre de classifier les fichiers audio.
L'utilisateur : routine d'écoute musicale
Les sensations induites par un même contenu musical sont propres à chacun, une même musique peut être perçue de façon différente. De la même façon, la sensation induite par une musique peut varier chez l'individu au cours de sa vie.
Diverses techniques d'identification audionumérique comme le « fingerprinting » - empreinte acoustique - permettent d'associer au contenu audionumérique d'une œuvre une empreinte (ou signature) liée au contenu musical, qui permet de l'identifier de manière unique au sein d'une base de données.
L'utilisateur écoute une musique proposée par le système.
Des systèmes d'identification audionumérique isolent un ensemble de caractéristiques du signal.
Ces caractéristiques sont stockées pour chacune des musiques sur une base de données située sur un serveur central .
L'utilisateur en apprécie certaines, d'autres moins. Afin de satisfaire l'utilisateur, le casque va alors procéder à la requête suivante : Recherche d'une œuvre musicale présentant un nombre significatif de ressemblances appréciées (similarité d'attributs) par rapport à la musique précédente.
Une routine d'écoute musicale selon les attributs de la musique est illustrée sur la figure 7.
En variante, l'apprentissage peut se faire sur le pot commun d'utilisateurs (figure 8). On bénéficie de l'historique des contenus musicaux écoutés par ces individus ainsi que les réponses cérébrales associées aux contenus sollicités. Ces données permettent d'établir des clusters d'utilisateurs aux comportements d'écoute similaires. L'utilisateur pourra ainsi se voir proposer des contenus musicaux appréciés par un individu présentant des réponses cérébrales similaires. L'apprentissage ne se fait alors pas de façon individuelle pour chaque utilisateur mais sur un pot commun d'utilisateurs large.
Le couplage des logiques A et B en vue de la sélection de la musique est illustré en figure 9. La sélection du contenu musical approprié repose sur la logique A (figure 7) et/ou la logique B (figure 8) ainsi que sur l'approche habituelle prenant en considération les goûts musicaux d'un utilisateur, le tracking des applications disponibles sur un smartphone, les listes de lecture de contenu multimédia, les pistes favorites ainsi que les données émanant des réseaux sociaux.
Généralités sur le système
Le système proposé offre aux passionnés de musique une nouvelle expérience auditive grâce à l'intelligence artificielle et aux neurosciences.
Dans l'exemple illustré sur la figure 1, le système comporte un casque audio 101 à capteurs EEG, un module 102 intelligent (processeurs, mémoires) connecté aux bio-capteurs EEG du casque 101. Ledit module 102 est lui-même connecté à un système informatique 103 tel qu'un téléphone, une tablette, un ordinateur portable, montre connectée avec lequel il échange via des protocoles de télécommunication (107) : Réseau longue portée (3G, 4G), communication via hub (Bluetooth, wifi), réseau courte portée (RFID, N FC).
Le système informatique utilise une application logicielle 105 pour la lecture de contenus multimédias eux-mêmes stockés dans une base de données 104 sur un serveur à distance. L'application 105 est par exemple capable d'intégrer de façon native les différents services de streaming tel que Spotify®, Deezer®, Soundcloud®, Apple Music®, Tidal®, YouTube Music ®, Amazon Prime Music® ...
L'application 105 a été conçu afin d'être capable de fonctionner que ce soit avec des interfaces d’appareils mobiles (iOS et Android) et fixes (Windows et Mac).
Les contenus sélectionnés et envoyés sur le système informatique 103 et son application 105 sont eux-mêmes transmis par cette application 105 au casque audio 101.
Les capteurs EEG du casque 101 peuvent être localisés sur l'arceau du casque et/ou sur les hauts parleurs et/ou du front.
Les données produites par les équipements sont stockées dans le « nuage ». Le module 102 pré-traite les signaux cérébraux et les transmet à un serveur à distance 106 (qui peut être le même que celui de la base de données des contenus multimédias) sur lequel sont mis en œuvre différents algorithmes d'apprentissage (« Machine Learning ») décrits ci-après.
Le contenu peut être diffusé autrement que sur un casque intelligent : enceintes, écouteurs, casques audio, lunettes etc...
Par ailleurs, le prétraitement peut ne pas être mis en œuvre par le module 102 associé au casque 101 mais être réalisé avec le reste du traitement sur les signaux cérébraux au niveau du serveur 106.
Également, le module 102 peut être un élément indépendant du casque 101 qui intègre des capteurs biologiques. Il est adapté pour se clipser sur un casque classique et pour lorsqu'il est clipsé, positionner les capteurs par rapport aux zones d'intérêt sur le cuir chevelu de l'utilisateur. De cette façon, il est possible de transformer instantanément n'importe quel casque disponible sur le marché en casque intelligent désormais capable d'acquérir des signaux d’ondes cérébrales grâce à des capteurs EEG intégrés, d'en apprécier les changements en temps réel, et de les traiter efficacement grâce au « Machine Learning » notamment afin de diffuser à l'utilisateur du contenu multimédia ayant du sens. La technologie est ainsi destinée :
• aux constructeurs de casques (la technologie peut être intégrée en interne)
• pour les particuliers disposant d'un casque initial et ne souhaitant pas faire l'acquisition d'un nouveau casque. Ils peuvent désormais le transformer et le rendre capable de décoder leur activité cérébrale grâce à notre module et interagir de façon nouvelle avec leur applications ou services de streaming habituels.
Le dispositif a également du sens dans le domaine de la réalité virtuelle (Virtual reality VR - Oculus Rift, HTC Vive, Playstation VR, Google Cardboard, Samsung Gear VR, Homido) et augmenté (Augmented reality AR - Magic Leap, Microsoft HoloLens) dont les possibilités d'applications sont nombreuses. Les casques de réalité virtuelle (Virtual reality VR) et augmenté (Augmented reality AR) incorporent par exemple des capteurs EEG et un ensemble informatique équivalent au module 102. Les professionnels peuvent également développer leurs propres applications fondées sur notre technologie. Un
kit de développement SDK (Source Software Development Kit) pourra être disponible à des développeurs tiers désireux de créer diverses applications.
Le système proposé est capable de « lire » le cerveau humain en temps réel et via un algorithme de « machine learning » d'interpréter ces changements d'activités cérébrales afin de donner à l'utilisateur la bonne musique au bon moment. L'utilisateur n'a plus à choisir sans cesse un artiste, un morceau, un album, ou bien une playlist. Désormais, la musique « choisit » son utilisateur.
Le produit répond au problème de la curation musicale. Il est difficile de trouver son bonheur parmi plus de 40 millions de musiques disponibles sur les plateformes habituelles de streaming. Le système constitue ainsi pour l'utilisateur quel qu'il soit (mélomanes, sportifs, employés de bureaux) et quel que soit le contexte au sein duquel il évolue (en marche, en train de courir, à vélo, au repos) un assistant personnel capable d'apprendre et de s'adapter au caractère unique de chacun.
Activité physiologique - Exemple de l'EEG
Acquisition du signal
Le système proposé est une interface homme-machine (« Brain- computer interface » (BCI) ou « Interface Neuronale Directe » (IND)) qui enregistre en temps réel par capteurs de signaux cérébraux l'activité physiologique de l'utilisateur.
Dans le cas d'un casque à capteurs EEG, ceci sont constitués un jeux d'électrodes dites sèches en contact du cuir chevelu. Les signaux électriques émis par les neurones sont alors enregistrés en temps réel de façon non invasive pour l'utilisateur.
Pré-traitement - Amplification du signal et numérisation
Une fois les signaux électriques analogiques mesurés, ces derniers sont numérisés et prétraités pour obtenir une caractérisation des ondes cérébrales en fréquence, et en amplitude. Ainsi que l'illustre la figure 1, le spectre peut être découpé en 4 bandes de fréquences, par ordre croissant : Delta (<4 Hz), Thêta (4-8 Hz), Alpha (8-13Hz), Bêta (13-30 Hz).
L'activité électrique cérébrale est non linéaire et non stationnaire. Les signaux EEG sont variables dans le temps. Le prétraitement peut être associé à un filtrage permettant de débarrasser les signaux enregistrés, d'artefacts tels que le bruit de fond ou encore les mouvements des muscles, afin d'extraire des informations pertinentes.
A titre d'exemple : Le prétraitement peut s'effectuer à l'aide d'une transformée de Fourier, ou d'une décomposition en ondelettes discrète qui offre notamment l'avantage d'analyser l'évolution du contenu fréquentiel du signal dans le temps.
Catégorisation des réactions résultant de la consommation du contenu
Les signaux cérébraux sont ensuite classés, analysés et interprétés au niveau du serveur 106. La durée des signaux, leur fréquence et leur répartition dans l'espace sont prises compte pour cette opération. Plusieurs techniques d'apprentissage automatique (ou « Machine Learning » en anglais) et de classification peuvent être mises en œuvre sur les données physiologiques mesurées.
En apprentissage supervisé, les algorithmes réalisent des prédictions fondées sur un ensemble d'exemples. Par discrimination, on apprend à la machine à catégoriser automatiquement une observation parmi un nombre fixé et connu de catégories, appelées aussi classes ou étiquettes. Cela se fait en utilisant un ensemble d'apprentissage, c'est- à-dire un ensemble d'exemples de chaque classe sur lequel les classes sont connues.
Par exemple, pour la mesure d'un degré de satisfaction, l'apprentissage pourra utiliser deux catégories : satisfait, non satisfait. Des catégories intermédiaires pourraient également être envisagées. Egalement encore, le système peut observer le degré d'intérêt pour les contenus et les classer en deux catégories (« suscite un intérêt pour l'utilisateur » « ne suscite pas d'intérêt pur l'utilisateur ») ou plus si on veut introduire des niveaux intermédiaires de perception d'un contenu multimédia, ce qui constitue des problèmes complexes pour une machine.
Ce traitement de catégorisation est mis en œuvre sur les signaux cérébraux relevés lors de la lecture d'un contenu multimédia donné. Ce contenu multimédia étant lui-même associé à des attributs, la catégorisation permet d'associer un degré de satisfaction (celui relevé sur le contenu multimédia joué) à un attribut présent dans le contenu multimédia en question.
Ainsi :
- utilisateur « satisfait » d'un contenu multimédia
utilisateur « satisfait » d'un ou de plusieurs attributs associés à ce contenu multimédia
- utilisateur « non satisfait » d'un contenu multimédia
utilisateur « non satisfait » d'un ou de plusieurs attributs associés à ce contenu multimédia
Plusieurs approches en apprentissage supervisé sont possibles à l'image des réseaux de neurones ou des séparateurs à vastes marges (SVM). L'utilisation des SVM est particulièrement efficace lorsqu'il s'agit de classer des signaux EEG. L'atout majeur repose dans l'utilisation de noyaux. Les noyaux permettent non seulement d'apprendre des fonctions de décision non linéaires, mais ils peuvent aussi être appris de manière à s'adapter à chaque tâche de classification. D'autres approches reposent sur l'utilisation de modèles de type auto-régressif (AR) ou encore des chaînes de Markov cachées.
D'autres méthodes possibles en apprentissage supervisée sont les suivantes : Méthode des k plus proches voisins, classification naïve bayésienne, réseaux bayésiens, modèle de logique floue, « boosting », arbres de décision (CART), forêts aléatoires, régression linéaire multiple (MLR), régression par les moindres carrés partiels (PLS), sparse-PLS, régression sur les composantes principales (PCR), espace de versions, analyse factorielle discriminante (AFD), modèles de classification probabiliste. La fiabilité des règles de classification des objets peut être mesurée par exemple par « bootstrap » ou bien par validation croisée (« cross-validation »), il existe au moins trois techniques (« testset validation » ou « holdout method », « k-fold cross-validation » et « leave-one-out cross-validation » (LOOCV)).
En variante, l'apprentissage peut se faire de façon non supervisée : k-means, les cartes auto-organisatrices (SOM) ou encore Kohonen, théorie de la résonance adaptative (ART) [Carpenter & Grossberg (1987)], classification ascendante hiérarchique (CAH) [Lance & Williams (1967)].
L'apprentissage semi-supervisé permet de combiner les données avec labels et sans labels.
Série d'algorithmes permettant d'apprécier la réaction d'un utilisateur face à un contenu en cours de lecture (liste non limitative)
Préalablement à la classification, différentes caractéristiques des données peuvent être extraites en mettant en œuvre les traitements suivants : FFT, Wavelet transform, variance, mean, PCA, Short time FourierTransform, mutual information, Statistical feature combined with Corrélation dimension, statistical features, wavelet based features, higher order crossings.
Une fois l'extraction de caractéristiques réalisée, on peut utiliser, selon que l'apprentissage soit supervisé, non supervisé ou semi-supervisé, les algorithmes suivants pour la mise en œuvre de cet apprentissage : Neural Network, Linear Kernel SVM, RBF Kernel SVM, Naïve Bayes, Fisher Discriminant analysis, Discriminant analysis, SVM, Relevance Vector Machine, Quadratic Discriminant Analysis, Neural Networks, QDA, KNN, Mahalanobis Distance, Linear Discriminant Analysis (LDA).
Apprentissage profond
En variante ou en complément, l'apprentissage peut s'effectuer en utilisant un système d’apprentissage et de classification fondé sur des réseaux de neurones artificiels (« Deep neural networks »).
L'EEG est décodé en mettant en œuvre un traitement d'apprentissage profond « Deep learning ». Les données des capteurs sont comparées avec les données que le système a apprises. Il les classifie, avec une certaine probabilité de précision.
Le système, avec le temps gagne d'avantage d'expérience et ainsi accroît la probabilité d'une classification correcte, en s'entraînant soi- même sur les nouvelles données reçues. En d'autres mots, il peut apprendre de ses erreurs.
Désormais : Signal Acquisition -> Réseaux de neurones -> Sortie
Il s'agit d'apprécier la réponse du cerveau à chacune des caractéristiques d'un contenu multimédia en acquérant le bio-signal résultant sur tout le long.
Les séries temporelles EEG provenant de diverses localisations sont acquises. Diverses architectures d'apprentissage profond sont mises en œuvre afin d'apprendre de façon automatique des signaux physiologiques de sujets bien différents, comme les réseaux de neurones convolutifs (CNN pour Convolutional Neural Networks) et les réseaux de neurones récurrents (RNNs).
La figure 2 est un organigramme qui illustre un exemple de chaîne de traitement des signaux EEG (200).
Les séries temporelles EEG provenant de diverses localisations sont acquises. Diverses architectures d'apprentissage profond sont mises en œuvre afin d'apprendre de façon automatique des signaux physiologiques de sujets bien différents, comme les réseaux de neurones convolutifs (CNN pour Convolutional Neural Networks) et les réseaux de neurones récurrents (RNNs).
A l'étape 201, chacun des contenus multimédias sont préalablement divisés en blocs, chacun des blocs correspondant à une phrase musicale de 8 temps.
A l'étape 202, les électrodes EEG sont placées sur le cuir chevelu dans un espace tridimensionnel, ces dernières mesurent trois bandes de fréquences : thêta (4-7Hz), alpha (8-13Hz) et bêta (13-30Hz).
L'approche considérée repose sur une transformation des données EEG en images multi-dimensionnelles en entrée (tenseurs) afin de maintenir la structure des données le long du processus d'apprentissage selon trois bandes de fréquences de thêta (4-7Hz), alpha (8-13Hz) et bêta (13-30Hz). Par opposition aux analyses traditionnelles négligeant l'information spatiale, l'activité électrique EEG est transformée en images multispectrales afin de préserver la topologie.
A l'étape 203, les mesures d'activités cérébrales sont transformées en image 2D (203-a) afin de préserver la structure spatiale et plusieurs canaux de couleurs sont utilisés pour représenter la dimension spectrale. Afin de transformer les cartes de l'activité spatialement distribuée en images 2D, la localisation des électrodes de l'espace tridimensionnel est projetée sur une surface 2D. Afin de respecter la distance relative entre des électrodes voisines lors de cette transformation, la projection de Postel - qui n'est autre qu'une projection azimutale équidistante - les distances entre le centre de projection et tout autre point sont préservées. Appliquer cette méthode sur les
localisations des électrodes 3D permet d'obtenir des projetés 2D des localisations des électrodes.
Afin d'interpoler les mesures de puissance dispersées sur le cuir chevelu et d'estimer les valeurs entre les électrodes, on procède à un découpage dit « à la Clough-Tocher » (203-b). L'approche par subdivision Clough-Toucher permet par triangulation des points formés des électrodes positionnées sur le cuir chevelu, la formation d'un réseau de triangles. Chaque triangle domaine est subdivisé en trois sous- triangles en joignant le barycentre - point de maille - avec les trois sommets permettant ainsi d'affiner le maillage. Cette procédure est répétée pour chacune des bandes de fréquence d'intérêt.
Enfin, la séquence des cartes topographiques spectrales sont fusionnées afin de former une séquence d'images à trois canaux de couleur qui sont introduits dans un réseau de neurones récurrents- convolutif pour la représentation et classification.
A l'étape 204, on entraîne un réseau de neurones convolutif inspiré des techniques de classification d'images afin d'apprendre des représentations à partir de la séquence d'images EEG (301). Cette méthode est particulièrement appropriée afin de préserver la structure spatiale, spectrale et temporelle de l'EEG et ainsi de trouver des caractéristiques moins sensibles aux variations et distorsions dans chaque dimension.
L'architecture mis en œuvre se décompose en deux parties.
La première partie de l'architecture consistant en une succession de couches de convolution et d'agrégation, est dédié à l'extraction automatique de caractéristiques (302). L'architecture proposée met en œuvre plusieurs réseaux de neurones profonds comprenant une succession de couches de convolution qui traite les données d'un champ récepteur alternant avec des couches d'agrégation (« pooling »). Cette succession permet de compresser l'information en réduisant la taille de l'image intermédiaire afin d'extraire de façon automatique des caractéristiques.
Les couches d'agrégation spatiale peuvent être vues comme des fonctions d'agrégation, par exemple « max-pooling ». Elles fournissent alors en sortie le pixel dont la valeur est maximale vis-à-vis de la sortie des filtres de convolutions. Cette étape permet de faire une réduction de la dimension de l'image. L'opération de « pooling », étape de sous- échantillonnage, permet de gagner en temps de calcul. Des couches de correction (« ReLU » pour « Rectified Linear Unit ») sont intercalées entre les couches de traitement. Elles vont améliorer l'efficacité du traitement en opérant une fonction mathématique (fonction d'activation) sur les signaux de sorties de la couche précédente. Le « ReLU » [K. Jarrett, K. Kavukcuoglu, M. Ranzato, Y. LeCun (2009)] peut se définir comme f(o) = max(0,o), la fonction f(o)=tanh(o) [D. Nguyen, B. Widrow (1990)] ou bien la fonction sigmoïde f(o) = (l+e a) 1 [M. Norouzi, M. Ranjbar, G. Mori (2009)] avec s est l'entrée d'un neurone.
La deuxième partie de l'architecture, composée de couches de neurones complètement connectées, est dédié à la classification (303). Après plusieurs couches de convolution et de max-pooling, on met en œuvre un traitement de type « raisonnement de haut de niveau ». Ce traitement se fait dans le réseau neuronal via des couches de neurones complètement connectés (« fully connected ») permettant la classification. Les neurones dans une couche entièrement connectée ont des connexions vers toutes les sorties de la couche précédente. Une fois l'obtention de cette dernière couche « fully connected », la fonction softmax [C. Bishop, 1995] est utilisée. Pour un ensemble de valeurs
, el numériques l e i, le softmax de cet ensemble vaut g(l ) = - Le ålEL e softmax permet d'obtenir une distribution de probabilités d'appartenance à chaque classe. Chaque classe aura une valeur réelle comprise dans l'intervalle [0, 1] (étape 205).
Afin de classifier les états psychologiques de l'utilisateur, son degré de satisfaction, et la perception résultant d'un contenu multimédia en cours de lecture et des attributs le constituant, deux approches sont
possibles : une approche mono-trame (étape 204-a) et une approche multi-trames (étape 204-b).
Approche mono-trame (étape 204-a)
Dans une approche mono-trame (étape 2014-a), une unique image multicanaux est construite à partir des mesures spectrales effectuées sur la durée de l'essai complet correspondant à la durée d'une phrase du contenu audio (une phrase étant constitué de 8 temps). L'architecture peut être structurée séquentiellement selon différentes configurations de réseaux de neurones convolutifs, en faisant varier la profondeur.
La figure 3 illustre un réseau de neurones convolutif possible
(300).
Un réseau de neurones possible est un réseau constitué de deux couches de convolution constituées de 32 filtres de taille 3 x 3 pixels (CNN3-32), suivies d'une fonction d'activation ReLU puis d'une couche de max-pooling de taille 2 x 2 (304).
A ce réseau de neurones peut être ajouté en amont deux nouvelles couches de convolution constituées de 64 filtres de tailles 3 x 3 pixels (CNN3-64), suivies à nouveau d'une fonction d'activation ReLU puis d'une autre couche de max-pooling (304).
On peut également ajouter à cette configuration une nouvelle couche de convolution constituées de 128 filtres de tailles 3 x 3 pixels (CNN3-128).
On peut également privilégier initialement quatre couches de convolution constituées de 32 filtres de taille 3 x 3 pixels (CNN3-32) plutôt que deux couches, comme prévue initialement.
Enfin, une couche de neurones complètement connectés (« fully connected ») de 512 nœuds (FC-512) (305) est ajoutée à l'architecture, cette dernière est connectée à un softmax (306) comme dernière couche.
Approche multi-trames (étape 204-b)
On peut recourir à une approche multi-trames, une phrase est divisée en 8 temps d'intervalles de durée plus courte et une image est construite pour chacun de ces intervalles de temps, donnant ainsi plusieurs trames pour une même phrase (8 trames par phrase). Ainsi, la séquence d'images dérivée des blocs consécutifs (fenêtres temporelles) est utilisée pour tenir compte des évolutions temporelles de l'activité cérébrale. La séquence d'images est alors utilisée comme donnée d'entrée pour le réseau de neurones récurrents-convolutif. Les diverses architectures mises en exergue dans l'approche mono-trame peuvent être utilisées pour chaque trame. Toutefois, afin d'extraire l'information temporelle des cartes topographiques spectrales, plusieurs techniques d'apprentissage profond peuvent être utilisées :
- Le modèle max-pooling utilisé sur les sorties des réseaux de neurones convolutifs pour chaque trame.
- Le modèle de convolution temporelle appliquant une convolution 1D sur les sorties des réseaux de neurones convolutifs pour chaque trame convolution unidimensionnelle.
Les réseaux de neurones récurrents à large « mémoire court-terme » (« LSTM » pour Long Short- Term Memory) [S. Hochreiter, J. Schmidhuber (1997)] permettent de modéliser l'évolution temporelle de l'activité cérébrale. L'implémentation du réseau de neurones récurrents (RNN) se fonde sur celui de type Elman (1990) dont les couches cachées et couches de sorties sont calculer respectivement comme suit :
ht = H(Wxhxt + Whhht-1 + bh ) (1)
yt = Whyht + b y (2)
avec xt le vecteur d'entrée du RNN à t, Lί-1 la sortie de la couche cachée h t - l. Les paramètres wxh,whh et why
du RNN sont les matrices de poids associées à la connexion récurrente, bh , by les biais, et h0 la couche cachée initiale de l'étape précédente pour le premier vecteur de la séquence pour lequel rien n'a encore été calculé. La fonction H utilisée pour les couches cachées est généralement une sigmoïde. Elle est implémentée à l'aide des équations suivantes :
h = °( xi x t + Whi ht-i + Wci ct-t + bt ) (3) ft = °( xfxt + Whfht-1 + WCfCt-1 + bf ) (4) ct = ft <:*_! + it tanh ( Wxc xt + Whcht-1 + bc ) (5)
ht = ot tanh (ct ) (7) avec s, la fonction sigmoïde logistique. L’état de la cellule peut être modifié à travers une porte qui autorise ou bloque la mise à jour, G « input gâte » i. De même une porte contrôle si l’état de cellule est communiqué en sortie de l’unité LSTM, il s'agit de G « output gâte » o. Le « LSTM » utilise une porte permettant la remise à zéro de l’état de la cellule, la « forget gâte » /. L’idée associée au LSTM est que chaque unité computationnelle est liée non seulement à un état caché h mais également à un état c de la cellule qui joue le rôle de mémoire.
De nombreuses autres architectures/techniques d’apprentissage profond existent et peuvent être utilisés : Backpropagation, Perceptron (P), Multi Layer Perceptron (MLP), Feed Forward (FF), Radial Basis Network (RBF), Deep Feed Forward (DFF), Gated Recourent Unit (GRU), Autoencoder (AE), Variational AE (VAE), Denoising AE (DAE), Sparse AE (SAE), Markov Chain (MC), réseau de neurones d’Hopfield (HN), machine de Boltzmann (BM), machine de Boltzmann restreinte (RBM), Deep Belief Network (DBN), Deep Convolutional Network (DCN), Deconvolutional Network (DN), Deep Convolutional Inverse Graphics
Network (DCIGN), Generative Adversarial Network (GAN), Liquid State Machine (LSM), Extrême Learning Machine (ELM), Deep Residual Network (DRN), Kohonen Network (KN), Support Vector Machine (SVM), Neural Turing Machine (NTM), Spiking Neural Networks (SNNs) ...
Résolution des problèmes liés à l'acquisition des données
Des problèmes liés à l'acquisition des données peuvent apparaître, ce qui occasionne un réel impact avant de les interpréter. Ces « trous » dans les données peuvent arriver au moment où l'utilisateur bouge, et change de position fréquemment au cours de sa routine d'écoute musicale. De ce fait l'implémentation d'un Echo State Network (ESN) permet aux réseaux de neurones récurrents (RNNs) de présenter des performances élevées en portant un très grand nombre de nœuds cachés tout en fournissant un faible coût de calcul. La propriété principale de l’ESN est l’état d’écho, qui peut être décrit comme le fait que le réservoir doit oublier asymptotiquement son historique d’entrée une fois alimenté par une entrée externe. L'ESN a notamment démontré une performance robuste dans le contexte de l’apprentissage supervisé, en particulier pour la prévision des séries chronologiques et la classification des séries chronologiques.
Anticipations & prédictions
Le système est capable de réaliser des prédictions grâce à une analyse prédictive, anticiper les réactions de l'utilisateur. Une variété de techniques pouvant être utilisée allant de la modélisation prédictive, de l'apprentissage en « machine learning », et du traitement de « data mining » qui analyse les faits actuelles et historiques afin d'établir des prédictions sur le futur ou des évènements encore inconnus. Possibilité de calculer les coefficients cepstraux à partir de l'analyse LPC (Linear Prédictive coding) du signal, les coefficients sont appelés LPCC (linear prédiction cepstral coefficients).
Produits logiciels & support de transmission
Afin d'effectuer les opérations de la présente invention, les produits logiciels peuvent être écrits dans une combinaison quelconque d’un ou plusieurs langages de programmation, tels que Python, Java, Ruby, PHP, C, C ++, C #, Pascal, Fortran, Perl, Matlab, SAS, SPSS, JavaScript, AJAX, y compris tout langage de programmation similaire. Les instructions peuvent en outre être transmises ou reçues sur un réseau informatique par un « moyen de transmission ». Ces dernières peuvent être transmises à l’aide d'un dispositif d’interface de réseau et de n'importe quel protocole de transfert (par exemple HTTP). Le code de programme informatique lisible peut s'exécuter entièrement sur le dispositif informatique de l’utilisateur, partiellement sur le dispositif informatique de l’utilisateur et un logiciel autonome, partiellement sur le dispositif informatique de l’utilisateur et en partie sur un dispositif informatique à distance ou entièrement sur le dispositif informatique ou le serveur distant. Dans ce dernier scénario, l’ordinateur distant peut être connecté à l’ordinateur de l’utilisateur via n’importe quel type de réseau, un réseau personnel (PAN), un réseau local (LAN), un réseau étendu (WAN), un réseau de la région métropolitaine (MAN), ou l’Internet, les réseaux de téléphonie mobile (par exemple, un système mondial de communications mobiles (GSM), un réseau long term évolution (LTE)), et les réseaux de données sans fil (par exemple, les réseaux LiFi, WiFi, WiMAX) ou tout autre réseau sans fil approprié ou une combinaison de deux ou plusieurs de ces derniers.
Bibliographie
· Neurowear :
- neurowear "mico" instruction movie
(https://www.youtube.com/watch?v=JyiXQgj_Nfk)
- neurowear website (Projects / mico)
(http://neurowear.com/proiects detail/mico.html)
• WO 2016040398 : Aivvy Inc. (A method and System to enable user related content preferences intelligently on a headphone)
• WO 2016070188 : Smart audio headphone System (Kim Revyn)
• US 20160098980 : Matteo Ercolnao (System and method for création of musical memories)
• US 20140347265 : Interaxon Inc. (Wearable computing apparatus and method)
• WO 2014107795 Al : Interaxon Inc. (Adaptive brain training computer System and method)
• W02014085910A1 : Interaxon Inc. (System and method for enhancing content using brain-state data)
• US 9330680 : BioBeats, Inc. (Biometric-music interaction methods and Systems)
• US 5740812 A : Mindwaves, Ltd. (Apparatus for and method of providing brainwave biofeedback)
• US20090069707A1 : Brain Train (Method to improve neurofeedback training using a reinforcement System of computerized game-like cognitive or entertainment-based training activities)
• US 20140223462 : Christopher Allen Aimone (System and method for enhancing content using brain-state data)
• WO 2009126330 : Daniel Wonchul Chang (Method and System for brain entrainment)
• EP 2507994 Al : Creative Technology Ltd. (Methods and Systems for consuming media content among a group of at least two entities)
• US 20090124920 : Kip Errett Patterson (Biofeedback devices, Systems and method)
• US8676230B2 : Neurosky, Inc. (Bio signal based mobile device applications)
Claims
1. Système de diffusion de contenu multimédia interactif, ledit système comprenant :
- au moins une base de données multimédia stockant des contenus multimédias et une pluralité de caractéristiques associées à ces contenus, certaines de ces caractéristiques étant des attributs quantifiés de contenus multimédias ;
- au moins un capteur de mesure de l'activité cérébrale, en communication afin d'acquérir un ou plusieurs ensembles de données relatif à l'utilisateur ;
- un lecteur de media en communication afin de lire les contenus multimédias ;
- une base de données utilisateurs associant au moins un attribut de contenu multimédia à une information de caractérisation de réaction d'au moins un utilisateur ;
- au moins un dispositif informatique adapté pour la mise en œuvre des traitements suivants :
o lecture d'un ou plusieurs ensembles de données acquises par le ou les capteurs de mesure de l'activité cérébrale,
o catégorisation du ou des ensembles de données reçus pour catégoriser lesdits un ou plusieurs ensembles de données,
o analyse en temps réel desdites données catégorisées et détermination d'au moins une information de caractérisation de la réaction de l'utilisateur pendant la consommation du contenu multimédia,
o association de l'information de caractérisation ainsi déterminée à un ou plusieurs attributs du contenu multimédia en lecture,
o mise à jour de la base de données utilisateurs en fonction de l'association ainsi déterminée,
- le lecteur de média et/ou le (ou des) dispositif(s) informatique(s) étant adaptés pour choisir pour l'utilisateur et lui diffuser un contenu multimédia en fonction des informations de caractérisation de la base de données,
dans lequel au moins un dispositif informatique est adapté pour diviser le contenu multimédia en trames et traiter, pour chaque trame, les signaux cérébraux correspondant à ladite trame afin de déterminer un indicateur du niveau de satisfaction de l'utilisateur pour un ou plusieurs attributs constituant la ladite trame.
2. Système selon la revendication 1, dans lequel le dispositif informatique est adapté pour transformer en une ou plusieurs images EEG les signaux d’au moins un capteur de mesure de l'activité cérébrale pour chaque trame, ces images EEG faisant l'objet d'un traitement par réseau de neurones pour en déterminer un indicateur du niveau de satisfaction de l'utilisateur.
3. Système selon la revendication 2, dans lequel le dispositif informatique est adapté pour en outre analyser chaque trame et fournir pour celle-ci au moins un descripteur qui la caractérise, le ou les descripteurs de trame et les indicateurs de niveau de satisfaction déterminés étant traités pour établir pour l'utilisateur un moteur de recommandation sur le fondement d'au moins un descripteur.
4. Système selon l'une des revendications 1 à 3, dans lequel le dispositif informatique est adapté pour déterminer une image EEG à partir des signaux cérébraux pour chaque phrase musicale de N temps, un traitement par réseau de neurones étant appliqué à chaque image EEG individuellement.
5. Système selon l'une des revendications 1 à 3, dans lequel le dispositif informatique est adapté pour déterminer plusieurs
images EEG à partir des signaux cérébraux pour chaque phrase musicale de N temps, un traitement par réseau de neurones étant appliqué à la séquence d'images EEG ainsi obtenue.
6. Système selon l'une des revendications 1 à 5 dans lequel les images EEG sont traitées par des réseaux de neurones convolutifs (CNNs), le traitement mis en œuvre comprenant une succession de couches de convolution et d'agrégation dédiées à l'extraction automatique de caractéristiques puis des couches de neurones complètement connectées dédiées à la classification du niveau de satisfaction du contenu multimédia.
7. Système selon la revendication 1, dans lequel au moins un dispositif informatique est adapté pour traiter le signal audio par blocs et associer à chaque bloc un ou plusieurs attributs.
8. Système selon l'une des revendications précédentes, dans lequel le dispositif informatique est adapté pour que les durées des trames soient fonction d'un paramètre musical déterminé sur le signal audio.
9. Système selon la revendication 8, dans lequel un paramètre musical est une attaque de note ou un tempo.
10. Système selon l'une des revendications précédentes dans lequel un attribut appartient à la liste suivante : la durée, l'intensité, le timbre, la hauteur tonale, la densité, la matière, le contraste, le mouvement mélodique, le tempo.
11. Système selon l'une des revendications précédentes comportant un module adapté pour être clipsé de façon amovible sur les arceaux d'un casque audio et/ou AR et/ou VR, le dit module intégrant au moins un capteur de mesure de l'activité cérébrale.
12. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est configuré pour transmettre une information de degré de satisfaction du contenu multimédia en cours de lecture à un dispositif informatique à distance présent sur le réseau de communication.
13. Système selon l'une des revendications précédentes, dans lequel un dispositif informatique est adapté pour mettre en œuvre un traitement ESN sur lesdits signaux cérébraux et corrige les trous lors d'une défaillance d'acquisition.
14. Système selon l'une des revendications précédentes, dans lequel un dispositif informatique est adapté pour synchroniser l'acquisition des signaux par rapport à la lecture de contenu multimédia.
15. Système selon l'une des revendications précédentes, dans lequel un dispositif informatique est adapté pour que l'acquisition des signaux intervienne pendant la diffusion d'un contenu multimédia, par intermittence, de façon périodique ou continue.
16. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est configuré pour générer un rapport de suivi de l'utilisateur.
17. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique met à jour la base de données util isateurs en fonction des acq uisitions de sig naux cérébraux.
18. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique met à jour la base de données
avec les résultats des traitements d'association lorsqu'à l'issue d'une période hors connexion, il récupère une communication permettant une mise à jour à distance.
19. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique comporte un mécanisme d'apprentissage qui classe les attributs constituant le contenu multimédia en fonction du niveau de satisfaction mesuré au fil des écoutes, le résultat de cette classification est mémorisé dans la base de données, ladite base de données étant interrogeable à partir des attributs.
20. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour que le contenu multimédia en cours de lecture dépende d'un profil utilisateur et de la connaissance accumulée des autres utilisateurs utilisant le système.
21. Système selon l'une des revendications précédentes, dans lequel le lecteur média est adapté pour interroger la base de données, télécharge des contenus multimédias à distance présentant des attributs similaires à ceux appréciés par l'utilisateur, et les mémorise en vue d'une lecture ultérieure hors connexion, le lecteur média passe automatiquement en lecture de contenus téléchargés préalablement.
22. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour que les contenus multimédias sont mis à jour automatiquement lorsqu'une connexion est rétablie.
23. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour sélectionner
plusieurs contenus multimédias correspondant à un taux de satisfaction supérieur à un seuil donné et présentant certains attributs similaires et met en œuvre un mixage de ces contenus en temps réel.
24. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour modifier le contenu multimédia en cours de lecture en fonction des attributs qu'il présente et du degré de satisfaction associé à ces attributs pour l'utilisateur.
25. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour que des éléments de contenus multimédias soient désactivés lorsque le degré de satisfaction associé aux attributs de ces contenus est inférieur à un seuil pour l'utilisateur.
26. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour générer un contenu multimédia en fonction des attributs appréciés par l'utilisateur.
27. Système selon la revendication 26, dans lequel ledit dispositif informatique est adapté pour que le contenu multimédia soit généré en fonction d'une clef et d'un battement par minute (BPM) préalablement choisis.
28. Système selon l'une des revendications de 23 à 27, dans lesquels au moins un dispositif informatique est adapté pour que le contenu multimédia obtenu soit mémorisé à distance.
29. Système selon l'une des revendications précédentes, comportant un serveur adapté pour interroger la base de données sur les
attributs appréciés par un utilisateur, ladite base de données identifiant au moins un utilisateur présentant un historique d'écoutes similaire ou bien une similarité d'attributs appréciés.
30. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour changer le contenu multimédia joué en le remplaçant par un autre lorsque le degré de satisfaction de l'utilisateur est inférieur à un seuil donné.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR1851781 | 2018-02-28 | ||
| FR1851781A FR3078249A1 (fr) | 2018-02-28 | 2018-02-28 | Systeme interactif de diffusion de contenu multimedia |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2019166591A1 true WO2019166591A1 (fr) | 2019-09-06 |
Family
ID=61873620
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2019/055072 Ceased WO2019166591A1 (fr) | 2018-02-28 | 2019-02-28 | Système interactif de diffusion de contenu multimédia |
Country Status (2)
| Country | Link |
|---|---|
| FR (1) | FR3078249A1 (fr) |
| WO (1) | WO2019166591A1 (fr) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111695631A (zh) * | 2020-06-12 | 2020-09-22 | 泽恩科技有限公司 | 基于sae的检定故障特征提取方法、装置、设备以及介质 |
| CN115457946A (zh) * | 2021-06-08 | 2022-12-09 | 佛山市顺德区美的洗涤电器制造有限公司 | 噪音去除的方法、装置、电子设备及介质 |
| CN117639986A (zh) * | 2023-11-29 | 2024-03-01 | 东营市无线电监测站 | 一种应用于市域监测的基于深度学习的调频广播信号频谱监测方法及系统 |
Citations (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5740812A (en) | 1996-01-25 | 1998-04-21 | Mindwaves, Ltd. | Apparatus for and method of providing brainwave biofeedback |
| US20050092165A1 (en) * | 2000-07-14 | 2005-05-05 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to tempo |
| US20090069707A1 (en) | 2007-09-06 | 2009-03-12 | Sandford Joseph A | Method to improve neurofeedback training using a reinforcement system of computerized game-like cognitive or entertainment-based training activities |
| US20090124920A1 (en) | 2007-11-09 | 2009-05-14 | Kip Errett Patterson | Biofeedback devices, systems and method |
| WO2009126330A1 (fr) | 2008-04-11 | 2009-10-15 | Daniel Wonchul Chang | Procédé et système pour entraînement cérébral |
| EP2507994A1 (fr) | 2009-12-01 | 2012-10-10 | Creative Technology Ltd. | Procédés et systèmes pour consommer un contenu multimédia parmi un groupe d'au moins deux entités |
| US8676230B2 (en) | 2011-05-16 | 2014-03-18 | Neurosky, Inc. | Bio signal based mobile device applications |
| WO2014085910A1 (fr) | 2012-12-04 | 2014-06-12 | Interaxon Inc. | Système et procédé d'amélioration de contenu au moyen de données d'état du cerveau |
| WO2014107795A1 (fr) | 2013-01-08 | 2014-07-17 | Interaxon Inc. | Système informatique d'entraînement cérébral adaptatif et procédé |
| US20140214848A1 (en) * | 2013-01-28 | 2014-07-31 | Tata Consultancy Services Limited | Media system for generating playlist of multimedia files |
| US20140347265A1 (en) | 2013-03-15 | 2014-11-27 | Interaxon Inc. | Wearable computing apparatus and method |
| US20150093729A1 (en) * | 2012-09-07 | 2015-04-02 | BioBeats Inc. | Biometric-music interaction methods and systems |
| US20150297109A1 (en) * | 2014-04-22 | 2015-10-22 | Interaxon Inc. | System and method for associating music with brain-state data |
| WO2016040398A1 (fr) | 2014-09-09 | 2016-03-17 | Aivvy Inc. | Procédé et système pour permettre des préférences de contenu liées à l'utilisateur de manière intelligente sur un casque d'écoute |
| US20160098980A1 (en) | 2014-10-07 | 2016-04-07 | Matteo Ercolano | System and method for creation of musical memories |
| US9330680B2 (en) | 2012-09-07 | 2016-05-03 | BioBeats, Inc. | Biometric-music interaction methods and systems |
| WO2016070188A1 (fr) | 2014-11-02 | 2016-05-06 | Kim Revyn | Systeme de casque d'ecoute intelligent |
| US20180027347A1 (en) * | 2011-06-10 | 2018-01-25 | X-System Limited | Method and system for analysing sound |
-
2018
- 2018-02-28 FR FR1851781A patent/FR3078249A1/fr active Pending
-
2019
- 2019-02-28 WO PCT/EP2019/055072 patent/WO2019166591A1/fr not_active Ceased
Patent Citations (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5740812A (en) | 1996-01-25 | 1998-04-21 | Mindwaves, Ltd. | Apparatus for and method of providing brainwave biofeedback |
| US20050092165A1 (en) * | 2000-07-14 | 2005-05-05 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to tempo |
| US20090069707A1 (en) | 2007-09-06 | 2009-03-12 | Sandford Joseph A | Method to improve neurofeedback training using a reinforcement system of computerized game-like cognitive or entertainment-based training activities |
| US20090124920A1 (en) | 2007-11-09 | 2009-05-14 | Kip Errett Patterson | Biofeedback devices, systems and method |
| WO2009126330A1 (fr) | 2008-04-11 | 2009-10-15 | Daniel Wonchul Chang | Procédé et système pour entraînement cérébral |
| EP2507994A1 (fr) | 2009-12-01 | 2012-10-10 | Creative Technology Ltd. | Procédés et systèmes pour consommer un contenu multimédia parmi un groupe d'au moins deux entités |
| US8676230B2 (en) | 2011-05-16 | 2014-03-18 | Neurosky, Inc. | Bio signal based mobile device applications |
| US20180027347A1 (en) * | 2011-06-10 | 2018-01-25 | X-System Limited | Method and system for analysing sound |
| US9330680B2 (en) | 2012-09-07 | 2016-05-03 | BioBeats, Inc. | Biometric-music interaction methods and systems |
| US20150093729A1 (en) * | 2012-09-07 | 2015-04-02 | BioBeats Inc. | Biometric-music interaction methods and systems |
| US20140223462A1 (en) | 2012-12-04 | 2014-08-07 | Christopher Allen Aimone | System and method for enhancing content using brain-state data |
| WO2014085910A1 (fr) | 2012-12-04 | 2014-06-12 | Interaxon Inc. | Système et procédé d'amélioration de contenu au moyen de données d'état du cerveau |
| WO2014107795A1 (fr) | 2013-01-08 | 2014-07-17 | Interaxon Inc. | Système informatique d'entraînement cérébral adaptatif et procédé |
| US20140214848A1 (en) * | 2013-01-28 | 2014-07-31 | Tata Consultancy Services Limited | Media system for generating playlist of multimedia files |
| US20140347265A1 (en) | 2013-03-15 | 2014-11-27 | Interaxon Inc. | Wearable computing apparatus and method |
| US20150297109A1 (en) * | 2014-04-22 | 2015-10-22 | Interaxon Inc. | System and method for associating music with brain-state data |
| WO2016040398A1 (fr) | 2014-09-09 | 2016-03-17 | Aivvy Inc. | Procédé et système pour permettre des préférences de contenu liées à l'utilisateur de manière intelligente sur un casque d'écoute |
| US20160098980A1 (en) | 2014-10-07 | 2016-04-07 | Matteo Ercolano | System and method for creation of musical memories |
| WO2016070188A1 (fr) | 2014-11-02 | 2016-05-06 | Kim Revyn | Systeme de casque d'ecoute intelligent |
| US20170339484A1 (en) * | 2014-11-02 | 2017-11-23 | Ngoggle Inc. | Smart audio headphone system |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111695631A (zh) * | 2020-06-12 | 2020-09-22 | 泽恩科技有限公司 | 基于sae的检定故障特征提取方法、装置、设备以及介质 |
| CN111695631B (zh) * | 2020-06-12 | 2023-06-20 | 泽恩科技有限公司 | 基于sae的检定故障特征提取方法、装置、设备以及介质 |
| CN115457946A (zh) * | 2021-06-08 | 2022-12-09 | 佛山市顺德区美的洗涤电器制造有限公司 | 噪音去除的方法、装置、电子设备及介质 |
| CN117639986A (zh) * | 2023-11-29 | 2024-03-01 | 东营市无线电监测站 | 一种应用于市域监测的基于深度学习的调频广播信号频谱监测方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| FR3078249A1 (fr) | 2019-08-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Sarkar et al. | Recognition of emotion in music based on deep convolutional neural network | |
| US20230113072A1 (en) | Method, system, and medium for affective music recommendation and composition | |
| US11334804B2 (en) | Cognitive music selection system and method | |
| US20170339484A1 (en) | Smart audio headphone system | |
| EP4297832B1 (fr) | Dispositif de modification d'un état émotionnel d'un utilisateur | |
| WO2019166591A1 (fr) | Système interactif de diffusion de contenu multimédia | |
| Kim et al. | Dual-function integrated emotion-based music classification system using features from physiological signals | |
| Sharma et al. | A fusion way of feature extraction for automatic categorization of music genres | |
| Dalida et al. | Music mood prediction based on spotify’s audio features using logistic regression | |
| KR102533608B1 (ko) | 뇌파 데이터에 기초한 음악 생성 방법, 컴퓨팅 장치 및 컴퓨터 프로그램 | |
| Mendes | Deep learning techniques for music genre classification and building a music recommendation system | |
| CN119049432A (zh) | 基于人工智能的信息生成、修正方法、系统、设备及介质 | |
| Özseven et al. | A content analysis of the research approaches in music genre recognition | |
| Devi et al. | Treatment for Insomnia using Music Genre prediction using Convolutional Recurrent Neural Network | |
| de Sá | Merge Audio: Music Emotion Recognition Next Generation: Audio Classification with Deep Learning | |
| Chemeque Rabel | Content-based music recommendation system: A comparison of supervised Machine Learning models and music features | |
| Ciaramella et al. | Audio content-based framework for emotional music recognition | |
| Zhang et al. | Music genre classification with parallel convolutional neural networks and capuchin search algorithm | |
| Wang et al. | A survey on music emotion recognition using learning models: Y. Wang et al. | |
| Rozhevskii et al. | Psychologically-inspired music recommendation system | |
| Shrivastava et al. | Music implication and suggestion system using emotion detection | |
| Pozzi | Music emotion detection. A framework based on electrodermal activities | |
| Sri et al. | An Emotion based music recommendation system | |
| Louro | Merge Áudio 2.0 | |
| Laugs | Creating a Speech and Music Emotion Recognition System for Mixed Source Audio |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19707018 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 19707018 Country of ref document: EP Kind code of ref document: A1 |