WO2008031953A1 - Process for identifying a structure from among a collection of structures belonging to a list - Google Patents
Process for identifying a structure from among a collection of structures belonging to a list Download PDFInfo
- Publication number
- WO2008031953A1 WO2008031953A1 PCT/FR2007/001489 FR2007001489W WO2008031953A1 WO 2008031953 A1 WO2008031953 A1 WO 2008031953A1 FR 2007001489 W FR2007001489 W FR 2007001489W WO 2008031953 A1 WO2008031953 A1 WO 2008031953A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- atoms
- group
- structures
- groups
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Definitions
- the invention relates to a method for identifying a structure from a collection of structures belonging to a repertoire, said structure comprising at least two groups of atoms, each group of atoms being associated with a dictionary.
- the atom is the smallest indivisible part of the group of atoms.
- the elementary level will for example be the alphanumeric character constituting in this case the "atom” level.
- These "atoms” are arranged to form groups of atoms.
- a group of atoms can be, in this example:
- the processing will implement at least three levels, and often a number of level greater than three.
- the notion of "group of atoms" corresponds to the notion of "intermediate group”.
- the atom group is linked to a dictionary.
- the intermediate group is linked, when it is different from the atom group, to a repertoire.
- a structure composed of several intermediate groups refers to the combination of the respective directories.
- the "intermediate group” may correspond to the "atom group” level. It can also correspond to a level between the level “group of atoms” and the level “atom”, or at a level between the level “structure” and the level “group of atoms”.
- the invention is not limited to the processing of textual information, and the atoms are not necessarily alphanumeric characters.
- textual structure will be called a set composed of several groups of atoms, each group of atoms forming a string of characters, the latter being letters, numbers or symbols belonging to a defined alphabet. Groups of atoms are also called fingerprints.
- the method according to the invention finds particular application in the identification of a geographical address among a plurality of possible geographical addresses that belong to a directory.
- the elements making up the geographical address can be assimilated to said groups of atoms.
- the directory can be likened to a set (or a collection) of predefined structures.
- the list of addresses for a given city is a collection of structures that are known and saved.
- dictionaries associated with groups of atoms can correspond to a group of possible types of channels, or to all the names of lanes in a given city, or even to all numbers from 1 to 200 for example.
- To identify a geographical address it is necessary to fill in fields with a string of characters constituting a group of atoms whose sequence is potentially erroneous, which will be called - ⁇ areafter "atomic group information", each of fields being associated with a dictionary, and said characters can be numbers, letters or symbols.
- the invention may also help to identify said person from information concerning his address.
- the invention is intended in particular to be implemented by telephone information companies to search for postal or telephone coordinates of a person.
- the customer may make mistakes in the spelling of the name of the person sought, or in the address thereof.
- the operator may make typing errors or misunderstand the client's request.
- the method according to the invention makes it possible to more quickly find the information sought by a client, despite the operator's accidental input errors, or incomplete or approximate information provided by the customer.
- the structure corresponding to the geographical address comprises at least two groups of atoms, for example the name of the channel and the type of the channel.
- a word is a group of atoms, the atoms corresponding to the characters forming the word.
- Known methods include a step of preliminary information fields whose content is associated with a group of atoms and the dictionary associated with it. This step of field information consists in concretely entering into a box a series of letters, numbers or symbols.
- the group of atoms filled in is then potentially erroneous, either because a typing error may have occurred, or because the person who filled in the fields misunderstood what was dictated to him, or because the person who dictation was incorrect or wrong.
- a known method of searching for a group of atoms among a plurality of groups of atoms is described in particular in US Pat. No. 6,879,983. According to this method, the groups of atoms that are indicated are compared with one another. one with the existing groups of potential atoms to suppress potential atomic groups that do not have exactly the same ordered atoms in the same way.
- the search for structure is done according to a hierarchical approach which gives a result only in the case where the fields have been exactly informed.
- the operator having made an input error must verify that all the fields have been correctly filled in and must possibly make the effort to propose variants in the arrangement of atoms or variants of atoms in the groups of atoms so that the method delivers a result.
- the method consists in determining all the possible writings of the word "physical” taking into account the sounds generated by each of the atoms (or each of letters) or each association of atoms following the chain of distinguished atoms in the field.
- the results generated by such a method are extremely numerous: “fisikle", “fysicle” ...
- the memory required in a computer to implement such a method is often insufficient, which causes operating anomalies. Identifying a structure from this method thus seems very difficult.
- Another method is still implemented in mobile phones to help the user write messages from the keys on the phone's keypad, a key that can correspond to several letters of the alphabet.
- This method is for example described in US patent application document US-2003/0234821. It consists of a method for predicting and proposing a word to a mobile phone user writing a mini message (SMS), from the sequence of letters typed by the user.
- SMS mini message
- This method consists in particular of matching the sequence of typed letters, comparable to a group of ordered atoms, with words stored in a dictionary, said words being assimilable with groups of potential atoms.
- the method uses a likelihood calculation of possible words to which can match the series of letters typed by the user based on previously typed words and habits of this user.
- This method does not take into account any possible typing errors of the user. Also, if the user types one key instead of another, the method will not find the word the user wanted to write. He will even have to erase the letters he has typed to write the word he is looking for correctly.
- the invention relates to an automatic method for processing digital information.
- Level 1 Set of "groups of atoms" (eg structure, or database record, complete mailing address, %)
- Level 2 Group of atoms (for example a word, a postal code, a numerical identifier, ...)
- Atoms for example a character
- Level 1 Word (i.e. Group of Atoms)
- Level 2 Characters (i.e. Atoms)
- the treatments are performed exclusively on the level of the word relative to a dictionary, and do not take into account the structural context in which the word is used for the selection or the removal of doubt, after treatment the word.
- the treatment according to the prior art consists in carrying out two consecutive treatments, using two "specialized" and distinct dictionaries: first of all, the recognition of the number in the street, from a search in a dictionary comprising all the possible street numbers to remember the most likely candidate first proceed to the recognition of the street name, from a search in a dictionary including all possible street names to retain the most likely candidate concatenate the two results to determine the corrected address.
- the present invention aims to overcome the disadvantages of the state of the art.
- the treatment according to the present invention consists in carrying out a global processing: proceed to the recognition of the address, from a search in a directory comprising all the existing addresses (complete addresses in the form of [Number in the street + street name]).
- the directory is in a way a dictionary with several dimensions - two dimensions in the above-mentioned example), with a limitation of the instances to the only existing addresses actually.
- the size of this directory is therefore smaller than the size of the combinations of the dictionaries corresponding to each group of atoms.
- the invention firstly aims at a method that makes it possible to identify an amount N of potential groups of atoms from a collection of groups of atoms, said collection belonging to a dictionary F, said dictionary comprising a quantity Q of groups of atoms. atoms, each group of atoms consisting of a sequence of atoms which are ordered relative to each other and which each belong to an alphabet, said alphabet comprising a determined quantity P of atoms of different characters.
- the method of the invention aims to identify, for example, a street name, from a street name seized and potentially erroneous, and that among all the street names of the collection belonging to the dictionary "street names" of a given city.
- the method according to the invention comprises, in a manner known per se, a step of informing a field by a group of potentially erroneous atoms constituting a group of atoms indicated, and a step of identifying said quantity N of groups. potential atoms which may correspond to said group of atoms indicated among those of said collection of said dictionary.
- the identification step consists of the following steps:
- the identification step thus carried out makes it possible to associate several groups of atoms with a probability of correspondence, which enables the invention to provide one or more results (ie an amount N) as a function of previously established parameters.
- the similarity probability calculation is a product of probability calculations for each atom of the group of atoms which is indicated.
- the probability calculations take into account, preferably, the position and the character of each atom in the sequence of atoms of the group of atoms which is indicated.
- the probability calculations take into account a phonetic confusion factor between, on the one hand, an atom of defined position and character which is identified in the group of atoms indicated, and, on the other hand, another atom.
- this embodiment makes it possible to calculate the probability of similarity between a word and another which takes into account a possible error of input of the operator, the latter may have mistakenly entered a letter whose sound is close to that of the letter he should have seized.
- the probability calculations take into account a neighborhood confusion factor between two successive atoms in the sequence of atoms of said atomic group of atoms, and on the other hand two other atoms.
- This embodiment takes into account any operator input error that would have reversed two letters in the word.
- the calculations of probabilities take into account a factor of visual confusion between on the one hand an atom whose position and the associated character are defined and which is identified in the group of atoms indicated, and on the other hand another atom.
- This embodiment takes into account any operator input error that would have confused two letters that are similar.
- the probability calculations take into account a geographical confounding factor on an atom input keyboard, between
- an atom observed in the sequence of atoms of the group of atoms the observed atom having a position and a character which are defined, the atom being associated with a key of said input keyboard whose geographical position; on said keyboard is identified,
- This embodiment takes into account a possible typing error of the operator who would have pressed the key next to the one on which he wanted to press.
- the method according to the invention makes it possible, at first, to find several possible results from a sequence of characters entered by an operator, said sequence of characters entered defining a group of atoms indicated, and each result corresponding also to a group of atoms, these last groups of atoms belonging to a collection of groups of atoms in a dictionary.
- the objective of the invention is above all to identify a structure from a collection of structures, each structure being composed of several groups of atoms.
- the invention also relates, and in a second step, to a method for identifying a structure from a collection of structures belonging to a repertoire, said structure comprising at least two groups of atoms, each group of atoms being associated with a dictionary.
- the method according to the invention consists in identifying, for each group of atoms, an amount N of groups of atoms by applying the method defined above.
- the structure identification method according to the invention implements the following steps:
- the method according to the invention finds the most probable structure in a repertoire from groups of indicated atoms which are potentially erroneous, taking into account the best possibilities of similarity between the sequences of atoms indicated by the operator and those of associated dictionaries, without following a hierarchical model that removes the possibility of input errors.
- the calculation of the probability of similarity between a structure of the repertoire and the structure composed of atomic groups of information takes into account the probability of identifying a given group of atoms. in a structure knowing the group of atoms that is close to it.
- FIG. 1 represents a Bayesian network implemented by the method according to the invention
- Figure 3 represents a Bayesian network implemented by the method according to the invention
- Figure 4 is a diagram showing the data exchanges generated by the identification method according to the invention
- FIG. 5 is a diagram showing the data exchanges generated by the identification method according to the invention
- FIG. 6 schematically illustrates a structure and dictionaries associated with each of the groups of atoms composing said structure.
- the telephone operator 1 must find an address or a person from data provided to him by a customer.
- the data provided by the client constitute groups of atoms filled in, and these groups of atoms are memorized by the operator in fields, each field being associated with a dictionary.
- the operator 1 enters in boxes (corresponding to said fields), using a keyboard 2, sequences of characters that can be a sequence of letters and / or numbers and / or symbols.
- sequences of characters that can be a sequence of letters and / or numbers and / or symbols.
- the groups of atoms that are indicated thus consist of a sequence of characters.
- Figure 6 shows schematically the composition of a structure s of an address.
- the structure s comprises groups of atoms f1, f2, f3, f4 and f5.
- Each group of atoms is associated with a dictionary having a collection of F atoms predefined groups f ⁇ .
- the group of atoms f1 is associated with the dictionary Fl which concerns the numbers, and which includes all numbers from 1 to 999, for example.
- the dictionary F1 has a quantity Q of groups of atoms which is predetermined and which, in this case, is equal to 999.
- the group of atoms f2 is associated with the dictionary F2 which concerns the types of tracks, and which comprises a defined quantity of writing types of ways such as "av”, “avenue”, “avenue d”, “avenue de » Street » « street »« boulevard »...
- the group of atoms f3 is associated with the dictionary F3 of the names of way which includes all the names of ways of a city, for example.
- the group of atoms f4 is associated with the dictionary F4 of the postal codes which includes all the postal codes listed on the French territory, for example.
- the group of atoms f5 is associated with the dictionary F5 of cities which includes all the names of cities listed in France, for example.
- the dictionary F2 to F5 respectively contain quantities of groups of atoms determined.
- four steps are identified, which are shown schematically in Figure 4.
- Identification 3 of the track name Identification 4 of the track type Identification 5 of the track Identification 6 of the wanted person.
- Operator 1 enters the fields corresponding to the name of the channel and the type of channel. These two intelligence steps are symbolized by arrows R1 and R2 in Figure 4.
- this identification step 3 is performed in the same way as the identification step 4 of the type of channel.
- the identification step 3 consists, in accordance with the invention, of matching the group of atoms f3 indicated by the operator and associated with the dictionary F3 "channel name", with each of the groups of atoms f3 belonging to the F3 dictionary collection. For each pairing, we then calculate the probability that the path name is f3 knowing that we have f3. This probability calculation is noted P (f3 / f3) in FIG.
- FIG. 1 to describe the method according to the invention which is implemented to identify several types of possible f3 channels from a sequence of characters entered by the operator 1 in the field associated with the F3 dictionary "name of lanes".
- the method consists in finding the distribution of probability of pairing between the group of atoms observed f and each of the groups of atoms f of the dictionary F.
- each pair (j, aj) is an observation pair of a group of atoms f of the dictionary.
- the first value j is the index is the observed index of an index j of f.
- the indices of f range from 1 to length (f).
- the lengths of the atomic groups and the groups of atoms of the dictionary may be different.
- the second value aj is the observed atom given the atom aj of f.
- P (f) is the probability distribution of all groups of atoms in the Fet dictionary and is known.
- P (j / f) is the distribution of the index j knowing the group of atoms f and is defined as follows:
- p (d / J) is a distribution of observed 3 index as the index j. This distribution is a so-called "normal” (that is to say Gaussian) distribution of average j and spacing type ⁇ .
- P (aj / jf) is the probability distribution representing the obtaining of the atom aj from the index j and the group of atoms f.
- P (aj / aj) is the probability distribution of observing the aj atom from the aj atom. This distribution is normally obtained from statistics describing the frequencies of confusion and / or knowledge of an expert in the field of application.
- P (aj / aj) Normal (aj, distance (aj, aj), ⁇ ), where distance (aj, aj) is the distance between the two atoms aj and aj.
- Phonetic proximity is to confuse atoms because of their close pronunciation. For example, some interlocutors might confuse the "e” with the "o".
- Orthographic proximity is also a source of confusion. From all the distribution calculations, that is to say of probability, which have been defined above, it is possible to calculate the probability that a group of atoms indicated f corresponds to a particular group of atoms f among those of a list group of atoms, or dictionary F.
- the identification steps 3 and 4 of the name of the channels and the type of channels respectively revealed a quantity N of possible results with which probability coefficients are associated.
- N is equal to 3.
- N can be a previously defined quantity of results. N is however not limited to this definition. N can also be defined as the quantity of results whose probability is greater than a given percentage.
- the identification step 7 of the desired address implements the structure identification method according to the invention.
- the pattern matching model takes up part of the pattern of pairing of groups of atoms. Three additional variables s, i and fi are however introduced.
- variable s represents a structure among all those in the ES collection belonging to the associated directory.
- variable i represents the index of a group of atoms of s and fi is the "i-th" group of atoms of s.
- the Bayesian network of structure matching is shown schematically in Figure 3.
- P (s) is the probability, or distribution, of I / O instances.
- P (i / s) is the probability of the index of a group of atoms of s. This probability is defined as follows:
- P (fi / s i) is a probability distribution of the i-th group of atoms given s and i:
- P (/ / fi) is the distribution obtained from the previously described atom group matching submodel.
- the distribution P (fi / fi) represents the probability of pairing the element fi of the dictionary F given the i-th group of atoms of a structure in the repertoire ES. This distribution must be built at from the Bayesian model of structural matching by calculating the probability P (f / f) for each structure belonging to the collection of the repertoire.
- step 5 of identification of the channel has delivered the address most likely given the customer's indications.
- the computer system By consulting the ES directory, the computer system provided to the operator, the name of the person associated with the address found. This is the identification step 6 shown in FIG. It should be noted that the invention could apply only to the search for a person from his own name.
- FIG. 5 This application is illustrated by the diagram of FIG. 5 showing the data exchanges generated by the identification method according to the invention.
- the operator 1 fills a field by entering a sequence of atoms f dictated by a client.
- the system would apply the method according to the invention to identify a given quantity N of names to which the name could be related, and deliver as a result only the group of atoms f which will be associated with the greatest likelihood of matching.
- a particular application of the invention concerns the search for duplicates in a database.
- a step of identifying potential duplicates consisting in calculating, for each structure recorded in the database, a signature formed by a collection of identifiers of similar substructures, and then constituting a sub-structure. together the structures whose signatures are correlated, the correlation function being determined by the existence for each intermediate group of the compared structures of at least one common identifier, then to calculate for the structures matched by the correlation function, the result of applying to each of said paired structures the treatment according to the method of the invention, and assigning a proximity indicator according to the proximity of said results.
- the following description relates to a particular example of the application of the invention to search for duplicates in a database by a Bayesian method.
- D be a database1
- S the structure of an entry in the base D
- sj two instances of S
- sj is a duplicate of si if sj is supposed to represent the same information as if and vice versa .
- the elements si and sj have a well-defined structure.
- a “structure” is a set composed of several groups of atoms also called “fingerprints”.
- a database of educational institutions could have the lines below.
- the three previous entries correspond to three instances of the structure S of the database. Call these instances if, s2 and s3 respectively. These instances are meant to represent the same information, despite the differences in their content.
- a set of duplicates to any set of instances that are supposed to represent the same information.
- the set ES ⁇ sl, s2, s3 ⁇ is a set of duplicates.
- a set of cardinality 1 is also a set of duplicates.
- a data base D is composed of a set of instances of a structure S:
- the database is the duplication of D.
- WHERE ( ⁇ is the distribution of probability of matching of s '/. To s ⁇ and PJ' J is a threshold probability of matching. All is called the matching set of 5 ⁇ in D. If we get the matching set for all instances of D then we get the set D containing the matching sets of D:
- D is not necessarily a partition of D because an intersection can exist between two sets
- V / or ⁇ w is the transforming function D in a partition of D.
- D the base set of P.
- the construction of the base D can be very heavy. Indeed, D is obtained from the comparison of (nxn-n) pairs (s ,, Sj) ⁇ DxD Q ⁇ i ⁇ j ⁇ vQ ⁇ r E ⁇ pression (1) # An important cardinality could make this task prohibitive. On the other hand we have to define the function
- the set ⁇ ' is the set of identifiers of the dictionary ⁇ for which the probability of pairing with Ji is greater than or equal to Pc. For example, if the dictionary ⁇ s is defined as follows:
- characterization of s could be, for example:
- the invention further relates to applications such as database merging and forming clusters of structures homologous to a reference structure.
- a step of identifying potential duplicates is performed consisting of calculating, for each structure recorded in each of the databases, a signature formed by a collection of identifiers of similar intermediate groups , then to constitute a subset of the structures whose signatures are correlated, the correlation function being determined by the existence for each intermediate group of the compared structures of at least one common identifier, then to calculate for the structures matched by the correlation function, the result of the application on each of said paired structures of the processing according to claim 8 and to assign a proximity indicator according to the proximity of said results and to record a database merged with the unique structures.
- the method according to claim 1 is applied to said reference structure on the one hand, and to all the available structures of a directory, for determine for each of said available structures a probability of similarity and to record in a subset the available structures whose probability of similarity is greater than a predetermined value.
- Classification Multi-criteria market segmentation tool that works by learning and inference.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
PROCEDE POUR IDENTIFIER UNE STRUCTURE PARMI UNE COLLECTION DE STRUCTURES APPARTENANT A UN REPERTOIRE METHOD FOR IDENTIFYING A STRUCTURE AMONG A COLLECTION OF STRUCTURES BELONGING TO A DIRECTORY
L'invention concerne un procédé pour identifier une structure parmi une collection de structures appartenant à un répertoire, ladite structure comportant au moins deux groupes d'atomes, chacun des groupes d'atomes étant associé à un dictionnaire.The invention relates to a method for identifying a structure from a collection of structures belonging to a repertoire, said structure comprising at least two groups of atoms, each group of atoms being associated with a dictionary.
Toute structure peut faire l'objet d'une décomposition hiérarchique, jusqu'à un niveau élémentaire qui est désigné dans le présent brevet par le terme « atome » .Any structure may be hierarchically decomposed down to a basic level which is referred to in this patent as "atom".
Ces composants élémentaires sont regroupés pour former des groupes d'atomes qui constituent un niveau hiérarchique immédiatement supérieur. Ces groupes d'atomes eux-mêmes sont agencés pour former une structure, constituant le niveau hiérarchique supérieur.These elementary components are grouped together to form groups of atoms that constitute an immediately superior hierarchical level. These groups of atoms themselves are arranged to form a structure, constituting the higher hierarchical level.
Il est possible de construire plusieurs autres niveaux de structures intermédiaires, en fonction de la nature des informations à traiter. L'atome est la plus petite partie indivisible du groupe d'atomes.It is possible to build several other levels of intermediate structures, depending on the nature of the information to be processed. The atom is the smallest indivisible part of the group of atoms.
Pour des informations de nature textuelle, le niveau élémentaire sera par exemple le caractère alphanumérique constituant dans ce cas le niveau « atome » . Ces « atomes » sont agencés pour former des groupes d'atomes. Un groupe d'atomes peut être, dans cet exemple :For information of a textual nature, the elementary level will for example be the alphanumeric character constituting in this case the "atom" level. These "atoms" are arranged to form groups of atoms. A group of atoms can be, in this example:
- un mot ;- a word ;
- ou une syllabe ; ou un phonème. Ces groupes d'atomes sont regroupés pour former, au niveau supérieur, respectivement dans cet exemple: une adresse ou un nom de voie ou un chunk (tronçon de phrase) ; - un mot ;- or a syllable; or a phoneme. These groups of atoms are grouped together to form, in the upper level, respectively in this example: an address or a channel name or a chunk (sentence section); - a word ;
- une syllabe.- a syllable.
En fonction de l'application et du degré de granularité, le traitement mettra en œuvre au moins trois niveaux, et souvent un nombre de niveau supérieur à trois. Lorsque le nombre de niveau est de trois, la notion de « groupe d'atomes » correspond à la notion de « groupe intermédiaire » .Depending on the application and the degree of granularity, the processing will implement at least three levels, and often a number of level greater than three. When the number of level is three, the notion of "group of atoms" corresponds to the notion of "intermediate group".
Le groupe d'atome est lié à un dictionnaire.The atom group is linked to a dictionary.
Le groupe intermédiaire est lié, lorsqu'il est différent du groupe d'atome, à un répertoire.The intermediate group is linked, when it is different from the atom group, to a repertoire.
Une structure composée de plusieurs groupes intermédiaires fait référence à la combinaison des répertoires respectifs.A structure composed of several intermediate groups refers to the combination of the respective directories.
Lorsque le nombre de niveaux est supérieur à trois, le « groupe intermédiaire » peut correspondre au niveau « groupe d'atomes ». Il peut aussi correspondre à un niveau compris entre le niveau « groupe d'atomes » et le niveau « atome » , ou encore à un niveau compris entre le niveau « structure » et le niveau « groupe d'atomes ».When the number of levels is greater than three, the "intermediate group" may correspond to the "atom group" level. It can also correspond to a level between the level "group of atoms" and the level "atom", or at a level between the level "structure" and the level "group of atoms".
Bien entendu, l'invention ne se limite pas au traitement d'informations textuelles, et les atomes ne sont pas forcément des caractères alphanumériques.Of course, the invention is not limited to the processing of textual information, and the atoms are not necessarily alphanumeric characters.
On appellera ci-après « structure textuelle» un ensemble composé de plusieurs groupes d'atomes, chaque groupe d'atomes formant une chaîne de caractères, ces derniers pouvant être des lettres, des chiffres ou des symboles appartenant à un alphabet défini. Les groupes d'atomes sont également appelés « fingerprints » .Hereinafter "textual structure" will be called a set composed of several groups of atoms, each group of atoms forming a string of characters, the latter being letters, numbers or symbols belonging to a defined alphabet. Groups of atoms are also called fingerprints.
On appellera « dictionnaire » un ensemble de groupes d'atomes prédéterminés. On appellera « répertoire » un ensemble de structures prédéterminées .We will call "dictionary" a set of predetermined groups of atoms. We will call "directory" a set of predetermined structures.
Le procédé selon l'invention trouve notamment une application dans l'identification d'une adresse géographique parmi une pluralité d'adresses géographiques possibles qui appartiennent à un répertoire.The method according to the invention finds particular application in the identification of a geographical address among a plurality of possible geographical addresses that belong to a directory.
Dans le cadre de cette application, on peut assimiler l'adresse géographique à une structure.As part of this application, we can assimilate the geographic address to a structure.
Les éléments composant l'adresse géographique, comme le nom de la voie ou le type de voie par exemple, peuvent être assimilés auxdits groupes d'atomes.The elements making up the geographical address, such as the name of the channel or the type of channel, for example, can be assimilated to said groups of atoms.
Le répertoire peut être assimilé à un ensemble (ou une collection) de structures prédéfinies. Par exemple, la liste des adresses d'une ville donnée correspond à une collection de structures qui sont connues et enregistrées .The directory can be likened to a set (or a collection) of predefined structures. For example, the list of addresses for a given city is a collection of structures that are known and saved.
Quant aux dictionnaires associés aux groupes d'atomes, ils peuvent correspondre à un groupe de types de voies possibles, ou bien à tous les noms de voies dans une ville donnée, ou bien encore à tous les numéros de 1 à 200 par exemple. Pour identifier une adresse géographique, il est nécessaire de renseigner des champs par une chaîne de caractères constituant un groupe d'atomes dont la séquence est potentiellement erronée, que l'on appellera -φar la suite « groupe d'atomes renseigné », chacun des champs étant associé à un dictionnaire, et lesdits caractères pouvant être des chiffres, des lettres ou des symboles.As for the dictionaries associated with groups of atoms, they can correspond to a group of possible types of channels, or to all the names of lanes in a given city, or even to all numbers from 1 to 200 for example. To identify a geographical address, it is necessary to fill in fields with a string of characters constituting a group of atoms whose sequence is potentially erroneous, which will be called -φareafter "atomic group information", each of fields being associated with a dictionary, and said characters can be numbers, letters or symbols.
Les adresses géographiques étant généralement associées à une personne physique ou morale, l'invention peut également aider à identifier ladite personne à partir de renseignements concernant son adresse.Since geographical addresses are generally associated with a natural or legal person, the invention may also help to identify said person from information concerning his address.
Aussi, l'invention vise notamment à être mise en œuvre par les entreprises de renseignements téléphoniques pour rechercher des coordonnées postales ou téléphoniques d'une personne.Also, the invention is intended in particular to be implemented by telephone information companies to search for postal or telephone coordinates of a person.
Les conditions d'échanges entre les clients qui appellent l'entreprise de renseignements et les opérateurs devant répondre au client sont à l'origine de perte de temps et d'erreurs dans la recherche.The terms of trade between the customers who call the information company and the operators to respond to the customer are the cause of loss of time and errors in the research.
En effet, le client peut commettre des erreurs dans l'épellation du nom de la personne recherchée, ou dans l'adresse de celle-ci. Parallèlement, l'opérateur peut commettre des erreurs de saisie ou mal comprendre la requête du client.Indeed, the customer may make mistakes in the spelling of the name of the person sought, or in the address thereof. At the same time, the operator may make typing errors or misunderstand the client's request.
La méthode selon l'invention permet de retrouver plus rapidement l'information recherchée par un client, malgré les erreurs de saisie involontaires de l'opérateur, ou les informations incomplètes ou approximatives fournies par le client.The method according to the invention makes it possible to more quickly find the information sought by a client, despite the operator's accidental input errors, or incomplete or approximate information provided by the customer.
Il existe actuellement des méthodes, mises en œuvre par des moteurs de recherche, qui permettent une recherche de structures parmi une pluralité de structures.There are currently methods, implemented by search engines, that allow a search for structures among a plurality of structures.
De manière spécifique, la structure correspondant à l'adresse géographique comporte au moins deux groupes d'atomes, par exemple le nom de la voie et le type de la voie.Specifically, the structure corresponding to the geographical address comprises at least two groups of atoms, for example the name of the channel and the type of the channel.
Ce niveau de traitement correspond à ce qui est qualifié dans notre invention de « groupe d'atome » : un mot est un groupe d'atome, les atomes correspondant aux caractères formant le mot.This level of treatment corresponds to what is described in our invention as "group of atoms": a word is a group of atoms, the atoms corresponding to the characters forming the word.
Les méthodes connues comportent une étape de renseignement préalable de champs dont le contenu est associé à un groupe d'atomes et au dictionnaire qui lui est associé. Cette étape de renseignement de champs consiste concrètement à entrer dans une case une série de lettres, de chiffres ou de symboles.Known methods include a step of preliminary information fields whose content is associated with a group of atoms and the dictionary associated with it. This step of field information consists in concretely entering into a box a series of letters, numbers or symbols.
Le groupe d'atomes renseigné est alors potentiellement erroné, soit parce qu'une erreur de frappe a pu survenir, soit parce que la personne qui a renseigné les champs a mal compris ce qui lui a été dicté, soit parce que la personne qui a dicté s'est mal exprimée ou s'est trompée. Une méthode connue de recherche d'un groupe d'atomes parmi une pluralité de groupes d'atomes est notamment décrite notamment dans le document de brevet américain US 6 879 983. Conformément à cette méthode, les groupes d'atomes renseignés sont comparés un à un avec les groupes d'atomes potentiels existants pour supprimer les groupes d'atomes potentiels qui ne comportent pas exactement les mêmes atomes ordonnés de la même manière.The group of atoms filled in is then potentially erroneous, either because a typing error may have occurred, or because the person who filled in the fields misunderstood what was dictated to him, or because the person who dictation was incorrect or wrong. A known method of searching for a group of atoms among a plurality of groups of atoms is described in particular in US Pat. No. 6,879,983. According to this method, the groups of atoms that are indicated are compared with one another. one with the existing groups of potential atoms to suppress potential atomic groups that do not have exactly the same ordered atoms in the same way.
En revanche, les groupes d'atomes similaires à ceux qui ont été renseignés sont retenus.On the other hand, the groups of atoms similar to those which have been indicated are retained.
Ainsi, la recherche de structure se fait suivant une démarche hiérarchique qui donne un résultat uniquement dans le cas où les champs ont été exactement renseignés.Thus, the search for structure is done according to a hierarchical approach which gives a result only in the case where the fields have been exactly informed.
L'erreur potentielle de saisie par un opérateur renseignant des champs n'est donc pas prise en compte dans cette méthode.The potential error of input by an operator filling fields is therefore not taken into account in this method.
L'opérateur ayant fait une erreur de saisie doit vérifier que tous les champs ont été correctement renseignés et doit éventuellement faire l'effort de proposer des variantes dans l'ordonnancement des atomes ou des variantes d'atomes dans les groupes d'atomes pour que la méthode délivre un résultat.The operator having made an input error must verify that all the fields have been correctly filled in and must possibly make the effort to propose variants in the arrangement of atoms or variants of atoms in the groups of atoms so that the method delivers a result.
À l'extrême, une autre méthode prend en compte toutes les erreurs de frappe possibles pour un champ renseigné. Cette autre méthode est par exemple décrite dans le document de brevet américain US 7 047 493. Cette méthode détermine toutes les combinaisons d'atomes possibles pour un groupe d'atomes à partir du champ renseigné .In the extreme, another method takes into account all possible typing errors for a field filled. This other method is for example described in US Pat. No. 7,047,493. This method determines all possible combinations of atoms for a group of atoms from the filled field.
Par exemple, pour le champ renseigné « physical », la méthode consiste à déterminer toutes les écritures possibles du mot « physical » en tenant compte des sons engendrés par chacun des atomes (ou chacune de lettres) ou chaque association d'atomes suivant la chaîne d'atomes distinguée dans le champ. Les résultats engendrés par une telle méthode sont extrêmement nombreux : « fisikle », « fysicle »... Aussi, la mémoire nécessaire dans un ordinateur pour mettre en œuvre une telle méthode est bien souvent insuffisante, ce qui entraîne des anomalies de fonctionnement. L'identification d'une structure à partir de cette méthode semble ainsi très difficile.For example, for the field filled "physical", the method consists in determining all the possible writings of the word "physical" taking into account the sounds generated by each of the atoms (or each of letters) or each association of atoms following the chain of distinguished atoms in the field. The results generated by such a method are extremely numerous: "fisikle", "fysicle" ... Also, the memory required in a computer to implement such a method is often insufficient, which causes operating anomalies. Identifying a structure from this method thus seems very difficult.
Une autre méthode est encore mise en œuvre dans les téléphones portables pour aider l'utilisateur à écrire des messages à partir des touches du clavier de son téléphone, une touche pouvant correspondre à plusieurs lettres de l'alphabet.Another method is still implemented in mobile phones to help the user write messages from the keys on the phone's keypad, a key that can correspond to several letters of the alphabet.
Cette méthode est par exemple décrite dans le document de demande de brevet américain US-2003/0234821. Elle consiste en une méthode pour prédire et proposer un mot à un utilisateur de téléphone portable écrivant un mini message (SMS), à partir de la séquence de lettres tapées par l'utilisateur.This method is for example described in US patent application document US-2003/0234821. It consists of a method for predicting and proposing a word to a mobile phone user writing a mini message (SMS), from the sequence of letters typed by the user.
Cette méthode consiste notamment à apparier la séquence de lettres tapées, assimilable à un groupe d'atomes ordonnés, avec des mots mémorisés dans un dictionnaire, lesdits mots étant assimilables avec des groupes d'atomes potentiels. La méthode utilise notamment un calcul de probabilité de mots possibles auxquels peut correspondre la série de lettres tapées par l'utilisateur en fonction des mots précédemment tapés et des habitudes de cet utilisateur.This method consists in particular of matching the sequence of typed letters, comparable to a group of ordered atoms, with words stored in a dictionary, said words being assimilable with groups of potential atoms. The method uses a likelihood calculation of possible words to which can match the series of letters typed by the user based on previously typed words and habits of this user.
Cette méthode ne tient pas compte des éventuelles erreurs de frappe potentielles de l'utilisateur. Aussi, si l'utilisateur tape une touche plutôt qu'une autre, la méthode ne trouvera pas le mot que l'utilisateur souhaitait écrire. Il devra même effacer les lettres qu'il a tapées pour écrire de nouveau et correctement le mot qu ' il cherche .This method does not take into account any possible typing errors of the user. Also, if the user types one key instead of another, the method will not find the word the user wanted to write. He will even have to erase the letters he has typed to write the word he is looking for correctly.
On connaît également dans l ' état de la technique le brevet US5659771. Ce brevet concerne un correcteur orthographique, pour le traitement de mots dans un texte. Le traitement consiste à proposer, pour chaque mot d'un texte, un ensemble de mots alternatifs (les mots d'un ensemble sont les mots habituellement confondus). Le problème est que chacun des ensembles ne comprend que les confusions connues et observées préalablement. Par ailleurs, il est nécessaire d'enregistrer un dictionnaire très volumineux comprenant tous les ensembles de confusions possibles, même pour les séquences de mots pour lesquelles la probabilité de combinaison de confusions est nulle.Also known in the state of the art US5659771 patent. This patent concerns an orthographic corrector, for the treatment of words in a text. The treatment consists of proposing, for each word of a text, a set of alternative words (the words of a set are the words usually confused). The problem is that each set only includes the known and previously observed confusions. In addition, it is necessary to record a very large dictionary including all possible sets of confusions, even for sequences of words for which the probability of confusion combination is zero.
Dans cet ensemble, les mots qui n'ont jamais été enregistrés comme confusion, le traitement est inopérant ; en d'autre terme, le procédé selon cet art antérieur est extrêmement sensible à l'exhaustivité des ensembles de mots confondus : l'omission d'un seul mot de confusion peut rendre totalement inopérant le traitement. Cela incite donc à construire des dictionnaires très volumineux, ce qui conduit à des temps de traitement long et des volumes de données inutilement lourds .In this set, words that have never been recorded as confusion, the treatment is inoperative; in other words, the method according to this prior art is extremely sensitive to the completeness of sets of confused words: the omission of a single word of confusion can make the treatment totally ineffective. This encourages us to build very large dictionaries, which leads to long processing and unnecessarily heavy data volumes.
On connaît également le document « large scale experiments on correction of confused words » proceedings 24th Australian Computer Science Conférence, ISBN 0-7695-0963- 0 ». Ce propose un procédé de traitement similaire à celui décrit dans le brevet US5659771. Le dictionnaire est construit dans ce document à partir des confusions phonétiques ainsi que des confusions dactylographiques et comprend une phase d'entraînement amont.The document 24th Australian Computer Science Conference, ISBN 0-7695-0963-0, is also known as "large scale experiments on correction of confused words". This proposes a treatment method similar to that described in patent US5659771. The dictionary is built in this document from phonetic confusions as well as typing confusions and includes an upstream training phase.
L'article « Improving the performance the performance of dictionnary-based approches in protein name récognition CREST, auteur Yoshimasa Tsuroka, Jun'ichi Tsujii ; Japan Science and Technologu Agency, publié le 8 octobre 2004 sur le site www.elsevier.com/locate/yjbin » propose un traitement heuristique basé sur l'utilisation d'une fonction de distance entre deux mots. La distance est calculée en fonction d'une formule prenant en compte le coût de rapprochement de deux mots en fonction de la distance cumulée entre des ensembles de caractères.The article "Improving the performance of dictionary-based approaches in protein recognition CREST, author Yoshimasa Tsuroka, Jun'ichi Tsujii; Japan Science and Technology Agency, published October 8, 2004 at www.elsevier.com/locate/yjbin "offers heuristic processing based on the use of a distance function between two words. The distance is calculated based on a formula that takes into account the cost of bringing two words together based on the cumulative distance between sets of characters.
L'invention concerne une méthode automatique pour le traitement d'informations numériques.The invention relates to an automatic method for processing digital information.
Il convient de rappeler que l'invention ne concerne pas simplement la recherche de mots dans un dictionnaire, comme cela est le cas pour les documents de l'art antérieur. L'invention concerne en fait des traitements à trois niveaux :It should be remembered that the invention does not simply concern the search for words in a dictionary, as is the case for documents of the prior art. The invention relates in fact to three level treatments:
Niveau 1 : Ensemble de « groupes d'atomes » (par exemple structure, ou enregistrement de base de données, une adresse postale complète, ...)Level 1: Set of "groups of atoms" (eg structure, or database record, complete mailing address, ...)
Niveau 2 : Groupe d'atomes (par exemple un mot, un code postal, un identifiant numérique,...)Level 2: Group of atoms (for example a word, a postal code, a numerical identifier, ...)
Niveau 3 : Atomes (par exemple un caractère)Level 3: Atoms (for example a character)
Dans les documents de l'art antérieur, le traitement s'effectue uniquement sur deux niveaux :In the documents of the prior art, the processing is carried out only on two levels:
Niveau 1 : Mot (i.e. Groupe d'atomes) Niveau 2 : Caractères (i.e. atomes)Level 1: Word (i.e. Group of Atoms) Level 2: Characters (i.e. Atoms)
Les solutions proposées dans l'art antérieur ne permettent donc pas de réaliser les traitements tels que revendiqués.The solutions proposed in the prior art therefore do not make it possible to carry out the treatments as claimed.
Dans l'art antérieur, les traitements s'effectuent exclusivement sur le niveau du mot par rapport à un dictionnaire, et ne prennent pas en compte le contexte structurel dans lequel le mot est employé que pour la sélection ou la levée de doute, après traitement du mot.In the prior art, the treatments are performed exclusively on the level of the word relative to a dictionary, and do not take into account the structural context in which the word is used for the selection or the removal of doubt, after treatment the word.
Pour éclairer cette différence, prenons un exemple simple qui est le traitement d'une adresse dans une ville. Cette adresse, pour simplifier comprend = le numéro dans la rue le nom de la rue Le traitement selon l'art antérieur consiste à effectuer deux traitements consécutifs, faisant appel à deux dictionnaires « spécialisés » et distincts : procéder d'abord à la reconnaissance du numéro dans la rue, à partir d'une recherche dans un dictionnaire comprenant tous les numéros de rue possibles pour retenir le candidat le plus probable procéder d'abord à la reconnaissance du nom de la rue, à partir d'une recherche dans un dictionnaire comprenant tous les noms de rue possibles pour retenir le candidat le plus probable concaténer les deux résultats pour déterminer l'adresse corrigée.To shed light on this difference, let's take a simple example of how to treat an address in a city. This address, to simplify includes = number in the street the name of the street The treatment according to the prior art consists in carrying out two consecutive treatments, using two "specialized" and distinct dictionaries: first of all, the recognition of the number in the street, from a search in a dictionary comprising all the possible street numbers to remember the most likely candidate first proceed to the recognition of the street name, from a search in a dictionary including all possible street names to retain the most likely candidate concatenate the two results to determine the corrected address.
La présente invention vise à pallier les inconvénients de l'état de la technique actuelle.The present invention aims to overcome the disadvantages of the state of the art.
Le traitement selon la présente invention consiste à procéder à un traitement global : procéder à la reconnaissance de l'adresse, à partir d'une recherche dans un répertoire comprenant l'ensemble des adresses existantes (adresses complètes sous la forme de [Numéro dans la rue + nom de la rue]).The treatment according to the present invention consists in carrying out a global processing: proceed to the recognition of the address, from a search in a directory comprising all the existing addresses (complete addresses in the form of [Number in the street + street name]).
Le répertoire constitue en quelque sorte un dictionnaire à plusieurs dimensions — deux dimensions dans l'exemple susvisé), avec une limitation des instances aux seules adresses existantes réellement. La taille de ce répertoire est donc inférieure à la taille des combinaisons des dictionnaires correspondant à chaque groupe d'atomes. L'avantage technique qui en résulte, outre l'amélioration de la pertinence de la reconnaissance, est la réduction des temps de traitement et de la taille des mémoires nécessaires à l'enregistrement des informations et à leurs traitements.The directory is in a way a dictionary with several dimensions - two dimensions in the above-mentioned example), with a limitation of the instances to the only existing addresses actually. The size of this directory is therefore smaller than the size of the combinations of the dictionaries corresponding to each group of atoms. The resulting technical advantage, in addition to improving the relevance of recognition, is the reduction of processing times and the size of the memories required for the recording of information and their processing.
L'invention vise dans un premier temps une méthode qui permet d'identifier une quantité N de groupes d'atomes potentiels parmi une collection de groupes d'atomes, ladite collection appartenant à un dictionnaire F, ledit dictionnaire comportant une quantité Q de groupes d'atomes, chaque groupe d'atomes étant constitué d'une séquence d'atomes qui sont ordonnés les uns par rapport aux autres et qui appartiennent chacun à un alphabet, ledit alphabet comportant une quantité déterminée P d'atomes de caractères différents.The invention firstly aims at a method that makes it possible to identify an amount N of potential groups of atoms from a collection of groups of atoms, said collection belonging to a dictionary F, said dictionary comprising a quantity Q of groups of atoms. atoms, each group of atoms consisting of a sequence of atoms which are ordered relative to each other and which each belong to an alphabet, said alphabet comprising a determined quantity P of atoms of different characters.
Concrètement, dans un premier temps et dans le cadre de l'application à la recherche d'adresse dans un répertoire, la méthode selon l'invention vise à identifier, par exemple, un nom de rue, à partir d'un nom de rue saisi et potentiellement erroné, et cela parmi tous les noms de rue de la collection appartenant au dictionnaire « noms de rues » d'une ville donnée.Specifically, in a first step and in the context of the application to address search in a directory, the method of the invention aims to identify, for example, a street name, from a street name seized and potentially erroneous, and that among all the street names of the collection belonging to the dictionary "street names" of a given city.
La méthode selon l'invention comporte, de manière connue en soi, une étape de renseignement d'un champ par un groupe d'atomes potentiellement erronés constituant un groupe d'atomes renseigné, et une étape d'identification de ladite quantité N de groupes d'atomes potentiels pouvant correspondre audit groupe d'atomes renseigné parmi ceux de ladite collection dudit dictionnaire. Conformément à l'invention, l'étape d'identification consiste en les étapes suivantes :The method according to the invention comprises, in a manner known per se, a step of informing a field by a group of potentially erroneous atoms constituting a group of atoms indicated, and a step of identifying said quantity N of groups. potential atoms which may correspond to said group of atoms indicated among those of said collection of said dictionary. According to the invention, the identification step consists of the following steps:
- appariement dudit groupe d'atomes renseigné avec chacun des Q groupes d'atomes de ladite collection dudit dictionnaire F, pour chaque appariement, calcul d'une probabilité de similitude entre le groupe d'atomes renseigné et le groupe d'atomes du dictionnaire apparié,pairing said group of atoms filled with each of the Q groups of atoms of said collection of said dictionary F, for each pairing, calculating a probability of similarity between the group of atoms indicated and the group of atoms of the paired dictionary ,
- et identification des N groupes d'atomes potentiels dont la probabilité de similitude est la plus forte.and identification of the N groups of potential atoms whose probability of similarity is highest.
L'étape d'identification ainsi réalisée permet d'associer à plusieurs groupes d'atomes une probabilité de correspondance, ce qui permet à l'invention de fournir un ou plusieurs résultats (soit une quantité N) en fonction de paramètres établis préalablement.The identification step thus carried out makes it possible to associate several groups of atoms with a probability of correspondence, which enables the invention to provide one or more results (ie an amount N) as a function of previously established parameters.
Par exemple, grâce à la méthode selon l'invention, on peut retenir tous les groupes d'atomes du dictionnaire dont la probabilité d ' appariement avec le groupe d'atomes renseigné serait supérieure à un pourcentage donné, ou bien encore les 10 ou 20 groupes d'atomes du dictionnaire dont les probabilités d' appariement avec le groupe d'atomes renseigné seraient les meilleurs.For example, by means of the method according to the invention, it is possible to retain all the groups of atoms of the dictionary whose probability of matching with the group of atoms indicated would be greater than a given percentage, or else the 10 or 20 groups of atoms of the dictionary whose probabilities of matching with the group of atoms indicated would be the best.
La méthode selon l'invention permet ainsi de retenir plusieurs résultats possibles, tout en restant limitatif sur la quantité de résultats pour ne pas encombrer la mémoire d'un dispositif qui mettrait en œuvre la méthode. Dans le cadre d'un premier mode de réalisation de l'invention qui sera décrit et illustré par la suite, le calcul de probabilité de similitude est un produit de calculs de probabilités pour chaque atome du groupe d'atomes qui est renseigné. Les calculs de probabilités prennent en compte, de préférence, la position et le caractère de chaque atome dans la séquence d'atomes du groupe d'atomes qui est renseigné.The method according to the invention thus makes it possible to retain several possible results, while remaining limiting on the quantity of results so as not to encumber the memory of a device that would implement the method. In the context of a first embodiment of the invention which will be described and illustrated subsequently, the similarity probability calculation is a product of probability calculations for each atom of the group of atoms which is indicated. The probability calculations take into account, preferably, the position and the character of each atom in the sequence of atoms of the group of atoms which is indicated.
II est avantageusement prévu que les calculs de probabilités prennent en compte un facteur de confusion phonétique entre d'une part un atome de position et de caractère définis qui est identifié dans le groupe d'atomes renseigné, et d'autre part un autre atome.It is advantageously provided that the probability calculations take into account a phonetic confusion factor between, on the one hand, an atom of defined position and character which is identified in the group of atoms indicated, and, on the other hand, another atom.
Par exemple, et concrètement, ce mode de réalisation permet de calculer la probabilité de similitude entre un mot et un autre qui tient compte d'une éventuelle erreur de saisie de l'opérateur, ce dernier pouvant avoir saisi par erreur une lettre dont le son est proche de celui de la lettre qu'il aurait dû saisir.For example, and concretely, this embodiment makes it possible to calculate the probability of similarity between a word and another which takes into account a possible error of input of the operator, the latter may have mistakenly entered a letter whose sound is close to that of the letter he should have seized.
Dans le cadre d'un mode de réalisation parallèle, on prévoit que les calculs de probabilités prennent en compte un facteur de confusion de voisinage entre d'une part deux atomes successifs dans la séquence d'atomes dudit groupe d'atomes renseigné, et d'autre part deux autres atomes.In the context of a parallel embodiment, it is expected that the probability calculations take into account a neighborhood confusion factor between two successive atoms in the sequence of atoms of said atomic group of atoms, and on the other hand two other atoms.
Ce mode de réalisation tient compte d'une éventuelle erreur de saisie de l'opérateur qui aurait inversé deux lettres dans le mot . De manière avantageuse, il peut également être prévu que les calculs de probabilités prennent en compte un facteur de confusion visuelle entre d'une part un atome dont la position et le caractère associés sont définis et qui est identifié dans le groupe d'atomes renseigné, et d'autre part un autre atome.This embodiment takes into account any operator input error that would have reversed two letters in the word. Advantageously, it can also be provided that the calculations of probabilities take into account a factor of visual confusion between on the one hand an atom whose position and the associated character are defined and which is identified in the group of atoms indicated, and on the other hand another atom.
Ce mode de réalisation tient compte d'une éventuelle erreur de saisie de l'opérateur qui aurait confondu deux lettres qui se ressemblent.This embodiment takes into account any operator input error that would have confused two letters that are similar.
Il peut encore être prévu de manière avantageuse que les calculs de probabilités prennent en compte un facteur de confusion géographique sur un clavier de saisie des atomes, entreIt can still be advantageously provided that the probability calculations take into account a geographical confounding factor on an atom input keyboard, between
- d'une part un atome observé dans la séquence d'atomes du groupe d'atomes, l'atome observé présentant une position et un caractère qui sont définis, l'atome étant associé à une touche dudit clavier de saisie dont la position géographique sur ledit clavier est identifiée,on the one hand, an atom observed in the sequence of atoms of the group of atoms, the observed atom having a position and a character which are defined, the atom being associated with a key of said input keyboard whose geographical position; on said keyboard is identified,
- et d'autre part un autre atome qui est associé à une touche voisine de la touche identifiée sur ledit clavier qui est associée à l'atome observé.and on the other hand another atom which is associated with a key close to the key identified on said keyboard which is associated with the observed atom.
Ce mode de réalisation tient compte d'une éventuelle erreur de frappe de l'opérateur qui aurait appuyé sur la touche d'à côté de celle sur laquelle il aurait voulu appuyer.This embodiment takes into account a possible typing error of the operator who would have pressed the key next to the one on which he wanted to press.
Ainsi définie, la méthode selon l'invention permet de trouver, dans un premier temps, plusieurs résultats possibles à partir d'une séquence de caractères saisis par un opérateur, ladite séquence de caractères saisis définissant un groupe d'atomes renseigné, et chaque résultat correspondant également à un groupe d'atomes, ces derniers groupes d'atomes appartenant à une collection de groupes d'atomes dans un dictionnaire.Thus defined, the method according to the invention makes it possible, at first, to find several possible results from a sequence of characters entered by an operator, said sequence of characters entered defining a group of atoms indicated, and each result corresponding also to a group of atoms, these last groups of atoms belonging to a collection of groups of atoms in a dictionary.
Comme indiqué plus haut, l'objectif de l'invention est avant tout d'identifier une structure parmi une collection de structures, chaque structure étant composée de plusieurs groupes d'atomes.As indicated above, the objective of the invention is above all to identify a structure from a collection of structures, each structure being composed of several groups of atoms.
À cet effet, l'invention concerne également, et dans un second temps, un procédé pour identifier une structure parmi une collection de structures appartenant à un répertoire, ladite structure comportant au moins deux groupes d'atomes, chacun des groupes d'atomes étant associé à un dictionnaire.To this end, the invention also relates, and in a second step, to a method for identifying a structure from a collection of structures belonging to a repertoire, said structure comprising at least two groups of atoms, each group of atoms being associated with a dictionary.
En premier lieu, le procédé selon l'invention consiste à identifier, pour chaque groupe d'atomes, une quantité N de groupes d'atomes en appliquant la méthode définie précédemment.In the first place, the method according to the invention consists in identifying, for each group of atoms, an amount N of groups of atoms by applying the method defined above.
En second lieu, le procédé d'identification de structure selon l'invention met en œuvre les étapes suivantes :Secondly, the structure identification method according to the invention implements the following steps:
- identification de toutes les combinaisons potentielles de structures à partir des N groupes d'atomes potentiels identifiés,identification of all the potential combinations of structures from the N groups of potential atoms identified,
- identification de la structure la plus pertinente parmi la collection de structures du répertoire en réalisant les étapes suivantes : appariement de chacune des structures potentielles identifiées avec chacune des structures de la collection de structures du répertoire ,- identification of the most relevant structure from the repertoire structure collection by performing the following steps: matching each of the potential structures identified with each of the structures from the directory structure collection,
- pour chaque appariement, calcul d'une probabilité de similitude,- for each pairing, calculation of a likelihood of similarity,
- et identification de la structure la plus pertinente parmi celles de la collection de structures du répertoire, dont la probabilité de similitude avec une structure du répertoire est la plus forte.and identification of the most relevant structure among those in the collection of repertoire structures, the likelihood of which is similar to a directory structure is greatest.
Ainsi réalisé, le procédé selon l'invention trouve la structure la plus probable dans un répertoire à partir de groupes d'atomes renseignés qui sont potentiellement erronés en tenant compte des meilleures possibilités de similitude entre les séquences d'atomes renseignées par l'opérateur et celles de dictionnaires associés, sans suivre un modèle hiérarchique qui supprime des possibilités d'erreurs de saisie.Thus realized, the method according to the invention finds the most probable structure in a repertoire from groups of indicated atoms which are potentially erroneous, taking into account the best possibilities of similarity between the sequences of atoms indicated by the operator and those of associated dictionaries, without following a hierarchical model that removes the possibility of input errors.
Dans le cadre d'un mode de réalisation avantageux, on prévoit que le calcul de la probabilité de similitude entre une structure du répertoire et la structure composée de groupes d'atomes renseignés tient compte de la probabilité d'identifier un groupe d'atomes donné dans une structure connaissant le groupe d'atomes qui lui est voisin.In the context of an advantageous embodiment, it is expected that the calculation of the probability of similarity between a structure of the repertoire and the structure composed of atomic groups of information takes into account the probability of identifying a given group of atoms. in a structure knowing the group of atoms that is close to it.
Parallèlement, l'invention concerne un système d'identification de structures mettant en œuvre le procédé d'identification décrit précédemment, ainsi qu'un système d'identification de groupes d'atomes mettant en œuvre la méthode d'identification décrite précédemment. On décrira maintenant un exemple de mise en œuvre de la méthode et du procédé selon l'invention en faisant référence aux dessins annexés, parmi lesquels : la figure 1 représente un réseau bayésien mis en œuvre par la méthode selon l'invention, la figure 2 représente schématiquement un clavier « AZERTY » utilisé par un opérateur pour saisir des groupes d' atomes , la figure 3 représente un réseau bayésien mis en œuvre par le procédé selon l'invention, la figure 4 est un diagramme montrant les échanges de données générés par le procédé d'identification selon l'invention, la figure 5 est un diagramme montrant les échanges de données générés par la méthode d'identification selon l'invention,In parallel, the invention relates to a system for identifying structures implementing the identification method described above, as well as a system for identifying groups of atoms implementing the identification method described above. An example embodiment of the method and method according to the invention will now be described with reference to the appended drawings, among which: FIG. 1 represents a Bayesian network implemented by the method according to the invention, FIG. schematically represents a keyboard "AZERTY" used by an operator to enter groups of atoms, Figure 3 represents a Bayesian network implemented by the method according to the invention, Figure 4 is a diagram showing the data exchanges generated by the identification method according to the invention, FIG. 5 is a diagram showing the data exchanges generated by the identification method according to the invention,
- et la figure 6 illustre schématiquement une structure et des dictionnaires associés à chacun des groupes d'atomes composant ladite structure.and FIG. 6 schematically illustrates a structure and dictionaries associated with each of the groups of atoms composing said structure.
Pour mieux comprendre l'invention, la description qui va suivre ne fera référence qu'à un seul exemple d'application : une recherche d'adresse ou de personne à partir de champs remplis par un opérateur.To better understand the invention, the description that follows will refer to only one example of application: a search address or person from fields filled by an operator.
Il devra toutefois être entendu que cette application n'est pas limitative, et que l'invention peut s'appliquer à l'identification de données ou d'éléments dans d'autres domaines . Le procédé et la méthode selon l'invention sont appliqués par système informatique qui est utilisé par un opérateur téléphonique de renseignements 1.However, it should be understood that this application is not limiting, and that the invention can be applied to the identification of data or elements in other fields. The method and method according to the invention are applied by computer system which is used by an information telephone operator 1.
L'opérateur téléphonique 1 doit retrouver une adresse ou une personne à partir de données qui lui sont' fournies par un client.The telephone operator 1 must find an address or a person from data provided to him by a customer.
Les données fournies par le client constituent des groupes d'atomes renseignés, et ces groupes d'atomes renseignés sont mémorisés par l'opérateur dans des champs, chaque champ étant associé à un dictionnaire.The data provided by the client constitute groups of atoms filled in, and these groups of atoms are memorized by the operator in fields, each field being associated with a dictionary.
Concrètement, l'opérateur 1 saisit dans des cases (correspondant auxdits champs), à l'aide d'un clavier 2, des séquences de caractères pouvant être une suite de lettres et/ou des chiffres et/ou de symboles. Les groupes d'atomes renseignés sont ainsi constitués d'une séquence de caractères.Specifically, the operator 1 enters in boxes (corresponding to said fields), using a keyboard 2, sequences of characters that can be a sequence of letters and / or numbers and / or symbols. The groups of atoms that are indicated thus consist of a sequence of characters.
La figure 6 montre schématiquement la composition d'une structure s d'une adresse.Figure 6 shows schematically the composition of a structure s of an address.
La structure s comprend des groupes d'atomes fl, f2, f3, f4 et f5.The structure s comprises groups of atoms f1, f2, f3, f4 and f5.
Chaque groupe d'atomes est associé à un dictionnaire F comportant une collection de groupes d'atomes f± prédéfinis. Ainsi, et dans le cadre de l'application à la recherche d'adresse, le groupe d'atomes fl est associé au dictionnaire Fl qui concerne les numéros, et qui comporte tous les numéros de 1 à 999, par exemple.Each group of atoms is associated with a dictionary having a collection of F atoms predefined groups f ±. Thus, and in the context of the address search application, the group of atoms f1 is associated with the dictionary Fl which concerns the numbers, and which includes all numbers from 1 to 999, for example.
Aussi, le dictionnaire Fl comporte une quantité Q de groupes d'atomes qui est prédéterminée et qui, dans le cas présent, est égale à 999.Also, the dictionary F1 has a quantity Q of groups of atoms which is predetermined and which, in this case, is equal to 999.
Le groupe d'atomes f2 est associé au dictionnaire F2 qui concerne les types de voies, et qui comporte une quantité définie d'écritures de types de voies telles que « av », « avenue » , « avenue d' », « avenue de » , « rue » , « rue de », « boulevard de »...The group of atoms f2 is associated with the dictionary F2 which concerns the types of tracks, and which comprises a defined quantity of writing types of ways such as "av", "avenue", "avenue d", "avenue de »,« Street »,« street »,« boulevard »...
Le groupe d'atomes f3 est associé au dictionnaire F3 des noms de voie qui comporte tous les noms de voies d'une ville, par exemple.The group of atoms f3 is associated with the dictionary F3 of the names of way which includes all the names of ways of a city, for example.
Le groupe d'atomes f4 est associé au dictionnaire F4 des codes postaux qui comporte tous les codes postaux répertoriés sur le territoire français, par exemple.The group of atoms f4 is associated with the dictionary F4 of the postal codes which includes all the postal codes listed on the French territory, for example.
Le groupe d'atomes f5 est associé au dictionnaire F5 des villes qui comporte tous les noms de villes répertoriées en France, par exemple.The group of atoms f5 is associated with the dictionary F5 of cities which includes all the names of cities listed in France, for example.
Les dictionnaire F2 à F5 comportent respectivement des quantités de groupes d'atomes déterminées. Dans le cadre de la recherche d'une personne à partir de renseignements concernant son adresse, on identifie quatre étapes qui sont schématisées par la figure 4.The dictionary F2 to F5 respectively contain quantities of groups of atoms determined. In the search for a person based on information concerning his address, four steps are identified, which are shown schematically in Figure 4.
Les quatre étapes sont les suivantes :The four steps are:
Identification 3 du nom de la voie, Identification 4 du type de la voie Identification 5 de la voie Identification 6 de la personne recherchée.Identification 3 of the track name, Identification 4 of the track type Identification 5 of the track Identification 6 of the wanted person.
La réalisation de chacune de ces étapes fait appel à un programme bayésien.The completion of each of these steps uses a Bayesian program.
L'opérateur 1 renseigne les champs correspondant au nom de la voie et au type de voie. Ces deux étapes de renseignement sont symbolisées par les flèches Rl et R2 sur la figure 4.Operator 1 enters the fields corresponding to the name of the channel and the type of channel. These two intelligence steps are symbolized by arrows R1 and R2 in Figure 4.
La description qui va suivre va maintenant aire référence à l'étape d'identification 3 du nom de la voie.The description which follows will now refer to the identification step 3 of the name of the channel.
II convient de noter ici que cette étape d'identification 3 est réalisée de la même manière que l'étape d'identification 4 du type de voie.It should be noted here that this identification step 3 is performed in the same way as the identification step 4 of the type of channel.
L'étape d'identification 3 consiste, conformément à l'invention, à apparier le groupe d'atomes f3 renseigné par l'opérateur et associé au dictionnaire F3 « nom de voies », à chacun des groupes d'atomes f3 appartenant à la collection du dictionnaire F3. Pour chaque appariement, on calcule alors la probabilité que le nom de voie soit f3 sachant que l'on a f3. Ce calcul de probabilité est noté P(f3/f3) sur la figure 4.The identification step 3 consists, in accordance with the invention, of matching the group of atoms f3 indicated by the operator and associated with the dictionary F3 "channel name", with each of the groups of atoms f3 belonging to the F3 dictionary collection. For each pairing, we then calculate the probability that the path name is f3 knowing that we have f3. This probability calculation is noted P (f3 / f3) in FIG.
Il en va de même pour le calcul de probabilité du type de voie f2 connaissant le type de voie renseigné f2 : P(f2/f2).The same goes for the probability calculation of the type of channel f2 knowing the type of channel filled f2: P (f2 / f2).
Il va maintenant être fait référence à la figure 1 pour décrire la méthode selon l'invention qui est mise en œuvre pour identifier plusieurs types de voies f3 possibles à partir d'une séquence de caractères saisie par l'opérateur 1 dans le champ associé au dictionnaire F3 « nom de voies » .Reference will now be made to FIG. 1 to describe the method according to the invention which is implemented to identify several types of possible f3 channels from a sequence of characters entered by the operator 1 in the field associated with the F3 dictionary "name of lanes".
De manière générale, la méthode consiste à trouver la distribution de probabilité d' appariement entre le groupe d'atomes observé f et chacun des groupes d'atomes f du dictionnaire F.In general, the method consists in finding the distribution of probability of pairing between the group of atoms observed f and each of the groups of atoms f of the dictionary F.
Pour définir P(f/f), la demanderesse représente un groupe d'atomes observé f par une séquence de couples : f = <1, âl> <2,a2> <3, !3>...<k,âk>To define P (f / f), the Applicant represents a group of atoms observed f by a sequence of pairs: f = <1, a1> <2, a2> <3,! 3> ... <k, ak >
où aj est le « j-ème » atome du groupe d'atomes observé f.where aj is the "j-th" atom of the group of atoms observed f.
Prenons l'exemple du nom de rue recherché « Saint Fergus ». L'opérateur s'est trompé dans la saisie du nom de rue et a tapé « sait jergus » . Dans le cadre de cet exemple, on a :Take the example of the street name "Saint Fergus". The operator was wrong in entering the street name and typed "knows jergus". In the context of this example, we have:
f = <l , s> <2 , a> <3 , i> <4 , t> <5 , ' ' > <6 , j> <7 , e> <8 , r> <9 , g>f = <l, s> <2, a> <3, i> <4, t> <5, ''> <6, j> <7, e> <8, r> <9, g>
<10fu> <ll,s><10 f u><ll,s>
On cherche à calculer P (f / f) = P (f / <1, âl> <2,a2> <3, a3>...<k,ak>) , où k = longueur (f).We want to calculate P (f / f) = P (f / <1, a1> <2, a2> <3, a3> ... <k, ak>), where k = length (f).
Pour calculer cette valeur pour tout élément f appartenant au dictionnaire F, il faut considérer que chaque couple (j, aj ) est un couple d'observation d'un groupe d'atomes f du dictionnaire.To calculate this value for any element f belonging to the dictionary F, it must be considered that each pair (j, aj) is an observation pair of a group of atoms f of the dictionary.
La première valeur j est l'indice est l'indice observé d'un indice j de f. Les indices de f vont de 1 à longueur (f). Les longueurs des groupes d'atomes renseignés et des groupes d'atomes du dictionnaire peuvent être différentes. La seconde valeur aj est l'atome observé étant donné l'atome aj de f.The first value j is the index is the observed index of an index j of f. The indices of f range from 1 to length (f). The lengths of the atomic groups and the groups of atoms of the dictionary may be different. The second value aj is the observed atom given the atom aj of f.
Le calcul de probabilité pour chaque appariement entre le groupe d'atomes observé et un groupe d'atomes parmi ceux du dictionnaire associé est le suivant :The probability calculation for each pairing between the group of atoms observed and a group of atoms among those of the associated dictionary is as follows:
P(f j j aj ij) = P (f) P(J / f) P(J / j) P(aj/ j f) P(âj/aj)P (f j j aj ij) = P (f) P (J / f) P (J / j) P (aj / jf) P (aj / aj)
Le réseau bayésien correspondant à ce calcul de probabilité est représenté sur la figure 1.The Bayesian network corresponding to this probability calculation is shown in FIG.
P(f) est la distribution de probabilité de l'ensemble des groupes d'atomes dans le dictionnaire Fet elle est connue. P(j / f) est la distribution de l'indice j connaissant le groupe d'atomes f et elle est définie comme suit :P (f) is the probability distribution of all groups of atoms in the Fet dictionary and is known. P (j / f) is the distribution of the index j knowing the group of atoms f and is defined as follows:
P(j / f) = 1 / longueur (f) si j <= longueur (f) sinon, P(j / f) = 0P (j / f) = 1 / length (f) if j <= length (f) otherwise, P (j / f) = 0
p(j / J) est la distribution de l'indice observé 3 étant donné l'indice j. Cette distribution est une distribution dite « normale » (c'est-à-dire Gaussienne) de moyenne j et d'écartement type σ. p (d / J) is a distribution of observed 3 index as the index j. This distribution is a so-called "normal" (that is to say Gaussian) distribution of average j and spacing type σ.
P(j / j) = Normal (j, j, σ)P (j / j) = Normal (j, j, σ)
P(aj / j f) est la distribution de probabilité représentant l'obtention de l'atome aj à partir de l'indice j et du groupe d'atomes f.P (aj / jf) is the probability distribution representing the obtaining of the atom aj from the index j and the group of atoms f.
P(aj / j f ) = 1 si aj est le « j-ème » atome de f, Sinon P(aj / j f) = 0P (aj / jf) = 1 if aj is the "j-th" atom of f, else P (aj / jf) = 0
P (aj / aj ) est la distribution de probabilité d'observer l'atome aj à partir de l'atome aj . Cette distribution est normalement obtenue à partir de statistiques décrivant les fréquences de confusion et / ou de connaissance d'un expert du domaine d'application.P (aj / aj) is the probability distribution of observing the aj atom from the aj atom. This distribution is normally obtained from statistics describing the frequencies of confusion and / or knowledge of an expert in the field of application.
Dans les applications où les atomes sont les symboles d'un clavier 2 d'ordinateur, les confusions sont établies par le voisinage des touches du clavier 2, la proximité phonétique, la ressemblance et l'orthographe parmi d'autres.In applications where the atoms are the symbols of a computer keyboard 2, the confusions are established by the neighborhood of keyboard keys 2, phonetic proximity, resemblance and spelling among others.
La confusion par voisinage consiste à échanger un atome par un autre. Par exemple, sur le clavier 2 AZERTY représenté sur la figure 2, il est plus probable de confondre la touche « G » avec les touches voisines « F », « R », « T », « Y », « H », « N », « B », et « V », que de confondre la touche « G » avec la touche « L ».Neighborhood confusion is the exchange of one atom by another. For example, on the keyboard 2 AZERTY shown in Figure 2, it is more likely to confuse the key "G" with the neighboring keys "F", "R", "T", "Y", "H", " N "," B ", and" V ", than to confuse the" G "key with the" L "key.
Dans le cas de confusion par voisinage, on prend en compte la distribution de probabilité normale avec un écart type σ et une moyenne égale à la distance entre aj et aj , c'est-à- dire :In the case of neighborhood confusion, we take into account the normal probability distribution with a standard deviation σ and an average equal to the distance between aj and aj, that is to say:
P(aj / aj) = Normal (aj, distance (aj,aj), σ) , où distance (aj,aj) est la distance entre les deux atomes aj et aj .P (aj / aj) = Normal (aj, distance (aj, aj), σ), where distance (aj, aj) is the distance between the two atoms aj and aj.
La proximité phonétique consiste à confondre les atomes à cause de leur prononciation proche. Par exemple, certains interlocuteurs pourraient confondre le « e » avec le « o ».Phonetic proximity is to confuse atoms because of their close pronunciation. For example, some interlocutors might confuse the "e" with the "o".
La confusion par ressemblance consiste à confondre deux atomes à cause de leur ressemblance dans leur écriture, ou topologie. Par exemple la lettre « 1 » peut être confondue facilement avec le chiffre « 1 ».The confusion by resemblance consists in confusing two atoms because of their resemblance in their writing, or topology. For example the letter "1" can be easily confused with the number "1".
La proximité orthographique est aussi une source de confusion. A partir de tous les calculs de distribution, autrement dit de probabilité, qui ont été définis ci avant, on peut calculer la probabilité qu'un groupe d'atomes renseignés f corresponde à un groupe d'atomes particulier f parmi ceux d'une liste de groupe d'atomes, ou dictionnaire F.Orthographic proximity is also a source of confusion. From all the distribution calculations, that is to say of probability, which have been defined above, it is possible to calculate the probability that a group of atoms indicated f corresponds to a particular group of atoms f among those of a list group of atoms, or dictionary F.
P (f / f) = P (f / <1, al> <2,a2> <3, a3>...<k,ak>) = P (f / <1, âl> <2,â2> <3, a3>...<k-l,âk-l>) 2jf a. P(J / f) P(3 =k / j) P(aj/ j f) P(âj = âk /aj)P (f / f) = P (f / <1, a1> 2, a2><3,a3> ... <k, ak>) = P (f / <1, a1><2,a2><3,a3> ... <kl, k-1> 2 a . P (J / f) P (3 = k / d) P (aj / jf) P (aj = ak / aj)
avec P(f / <1, Il>) = P(f) ∑jf aj P(j / f) P(3 =1 / j) P(aj/ j f) P(âj = âl /aj)with P (f / <1, II>) = P (f) Σ jf aj P (j / f) P (3 = 1 / j) P (aj / jf) P (aj = a1 / aj)
Maintenant que le calcul de probabilité a été expliqué dans le détail, il convient de revenir au problème principal à l'origine de l'invention qui consiste à trouver une adresse ou une personne à partir de données incomplètes fournies par un client à un opérateur téléphonique. Il est rappelé ici que ce problème est notamment illustré en figure 4.Now that the calculation of probability has been explained in detail, it is necessary to return to the main problem at the root of the invention, which consists in finding an address or a person from incomplete data provided by a client to a telephone operator. . It is recalled here that this problem is illustrated in particular in FIG.
En appliquant la méthode décrite ci avant, les étapes d'identifications 3 et 4 de nom de voies et de type de voies ont révélé respectivement une quantité N de résultats possibles auxquels sont associés des coefficients de probabilité.By applying the method described above, the identification steps 3 and 4 of the name of the channels and the type of channels respectively revealed a quantity N of possible results with which probability coefficients are associated.
Par exemple, la méthode selon l'invention a révélé les 3 noms de voies dont les probabilités de similitude sont les meilleures, et les 3 types de voies dont les probabilités de similitude sont les meilleures. Dans cet exemple, N est égal à 3. N peut être une quantité de résultats préalablement définie. N n'est toutefois pas limité à cette définition. N peut également être défini comme la quantité de résultats dont la probabilité est supérieure à un pourcentage donné.For example, the method according to the invention has revealed the 3 channel names with the probabilities of similarity are the best, and the 3 types of channels whose probabilities of similarity are the best. In this example, N is equal to 3. N can be a previously defined quantity of results. N is however not limited to this definition. N can also be defined as the quantity of results whose probability is greater than a given percentage.
L'étape d'identification 7 de l'adresse recherchée met en œuvre le procédé d'identification de structure selon l'invention.The identification step 7 of the desired address implements the structure identification method according to the invention.
II convient ici de rappeler la définition du problème d' appariement : soit s une structure renseignée (ou instance observée) et ES = -{si, s2, s3...sn) une collection de structures appartenant à un répertoire. Le problème d' appariement de structures consiste à trouver l'instance ou les instances dans ES les plus similaires à s.It is appropriate here to recall the definition of the matching problem: either s a given structure (or instance observed) and ES = - {si, s2, s3 ... sn) a collection of structures belonging to a directory. The problem of matching structures is to find the instance or instances in ES most similar to s.
Il convient également de rappeler que la structure s est potentiellement erronée.It should also be remembered that the structure is potentially wrong.
Le modèle d' appariement de structures reprend en partie le modèle d' appariement de groupes d'atomes. Trois variables additionnelles s, i et fi sont toutefois introduites.The pattern matching model takes up part of the pattern of pairing of groups of atoms. Three additional variables s, i and fi are however introduced.
La variable s représente une structure parmi toutes celles de la collection ES appartenant au répertoire associé.The variable s represents a structure among all those in the ES collection belonging to the associated directory.
La variable i représente l'indice d'un groupe d'atomes de s et fi est le « i-ème » groupe d'atomes de s. Le réseau bayésien de l ' appariement de structures est schématisé sur la figure 3.The variable i represents the index of a group of atoms of s and fi is the "i-th" group of atoms of s. The Bayesian network of structure matching is shown schematically in Figure 3.
Le calcul de probabilité d' appariement de structures est le suivant :The likelihood calculation of structural matching is as follows:
P (s i fi fi j j aj aj) = P(s) P( i / s ) P(fi / s i) P(fi / fi) P(J / fi) P(J / j) P(aj / j fi) P(âj / aj)P (if fi jj aj aj) = P (s) P (i / s) P (f / s) P (f / f) P (J / f) P (J / j) P (aj / j) ) P (aj / aj)
P(s) est la probabilité, ou distribution, des instances de ES.P (s) is the probability, or distribution, of I / O instances.
P( i / s ) est la probabilité de l'indice d'un groupe d'atomes de s. Cette probabilité est définie comme suit :P (i / s) is the probability of the index of a group of atoms of s. This probability is defined as follows:
Si i>= longueur ( s ) , alors P ( i / s ) = 1 / longueur ( s ) , sinon P( i / s ) = 0If i> = length (s), then P (i / s) = 1 / length (s), otherwise P (i / s) = 0
P(fi / s i) est une distribution de probabilité du i-ème groupe d'atomes étant donné s et i :P (fi / s i) is a probability distribution of the i-th group of atoms given s and i:
P(fi / s i) = 1 si fi est le i-ème groupe d'atomes de s, sinon P(fi / s i) = 0P (fi / s i) = 1 if fi is the i-th group of atoms of s, otherwise P (fi / s i) = 0
P(fi / fi) est la distribution obtenue à partir du sous- modèle d' appariement de groupes d'atomes décrit précédemment. La distribution P(fi / fi) représente la probabilité d ' appariement de l'élément fi du dictionnaire F étant donné le i-ème groupe d'atomes d'une structure dans le répertoire ES. Cette distribution doit être construite à partir du modèle bayésien d' appariement de structures en calculant la probabilité P (f / f) pour chaque structure appartenant à la collection du répertoire.P (/ / fi) is the distribution obtained from the previously described atom group matching submodel. The distribution P (fi / fi) represents the probability of pairing the element fi of the dictionary F given the i-th group of atoms of a structure in the repertoire ES. This distribution must be built at from the Bayesian model of structural matching by calculating the probability P (f / f) for each structure belonging to the collection of the repertoire.
Les autres distributions P(j / fi), P(j / j), P(aj / j fi) et P(âj / aj ) sont analogues à celles présentées dans la méthode d'identification de groupes d'atomes définie précédemment.The other distributions P (j / f), P (j / j), P (aj / jf) and P (aj / aj) are similar to those presented in the method of identifying groups of atoms defined above.
Le calcul de probabilité détaillé qui est utilisé est le suivant :The detailed probability calculation that is used is as follows:
Soit s = [l,fl], [2,f2], ... [n,fn]Let s = [l, fl], [2, f2], ... [n, fn]
La distribution de probabilité d' appariement d'une structure P(s / s) est alors calculée comme suit :The probability distribution of a structure P (s / s) is then calculated as follows:
P(s / s) = P(s / [l,fl], [2,f2], ... [m,fm])P (s / s) = P (s / [l, fl], [2, f2], ... [m, fm])
En substituant fm par la séquence de couples <j, aj> pour j≈l, ..., k, nous avons :By substituting fm for the pair sequence <j, aj> for j≈l, ..., k, we have:
P(s / [l,fl], [2,f2], ... [m,fm])P (s / [l, fl], [2, f 2], ... [m, fm])
= P(s / [l,fl], [2,f2], ... [m-l,fm-l] [m, <1, âlm><2, a2m>...<m, akm>])= P (s / [l, fl], [2, f2], ... [m-1, fm-1] [m, <1, a1m> <2, a2m> ... <m, akm>])
= P(s / [l,fl], [2,f2], ... [m-l,fm-l] [m, <1, àlm><2, â2m>...<m, I(k-1 )m> ] )= P (s / [l, fl], [2, f2], ... [ml, fm-1] [m, <1, to1m> <2, 2m> ... <m, I (k- 1) m>])
P( i = m/s ) Σfifij aj P (fi / S i = m) P(fi / fi) P(J /fi) P(j=k / j)P (i = m / s) P f i f i aj P P (/ / S i = m) P (/ /)) P (J /)) P (j = k / d)
P(aj / j fi) P(âj = ikm /aj ) avecP (aj / jf) P (aj = ikm / aj) with
P (s / <1, ill>) = P(s) P(i=l /s)P (s / <1, ill>) = P (s) P (i = 1 / s)
∑fif j aj P (fi / s i = 1) P(fi / fi) P(J /fi) P(J=IΣ f i fj aj P (fi / si = 1) P (/ /)) P (J /)) P (J = I)
/ j) P(aj / j fi) P(Ij = 111 /aj)/ j) P (aj / jf) P (Ij = 111 / aj)
Maintenant que le calcul de probabilité a été détaillé, il convient de revenir au problème principal à l'origine de l'invention qui consiste à trouver une adresse ou une personne à partir de données incomplètes fournies par un client à un opérateur téléphonique.Now that the probability calculation has been detailed, it is necessary to return to the main problem at the origin of the invention, which consists in finding an address or a person from incomplete data provided by a client to a telephone operator.
Il est rappelé ici que ce problème est notamment illustré en figure 4.It is recalled here that this problem is illustrated in particular in FIG.
À partir des résultats fournis par les étapes 4 et 3 respectivement d'identification de type de voie 4 et de nom de voie 3, et du procédé selon l'invention, l'étape 5 d'identification de la voie a délivré l'adresse la plus probable compte tenu des indications du client.From the results provided by steps 4 and 3, respectively, of identification of type of channel 4 and of channel name 3, and of the method according to the invention, step 5 of identification of the channel has delivered the address most likely given the customer's indications.
Par consultation du répertoire ES, le système informatique fourni à l'opérateur, le nom de la personne associée à l'adresse trouvée. C'est l'étape d'identification 6 représentée sur la figure 4. II convient de noter que l'invention pourrait s'appliquer uniquement à la recherche d'une personne à partir de son seul nom.By consulting the ES directory, the computer system provided to the operator, the name of the person associated with the address found. This is the identification step 6 shown in FIG. It should be noted that the invention could apply only to the search for a person from his own name.
Cette application est illustrée par le diagramme de la figure 5 montrant les échanges de données générés par la méthode d'identification selon l'invention.This application is illustrated by the diagram of FIG. 5 showing the data exchanges generated by the identification method according to the invention.
L'opérateur 1 renseigne un champ en saisissant une séquence d'atomes f dictée par un client.The operator 1 fills a field by entering a sequence of atoms f dictated by a client.
Le système appliquerait la méthode selon l'invention pour identifier une quantité donnée N de noms auxquels le nom saisi pourrait se rapporter, et ne délivrerait comme résultat uniquement le groupe d'atomes f auquel sera associé la plus grande probabilité d' appariement .The system would apply the method according to the invention to identify a given quantity N of names to which the name could be related, and deliver as a result only the group of atoms f which will be associated with the greatest likelihood of matching.
Une application particulière de l'invention concerne la recherche de doublons dans une base de données.A particular application of the invention concerns the search for duplicates in a database.
Pour cette application, on procède à une étape d'identification de doublons potentiels consistant à calculer, pour chaque structure enregistrée dans la base de données, une signature formée par une collection d'identifiants de sous-structures analogues, puis à constituer un sous-ensemble des structures dont les signatures sont corrélées, la fonction de corrélation étant déterminée par l'existence pour chaque groupe intermédiaire des structures comparées d'au moins un identifiant commun, puis à calculer pour les structures appariées par la fonction de corrélation, le résultat de l'application sur chacun desdites structures appariées du traitement selon la méthode de l'invention, et à affecter un indicateur de proximité fonction de la proximité desdits résultats. La description qui suit concerne un exemple particulier de l'application de l'invention à la recherche de doublons dans une base de données par une méthode BayésienneFor this application, a step of identifying potential duplicates is performed consisting in calculating, for each structure recorded in the database, a signature formed by a collection of identifiers of similar substructures, and then constituting a sub-structure. together the structures whose signatures are correlated, the correlation function being determined by the existence for each intermediate group of the compared structures of at least one common identifier, then to calculate for the structures matched by the correlation function, the result of applying to each of said paired structures the treatment according to the method of the invention, and assigning a proximity indicator according to the proximity of said results. The following description relates to a particular example of the application of the invention to search for duplicates in a database by a Bayesian method.
Soit D une base de données1, S la structure d'une entrée dans la base D, et si, sj deux instances de S, alors sj est un doublon de si si sj est censé de représenter la même information que si et vice-versa.Let D be a database1, S the structure of an entry in the base D, and if, sj two instances of S, then sj is a duplicate of si if sj is supposed to represent the same information as if and vice versa .
Les éléments si et sj ont une structure bien définie. Nous rappelons qu'une « structure » est un ensemble composé de plusieurs groupes d'atomes également appelées « fingerprints » .The elements si and sj have a well-defined structure. We recall that a "structure" is a set composed of several groups of atoms also called "fingerprints".
Par exemple, une base des données des institutions éducatives pourraient avoir les lignes ci-dessous.For example, a database of educational institutions could have the lines below.
Non de l'institution : Center for Computing ResearchNo of institution: Center for Computing Research
Adresse : Av. Juan de dios Bâtis s/n casi esq. Miguel Othon de MendizabalAddress: Av. Juan de dios Buildings s / n casi esq. Miguel Othon from Mendizabal
Ville : Mexico Etat ou Région : D. F. Code Postal : 07738 Pay : MexiqueCity: Mexico State or Region: D. F. Postal Code: 07738 Pay: Mexico
Non de l'institution : Center for Computing Research (CIC);No of institution: Center for Computing Research (CIC);
Adresse : Av. Juan de Dios Bâtiz s/n casi esquina Miguel Othόn de Mendizabal Ville : MexicoAddress: Av. Juan de Dios Buildings s / n casi esquina Miguel Othon de Mendizabal City: Mexico
Etat ou Région : Mexico D. FState or Region: Mexico D. F
Code Postal : 07738Postal Code: 07738
Pay : MexiquePay: Mexico
Non de l'institution : Center for Computing Research of the National Polytechnic InstituteNo from institution: Center for Computing Research of the National Polytechnic Institute
Adresse : Av. Juan de Dios Bâtiz s/n, Esq. Miguel Othόn de Mendizâbal Unidad Profesional Ville : MexicoAddress: Av. Juan de Dios Buildings s / n, Esq. Miguel Othόn from Mendizâbal Unidad Profesional City: Mexico City
Etat ou Région : Mexico. D. F.; Code Postal : 7738 Pay : MexiqueState or Region: Mexico. D. F .; Postal Code: 7738 Paying: Mexico
Les trois entrées précédentes correspondent à trois instances de la structure S de la base. Appelons ces instances si, s2 et s3 respectivement. Ces instances sont censées représenter la même information, malgré les différences de leur contenu. Nous appelons un ensemble de doublons à tout ensemble d'instances sensées de représenter la même information. Ainsi, l'ensemble ES={sl, s2, s3 } est un ensemble de doublons. Par simplicité, nous considérons qu'un ensemble de cardinalité 1 est aussi un ensemble de doublons .The three previous entries correspond to three instances of the structure S of the database. Call these instances if, s2 and s3 respectively. These instances are meant to represent the same information, despite the differences in their content. We call a set of duplicates to any set of instances that are supposed to represent the same information. Thus, the set ES = {sl, s2, s3} is a set of duplicates. For simplicity, we consider that a set of cardinality 1 is also a set of duplicates.
Une base des donnés D est composée d'un ensemble d'instances d'une structure S :A data base D is composed of a set of instances of a structure S:
D-{J,,J,,...,JB} Le dédoublonnage de D consiste à :D- {J ,, J ,, ..., J B } The duplication of D consists of:
Trouver une partition de dédoublonnage I •' 2'"'' k> de D où chaque sous-ensemble A- de la partition est un ensemble de doublons .Find an I • ' 2 '"'' k ' ' D partition where each A- subset of the partition is a set of duplicates.
Pour chaque sous-ensemble '' dans la partition, créer une instance sι dit « propre » et représentant le sous- ensemble υ> . L'instance5' est obtenue à partir d'une fonction de nettoyage f\', c'est-à-dire sι = J\υi) . La fonction J\' pourrait simplement rendre un élément de Q ou bien, une instance résultant d'une procédure complexe combinant les groupes d'atomes ( fingerprints ) des éléments de A.For each subset '' in the partition, create an instance s ι says "clean" and representing the subset υ>. The body 5 is obtained from a cleaning function f \ ", that is to say, s = J ι \ υ i). The function J \ 'could simply render an element of Q or an instance resulting from a complex procedure combining the groups of atoms (fingerprints) of the elements of A.
La base de données est le dédoublonnage de D.The database is the duplication of D.
La problématique principale de la procédure décrite dans le paragraphe précédent est l'obtention d'une partition P de dédoublonnage. Dans ce paragraphe, nous décrivons le principe permettant d'obtenir cette partition.The main problematic of the procedure described in the preceding paragraph is the obtaining of a partition P of duplication. In this paragraph, we describe the principle to obtain this partition.
Nous notons v5"P) le sous-ensemble de D défini comme suit:We note v 5 "P ) the subset of D defined as follows:
D{si,p) D {s i , p)
OÙ '(ΨΛ est la distribution de probabilité d' appariement de s'/. à sι et P J ' J est un seuil de probabilité d' appariement. L'ensemble est appelé l'ensemble d' appariement de 5< dans D. Si nous obtenons l'ensemble d' appariement pour toutes les instances de D alors nous obtenons l'ensemble D contenant les ensembles d' appariement de D :WHERE (ΨΛ is the distribution of probability of matching of s '/. To s ι and PJ' J is a threshold probability of matching. All is called the matching set of 5 <in D. If we get the matching set for all instances of D then we get the set D containing the matching sets of D:
D=[D(S1,p),D(s2,p),...,D(sn,p)}D = [D (S 1 , p), D (s 2 , p), ..., D (s n , p)}
Clairement, D n'est pas nécessairement une partition de D car une intersection peut exister entre deux ensemblesClearly, D is not necessarily a partition of D because an intersection can exist between two sets
d' appariement D{snP) et I1V/ . Cependant, à partir de l'ensemble D1 il est possible d'obtenir une partition P de D. Les éléments apparaissant dans plus d'un ensemble d' appariement pourraient être conservés uniquement dans l'ensemble où leur probabilité d' appariement est la plus D { s nP) and I 1 V /. However, from the set D 1 it is possible to obtain a partition P of D. The elements appearing in more than one set of matching could be kept only in the set where their probability of matching is the same. more
grande. Ainsi, nous avons que V / ou ^w est la fonction transformant D dans une partition de D. Dans la suite, nous appelons D l'ensemble base de P .big. Thus, we have that V / or ^ w is the transforming function D in a partition of D. In the following, we call D the base set of P.
La construction de l'ensemble base D peut s'avérer très lourde. En effet, D est obtenu à partir de la comparaison de (nxn-n) paires (s,,Sj)≡DxD QÙ i≠j^ vQ±r Eχpression (1)# Une cardinalité n importante pourrait rendre cette tâche prohibitive. D'autre part il nous faut définir la fonctionThe construction of the base D can be very heavy. Indeed, D is obtained from the comparison of (nxn-n) pairs (s ,, Sj) ≡DxD QÙ i ≠ j ^ vQ ± r Eχpression (1) # An important cardinality could make this task prohibitive. On the other hand we have to define the function
^w. Dans les paragraphes suivants, nous expliquons comment il est possible de relaxer le calcul de l'ensemble base.^ W. In the following paragraphs, we explain how it is possible to relax the calculation of the base set.
Nous rappelons qu'une instance de structure s est composée d'un groupe d'atomes (fingerprints) :We recall that an instance of structure s is composed of a group of atoms (fingerprints):
W.Λ-Λ Par exemple pour l'instance suivante :W.Λ-Λ For example, for the following instance:
Non de l'institution : Center for Computing Research Adresse : Av. Juan de dios Bâtis s/n casi esq. Miguel Othon de MendizabalNo of institution: Center for Computing Research Address: Av. Juan de dios Buildings s / n casi esq. Miguel Othon from Mendizabal
Ville : Mexico Etat ou Région : D.F. Code Postal : 07738 Pay : MexicoCity: Mexico State or Region: D.F. ZIP Code: 07738 Pay: Mexico
Nous avons six groupes d'atomes: We have six groups of atoms:
/i = Center for Computing Research/ i = Center for Computing Research
/2 = Av. Juan de dios Bâtis s/n casi esq. Miguel Othon de Mendizabal/ 2 = Av. Juan de dios Buildings s / n casi esq. Miguel Othon from Mendizabal
/3 = Mexico/ 3 = Mexico
J6 = MexiqueJ 6 = Mexico
Soit ' V1 '^21' 'Jni un dictionnaire quelconque de n éléments associé à -A et une valeur de probabilité, nous définissons la caractérisation de /1 comme suit :Let 'V 1 ' ^ 21 '' Jn i be any dictionary of n elements associated with -A and a probability value, we define the characterization of / 1 as follows:
C,={ye{l,2,...,n}|P(/;|/,)>Λ}C, = {ye {l, 2, ..., n} | P (/; | /,)> Λ }
où v/J/,) est la probabilité d' appariement de f> à *J. L'ensemble ^' est l'ensemble d'identificateurs du dictionnaire ^ pour lesquels la probabilité d' appariement avec Ji est supérieure ou égale à Pc. Par exemple, si le dictionnaire ^s est défini comme suit :where v / J /, ) is the probability of matching f> to * J. The set ^ 'is the set of identifiers of the dictionary ^ for which the probability of pairing with Ji is greater than or equal to Pc. For example, if the dictionary ^ s is defined as follows:
F5 = {/,5 = 07778, /2 5 = 098535, /3 5 = 077654, /4 5 = 07638} 5 F = {/, 5 = 07778, / 2 = 5 098 535, / 3 = 5 077 654, / 4 = 5 07638}
alors, pour notre exemple d'instance précèdent nous pourrions avoir que : C5 = {1,4}then, for our instance example above we could have that: C 5 = {1.4}
If5 = 07778^ Autrement dit, la probabilité d' appariement de V-7' ' etIf 5 = 07778 ^ In other words, the probability of V- 7 '' pairing and
(/4 5=07638) avec U=07738) est supérieure ou égale à Pc.(/ 4 5 = 07638) with U = 07 738) is greater than or equal to Pc.
Similairement, étant donné un ensemble de dictionnaires F1F2...FL associés à une structure S, nous définissons la caractérisation d'une instance de S comme l'ensemble des caractérisations de ses groupes d'atomes :Similarly, given a set of dictionaries F 1 F 2 ... F L associated with a structure S, we define the characterization of an instance of S as the set of characterizations of its groups of atoms:
C(^) = (C15C2-Q)C ()) = (C 15 C 2 -Q)
Ainsi, la caractérisation de s pourrais être, par exemple :Thus, the characterization of s could be, for example:
C(5,pc)=({l,5,7},{l,2,8}-{7,8}) L'obtention de l'ensemble de base réside dans le calcul des caractérisations des instances de la base des données.C (5, p c ) = ({l, 5,7}, {l, 2,8} - {7,8}) Obtaining the basic set resides in the computation of the characterizations of the instances of the database.
Soit deux instances quelconques -V-^ ^ D alors si est un doublon potentiel de 5i si VC< GC(5"O'C-2 E 6VvZ7J nQug avons que C1HC1 ≠0# NOUS dénotons cet ensemble par DΛsι) .Let there be any two instances -V- ^ ^ D then s i is a potential doublet of 5 i if VC < GC ( 5 "O ' C - 2 E 6 VvZ 7 J We have that C 1 HC 1 ≠ 0 # WE denote this together by D Λ s ι).
Par exemple, soit C{svPc) = (c\ = = {l,3,5},c; = = {5,7},) , C(S2, pL) ≈ (C1 2 = {2,3},C2 2 = {3,5,8},C3 2 = {2},C2 = {l,5,}) ,For example, let C {s vPc ) = (c \ = = {l, 3,5}, c; = = {5,7},), C (S 2 , p L ) ≈ (C 1 2 = {2,3}, C 2 2 = {3,5,8}, C 3 2 = {2}, C 2 = {l, 5,}),
C(s3,pJ = (c'≈{3},C2 3≈{\,5},C3 i={3},Cl≈{l,l},) alors si est un doublon potentiel de 5i. Contrairement, 53 n'est pas un doublon potentiel de 5i car C3DC3=O^ L ' ensemble base D ≈ {D{svp),D{s1,p),...,D{sn,p)} est re_déf ini en redéfinissant — υ cornme suit : C (s 3 , pJ = (c'≈ {3}, C 2 3 ≈ {\, 5}, C 3 i = {3}, Cl≈ {l, l},) then s i is a potential duplicate of 5 i. in contrast, five 3 is not a potential duplicate for 5 i C 3 3 DC = O ^ The set D ≈ {D {s v p), D {s 1 , p), ..., D {s n , p)} is redefined by redefining - υ cornme follows:
L'invention concerne encore des applications telles que la fusion de bases de données et la constitution de grappes de structures homologues à une structure de référence.The invention further relates to applications such as database merging and forming clusters of structures homologous to a reference structure.
Pour une application à la fusion de bases de données, on procède à une étape d'identification de doublons potentiels consistant à calculer, pour chaque structure enregistrée dans chacune des bases de données, une signature formée par une collection d'identifiants de groupes intermédiaires analogues, puis à constituer un sous-ensemble des structures dont les signatures sont corrélées, la fonction de corrélation étant déterminée par l'existence pour chaque groupe intermédiaire des structures comparées d'au moins un identifiant commun, puis à calculer pour les structures appariées par la fonction de corrélation, le résultat de l'application sur chacun desdites structures appariées du traitement selon la revendication 8 et à affecter un indicateur de proximité fonction de la proximité desdits résultats et à enregistrer une base de données fusionnée avec les structures uniques.For an application to database merging, a step of identifying potential duplicates is performed consisting of calculating, for each structure recorded in each of the databases, a signature formed by a collection of identifiers of similar intermediate groups , then to constitute a subset of the structures whose signatures are correlated, the correlation function being determined by the existence for each intermediate group of the compared structures of at least one common identifier, then to calculate for the structures matched by the correlation function, the result of the application on each of said paired structures of the processing according to claim 8 and to assign a proximity indicator according to the proximity of said results and to record a database merged with the unique structures.
Pour l'application de constitution de grappes de structures homologues à une structure de référence, on applique la méthode objet de la revendication 1 à ladite structure de référence d'une part, et à l'ensemble des structures disponibles d'un répertoire, pour déterminer pour chacune desdites structures disponibles une probabilité de similitude et à enregistrer dans un sous-ensemble les structures disponibles dont la probabilité de similitude est supérieure à une valeur prédéterminée.For the application of constituting clusters of structures homologous to a reference structure, the method according to claim 1 is applied to said reference structure on the one hand, and to all the available structures of a directory, for determine for each of said available structures a probability of similarity and to record in a subset the available structures whose probability of similarity is greater than a predetermined value.
D'autres applications sont prévues : Nettoyage de base de données marketing et commercialesOther applications are planned: Cleaning of marketing and commercial database
II s'agit d'une application qui rassemble l'ensemble des fonctions permettant de nettoyer une base de données avec dédoublonnement de bases, fusion de bases, normalisation, clusterisation et aide à la saisie. Le produit ciblerait en priorité les entreprises gérant des bases de prospects ou de clients.It is an application that brings together all the functions to clean a database with database deduplication, database merge, standardization, clustering and input help. The product would primarily target companies managing prospect or customer bases.
Fonctionnalitésfeatures
Les fonctionnalités vont s'aligner sur le cycle de vie des données dans les métiers marketing et vente dans les entreprises :Features will align with the data lifecycle in the marketing and sales businesses:
- Le dédoublonnage de bases de données, qui s'applique à une table existante comprenant des doublons approximatifs.- Database Deduplication, which applies to an existing table with approximate duplicates.
- La fusion de bases de données. Avec comme exemple, un magasin d'outillage qui rachète un concurrent, mais dont les bases produits comprennent des noms des champs et un MCD différents.- The merging of databases. As an example, a tool shop that buys a competitor, but whose product bases include different field names and CDMs.
- La caractérisation de clients à partir de navigation dans le web, la chaîne de clics...- The characterization of customers from web browsing, the chain of clicks ...
- Les rapprochements : application dans la fraude à la carte bancaire. {Bases historiques de transactions, fichiers fraude (Banque de France), Notion de rapprochement, Heures systèmes différentes, Montants pas équivalents (commissions, arrondis, taux de change, ...).- Reconciliations: application in credit card fraud. {Historical transaction databases, fraud files (Banque de France), Reconciliation concept, Different system hours, Amounts not equivalent (commissions, rounding, exchange rates, ...).
A part le numéro de carte qui est déterministe, le reste est flou. Objet complexe : chaîne de caractères. Gestion les dates rapprochées avec notion de distance entre deux dates. - Le profilage et le clustering : Quels sont les structures qui correspondent à un profil-type ? On définit des classes avec des exemples .Apart from the deterministic card number, the rest is unclear. Complex object: string of characters. Management close dates with notion of distance between two dates. - Profiling and clustering: Which structures correspond to a typical profile? Classes are defined with examples.
Classification : Outil de segmentation multi-critères marché qui fonctionne par apprentissage et inférence.Classification: Multi-criteria market segmentation tool that works by learning and inference.
La normalisation. A partir de plusieurs informations imparfaites, trouver l'index dans la base de données qui correspond.Standardization. From several imperfect information, find the index in the corresponding database.
- L'aide à la saisie : Taper adresses n'importe comment, et elles sont mises au bon format en fonction de base de référence. On nettoie et on choisit les bonnes occurrences. Proposition des structures existantes si une nouvelle entrée y ressemble, prévention de doublons (se rapproche de la normalisation) . - Corrections dynamiques : Modèle probabiliste des touches d'ordinateur. En fonction du champ sémantique.- Input help: Type addresses anyhow, and they are formatted according to baseline. We clean and we choose the good occurrences. Proposal of existing structures if a new entry looks like it, prevention of duplicates (is closer to standardization). - Dynamic corrections: Probabilistic model of computer keys. According to the semantic field.
- Le nettoyage et l'indexation d'une base par interrogation d'un système d'information distant. - Cleaning and indexing a database by querying a remote information system.
Claims
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0608005 | 2006-09-13 | ||
| FR0608005A FR2905777B1 (en) | 2006-09-13 | 2006-09-13 | METHOD FOR IDENTIFYING A STRUCTURE AMONG A COLLECTION OF STRUCTURES BELONGING TO A DIRECTORY. |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2008031953A1 true WO2008031953A1 (en) | 2008-03-20 |
Family
ID=38169282
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/FR2007/001489 Ceased WO2008031953A1 (en) | 2006-09-13 | 2007-09-13 | Process for identifying a structure from among a collection of structures belonging to a list |
Country Status (2)
| Country | Link |
|---|---|
| FR (1) | FR2905777B1 (en) |
| WO (1) | WO2008031953A1 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5659771A (en) * | 1995-05-19 | 1997-08-19 | Mitsubishi Electric Information Technology Center America, Inc. | System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended |
| US6292771B1 (en) * | 1997-09-30 | 2001-09-18 | Ihc Health Services, Inc. | Probabilistic method for natural language processing and for encoding free-text data into a medical database by utilizing a Bayesian network to perform spell checking of words |
-
2006
- 2006-09-13 FR FR0608005A patent/FR2905777B1/en active Active
-
2007
- 2007-09-13 WO PCT/FR2007/001489 patent/WO2008031953A1/en not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5659771A (en) * | 1995-05-19 | 1997-08-19 | Mitsubishi Electric Information Technology Center America, Inc. | System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended |
| US6292771B1 (en) * | 1997-09-30 | 2001-09-18 | Ihc Health Services, Inc. | Probabilistic method for natural language processing and for encoding free-text data into a medical database by utilizing a Bayesian network to perform spell checking of words |
Non-Patent Citations (3)
| Title |
|---|
| HUANG J H ET AL: "Large Scale Experiments on Correction of Confused Words", PROCEEDINGS 24TH AUSTRALIAN COMPUTER SCIENCE CONFERENCE, 29 January 2001 (2001-01-29) - 4 February 2001 (2001-02-04), Gold Coast, Qld., Australia, pages 77 - 82, XP010534694, ISBN: 0-7695-0963-0 * |
| PAUMIER JP ET AL: "Partage de données médicales: Agrégats d'identités approchantes", JOURNÉES FRANCOPHONES D'INFORMATIQUE MÉDICALE, 12 May 2005 (2005-05-12) - 13 May 2005 (2005-05-13), Lille, France, pages 1 - 7, XP002469299, Retrieved from the Internet <URL:http://www3.univ-lille2.fr/jfim2005/papiers/05-paumier-jfim2005.pdf> [retrieved on 20080214] * |
| TSURUOKA Y ET AL: "Improving the performance of dictionary-based approaches in protein name recognition", JOURNAL OF BIOMEDICAL INFORMATICS, vol. 37, no. 6, December 2004 (2004-12-01), New York, NY, US, pages 461 - 470, XP004634340, ISSN: 1532-0464 * |
Also Published As
| Publication number | Publication date |
|---|---|
| FR2905777A1 (en) | 2008-03-14 |
| FR2905777B1 (en) | 2008-12-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8468167B2 (en) | Automatic data validation and correction | |
| US20230252297A1 (en) | Annotating customer data | |
| US10108714B2 (en) | Segmenting social media users by means of life event detection and entity matching | |
| US20070112754A1 (en) | Method and apparatus for identifying data of interest in a database | |
| WO2002067142A2 (en) | Device for retrieving data from a knowledge-based text | |
| WO2006075001A1 (en) | Method for searching, recognizing and locating a term in ink, and a corresponding device, program and language | |
| US11983494B1 (en) | Apparatus and method for dynamic data synthesis and automated interfacing | |
| US20210034963A1 (en) | Identifying friction points in customer data | |
| CN113064986B (en) | Model generation method, system, computer device and storage medium | |
| CA3046474A1 (en) | Portfolio-based text analytics tool | |
| Demetrescu et al. | Accuracy of author names in bibliographic data sources: An Italian case study | |
| US12380717B2 (en) | Selecting files for intensive text extraction | |
| US11726980B2 (en) | Auto detection of matching fields in entity resolution systems | |
| Kameswari et al. | Predicting Election Results using NLTK | |
| US20240086448A1 (en) | Detecting cited with connections in legal documents and generating records of same | |
| US20070112747A1 (en) | Method and apparatus for identifying data of interest in a database | |
| WO2008031953A1 (en) | Process for identifying a structure from among a collection of structures belonging to a list | |
| Wang et al. | Dutrust: A sentiment analysis dataset for trustworthiness evaluation | |
| US12204867B2 (en) | Process mining asynchronous support conversation using attributed directly follows graphing | |
| CN117787257A (en) | Training methods, text reasoning methods and systems for large language models in OTA scenarios | |
| EP4300326A1 (en) | Method for matching an assembly to be analysed and a reference list, corresponding matching engine and computer program | |
| WO2013117872A1 (en) | Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device | |
| US12380080B2 (en) | System and method for entity timeslicing for disambiguating entity profiles | |
| CN115510201B (en) | Information input method, apparatus, computer device, storage medium, and program product | |
| US20230325366A1 (en) | System and method for entity disambiguation for customer relationship management |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 07848229 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 07848229 Country of ref document: EP Kind code of ref document: A1 |