FR2876198A1 - Thematic summary generating method for computing device, involves selecting set of words of document with respect to words of document having largest weight so as to automatically generate thematic summary based on selected set - Google Patents
Thematic summary generating method for computing device, involves selecting set of words of document with respect to words of document having largest weight so as to automatically generate thematic summary based on selected set Download PDFInfo
- Publication number
- FR2876198A1 FR2876198A1 FR0410559A FR0410559A FR2876198A1 FR 2876198 A1 FR2876198 A1 FR 2876198A1 FR 0410559 A FR0410559 A FR 0410559A FR 0410559 A FR0410559 A FR 0410559A FR 2876198 A1 FR2876198 A1 FR 2876198A1
- Authority
- FR
- France
- Prior art keywords
- thematic
- document
- parameter
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Génération automatique de résumé thématiqueAutomatic generation of thematic summary
La présente invention concerne un procédé de génération automatique de résumé thématique de document au moins textuel. The present invention relates to a method for automatic generation of thematic summary of document at least textual.
Dans l'état de la technique, des systèmes de génération automatique de résumé d'un document s'appuient notamment sur des analyses linguistiques et statistiques du document à résumer. Ces systèmes génèrent en permanence le même résumé pour un document donné non modifié. Les usagers ne peuvent pas interagir avec la génération du résumé, afin par exemple d'orienter le résumé vers un thème plus particulier du document. In the state of the art, systems for automatic generation of summary of a document rely in particular on linguistic and statistical analyzes of the document to be summarized. These systems constantly generate the same summary for a given unmodified document. Users can not interact with the summary generation, for example to direct the summary to a more specific theme of the document.
L'invention a pour objectif de remédier aux inconvénients précités en générant des résumés différents d'un même document afin d'obtenir automatiquement des résumés thématiques du document. The invention aims to overcome the aforementioned drawbacks by generating different summaries of the same document to automatically obtain thematic summaries of the document.
Pour atteindre cet objectif, un procédé pour générer automatiquement un résumé thématique à partir d'un document au moins textuel dans un dispositif informatique, comprenant une étape de déterminer au moins un paramètre thématique du document, est caractérisé en ce qu'il comprend les étapes suivantes de. To achieve this objective, a method for automatically generating a thematic summary from an at least textual document in a computing device, comprising a step of determining at least one thematic parameter of the document, is characterized in that it comprises the steps following of.
- sélectionner au moins un paramètre thématique parmi des paramètres thématiques déterminés, - trouver des mots dans le document correspondant à chaque paramètre thématique sélectionné afin d'associer un facteur thématique respectif à chaque mot trouvé correspondant à un paramètre thématique sélectionné, - pondérer chaque mot au moins trouvé du document par un poids déterminé en fonction au moins de l'un des éléments parmi un nombre de répétition du mot dans le document et au moins un facteur thématique respectif, et - sélectionner un ensemble de mot du document en fonction des mots du document ayant les poids les plus élevés afin de générer le résumé thématique dépendant de l'ensemble de mot sélectionné. selecting at least one thematic parameter from specific thematic parameters, finding words in the document corresponding to each selected thematic parameter in order to associate a respective thematic factor with each found word corresponding to a selected thematic parameter, weighting each word with less found of the document by a weight determined according to at least one of a number of repetition of the word in the document and at least one respective thematic factor, and - selecting a set of word of the document according to the words of the document with the highest weights to generate the thematic summary depending on the selected word set.
A l'étape de pondérer, le facteur de thème de chaque mot trouvé correspondant à un paramètre thématique sélectionné donné est augmenté ou diminué, respectivement à une valeur maximale ou minimale, de facteur thématique pour que le résumé généré soit proche, respectivement éloigné du paramètre thématique sélectionné donné. In the step of weighting, the theme factor of each found word corresponding to a given selected thematic parameter is increased or decreased, respectively to a maximum or minimum value, of thematic factor so that the summary generated is close to, or distant from, the parameter selected theme given.
L'invention concerne également un dispositif informatique pour générer automatiquement un résumé thématique à partir d'un document au moins textuel comprenant un moyen pour déterminer au moins un paramètre thématique du document. Le dispositif est caractérisé en ce qu'il comprend: - un moyen pour sélectionner au moins un paramètre thématique parmi des paramètres thématiques déterminés, - un moyen pour trouver des mots dans le document correspondant à chaque paramètre thématique sélectionné afin d'associer un facteur thématique respectif à chaque mot trouvé correspondant à un paramètre thématique sélectionné, - un moyen pour pondérer chaque mot au moins trouvé du document par un poids déterminé en fonction au moins de l'un des éléments parmi un nombre de répétition du mot dans le document et au moins un facteur thématique respectif, et - un moyen pour sélectionner un ensemble de mot' du document en fonction des mots du document ayant les poids les plus élevés afin de générer le résumé thématique dépendant de l'ensemble de mot sélectionné. The invention also relates to a computing device for automatically generating a thematic summary from an at least textual document comprising means for determining at least one thematic parameter of the document. The device is characterized in that it comprises: a means for selecting at least one thematic parameter among specific thematic parameters; a means for finding words in the document corresponding to each selected thematic parameter in order to associate a thematic factor; respective to each found word corresponding to a selected thematic parameter; means for weighting each at least one word of the document by a weight determined according to at least one of a number of repetition of the word in the document and minus a respective thematic factor; and - means for selecting a word set of the document based on the words of the document having the highest weights in order to generate the thematic summary dependent on the selected word set.
D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention, données à titre d'exemples non limitatifs, en référence aux dessins annexés correspondants dans lesquels: - la figure 1 est un bloc-diagramme schématique d'un système de génération automatique de résumé mettant en oeuvre un procédé de génération automatique de résumé thématique d'un document selon l'invention; et - la figure 2 est un algorithme du procédé de génération automatique de résumé thématique de document selon l'invention. Other features and advantages of the present invention will appear more clearly on reading the following description of several preferred embodiments of the invention, given by way of non-limiting examples, with reference to the corresponding appended drawings in which: FIG. 1 is a schematic block diagram of an automatic summary generation system implementing a method of automatic generation of thematic summary of a document according to the invention; and FIG. 2 is an algorithm of the method for automatically generating a thematic summary of a document according to the invention.
Dans la suite de la description, un document est In the rest of the description, a document is
un fichier numérique comprenant au moins du texte. Il peut comprendre éventuellement au moins une image et/ou au moins une séquence vidéo. Un document est par exemple une page au format HTML (HyperText Markup Language) ou un document issu d'un traitement de texte. a digital file containing at least text. It may possibly comprise at least one image and / or at least one video sequence. A document is for example a page in HTML (HyperText Markup Language) or a document from a word processor.
Un résumé thématique d'un document selon l'invention est un résumé orienté vers un thème ou éloigné d'un thème. Un résumé est un groupe de phrases ayant une taille relativement petite par rapport au document. Un thème est défini par un ensemble de mot dans un contexte syntaxique particulier, ledit ensemble de mot comprenant un mot ou plusieurs mots au sens de l'invention. A thematic summary of a document according to the invention is a summary oriented towards a theme or remote from a theme. A summary is a group of sentences that are relatively small in size relative to the document. A theme is defined by a set of words in a particular syntactic context, said set of words comprising a word or several words within the meaning of the invention.
Un paramètre thématique selon l'invention est un paramètre influant sur la génération d'un résumé thématique. Un paramètre thématique est souvent lié à un caractère de présence ou d'absence de celui-ci. A thematic parameter according to the invention is a parameter influencing the generation of a thematic summary. A thematic parameter is often linked to a presence or absence character of it.
Par exemple, un résumé thématique généré en dépendance de la présence du paramètre thématique "sport" tendra à comporter des mots du document ayant trait au "sport", et inversement, un résumé thématique généré en dépendance de l'absence du paramètre thématique "sport" tendra à ne pas comporter de mot ayant trait au "sport" et est ainsi éloigné du paramètre thématique. Dans un autre exemple, si un paramètre thématique est l'absence du thème "temporel", le résumé généré tendra à ne comporter aucune donnée temporelle, telle que date, heure et année; ou si un paramètre thématique est la présence du thème "nombre", le résumé généré tendra à comporter des nombres du document. For example, a thematic summary generated in dependence on the presence of the thematic parameter "sport" will tend to include words of the document relating to "sport", and conversely, a thematic summary generated in dependence on the absence of the thematic parameter "sport". "will tend not to include a word relating to" sport "and is thus removed from the thematic parameter. In another example, if a thematic parameter is the absence of the "temporal" theme, the generated summary will tend not to include any temporal data, such as date, time and year; or if a thematic parameter is the presence of the "number" theme, the generated summary will tend to contain numbers of the document.
Par exemple, le procédé est mis en oeuvre pour un service de recherche de document sur internet, présentant le résultat de la recherche sous forme d'une liste de résumés thématiques de documents en fonction de paramètres thématiques sélectionnés par l'usager. En variante, les résumés fournis dans la liste sont généraux et indépendants d'un thème, et ensuite le service de recherche propose à l'utilisateur de sélectionner une liste de paramètres thématiques et de noms extraits des documents trouvés, et génère dynamiquement des resumés thématiques personnalisés en fonction des paramètres thématiques sélectionnés, comme on le verra ci- après. For example, the method is implemented for a document search service on the internet, presenting the search result in the form of a list of thematic summaries of documents according to user-selected thematic parameters. As a variant, the summaries provided in the list are general and independent of a theme, and then the search service proposes to the user to select a list of thematic parameters and names extracted from the documents found, and dynamically generates thematic summaries. customized according to the selected thematic parameters, as will be seen below.
En référence à la figure 1, le système de génération automatique de résumé thématique comprend principalement un serveur de génération de résumé thématique SR, un serveur de base de données de documents SBD, un serveur de base de données de paramètres thématiques SBP, un serveur de base de données linguistiques SBL et au moins un terminal d'usager T. Le serveur de génération de résumé thématique SR comprend principalement une unité centrale UC, un parseur de document PD, un analyseur linguistique AL, un extracteur d'entités nommées EE, un module de détermination de thème MT et un module de résumé MR. With reference to FIG. 1, the automatic summary summary generation system mainly comprises a thematic summary generation server SR, an SBD document database server, a SBP thematic database server, a database server. SB summary database and at least one user terminal T. The summary summary generation server SR mainly comprises a central processing unit UC, a document parser PD, a linguistic parser AL, a named entities extractor EE, a MT theme determination module and MR summary module.
Le serveur de base de données linguistiques SBL comprend des données telles que des thésaurus faisant correspondre des paramètres thématiques à des ensembles de mots, des lexiques particuliers, etc. Le terminal d'usager T est relié à un réseau d'accès respectif RA par une liaison LT. Il comprend nécessairement un moyen d'affichage et/ou un moyen de restitution sonore de données numériques. Le terminal T est par exemple un terminal de radiocommunications mobile Tl, la liaison LT est un canal de radiocommunications, et le réseau d'accès respectif RA comprend le réseau fixe d'un réseau de radiocommunications cellulaire, par exemple de type GSM (Global System for Mobile communications) avec un service GPRS (General Packet Radio Service), ou de type UMTS (Universal Mobile Telecommunications System). The SBL linguistic database server includes data such as thesauri that map thematic parameters to sets of words, particular lexicons, and so on. The user terminal T is connected to a respective access network RA by an LT link. It necessarily comprises display means and / or means for sound reproduction of digital data. The terminal T is for example a mobile radio terminal Tl, the link LT is a radiocommunication channel, and the respective access network RA comprises the fixed network of a cellular radio network, for example of the GSM type (Global System for Mobile communications) with a General Packet Radio Service (GPRS) or UMTS (Universal Mobile Telecommunications System).
Selon un autre exemple, le terminal T est un ordinateur personnel T2, relié directement par modem à la liaison LT de type ligne xDSL ou RNIS (Réseau Numérique à Intégration de Services) reliée au réseau d'accès RA correspondant. According to another example, the terminal T is a personal computer T2, connected directly by modem to the line LT xDSL line or ISDN (Integrated Services Digital Network) connected to the corresponding RA access network.
Selon un autre exemple, le terminal T est un terminal fixe de télécommunications T3, la liaison LT est une ligne téléphonique et le réseau d'accès respectif RA comprend le réseau téléphonique commuté. In another example, the terminal T is a fixed telecommunication terminal T3, the link LT is a telephone line and the respective access network RA comprises the switched telephone network.
Selon d'autres exemples, le terminal d'usager T comprend un dispositif ou objet électronique de télécommunications personnel à l'usager qui peut être un assistant numérique personnel communicant PDA. Le terminal T peut être tout autre terminal domestique portable ou non tel qu'une console de jeux vidéo, ou un récepteur de télévision intelligent coopérant avec une télécommande à afficheur ou un clavier alphanumérique servant également de souris à travers une liaison infrarouge. According to other examples, the user terminal T comprises a device or electronic personal telecommunications object to the user which can be a PDA communicating personal digital assistant. The terminal T may be any other portable or non-portable home terminal such as a video game console, or a smart TV receiver cooperating with a remote control display or an alphanumeric keyboard also used as a mouse through an infrared link.
Selon un autre exemple, le réseau d'accès RA comprend un réseau de raccordement de plusieurs terminaux d'usager. In another example, the access network RA comprises a connection network of several user terminals.
Les terminaux d'usager T et les réseaux d'accès RA ne sont pas limités aux exemples ci-dessus et peuvent être constitués par d'autres terminaux et réseaux d'accès connus. The user terminals T and the access networks RA are not limited to the above examples and may be constituted by other known terminals and access networks.
Les serveurs de bases de données SBD, SBP et SBL communiquent avec le serveur de génération de résumé thématique SR à travers un réseau de télécommunications RT, tel qu'internet, relié aux réseaux d'accès RA. The SBD, SBP and SBL database servers communicate with the thematic summary generation server SR through an RT telecommunications network, such as the Internet, connected to the RA access networks.
En variante, au moins l'un des serveurs de base de données SBD, SBP et SBL communique localement avec le serveur de génération de résumé thématique SR. In a variant, at least one of the SBD, SBP and SBL database servers communicates locally with the thematic summary generation server SR.
Dans d'autres variantes, les données dans les serveurs de base de données SBD, SBP et SBL sont réparties dans un ou deux serveurs de base de données. In other variants, the data in the SBD, SBP and SBL database servers are distributed in one or two database servers.
En référence à la figure 2, le procédé de génération automatique d'un résumé thématique d'un document mémorisé initialement dans le serveur de base de données de documents SBD comprend, selon l'invention, des étapes El à E7 exécutées automatiquement dans le serveur de génération de résumé thématique SR. With reference to FIG. 2, the method for automatically generating a thematic summary of a document originally stored in the document database server SBD comprises, according to the invention, steps E1 to E7 automatically executed in the server. SR topic summary generation.
A l'étape El, le parseur de document PD transforme le document en un document pré-analysé, pour que d'autres modules dans le serveur de génération de résumé thématique SR utilisent et interprètent le document pré-analysé quel que soit le format du document. La pré-analyse consiste à analyser le document et à créer à partir du document et de l'analyse, un document pré-analysé contenant et décrivant les différents éléments du document. Un élément du document est par exemple un paragraphe, un titre, une image, un tableau, ou un mot. Le document pré-analysé contient des descriptions d'éléments telles que le soulignement de mot, l'écriture grasse de mot, des emplacements d'images, des séquences vidéo, des puces, etc. Les sous-étapes E21 à E23 consistent à déterminer des paramètres thématiques du document. Certaines de ces étapes peuvent être modifiées ou complétées ou supprimées, et d'autres étapes peuvent être ajoutées pour déterminer des paramètres thématiques. In step E1, the document parser PD transforms the document into a pre-parsed document, so that other modules in the thematic summary generation server SR use and interpret the pre-parsed document regardless of the format of the document. document. Pre-analysis involves analyzing the document and creating from the document and analysis a pre-analyzed document containing and describing the various elements of the document. An element of the document is for example a paragraph, a title, an image, a table, or a word. The pre-parsed document contains descriptions of items such as word underlining, word fat writing, image locations, video clips, bullets, and so on. The substeps E21 to E23 consist in determining thematic parameters of the document. Some of these steps can be modified or supplemented or deleted, and other steps can be added to determine thematic parameters.
A l'étape E21, l'analyseur linguistique AL analyse le document préanalysé pour déterminer des caractéristiques lexicales du type lemmes de mots utilisés et thèmes abordés dans le document, des caractéristiques syntaxiques du type fonctions grammaticales de mots utilisés et découpages de phrases en groupes nominaux et verbaux, et des caractéristiques sémantiques. Ces caractéristiques sont mémorisées en correspondance avec le document dans le serveur de base de données de paramètres thématiques SBP pour déterminer au moins un paramètre thématique du document aux étapes suivantes E22 et E23. In step E21, the linguistic analyzer AL analyzes the pre-analyzed document to determine lexical characteristics of the type of word lemmas used and topics addressed in the document, of the syntax characteristics of the type of grammatical functions of words used and division of sentences into nominal groups. and verbal, and semantic features. These characteristics are stored in correspondence with the document in the SBP thematic parameter database server to determine at least one thematic parameter of the document in the following steps E22 and E23.
A l'étape E22, l'extracteur d'entités nommées EE extrait des entités nommées, c'est-à-dire des noms et prénoms de personnes, des noms de lieux, des marques et des dénominations de sociétés, du document pré-analysé en fonction des caractéristiques lexicales, syntaxiques et sémantiques déterminées et fournies par l'analyseur linguistique AL. Les entités nommées sont mémorisées en correspondance avec le document dans le serveur de base de données de paramètres thématiques SBP. In step E22, the named entity extractor EE extracts named entities, i.e. first and last names of persons, place names, trademarks and company names, from the document analyzed according to the lexical, syntactic and semantic characteristics determined and provided by the linguistic analyzer AL. The named entities are stored in correspondence with the document in the SBP Thematic Parameter Database Server.
Dans une variante, le procédé selon l'invention ne se limite pas à la méthode d'extraction d'entité nommée décrite ci-dessus, mais accepte toutes les méthodes d'extraction d'entité nommée connues. In a variant, the method according to the invention is not limited to the named entity extraction method described above, but accepts all known named entity extraction methods.
A l'étape E23, le module de détermination de thème MT détermine un thème ou des thèmes majoritaires abordés par le document pré-analysé en fonction de mesures statistiques réalisées sur les caractéristiques lexicales, syntaxiques et sémantiques et éventuellement en fonction des informations contenues dans un thésaurus. Le thème est mémorisé en correspondance avec le document dans le serveur de base de données de paramètres thématiques SBP. In step E23, the subject determination module MT determines a majority theme or themes addressed by the pre-analyzed document based on statistical measurements made on the lexical, syntactic and semantic characteristics and possibly on the basis of the information contained in a document. thesaurus. The theme is stored in correspondence with the document in the SBP Thematic Parameter Database Server.
Dans une variante, le procédé selon l'invention ne se limite pas à la méthode de détermination de thème décrite ci-dessus, mais accepte toutes les méthodes de détermination de thème connues. In a variant, the method according to the invention is not limited to the theme determination method described above, but accepts all the known topic determination methods.
Les entités nommées et les thèmes sont des exemples de paramètres thématiques du document. Named entities and themes are examples of thematic settings in the document.
Dans une variante, l'étape El est supprimée et les paramètres thématiques sont directement déterminés à partir du document. Dans une autre variante, les étapes El à E23 qui ne se déroulent qu'une fois, sont précédées d'une étape de sélection des documents. In a variant, the step E1 is deleted and the thematic parameters are directly determined from the document. In another variant, the steps E1 to E23 which take place only once, are preceded by a step of selecting the documents.
A l'étape E3, l'unité centrale UC sélectionne au moins un paramètre thématique parmi les paramètres thématiques déterminés aux étapes E22 et E23. Les paramètres thématiques sélectionnés sont mémorisés dans le serveur de base de données de paramètres thématiques SBP en correspondance avec le document. In step E3, the central unit UC selects at least one thematic parameter from among the thematic parameters determined in steps E22 and E23. The selected thematic parameters are stored in the SBP thematic parameter database server in correspondence with the document.
Par exemple, lors d'un service web de génération de résumé d'un document, le terminal d'usager T sélectionne, pour un document donné, des paramètres thématiques présentés au terminal T par le serveur de génération de résumé thématique SR sous forme d'une page HTML contenant un formulaire. Pour un document traitant du tourisme à Paris, les paramètres "météo" et "Paris" sont sélectionnés parmi les mots suivants. Paris, restaurants, théâtres, spectacles, Tour Eiffel, soleil, Victor Hugo, sport, nombres, dates, météo. For example, during a web service for generating a summary of a document, the user terminal T selects, for a given document, thematic parameters presented to the terminal T by the summary summary generation server SR in the form of a document. an HTML page containing a form. For a document dealing with tourism in Paris, the parameters "weather" and "Paris" are selected from the following words. Paris, restaurants, theaters, shows, Eiffel Tower, sun, Victor Hugo, sports, numbers, dates, weather.
Dans l'exemple du service de recherche, le serveur de génération de résumé thématique SR déduit des paramètres thématiques sélectionnés à partir des mots clés saisis par l'usager du terminal lors sa recherche. Dans un autre exemple similaire au dernier, l'usager du terminal saisit une phrase en langage naturel, et un analyseur linguistique extrait des mots clés de la phrase saisie en tant que paramètres thématiques. In the example of the search service, the thematic summary generation server SR derives thematic parameters selected from the keywords entered by the user of the terminal during his search. In another example similar to the last one, the user of the terminal enters a sentence in natural language, and a linguistic analyzer extracts key words from the sentence entered as thematic parameters.
Selon une combinaison des exemples précédents, le serveur de génération de résumé thématique SR fournit des résumés des documents trouvés, généraux et indépendants d'un thème, et puis propose à l'usager pour chaque document trouvé un formulaire afin que des paramètres thématiques extraits de ce document soient sélectionnés. L'usager sélectionne alors au moins un paramètre au moyen du formulaire que le serveur SR reçoit. Le serveur génère des résumés en fonction des paramètres sélectionnés par l'usager, lesquels résumés sont affichés dans le terminal d'usager T. A l'étape E4, l'unité centrale UC recherche dans le document pré-analysé des mots correspondant à chacun des paramètres thématiques sélectionnés à l'étape précédente E3. Pour cette recherche de mots, l'unité centrale UC consulte les thésaurus mémorisés dans le serveur de base de données linguistiques SBL et lit des listes de mot clé préalablement associées aux paramètres thématiques sélectionnés. Par exemple, une liste de mot clé comprend les mots clés "ville", "mode", "luxe" et "tour Eiffel" lorsque le paramètre thématique est "Paris". Toutefois une liste de mot clé peut ne comprendre qu'un seul mot clé, comme par exemple le paramètre thématique lorsqu'il est composé d'un seul mot. Ensuite l'unité centrale UC compare chaque mot du document aux mots clés de la liste associée à chaque paramètre thématique sélectionné afin d'associer un facteur thématique correspondant au paramètre thématique sélectionné, à chaque mot trouvé identique à un mot clé de la liste. According to a combination of the preceding examples, the summary summary generation server SR provides summaries of the found, general and independent documents of a theme, and then proposes to the user for each document found a form so that thematic parameters extracted from this document are selected. The user then selects at least one parameter using the form that the server SR receives. The server generates summaries according to the parameters selected by the user, which summaries are displayed in the user terminal T. In step E4, the central unit UC searches in the pre-analyzed document for words corresponding to each one. Thematic parameters selected in the previous step E3. For this word search, the central processing unit UC consults the thesauri stored in the database server SBL and reads keyword lists previously associated with the selected thematic parameters. For example, a keyword list includes the keywords "city", "mode", "luxury" and "eiffel tower" when the thematic parameter is "Paris". However, a keyword list can include only one keyword, such as the thematic parameter when it consists of a single word. Then, the central unit UC compares each word of the document to the keywords of the list associated with each selected thematic parameter in order to associate a thematic factor corresponding to the selected thematic parameter, to each found word identical to a keyword of the list.
L'association de chaque mot de document trouvé et du facteur thématique respectif est mémorisé dans le serveur SBP. The association of each found document word and the respective thematic factor is stored in the SBP server.
Lorsqu'un mot du document n'est identique à aucun mot clé de la liste associée à chaque paramètre thématique, le facteur thématique est une constante prédéterminée, par exemple égale à zéro. When a word of the document is not identical to any keyword in the list associated with each thematic parameter, the thematic factor is a predetermined constant, for example equal to zero.
A l'étape E5, le module de résumé MR détermine un poids pour chaque mot de document au moins trouvé en fonction d'un nombre de répétition du mot dans le document et/ou du ou des facteurs thématiques respectifs associés au mot. Lorsque le mot trouvé est associé à plusieurs facteurs thématiques respectifs, le poids du mot trouvé est par exemple la moyenne des facteurs thématiques respectifs. Selon un autre exemple, le poids du mot de document est le produit du nombre de répétition du mot dans le document et du ou des facteurs thématiques respectifs. In step E5, the summary module MR determines a weight for each at least one document word based on a repetition number of the word in the document and / or the respective thematic factor or factors associated with the word. When the found word is associated with several respective thematic factors, the weight of the found word is for example the average of the respective thematic factors. In another example, the weight of the document word is the product of the repetition number of the word in the document and the respective thematic factor (s).
Le module de résumé MR pondère chaque mot de document par le poids respectif ainsi déterminé. On notera qu'un mot de document qui n'est pas trouvé à l'étape précédente E4 peut être également pondéré par un poids égal à son nombre de répétition dans le document. Selon une autre variante, le poids de chaque mot de document qui n'a pas été trouvé en correspondance avec un paramètre thématique sélectionné peut être une constante, par exemple égale à une valeur minimale de facteur thématique telle que zéro, lorsque les poids ne dépendent que de facteurs thématiques. The summary module MR weighting each document word by the respective weight thus determined. Note that a document word that is not found in the previous step E4 may also be weighted by a weight equal to its repetition number in the document. According to another variant, the weight of each document word that has not been found in correspondence with a selected thematic parameter may be a constant, for example equal to a minimum value of thematic factor such as zero, when the weights do not depend on than thematic factors.
Pour accentuer l'orientation thématique du résumé vers un paramètre thématique sélectionné donné, le module de résumé MR augmente le facteur de thème de chaque mot trouvé correspondant au paramètre donné à une valeur maximale de facteur thématique pour que le résumé généré soit proche du paramètre donné. En augmentant ainsi le poids des mots trouvés correspondant au paramètre donné, ces mots sont privilégiés dans la génération du résumé et orientent ainsi le résumé pour que le thème de celui-ci soit proche du paramètre thématique sélectionné donné. To emphasize the thematic orientation of the summary to a given selected thematic parameter, the summary module MR increases the theme factor of each found word corresponding to the given parameter to a maximum value of thematic factor so that the generated summary is close to the given parameter. . By thus increasing the weight of the found words corresponding to the given parameter, these words are privileged in the generation of the summary and thus direct the summary so that the theme of the latter is close to the given selected thematic parameter.
Dans une variante de l'étape E5, au lieu d'accentuer l'orientation thématique du résumé vers un paramètre thématique sélectionné donné, le module de résumé MR diminue le facteur de thème de chaque mot trouvé correspondant au paramètre donné à une valeur minimale de facteur thématique pour que le résumé généré soit éloigné du paramètre donné. Par exemple, la valeur minimale prédéterminée est égale au plus petit des poids déterminés à l'étape E5. Par exemple, la deuxième valeur prédéterminée est égale à zéro. En diminuant le poids de certains mots, ces mots tendent à être écartés de la génération du résumé et tendent à ne pas apparaître dans le résumé dont le thème est ainsi éloigné du paramètre thématique sélectionné. In a variant of step E5, instead of emphasizing the thematic orientation of the summary to a given selected thematic parameter, the summary module MR decreases the theme factor of each found word corresponding to the given parameter to a minimum value of thematic factor so that the generated summary is far from the given parameter. For example, the predetermined minimum value is equal to the least of the weights determined in step E5. For example, the second predetermined value is zero. By decreasing the weight of certain words, these words tend to be removed from the generation of the abstract and tend not to appear in the abstract whose theme is thus far from the selected thematic parameter.
A l'étape E6, le module de résumé MR sélectionne un ensemble de mot du document en fonction des mots du document ayant les poids les plus élevés afin de générer un résumé thématique dépendant de l'ensemble de mot sélectionné et de préférence afin d'afficher à l'étape E7 ce résumé dans le terminal d'usager T. Un ensemble de mot participant à la génération du résumé est éventuellement une phrase ou un paragraphe. In step E6, the summary module MR selects a word set of the document based on the words of the document having the highest weights in order to generate a thematic summary depending on the set of selected words and preferably in order to display in step E7 this summary in the user terminal T. A set of words participating in the generation of the summary is possibly a sentence or a paragraph.
Par exemple, le module de résumé MR sélectionne, en tant qu'ensembles de mots, des phrases en fonction des poids des mots du document. A cet effet, le module MR additionne les poids des mots dans chaque phrase pour produire le poids de chaque phrase et sélectionne les phrases ayant le poids le plus élevé pour construire le résumé. For example, the summary module MR selects, as sets of words, sentences based on the word weights of the document. For this purpose, the MR module adds the weights of the words in each sentence to produce the weight of each sentence and selects the sentences with the highest weight to construct the summary.
Dans un autre exemple, le module de résumé MR sélectionne des phrases en fonction des poids des mots du document, détermine le poids d'un lien entre deux phrases, détermine le poids de chaque phrase notamment en fonction des poids des mots de la phrase, des poids associés aux liens concernés par ladite phrase et du nombre de phrases auxquelles ladite phrase est liée, et sélectionne les phrases ayant le poids le plus élevé pour construire le résumé. Le poids d'un lien entre deux phrases peut être déterminé en fonction des mots en commun aux deux phrases. In another example, the summary module MR selects sentences according to the weight of the words of the document, determines the weight of a link between two sentences, determines the weight of each sentence, in particular according to the weights of the words of the sentence, weights associated with the links concerned by said sentence and the number of sentences to which said sentence is linked, and selects the sentences having the highest weight to construct the summary. The weight of a link between two sentences can be determined by words in common to both sentences.
Les étapes E3 à E7 peuvent être réitérées afin que le résumé thématique affiché soit précisé en fonction de paramètres thématiques sélectionnés progressivement par l'usager, comme indiqué par la boucle en traits pointillés dans la figure 2. The steps E3 to E7 can be repeated so that the thematic summary displayed is specified according to thematic parameters selected progressively by the user, as indicated by the dotted line loop in FIG.
La génération automatique du résumé thématique selon l'invention peut être complétée par d'autres étapes connues, telle que la réduction d'une phrase, la sélection d'éléments structurels comme un titre, etc. L'invention décrite ici concerne un procédé et un dispositif de génération automatique d'un résumé thématique d'un document. Selon une implémentation préférée, les étapes du procédé sont déterminées par des instructions d'un programme de génération automatique d'un résumé thématique d'un document incorporé dans un dispositif informatique comme le serveur de génération de résumé SR. Le programme comporte des instructions de programme qui, lorsque ledit programme est chargé et exécuté dans le dispositif informatique dont le fonctionnement est alors commandé par l'exécution du programme, réalisent les étapes du procédé selon l'invention. The automatic generation of the thematic summary according to the invention can be supplemented by other known steps, such as the reduction of a sentence, the selection of structural elements such as a title, etc. The invention described herein relates to a method and a device for automatically generating a thematic summary of a document. According to a preferred implementation, the steps of the method are determined by instructions of a program for automatically generating a thematic summary of a document incorporated in a computing device such as the summary generation server SR. The program comprises program instructions which, when said program is loaded and executed in the computing device whose operation is then controlled by the execution of the program, perform the steps of the method according to the invention.
En conséquence, l'invention s'applique également à un programme d'ordinateur, notamment un programme d'ordinateur sur ou dans un support d'informations, adapté à mettre en oeuvre l'invention. Ce programme peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention. Accordingly, the invention also applies to a computer program, including a computer program on or in an information carrier, adapted to implement the invention. This program can use any programming language and be in the form of source code, object code, or intermediate code between source code and object code such as in a partially compiled form, or in any other desirable form to implement a method according to the invention.
Le support d'informations peut être n'importe quel dispositif ou entité capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc) ou un disque dur. D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type internet. The information carrier may be any device or entity capable of storing the program. For example, the medium may comprise storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording medium, for example a diskette (floppy disc) or a disk hard. On the other hand, the information medium may be a transmissible medium such as an electrical or optical signal, which may be conveyed via an electrical or optical cable, by radio or by other means. The program according to the invention can in particular be downloaded to an Internet type network.
Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé selon l'invention. Alternatively, the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method according to the invention.
Claims (8)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0410559A FR2876198A1 (en) | 2004-10-06 | 2004-10-06 | Thematic summary generating method for computing device, involves selecting set of words of document with respect to words of document having largest weight so as to automatically generate thematic summary based on selected set |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0410559A FR2876198A1 (en) | 2004-10-06 | 2004-10-06 | Thematic summary generating method for computing device, involves selecting set of words of document with respect to words of document having largest weight so as to automatically generate thematic summary based on selected set |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| FR2876198A1 true FR2876198A1 (en) | 2006-04-07 |
Family
ID=34954243
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| FR0410559A Pending FR2876198A1 (en) | 2004-10-06 | 2004-10-06 | Thematic summary generating method for computing device, involves selecting set of words of document with respect to words of document having largest weight so as to automatically generate thematic summary based on selected set |
Country Status (1)
| Country | Link |
|---|---|
| FR (1) | FR2876198A1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113869042A (en) * | 2021-09-18 | 2021-12-31 | 北京百度网讯科技有限公司 | Method, device, electronic device and storage medium for generating text title |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20020052901A1 (en) * | 2000-09-07 | 2002-05-02 | Guo Zhi Li | Automatic correlation method for generating summaries for text documents |
| US20020078090A1 (en) * | 2000-06-30 | 2002-06-20 | Hwang Chung Hee | Ontological concept-based, user-centric text summarization |
| US20040029085A1 (en) * | 2002-07-09 | 2004-02-12 | Canon Kabushiki Kaisha | Summarisation representation apparatus |
-
2004
- 2004-10-06 FR FR0410559A patent/FR2876198A1/en active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20020078090A1 (en) * | 2000-06-30 | 2002-06-20 | Hwang Chung Hee | Ontological concept-based, user-centric text summarization |
| US20020052901A1 (en) * | 2000-09-07 | 2002-05-02 | Guo Zhi Li | Automatic correlation method for generating summaries for text documents |
| US20040029085A1 (en) * | 2002-07-09 | 2004-02-12 | Canon Kabushiki Kaisha | Summarisation representation apparatus |
Non-Patent Citations (6)
| Title |
|---|
| CHAI-WEI WU ET AL: "Ontology-based text summarization for business news articles", PROCEEDINGS OF THE 18TH INTERNATIONAL CONFERENCE ON COMPUTERS AND THEIR APPLICATIONS, 26 March 2003 (2003-03-26) - 28 March 2003 (2003-03-28), CARY, NC, USA, pages 389 - 392, XP002331152 * |
| GOLDSTEIN J ET AL: "Summarizing text documents: sentence selection and evaluation metrics", PROCEEDINGS OF THE 22ND ACM SIGIR INTERNATIONAL CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, August 1999 (1999-08-01), BERKELEY, CA, USA, pages 121 - 128, XP002331153, ISBN: 1-58113-096-1 * |
| HAHN U ET AL: "THE CHALLENGES OF AUTOMATIC SUMMARIZATION", COMPUTER, IEEE COMPUTER SOCIETY, LONG BEACH., CA, US, US, vol. 33, no. 11, 1 November 2000 (2000-11-01), pages 29 - 36, XP000987579, ISSN: 0018-9162 * |
| LUHN ET AL: "The automatic creation of literature abstracts", IBM JOURNAL OF RESEARCH AND DEVELOPMENT, IBM CORPORATION, ARMONK, US, April 1958 (1958-04-01), pages 159 - 165, XP002078270, ISSN: 0018-8646 * |
| OCHITANI R ET AL: "Goal-directed approach for text summarization", PROCEEDINGS OF ACL/EACL - WORKSHOP ON INTELLIGENT SCALEABLE TEXT, 11 July 1997 (1997-07-11), MADRID, SPAIN, pages 47 - 50, XP002331151 * |
| RADEV D R: "Text summarization - Tutorial", SLIDES PRESENTED AT ACM SIGIR, 25 July 2004 (2004-07-25), SCHEFFIELD, UK, XP002331154, Retrieved from the Internet <URL:http://www.summarization.com/sigirtutorial2004.ppt> [retrieved on 20050608] * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113869042A (en) * | 2021-09-18 | 2021-12-31 | 北京百度网讯科技有限公司 | Method, device, electronic device and storage medium for generating text title |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7856358B2 (en) | Method and apparatus for providing search capability and targeted advertising for audio, image, and video content over the Internet | |
| US7966316B2 (en) | Question type-sensitive answer summarization | |
| US8589373B2 (en) | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers | |
| US9190052B2 (en) | Systems and methods for providing information discovery and retrieval | |
| CN104700835B (en) | The method and system of cable voice port is provided | |
| US7809117B2 (en) | Method and system for processing messages within the framework of an integrated message system | |
| US8209329B2 (en) | Apparatus, method, and program for information processing | |
| CA2400073C (en) | System and method for voice access to internet-based information | |
| US20100250554A1 (en) | Adding and processing tags with emotion data | |
| US20060288041A1 (en) | Providing community-based media item ratings to users | |
| EP0848373A2 (en) | A sytem for interactive communication | |
| US20040163035A1 (en) | Method for automatic and semi-automatic classification and clustering of non-deterministic texts | |
| CN102436495A (en) | Method and device for providing dynamic search page | |
| JP2012018412A (en) | Method for deciding topic of conversation, acquiring associated content and presenting content, and system thereof | |
| JP2003511795A (en) | System and method for accessing internet information using an internet device | |
| CN112015972A (en) | Information recommendation method and device, electronic equipment and storage medium | |
| FR2876198A1 (en) | Thematic summary generating method for computing device, involves selecting set of words of document with respect to words of document having largest weight so as to automatically generate thematic summary based on selected set | |
| CN101120341A (en) | Method and device for mobile information access in natural language | |
| US20230179831A1 (en) | Method and device for personalizing generic multimedia content | |
| CN110555202A (en) | method and device for generating abstract broadcast | |
| EP4143674A1 (en) | Bit vector-based content matching for third-party digital assistant actions | |
| EP1517509B1 (en) | help insertion in a reply to a request for a virtual office | |
| EP1479012B1 (en) | Automatic indexing of audio-textual documents based on their comprehension difficulty | |
| EP3073395B1 (en) | Method and device for accessing a plurality of contents, corresponding terminal and computer program | |
| CN113312541B (en) | Voice search method, device and storage medium |