WO2000079426A1

WO2000079426A1 - Systeme et procede de detection de similarite de texte sur de courts passages

Info

Publication number: WO2000079426A1
Application number: PCT/US2000/040238
Authority: WO
Inventors: Judith L. Klavans; Eleazar Eskin; Vasileios Hatzivassiloglou
Original assignee: Columbia University in the City of New York
Current assignee: Columbia University in the City of New York
Priority date: 1999-06-18
Filing date: 2000-06-19
Publication date: 2000-12-28
Anticipated expiration: 2001-12-18
Also published as: EP1203309A1; EP1203309A4

Abstract

L'invention porte sur un système et un procédé visant à déterminer une similarité dans de courts segments d'un texte. Ce procédé permet de définir une similarité qui est appropriée pour de petits segments (100) du texte. De petits segments de texte sont comparés de façon à déterminer s'il existe des caractéristiques primitives communes telles que des mots, des syntagmes nominaux, des synonymes, des verbes avec une classe sémantique commune, des noms propres et analogues (105). A partir de l'identification des caractéristiques primitives, les petits segments du texte sont évalués pour déterminer s'il existe des caractéristiques composites (110). Ces caractéristiques composites sont définies sous forme de relations prédéterminées entre des caractéristiques primitives. Les caractéristiques primitives et composites communes sont appliquées sous forme d'entrées à un algorithme d'apprentissage de machine approprié qui est testé pour déterminer une mesure de similarité à partir des caractéristiques primitives et composites communes aux segments (115) du texte.