[go: up one dir, main page]

JP2940501B2 - ドキュメント分類装置及び方法 - Google Patents

ドキュメント分類装置及び方法

Info

Publication number
JP2940501B2
JP2940501B2 JP8356219A JP35621996A JP2940501B2 JP 2940501 B2 JP2940501 B2 JP 2940501B2 JP 8356219 A JP8356219 A JP 8356219A JP 35621996 A JP35621996 A JP 35621996A JP 2940501 B2 JP2940501 B2 JP 2940501B2
Authority
JP
Japan
Prior art keywords
word
category
distribution
cluster
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8356219A
Other languages
English (en)
Other versions
JPH10187754A (ja
Inventor
航 李
健司 山西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP8356219A priority Critical patent/JP2940501B2/ja
Priority to US08/998,736 priority patent/US6094653A/en
Publication of JPH10187754A publication Critical patent/JPH10187754A/ja
Application granted granted Critical
Publication of JP2940501B2 publication Critical patent/JP2940501B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Creation or modification of classes or clusters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、インターネットの
ホームページの自動分類、電子図書館における文献検
索、特許出願情報の検索、電子化された新聞記事の自動
分類、マルチメディア情報の自動分類等の用途に適用し
て好適とされる情報の分類や検索技術に関する。
【0002】
【従来の技術】情報の分類や検索の分野において、ドキ
ュメント分類(「文章分類」、「テキスト分類」ともい
う)装置の開発は大きな課題である。ここで、「ドキュ
メント分類」とは、予め幾つかのカテゴリを設けてお
き、さらに一部のドキュメントがそれぞれどのカテゴリ
に属するかを判断し、該当するカテゴリに、ドキュメン
トを分類し、システムに記憶した後、システムは記憶さ
れた情報から知識を自動的に獲得し、これ以降、獲得で
きた知識を基に、新たに入力されたドキュメントを自動
的に分類する、ことをいう。
【0003】従来、幾つかのドキュメント分類装置が提
案されている。その中でも、Salton(サルトン)らの
提案するドキュメント分類装置がよく知られている。例
えば文献(1)(G. Salton and M. J. McGil
l, “Introduction to Modern Information R
etrieval”, New York: McGraw Hill, 198
3)が参照される。この装置は、ドキュメントに現れる
単語の頻度ベクトルとカテゴリにおける単語の頻度ベク
トルの間のコサイン値をドキュメントとカテゴリ間の距
離とみなし、距離の最も小さいカテゴリにドキュメント
を分類する、ものである。
【0004】また、Guthrie(グスリー)らの提案する
ドキュメント分類装置は、単語をクラスタにまとめるも
のとして、注目されている。例えば文献(2)(Guthrie
Louise, Walker Elbert, and Guthrie Joe,
“Document Classification by Machine: Th
eory and Practice,” Proceedings of the15th
international Conference on Computational
Linguistics(COLING'94), page 1059-106
3, 1994)が参照される。
【0005】図15は、上記Guthrieらが提案するドキ
ュメント装置の構成を示す図である。図15を参照する
と、このドキュメント装置は、ドキュメント入力部50
5、ドキュメント分類部503、単語クラスタ分布記憶
部502、カテゴリ記憶部501、及び、学習部504
を備えて構成され、ドキュメントに現れる単語(あるい
は、キーワード、タームともいう)を幾つかの単語クラ
スタに分類し、単語クラスタの出現分布を基にドキュメ
ントの分類を行うものである。
【0006】Guthrieらの提案するドキュメントの分類
装置は、単語をクラスタに分類しているため、Salton
らの提案するドキュメント分類装置よりも精度の高い分
類ができる。
【0007】以下では、簡単な例を通じて、Guthrieら
の提案するドキュメント分類装置について説明する。予
め「野球」と「サッカー」という2つのカテゴリを設け
るとする。なお、これは利用者が設定する。
【0008】そして、幾つかのドキュメントについて、
この2つのカテゴリのどちらに属するかを判断し、該当
するカテゴリに分類した後、これらの情報をカテゴリ記
憶部501に記憶したとする。図8は、2つのカテゴリ
のドキュメントに現れる単語の出現度数の一例である。
【0009】Guthrieらの提案するドキュメント装置で
は、学習部504は、カテゴリ「野球」に対して、単語
クラスタ「野球」を作成し、「サッカー」に対して、単
語クラスタ「サッカー」を作成する。カテゴリ「サッカ
ー」のドキュメントに現れず、カテゴリ「野球」のドキ
ュメントに度数を1回以上(一般的にはN回以上)に現
れた単語を単語クラスタ「野球」に分類し、一方、カテ
ゴリ「野球」のドキュメントに現れず、カテゴリ「サッ
カー」のドキュメントに度数を1回以上(一般的にはN
回以上)に現れた単語を単語クラスタ「サッカー」に分
類する。さらに、残りの単語を、単語クラスタ「その
他」に分類する。
【0010】すると、図9に示すような、3つの単語ク
ラスタが得られる。すなわち、図8の各カテゴリに現れ
る単語出現頻度情報から、クラスタ「野球」には、単語
「ベース」、及び「投手」が分類され、クラスタ「サッ
カー」には、「ゴール」が分類され、クラスタ「その
他」には、「試合」、及び「観衆」が分類される。
【0011】また、図10に示すような、2つのカテゴ
リのドキュメントに現れる単語クラスタ(クラスタ野
球、クラスタサッカー、クラスタその他)の出現頻度も
得られる。
【0012】学習部504は、次に、各カテゴリに、そ
のカテゴリにおけ単語クラスタの分布を対応させ、Lap
lace(ラプラス)推定量を用いて、単語クラスタの分布
を推定し、得られる単語クラスタの分布を単語クラスタ
分布記憶部502に記憶する。Laplace推定量を用いた
確率パラメータの推定式を次式(1)に示す。
【0013】
【数1】
【0014】但し、P(X=x)はxの起きる確率で、
f(X=x)はF回の観測結果の中のxの起きる回数で
ある。またkはXのとる値の種類の数である。
【0015】図11は、カテゴリ「野球」とカテゴリ
「サッカー」における、単語クラスタ(クラスタ野球、
クラスタサッカー、クラスタその他)の分布を示したも
のである。
【0016】ドキュメント分類では、ドキュメント分類
部503は、ドキュメント入力部505から新しいドキ
ュメントの入力を受け、単語クラスタ分布記憶部502
に記憶される各カテゴリにおける単語クラスタの分布を
参照し、入力されたドキュメントをデータとみなし、そ
のデータが各カテゴリにおける単語クラスタの分布から
生起される確率を計算し、生起確率の最も大きい分布に
対応するカテゴリに、入力されたドキュメントを分類す
る。具体的には、以下のような処理を行う。
【0017】ドキュメント分類部503は、図12に示
すような入力(観衆、投手、ベース、ベース、ゴール)
を受けるとする。ドキュメント分類部503は、入力さ
れたドキュメントに現れる単語を、その単語が属する単
語クラスタによって置き換え、図13に示すようなデー
タを作成する。すなわち、観衆、投手、ベース、ベー
ス、ゴールは、それぞれクラスタその他、クラスタ野
球、クラスタ野球、クラスタ野球、クラスタサッカーに
置き換えられる。
【0018】ドキュメント分類部503は、次に、単語
クラスタ分布記憶部502から、図11に示すカテゴリ
「野球」とカテゴリ「サッカー」における単語クラスタ
の分布を参照し、図13のデータは、ある単語クラスタ
の分布から生成されるとし、そのデータが、図11に示
すカテゴリ「野球」とカテゴリ「サッカー」における単
語クラスタの分布から生起される確率を、以下のように
計算する。但し、ここでは、取り扱いやすいように、確
率値の対数をとっている。
【0019】
【数2】
【0020】カテゴリ「野球」からの生起確率の方が、
カテゴリ「サッカー」からの生起確率よりも大きいの
で、入力されるドキュメントを、カテゴリ「野球」に分
類する。
【0021】
【発明が解決しようとする課題】しかしながら、上記し
たGuthrieらの提案になるドキュメント分類装置は、以
下記載の3つの問題点を有してる。
【0022】(1)第1の問題点は、同じ単語クラスタ
に分類された単語が同等に扱われる、ということであ
る。
【0023】例えば、「ベース」と「投手」が同じく単
語クラスタ「野球」に分類され、そのどちらかが現れれ
ば、単語クラスタ「野球」が現れるとしている。しか
し、「ベース」のドキュメントにおける出現度数が、
「投手」の出現度数よりも多く、新しいドキュメントに
「ベース」が現れた場合、そのドキュメントに「投手」
が現れる場合に比べて、より高い精度と確信度で、ドキ
ュメントをカテゴリ「野球」に分類できるはずである。
しかしながら、上記したGuthrieらの装置では、このよ
うなことはできない。
【0024】(2)第2の問題点は、単語クラスタを作
成する時の単語出現度数の閾値の設定が困難である、と
いうことである。
【0025】上記したGuthrieらの提案する装置では、
カテゴリ「サッカー」のドキュメントに現れず、カテゴ
リ「野球」のドキュメントにN回以上現れた単語を単語
クラスタ「野球」に分類し、カテゴリ「野球」のドキュ
メントに現れず、カテゴリ「サッカー」のドキュメント
にN回以上現れた単語を単語クラスタ「サッカー」に分
類している。そして、それ以外の単語を単語クラスタ
「その他」に分類している。
【0026】この場合、Nの設定が大きな問題となる。
すなわちNの値が大きければ、クラスタ「野球」とクラ
スタ「サッカー」にそれぞれ分類される単語が減り、ク
ラスタ「その他」に分類される単語が増えることにな
る。その結果、入力されたドキュメントが、どのカテゴ
リに属するか判断できない場合が増える。
【0027】一方、Nの値が小さければ(例えば、N=
1)、クラスタ「野球」とクラスタ「サッカー」に分類
される単語が増える。しかし、1回しか現れない単語も
何回も現れる単語も同じように取り扱われることから、
分類の精度が下がる。
【0028】(3)第3の問題点は、複数のカテゴリの
ドキュメントに現れるが、全体としては、あるカテゴリ
のドキュメントに偏って現れる単語を有効に利用するこ
とができない、ということである。
【0029】例えば、カテゴリ「野球」とカテゴリ「サ
ッカー」のドキュメントに現れる単語とその出現度数
が、図14に示すようなものであるとする。図14を参
照すると、「ゴール」は主にカテゴリ「サッカー」のド
キュメントに現れるが、カテゴリ「野球」のドキュメン
トにも現れている。
【0030】上記Guthrieらの提案する装置では、この
場合、「ゴール」を単語クラスタ「その他」に分類して
しまい、単語「ゴール」のよく現れるドキュメントをカ
テゴリ「サッカー」に分類する、ことはできない。
【0031】したがって、本発明は、上記事情に鑑みて
なされたものであって、その目的は、単語がある確率で
単語クラスタに属するとし、各カテゴリにそのカテゴリ
における単語クラスタの分布と各単語クラスタにおける
単語の分布の線形結合モデルを対応させることにより、
上記した従来のドキュメント装置の問題点を全て解消
し、高精度のドキュメント分類を実現可能とするドキュ
メント分類装置を提供することにある。
【0032】
【課題を解決するための手段】前記目的を達成するた
め、本発明のドキュメント分類装置は、まず、単語を単
語クラスタに分類する時、該単語がある確率でその単語
クラスタに属するとし、さらに、各カテゴリに、そのカ
テゴリにおける単語クラスタの分布と各単語クラスタに
おける単語の分布の線形結合モデルを対応させる。
【0033】より詳細には、本発明のドキュメント分類
装置は、カテゴリと該カテゴリに分類されたドキュメン
トを記憶するカテゴリ記憶部と、カテゴリにおける単語
クラスタの分布を記憶する単語クラス分布記憶部と、
単語クラスタにおける単語の分布を記憶する単語分布記
憶部と、(a)前記カテゴリ記憶部に記憶される、カテ
ゴリと、該カテゴリに分類されたドキュメントと、を参
照して、各カテゴリに対応する単語クラスタを作成し、
(b)前記各カテゴリについて、該カテゴリにおける単
語クラスタの分布と各単語クラスタにおける単語の分布
の線形結合モデルを対応させ、前記各単語クラスタにお
ける単語の分布を推定し、(c)推定された前記各単語
クラスタにおける単語の分布を、前記単語分布記憶部に
記憶し、(d)さらに各カテゴリにおける単語クラスタ
の分布を推定し、推定された前記各カテゴリにおける単
語クラスタの分布を、前記単語クラスタ記憶部に記憶す
る学習手段と、新たに入力されるドキュメントをドキュ
メント分類部に格納するドキュメント入力手段と、
(e)前記ドキュメント入力手段から入力されたドキュ
メントを受け取り、(f)前記単語クラスタ分布記憶部
に記憶される各カテゴリにおける単語クラスタの分布を
参照し、及び、前記単語分布記憶部に記憶される各単語
クラスタにおける単語の分布を参照し、各カテゴリに、
該カテゴリにおける単語クラスタの分布と、各単語クラ
スタにおける単語の分布の線形結合モデルを対応させ、
入力されたドキュメントをデータとみなし、該データに
対する、各カテゴリの対応する線形結合モデルの負対数
尤度を計算し、(g)計算された負対数尤度の最も小さ
い線形結合モデルの対応するカテゴリに入力されたドキ
ュメントを分類するドキュメント分類手段と、を備える
ことを特徴とする。
【0034】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明は、その好ましい実施において、カ
テゴリと該カテゴリに分類されたドキュメントを記憶す
るカテゴリ記憶部(図1の1)と、カテゴリにおける単
語クラスタの分布を記憶する単語クラス分布記憶部(図
1の2)と、単語クラスタにおける単語の分布を記憶す
る単語分布記憶部(図1の3)と、学習部(図1の4)
と、新たに入力されるドキュメントをドキュメント分類
部(図1の6)に格納するドキュメント入力部(図1の
5)と、及びドキュメント分類部(図1の6)を備えて
構成される。
【0035】本発明の実施の形態において、学習部(図
1の4)は、その処理フローの一例を示した図2を参照
すると、(a)カテゴリ記憶部(図1の1)に記憶され
る、カテゴリと、該カテゴリに分類されたドキュメント
と、を参照して、各カテゴリに対応する単語クラスタを
作成し(図2のステップ101、102)、(b)各カ
テゴリにおける単語クラスタの分布を推定し、推定され
た前記各カテゴリにおける単語クラスタの分布を、前記
単語クラスタ記憶部に記憶し(図2のステップ10
3)、(c)前記各カテゴリに、該カテゴリにおける単
語クラスタの分布と各単語クラスタにおける単語の分布
の線形結合モデルを対応させ、前記各単語クラスタにお
ける単語の分布を推定し、推定された前記各単語クラス
タにおける単語の分布を、単語分布記憶部(図1の3)
に記憶する(図2のステップ104)。
【0036】本発明の実施の形態において、ドキュメン
ト分類部(図1の6)は、その処理フローの一例を示し
た図7を参照すると、(a)ドキュメント入力部(図1
の5)から入力されたドキュメントを受け取り(図7の
ステップ301)、(b)単語クラスタ分布記憶部(図
1の2)に記憶される各カテゴリにおける単語クラスタ
の分布を参照し、及び、単語分布記憶部(図1の3)に
記憶される各単語クラスタにおける単語の分布を参照し
(図7のステップ302)、(c)各カテゴリに、その
カテゴリにおける単語クラスタの分布と、各単語クラス
タにおける単語の分布の線形結合モデルを対応させ、入
力されたドキュメントをデータとみなし、該データに対
する、各カテゴリの対応する線形結合モデルの負対数尤
度を計算し、計算された負対数尤度の最も小さい線形結
合モデルの対応するカテゴリに入力されたドキュメント
を分類する(図7のステップ303)。
【0037】
【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例について図面を参照し
て以下に説明する。
【0038】図1は、本発明のドキュメント分類装置の
第1の実施例の構成を示す図である。図1を参照する
と、本実施例のドキュメント分類装置は、カテゴリ記憶
部1、単語クラスタ分布記憶部2、単語分布記憶部3、
学習部4、ドキュメント入力部5、及び、ドキュメント
分類部6を備えて構成されている。
【0039】カテゴリ記憶部1は、カテゴリとそのカテ
ゴリに分類されたドキュメントを記憶する。
【0040】学習部4は、カテゴリ記憶部1に記憶され
るカテゴリとそのカテゴリに分類されたドキュメントを
参照して、各カテゴリに対応する単語クラスタを作成
し、各カテゴリに、そのカテゴリにおける単語クラスタ
の分布と各単語クラスタにおける単語の分布の線形結合
モデルを対応させ、各単語クラスタにおける単語の分布
を推定し、推定できた各単語クラスタにおける単語の分
布を単語の分布記憶部3に記憶し、さらに各カテゴリに
おける単語クラスタの分布を推定し、推定できた各カテ
ゴリにおける単語クラスタの分布を単語クラスタ記憶部
2に記憶する。
【0041】ドキュメント入力部5は、新しいドキュメ
ントを入力する。
【0042】ドキュメント分類部6は、ドキュメント入
力部5から入力されたドキュメントを受け取り、単語ク
ラスタ分布記憶部2に記憶される、各カテゴリにおける
単語クラスタの分布、を参照し、また単語分布記憶部3
に記憶される、各単語クラスタにおける単語の分布、を
参照し、各カテゴリに、そのカテゴリにおける単語クラ
スタの分布と各単語クラスタにおける単語の分布の線形
結合モデルを対応させ、入力されたドキュメントをデー
タとみなし、そのデータに対する、各カテゴリの対応す
る線形結合モデルの負対数尤度を計算し、計算できた負
対数尤度の最も小さい線形結合モデルの対応するカテゴ
リに入力されたドキュメントを分類する。
【0043】本実施例のドキュメント分類装置の処理動
作について、図14に示す例に即して以下に説明する。
【0044】カテゴリ記憶部1は、カテゴリとそのカテ
ゴリに分類されたドキュメントを記憶する。一般的に
は、カテゴリをc1,c2,…,cnと表す。例えば、記
憶されるカテゴリとそのカテゴリに分類されたドキュメ
ントに現れる単語の出現度数が、図14に示すようなも
のであるとする。ここでは、カテゴリは、「野球」と
「サッカー」の2つである。
【0045】学習の際、学習部4は、図2に示すフロー
チャートに従う処理を行う。
【0046】すなわち学習部4は、まず、カテゴリ記憶
部1に記憶されるカテゴリと、そのカテゴリに分類され
たドキュメントと、を参照し(ステップ101)、カテ
ゴリに対応する単語クラスタを作成する(ステップ10
2)。具体的には、学習部4はカテゴリに1対1に単語
のクラスタを作成する。
【0047】作成された単語クラスタを、k1,k2
…,knと表す。図9に示す例では、単語クラスタ「野
球」と単語クラスタ「サッカー」を作成する。
【0048】単語の各カテゴリのドキュメントにおける
出現頻度をみて、あるカテゴリにおける出現頻度が40
%以上である場合、そのカテゴリに対応する単語クラス
タにその単語を分類する。このように分類できない単語
を以降の処理で無視する。図14に示す例に対して、図
3に示すような単語クラスタが得られる。
【0049】学習部4は、次に、各単語クラスタにおけ
る単語の分布を推定し、推定できた各単語クラスタにお
ける単語の分布を単語の分布記憶部3に記憶する。一般
的には、単語クラスタkiにおける単語の分布を、P
(W|ki)と表す。但し、kiはある単語クラスタを表
し、確率変数Wは単語クラスタkiに属する単語を値と
する。
【0050】学習部4は、以下のように、各単語クラス
タにおける単語の分布を推定する。
【0051】単語クラスタkiにおける単語wの出現確
率P(w|ki)(次式(2))に従って推定する。
【0052】P(w|ki)=f(w)/F …(2)
【0053】但し、P(w|ki)は単語クラスkiにお
ける単語wの出現確率で、f(w)は単語wのすべての
ドキュメントにおける出現度数、Fは単語クラスタki
におけるすべての単語のすべてのドキュメントにおける
出現度数である。
【0054】図3に示す単語クラスタにおける単語の分
布は、図4に示すようなものとなる。
【0055】学習部4は、次に、各カテゴリに、そのカ
テゴリにおける単語クラスタ分布と各単語クラスタにお
ける単語の分布による線形結合モデルを対応させる。
【0056】線形結合モデルは、次式(3)のように定
義される。
【0057】
【数3】
【0058】学習部4は、各カテゴリにおける単語クラ
スタの分布を推定し、推定できた各カテゴリにおける単
語クラスタの分布を単語クラスタ分布記憶部2に記憶す
る。一般的には、単語クラスタの分布をP(K|c)と
表す。但し、cはあるカテゴリを表し、Kは単語クラス
タを値とする。
【0059】学習部4は、具体的には、例えば、隠れ変
数によるマルコフチェインモンテカルロ法を用いて、カ
テゴリにおける単語クラスタの分布P(K|c)を推定
する。
【0060】表記上簡単のため、以下P(ki|c)と
P(W|ki)を、次式(4)で表す。すると、上式
(3)のモデルは、次式(5)のようになる。
【0061】
【数4】
【0062】次に、隠れ変数Zを導入する。Zは、長さ
がnで、1つの値が1でその他の値がすべて0であるよ
うなベクトルを値とする。例えば、次式(6)はZの取
る値の例である。
【0063】Z=(0,…,0,1,0,…,0) …(6)
【0064】次に、隠れ変数モデルを定義する。隠れ変
数モデルは、WとZの同時分布を用いて、次式(7)、
(8)のように表現する。そしてWに関する周辺分布
は、次式(9)となる。
【0065】
【数5】
【0066】いま、上式(7)におけるθの推定を問題
として考える。以下では、Zとθを繰り返し互いにラン
ダムサンプリングすることによってθの推定を行う。そ
のフローチャートを図5に示す。
【0067】まずDirichlet(ディリクレ)分布D(a
1,a2,…,an:θ)を定義する。ここで、「Dirich
let分布」とは、次式(10)に示す密度関数をもつ確
率分布のことをいう。なお、a1,a2,…,anはパラ
メータであり、Γはガンマ関数である。
【0068】
【数6】
【0069】θの初期値を適当に求め、θ(0)とする
(ステップ201)。次にサンプリングを繰り返し、θ
とZを求めていく。θ(1)とZ(i)をl回目にサンプリン
グで得られる値とする。まずl+1回目の繰り返しサン
プリングでは、次式(11)の分布に従って、Zi(i
=1,2,…,N)の値をランダムサンプリングする
(ステップ203)。
【0070】
【数7】
【0071】Wi(i=1,2,…,N)は観測データ
である。ここでは、P(Zi|Wi,θ)は、次式(1
2)で与えられる。
【0072】
【数8】
【0073】Zi (l+1)(i=1,2,…,N)の値、す
なわち(ZN(l+1)が得られた後、次式(13)の分布
に従って、θ(l+1)の値をランダムサンプリングする
(ステップ204)。
【0074】
【数9】
【0075】事前分布をD(a1,a2,…,an:θ)
とおくと、P(θ|WN,ZN)は、次式(14)、(1
5)、(16)で与えられる。
【0076】
【数10】
【0077】上記のようにサンプリングを繰り返す。指
定された回数を実行したら、処理を終了する。θ(l+1)
を推定結果とする。
【0078】このような推定法によって得られたθは、
サンプリング回数が十分大きい場合、事後分布P(θ|
N)に従って、サンプリングされたものと近似的にみ
なすことができる。
【0079】上式(10)のサンプリングにおいて、実
際には、パラメータθの取り得る値を制限する。具体的
には、パラメータ空間の量子化を行い、以下のようにθ
の取り得る値を決める。カテゴリがciである時、θi
値を0.5から1までのr(例えば、r=0.05)刻
みの値をとるとする。
【0080】こうしてθiが決まった後、残りのパラメ
ータは、次式(17)のように決める。
【0081】
【数11】
【0082】学習部4は、上記のように、各カテゴリに
おける単語クラスタの分布を推定し、推定できた各カテ
ゴリにおける単語クラスタの分布を単語クラスタ記憶部
2に記憶する。
【0083】推定できたカテゴリ「野球」とカテゴリ
「サッカー」における単語クラスタの分布の一例を、図
6に示す。
【0084】ドキュメント分類の際、ドキュメント入力
部5は、ドキュメント分類部6に、新しいドキュメント
を入力する。
【0085】ドキュメント分類部6は、ドキュメント入
力部5から入力されるドキュメントを受け取り、単語ク
ラスタ分布記憶部2に記憶される各カテゴリにおける単
語クラスタ分布を参照し、単語分布記憶部3に記憶され
る各単語クラスタにおける単語分布を参照し、各カテゴ
リに、そのカテゴリにおける単語クラスタ分布と各単語
クラスタにおける単語の分布の線形結合モデルを対応さ
せ、入力されるドキュメントをデータとみなし、そのデ
ータに対する、各カテゴリの対応する線形結合モデルの
負対数尤度を計算し、計算できた負対数尤度のもっとも
小さいカテゴリに入力されたドキュメントを分類する。
【0086】図7は、ドキュメント分類部の処理を説明
するためのフローチャートである。
【0087】入力されたドキュメントd(データ)に対
する、カテゴリcに対応する線形結合モデルの負対数尤
度L(d|c)を、以下のように計算する。
【0088】
【数12】
【0089】但し、入力されたテキストは、図12に示
したものとし、各カテゴリにおける単語クラスタの分布
は図、各単語クラスタにおける単語の分布は図にそ
れぞれ示すようなものであるとする。
【0090】負対数尤度の最も小さいカテゴリにドキュ
メントdを分類する。この場合、カテゴリ「野球」によ
る負対数尤度が小さいので、ドキュメントをカテゴリ
「野球」に分類する。
【0091】次に、本発明のドキュメント分類装置の第
2の実施例について説明する。本発明の第2の実施形例
の構成は、図1に示したものと同様とされ、カテゴリ記
憶部1、単語クラスタ分布記憶部2、単語分布記憶部
3、学習部4、ドキュメント入力部5、及びドキュメン
ト分類部6を備える。
【0092】本発明の第2の実施例のドキュメント分類
装置の学習部4は、前記第1の実施例の装置の学習部
と、異なるアルゴリズムで、各カテゴリにおける単語ク
ラスタの分布を推定する。本発明の第2の実施例のドキ
ュメント分類装置のこれ以外の部分は、前記第1の実施
例の装置と同じである。以下では、相違点のみ説明す
る。
【0093】本実施例では、各カテゴリにおける単語ク
ラスタの分布の推定問題を、次式(18)を最大にする
問題、すなわち、最尤推定の問題として考える。
【0094】次式(20)、(21)のいずれかの式に
従って、繰り返し計算することにより、θを求める。な
おlは繰り返し計算のインデクス(index)であるとす
る。また、η>1は係数であるとする。
【0095】
【数13】
【0096】
【発明の効果】以上説明したように、本発明のドキュメ
ント分類装置においては、単語がある確率で単語クラス
タに属するとし、さらに、各カテゴリに、そのカテゴリ
における単語クラスタの分布と各単語クラスタにおける
単語の分布の線形結合モデルを対応させている。本発明
によれば、このような構成としたことにより、従来Gut
hrieらの提案するドキュメント分類装置よりも高精度の
ドキュメント分類を実現することができる。
【0097】また、本発明においては、単語がある確率
で単語クラスタに属するとしているので、同じ単語クラ
スタに分類された単語が同等に扱われるという上記従来
技術の問題点を解決することができる。さらに、単語ク
ラスタを作成する時の単語出現度数の閾値の設定が困難
であるという、従来技術の問題点も解消することができ
る。
【0098】そして、本発明においては、各カテゴリ
に、そのカテゴリにおける単語クラスタの分布と各単語
クラスタにおける単語の分布の線形結合モデルを対応さ
せることによって、複数のカテゴリのドキュメントに現
れるが、全体としてはあるカテゴリのドキュメントに偏
って現れる単語を有効に利用できないという、従来技術
の問題点をも解消することができる。
【図面の簡単な説明】
【図1】本発明のドキュメント分類装置の一実施例の構
成を示す図である。
【図2】本発明の第1の実施例の学習部の処理を説明す
るためのフローチャートである。
【図3】本発明の第1の実施例を説明するための図であ
り、単語クラスタとそれに属する単語を示す図である。
【図4】本発明の第1の実施例を説明するための図であ
り、単語クラスタにおける単語の分布を示す図である。
【図5】本発明の第1の実施例の学習部の推定処理を説
明するためのフローチャートである。
【図6】各カテゴリにおける単語クラスタの分布を示す
図である。
【図7】本発明の第1の実施例のドキュメント分類部の
処理を説明するためのフローチャートである。
【図8】各カテゴリに現れる単語の出現度数を示す図で
ある。
【図9】単語クラスタとそれに属する単語を示す図であ
る。
【図10】各カテゴリに現れる単語クラスタの出現度数
を示す図である。
【図11】各カテゴリにおける単語クラスタの分布を示
す図である。
【図12】入力されたドキュメントの例を示す図であ
る。
【図13】単語クラスタに置き換えられたドキュメント
を示す図である。
【図14】各カテゴリに現れる単語の出現度数を示す図
である。
【図15】従来のドキュメント分類装置の構成を示す図
である。
【符号の説明】
1 カテゴリ記憶部 2 単語クラスタ分布記憶部 3 単語分布記憶部 4 学習部 5 ドキュメント入力部 6 ドキュメント分類部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−287097(JP,A) 岩山真,徳永健伸,「自動文書分類の ための新しい確立モデル」,情報処理学 会研究報告Vol.94,No.37(94− FI−33),pp47−52(平成6年5月 18日) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】カテゴリと該カテゴリに分類されたドキュ
    メントを記憶するカテゴリ記憶部と、 カテゴリにおける単語クラスタの分布を記憶する単語ク
    ラス分布記憶部と、 単語クラスタにおける単語の分布を記憶する単語分布記
    憶部と、 (a)前記カテゴリ記憶部に記憶される、カテゴリと、
    該カテゴリに分類されたドキュメントと、を参照して、
    各カテゴリに対応する単語クラスタを作成し、 (b)前記各カテゴリについて、該カテゴリにおける単
    語クラスタの分布と各単語クラスタにおける単語の分布
    の線形結合モデルを対応させ、前記各単語クラスタにお
    ける単語の分布を推定し、 (c)推定された前記各単語クラスタにおける単語の分
    布を、前記単語分布記憶部に記憶し、 (d)さらに各カテゴリにおける単語クラスタの分布を
    推定し、推定された前記各カテゴリにおける単語クラス
    タの分布を、前記単語クラスタ記憶部に記憶する学習手
    段と、 新たに入力されるドキュメントをドキュメント分類部に
    格納するドキュメント入力手段と、 (e)前記ドキュメント入力手段から入力されたドキュ
    メントを受け取り、 (f)前記単語クラスタ分布記憶部に記憶される各カテ
    ゴリにおける単語クラスタの分布を参照し、及び、前記
    単語分布記憶部に記憶される各単語クラスタにおける単
    語の分布を参照し、各カテゴリに、該カテゴリにおける
    単語クラスタの分布と、各単語クラスタにおける単語の
    分布の線形結合モデルを対応させ、入力されたドキュメ
    ントをデータとみなし、該データに対する、各カテゴリ
    の対応する線形結合モデルの負対数尤度を計算し、 (g)計算された負対数尤度の最も小さい線形結合モデ
    ルの対応するカテゴリに入力されたドキュメントを分類
    するドキュメント分類手段と、 を備えることを特徴とするドキュメント分類装置。
  2. 【請求項2】(a)カテゴリと該カテゴリに分類された
    ドキュメントを記憶するカテゴリ記憶部に記憶されるカ
    テゴリと該カテゴリに分類されたドキュメントを参照
    し、各カテゴリに対応する単語クラスタを作成し、 (b)各カテゴリについて、各単語クラスタにおける単
    語の分布を推定し、推定した単語の分布を第1の記憶領
    域に記憶し、 (c)さらに、各カテゴリにおける単語クラスタの分布
    を推定し、推定された単語クラスタの分布を第2の記憶
    領域に記憶しておき、 (d)新たに入力されたドキュメントを受け取った際に
    は、単語クラスタの分布を記憶する前記第2の記憶領域
    から各カテゴリにおける単語クラスタの分布を参照する
    と共に、単語の分布を記憶する前記第1の記憶領域から
    各単語クラスタにおける単語の分布を参照し、 (e)各カテゴリについて、該カテゴリにおける単語ク
    ラスタの分布と各単語クラスタにおける単語の分布の線
    形結合モデルを対応させ、入力されたドキュメントをデ
    ータとみなし、該データに対する、各カテゴリの対応す
    る線形結合モデルの負対数尤度を計算し、 (f)負対数尤度の最も小さい線形結合モデルの対応す
    るカテゴリに入力されたドキュメントを分類する、こと
    を特徴とするドキュメント分類方法。
JP8356219A 1996-12-25 1996-12-25 ドキュメント分類装置及び方法 Expired - Fee Related JP2940501B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP8356219A JP2940501B2 (ja) 1996-12-25 1996-12-25 ドキュメント分類装置及び方法
US08/998,736 US6094653A (en) 1996-12-25 1997-12-29 Document classification method and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8356219A JP2940501B2 (ja) 1996-12-25 1996-12-25 ドキュメント分類装置及び方法

Publications (2)

Publication Number Publication Date
JPH10187754A JPH10187754A (ja) 1998-07-21
JP2940501B2 true JP2940501B2 (ja) 1999-08-25

Family

ID=18447939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8356219A Expired - Fee Related JP2940501B2 (ja) 1996-12-25 1996-12-25 ドキュメント分類装置及び方法

Country Status (2)

Country Link
US (1) US6094653A (ja)
JP (1) JP2940501B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6876990B2 (en) 2000-03-15 2005-04-05 Nec Corporation Questionnaire analysis system

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6640224B1 (en) * 1997-12-15 2003-10-28 International Business Machines Corporation System and method for dynamic index-probe optimizations for high-dimensional similarity search
US7194471B1 (en) * 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document
JP3665480B2 (ja) * 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
US6317707B1 (en) * 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US7356462B2 (en) 2001-07-26 2008-04-08 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6349309B1 (en) * 1999-05-24 2002-02-19 International Business Machines Corporation System and method for detecting clusters of information with application to e-commerce
US7062487B1 (en) * 1999-06-04 2006-06-13 Seiko Epson Corporation Information categorizing method and apparatus, and a program for implementing the method
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
JP3606159B2 (ja) * 2000-04-04 2005-01-05 日本電気株式会社 文章処理装置
US20070027672A1 (en) * 2000-07-31 2007-02-01 Michel Decary Computer method and apparatus for extracting data from web pages
US6778986B1 (en) * 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
US7096179B2 (en) * 2001-08-15 2006-08-22 Siemens Corporate Research, Inc. Text-based automatic content classification and grouping
AUPR958901A0 (en) * 2001-12-18 2002-01-24 Telstra New Wave Pty Ltd Information resource taxonomy
US20040205482A1 (en) * 2002-01-24 2004-10-14 International Business Machines Corporation Method and apparatus for active annotation of multimedia content
JP2003228706A (ja) * 2002-02-05 2003-08-15 Fuji Xerox Co Ltd データ分類装置
JP2003256443A (ja) * 2002-03-05 2003-09-12 Fuji Xerox Co Ltd データ分類装置
WO2003106747A2 (en) * 2002-06-13 2003-12-24 Milliken & Company Multiple-component magnetic mat
JP4233836B2 (ja) * 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US20040261016A1 (en) * 2003-06-20 2004-12-23 Miavia, Inc. System and method for associating structured and manually selected annotations with electronic document contents
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
GB0322600D0 (en) * 2003-09-26 2003-10-29 Univ Ulster Thematic retrieval in heterogeneous data repositories
US7287012B2 (en) * 2004-01-09 2007-10-23 Microsoft Corporation Machine-learned approach to determining document relevance for search over large electronic collections of documents
JP4747591B2 (ja) * 2005-01-31 2011-08-17 日本電気株式会社 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
US7747495B2 (en) * 2005-10-24 2010-06-29 Capsilon Corporation Business method using the automated processing of paper and unstructured electronic documents
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US7949646B1 (en) 2005-12-23 2011-05-24 At&T Intellectual Property Ii, L.P. Method and apparatus for building sales tools by mining data from websites
US7779004B1 (en) 2006-02-22 2010-08-17 Qurio Holdings, Inc. Methods, systems, and products for characterizing target systems
US8005841B1 (en) * 2006-04-28 2011-08-23 Qurio Holdings, Inc. Methods, systems, and products for classifying content segments
US8615573B1 (en) 2006-06-30 2013-12-24 Quiro Holdings, Inc. System and method for networked PVR storage and content capture
US8930331B2 (en) 2007-02-21 2015-01-06 Palantir Technologies Providing unique views of data based on changes or rules
US7840903B1 (en) 2007-02-26 2010-11-23 Qurio Holdings, Inc. Group content representations
US8229942B1 (en) * 2007-04-17 2012-07-24 Google Inc. Identifying negative keywords associated with advertisements
US8086624B1 (en) * 2007-04-17 2011-12-27 Google Inc. Determining proximity to topics of advertisements
US20090116756A1 (en) * 2007-11-06 2009-05-07 Copanion, Inc. Systems and methods for training a document classification system using documents from a plurality of users
US9082080B2 (en) * 2008-03-05 2015-07-14 Kofax, Inc. Systems and methods for organizing data sets
US9348499B2 (en) 2008-09-15 2016-05-24 Palantir Technologies, Inc. Sharing objects that rely on local resources with outside servers
US20100121790A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for categorizing web content
US20100121842A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for presenting categorized search results
JP5350822B2 (ja) * 2009-02-02 2013-11-27 日立公共システムエンジニアリング株式会社 地域協働促進サービスシステムおよびこのシステムによる地域協働促進サービス提供方法
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
US8799240B2 (en) 2011-06-23 2014-08-05 Palantir Technologies, Inc. System and method for investigating large amounts of data
US9092482B2 (en) 2013-03-14 2015-07-28 Palantir Technologies, Inc. Fair scheduling for mixed-query loads
US9547693B1 (en) 2011-06-23 2017-01-17 Palantir Technologies Inc. Periodic database search manager for multiple data sources
US8504542B2 (en) 2011-09-02 2013-08-06 Palantir Technologies, Inc. Multi-row transactions
EP2595065B1 (en) 2011-11-15 2019-08-14 Kairos Future Group AB Categorizing data sets
CN102930063B (zh) * 2012-12-05 2015-06-24 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
US9116975B2 (en) 2013-10-18 2015-08-25 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores
US9535974B1 (en) 2014-06-30 2017-01-03 Palantir Technologies Inc. Systems and methods for identifying key phrase clusters within documents
US9619557B2 (en) 2014-06-30 2017-04-11 Palantir Technologies, Inc. Systems and methods for key phrase characterization of documents
US9229952B1 (en) 2014-11-05 2016-01-05 Palantir Technologies, Inc. History preserving data pipeline system and method
US9348920B1 (en) 2014-12-22 2016-05-24 Palantir Technologies Inc. Concept indexing among database of documents using machine learning techniques
US10552994B2 (en) 2014-12-22 2020-02-04 Palantir Technologies Inc. Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
US10452651B1 (en) 2014-12-23 2019-10-22 Palantir Technologies Inc. Searching charts
US9817563B1 (en) 2014-12-29 2017-11-14 Palantir Technologies Inc. System and method of generating data points from one or more data stores of data items for chart creation and manipulation
CN104504156B (zh) * 2015-01-16 2017-07-11 武汉大学 一种基于压缩感知理论的文本数据流抽样方法
US9672257B2 (en) 2015-06-05 2017-06-06 Palantir Technologies Inc. Time-series data storage and processing database system
US9384203B1 (en) 2015-06-09 2016-07-05 Palantir Technologies Inc. Systems and methods for indexing and aggregating data records
US9996595B2 (en) 2015-08-03 2018-06-12 Palantir Technologies, Inc. Providing full data provenance visualization for versioned datasets
US9454564B1 (en) 2015-09-09 2016-09-27 Palantir Technologies Inc. Data integrity checks
US9576015B1 (en) 2015-09-09 2017-02-21 Palantir Technologies, Inc. Domain-specific language for dataset transformations
WO2017074368A1 (en) * 2015-10-28 2017-05-04 Hewlett-Packard Development Company, L.P. Machine learning classifiers
US9542446B1 (en) 2015-12-17 2017-01-10 Palantir Technologies, Inc. Automatic generation of composite datasets based on hierarchical fields
US10007674B2 (en) 2016-06-13 2018-06-26 Palantir Technologies Inc. Data revision control in large-scale data analytic systems
US9753935B1 (en) 2016-08-02 2017-09-05 Palantir Technologies Inc. Time-series data storage and processing database system
US10133588B1 (en) 2016-10-20 2018-11-20 Palantir Technologies Inc. Transforming instructions for collaborative updates
US10318630B1 (en) 2016-11-21 2019-06-11 Palantir Technologies Inc. Analysis of large bodies of textual data
US10884875B2 (en) 2016-12-15 2021-01-05 Palantir Technologies Inc. Incremental backup of computer data files
US10223099B2 (en) 2016-12-21 2019-03-05 Palantir Technologies Inc. Systems and methods for peer-to-peer build sharing
US10896097B1 (en) 2017-05-25 2021-01-19 Palantir Technologies Inc. Approaches for backup and restoration of integrated databases
GB201708818D0 (en) 2017-06-02 2017-07-19 Palantir Technologies Inc Systems and methods for retrieving and processing data
US10956406B2 (en) 2017-06-12 2021-03-23 Palantir Technologies Inc. Propagated deletion of database records and derived data
US11334552B2 (en) 2017-07-31 2022-05-17 Palantir Technologies Inc. Lightweight redundancy tool for performing transactions
US10417224B2 (en) 2017-08-14 2019-09-17 Palantir Technologies Inc. Time series database processing system
US10216695B1 (en) 2017-09-21 2019-02-26 Palantir Technologies Inc. Database system for time series data storage, processing, and analysis
US10614069B2 (en) 2017-12-01 2020-04-07 Palantir Technologies Inc. Workflow driven database partitioning
US11281726B2 (en) 2017-12-01 2022-03-22 Palantir Technologies Inc. System and methods for faster processor comparisons of visual graph features
US11016986B2 (en) 2017-12-04 2021-05-25 Palantir Technologies Inc. Query-based time-series data display and processing system
RU2701995C2 (ru) * 2018-03-23 2019-10-02 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое определение набора категорий для классификации документа
US10754822B1 (en) 2018-04-18 2020-08-25 Palantir Technologies Inc. Systems and methods for ontology migration
GB201807534D0 (en) 2018-05-09 2018-06-20 Palantir Technologies Inc Systems and methods for indexing and searching
US11017221B2 (en) * 2018-07-01 2021-05-25 International Business Machines Corporation Classifying digital documents in multi-document transactions based on embedded dates
US11003889B2 (en) 2018-10-22 2021-05-11 International Business Machines Corporation Classifying digital documents in multi-document transactions based on signatory role analysis
GB201908091D0 (en) 2019-06-06 2019-07-24 Palantir Technologies Inc Time series databases
US10997405B1 (en) * 2019-11-04 2021-05-04 Change Healthcare Holdings Llc Method, apparatus, and computer program product for performing machine learning on unstructured documents

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US5625767A (en) * 1995-03-13 1997-04-29 Bartell; Brian Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岩山真,徳永健伸,「自動文書分類のための新しい確立モデル」,情報処理学会研究報告Vol.94,No.37(94−FI−33),pp47−52(平成6年5月18日)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6876990B2 (en) 2000-03-15 2005-04-05 Nec Corporation Questionnaire analysis system

Also Published As

Publication number Publication date
US6094653A (en) 2000-07-25
JPH10187754A (ja) 1998-07-21

Similar Documents

Publication Publication Date Title
JP2940501B2 (ja) ドキュメント分類装置及び方法
CN111460153B (zh) 热点话题提取方法、装置、终端设备及存储介质
US7809718B2 (en) Method and apparatus for incorporating metadata in data clustering
US20020016798A1 (en) Text information analysis apparatus and method
CN108228541B (zh) 生成文档摘要的方法和装置
Ji et al. Domain-independent text segmentation using anisotropic diffusion and dynamic programming
Pedersen et al. Knowledge lean word-sense disambiguation
US20120095952A1 (en) Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
US20220019739A1 (en) Item Recall Method and System, Electronic Device and Readable Storage Medium
US5787424A (en) Process and system for recursive document retrieval
JP3682529B2 (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
JP2004164036A (ja) 文書の共通性評価方法
US11314970B1 (en) Reinforcement learning techniques for automated video summarization
US8788701B1 (en) Systems and methods for real-time determination of the semantics of a data stream
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN113032564B (zh) 特征提取方法、装置、电子设备以及存储介质
CN109933691B (zh) 用于内容检索的方法、装置、设备和存储介质
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
US20060288272A1 (en) Computer-implemented method, system, and program product for developing a content annotation lexicon
JP2001101227A (ja) 文書分類装置および文書分類方法
JP2004341948A (ja) 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
CN107491417B (zh) 一种基于特定划分的主题模型下的文档生成方法
JP3178406B2 (ja) 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体
CN106294689B (zh) 一种基于文本类特征选择进行降维的方法和装置
CN113807429A (zh) 企业的分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990518

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080618

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090618

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100618

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees