JP2018180866A

JP2018180866A - 判別方法、判別プログラム及び判別装置

Info

Publication number: JP2018180866A
Application number: JP2017078509A
Authority: JP
Inventors: 和吉川; Kazu Yoshikawa; 友哉岩倉; Tomoya Iwakura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-04-11
Filing date: 2017-04-11
Publication date: 2018-11-15
Anticipated expiration: 2037-04-11
Also published as: JP6816621B2

Abstract

【課題】文書のカテゴリに適した類似度指標を判別する判別方法等を提供する。【解決手段】コンピュータが、文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、ラベルを付与した前記文書対に基づいて、類似度指標を作成し、作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する処理を行う。【選択図】図６

Description

本発明は、クラスタリングのために文書内容を判別する判別方法等に関する。

２つの文書の類似度を求める技術が提案されている（特許文献１等）。類似度は文書に含まれる単語の類似度合いを数値にした類似度指標により判定する。

特開２０００−１５５７６２号公報

しかし、特許文献１等の類似度指標は、文書のカテゴリによって、類似度指標を変えることはできない。そのため、文書のカテゴリによっては、類似度指標の精度が低下するという問題がある。

１つの側面では、文書のカテゴリに適した類似度指標を判別する判別方法等を提供することである。

本願に開示する判定方法は、コンピュータが、文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、ラベルを付与した前記文書対に基づいて、類似度指標を作成し、作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する処理を行う。

本願の一観点によれば、文書のカテゴリに適した類似度指標を判別することが可能となる。

類似度スコア算出装置の構成例を示すブロック図である。実体情報ＤＢのレコードレイアウト例を示す説明図である。データセットＤＢのレコードレイアウト例を示す説明図である。タイプ−カテゴリ対応ＤＢのレコードレイアウト例を示す説明図である。類似度指標ＤＢのレコード例を示す説明図である。類似度指標作成処理の手順を示すフローチャートである。類似度スコア算出処理の手順を示すフローチャートである。クラスタリング処理の手順を示すフローチャートである。類似度指標を用いた文書まとめあげの例を示す説明図である。クラスタリング処理の他の手順を示すフローチャートである。タイプーカテゴリ対応ＤＢの作成方法を示す説明図である。タイプーカテゴリ対応ＤＢの他の作成方法を示す説明図である。類似度スコア算出装置の機能構成の一例を示すブロック図である。

以下実施の形態を、図面を参照して説明する。

実施の形態１
図１は類似度スコア算出装置１の構成例を示すブロック図である。類似度スコア算出装置（判別装置）１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３、大容量記憶部１４、通信部１５、入出力部１６及び読み取り部１７を含む。各構成はバスＢで接続されている。

ＣＰＵ１１はＲＯＭ１２に記憶された制御プログラム（判別プログラム）１Ｐに従い、ハードウェア各部を制御する。ＲＡＭ１３は例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）、ＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）又はフラッシュメモリである。ＲＡＭ１３はＣＰＵ１１によるプログラムの実行時に発生するデータを一時的に記憶する。

大容量記憶部１４は、例えばハードディスク又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などである。大容量記憶部１４は類似度指標の判別処理や類似度スコア算出処理に必要な各種データを記憶する。大容量記憶部１４は文書ＤＢ（ＤａｔａＢａｓｅ）１４１、実体情報ＤＢ１４２、データセットＤＢ１４３、タイプ−カテゴリ対応ＤＢ１４４、類似度指標ＤＢ１４５を記憶する。また、制御プログラム１Ｐを大容量記憶部１４に記憶してもよい。

通信部１５はネットワークを介して、他のコンピュータと通信を行う。入出力部１６はキーボードやマウスからの操作信号が入力される。また、入出力部１６は液晶表示装置などの表示装置へ表示画像を出力する。

読み取り部１７はＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）−ＲＯＭ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）−ＲＯＭを含む可搬型記憶媒体１ａを読み取る。ＣＰＵ１１が読み取り部１７を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、大容量記憶部１４に記憶してもよい。また、ネットワーク等を介して他のコンピュータからＣＰＵ１１が制御プログラム１Ｐをダウンロードし、大容量記憶部１４に記憶してもよい。さらにまた、半導体メモリ１ｂから、ＣＰＵ１１が制御プログラム１Ｐを読み込んでもよい。

次に類似度スコア算出装置１の動作について説明する。類似度スコア算出装置１は２つの動作モードを持つ。２つの動作モードは、類似度指標作成モード、類似度スコア算出モードである。類似度指標作成モードでは、類似度スコア算出装置１はカテゴリ別の類似度指標を取得する。類似度スコア算出装置１は類似度指標を学習により取得する。類似度スコア算出装置１は大規模知識ベースを利用して、学習に用いる学習データを獲得する。大規模知識ベースの一例は、Wikipedia（ウィキペディア）である。

類似度スコア算出モードでは、類似度スコア算出装置１は、類似度指標作成モードで取得したカテゴリ別の類似度指標を用いて、文書対の類似度スコアを算出する。

ここで、以下の説明において用いる用語の定義を示す。ｍｅｎｔｉｏｎは、文書中に現れる特定の実体を指す文字列である。ｅｎｔｉｔｙは実体そのものである。例えば、「今日は作家の鈴木一郎のサイン会だ。」との文章では、鈴木一郎がｍｅｎｔｉｏｎである。同じ文章において、作家の鈴木一郎という人物がｅｎｔｉｔｙである。また、カテゴリとは、主題の分類である。カテゴリは例えば、人物、企業、市町村である。

また、類似度指標の取得においては、上述したように大規模知識ベースを利用する。大規模知識ベースの利用は、次の仮説が成り立つことを前提としている。（１）文書中に現れる実体の一致度の判定基準は、ｅｎｔｉｔｙの属性（カテゴリ）によって異なる。（２）属性（カテゴリ）を、大規模知識ベースのカテゴリ情報に対応付けることができる。（１）及び（２）が成り立つことにより、大規模知識ベースを利用し、カテゴリ別類似度指標を得るための学習データを獲得することが可能となる。

続いて、大容量記憶部１４に記憶するデータベースについて説明する。文書ＤＢ１４１は種々の文書データを記憶する。文書データは例えば、類似度指標作成モードで用いる大規模知識ベースから取得した文書や、類似度スコア算出モードで類似度スコア算出の対象となる文書群である。なお、類似度指標作成モードで用いる文書は、知識ベースのｅｎｔｉｔｙに紐付いていれば（例えば、リンクがあれば）よく、知識ベースから取得したものでなくてもよい。

図２は実体情報ＤＢ１４２のレコードレイアウト例を示す説明図である。実体情報ＤＢ１４２は文書に含まれる実体（人物、企業など）についての情報を記憶する。文書は、例えば文書ＤＢ１４１に記憶しているものである。実体情報ＤＢ１４２が記憶する情報は、類似度指標作成のための学習コーパスの１つである。実体情報ＤＢ１４２は文書列、ｍｅｎｔｉｏｎ列、ｅｎｔｉｔｙ列、及びカテゴリ列を含む。文書列は文書の内容を記憶する。ｍｅｎｔｉｏｎ列は文書に含まれるｍｅｎｔｉｏｎを記憶する。ｅｎｔｉｔｙ列は文書に含まれるｅｎｔｉｔｙを記憶する。カテゴリ列はｅｎｔｉｔｙが大規模知識ベース上で属するカテゴリを記憶する。

図３はデータセットＤＢ１４３のレコードレイアウト例を示す説明図である。データセットＤＢ１４３はカテゴリ毎に文書対が一致するか否かを記憶する。データセットＤＢ１４３が記憶する情報は、類似度指標作成のための学習コーパスの１つである。データセットＤＢ１４３はカテゴリ列、第１文書列、第２文書列及びラベル列を含む。カテゴリ列は文書のカテゴリを記憶する。第１文書列及び第２文書列それぞれは文書の内容を記憶する。ラベル列は第１文書のｅｎｔｉｔｙと第２文書のｅｎｔｉｔｙとが一致しているか否かを記憶する。データセットＤＢ１４３は実体情報ＤＢ１４２の内容を基に作成される。

図４はタイプ−カテゴリ対応ＤＢ１４４のレコードレイアウト例を示す説明図である。タイプ−カテゴリ対応ＤＢ１４４は固有表現タイプ列及び知識ベースカテゴリ列を含む。固有表現タイプ列は固有表現抽出により得られる固有表現タイプを記憶する。知識ベースカテゴリ列は固有表現タイプに対応する大規模知識ベースのカテゴリを記憶する。タイプ−カテゴリ対応ＤＢ１４４は予め人手により作成しておく。それに限らず、機械学習より生成してもよい。

図５は類似度指標ＤＢ１４５のレコード例を示す説明図である。類似度指標ＤＢ１４５はカテゴリ別に類似度指標を算出する際の係数を記憶している。類似度指標の算出式は例えば以下の式（１）である。

類似度指標＝ａ×単語類似度＋ｂ×固有名詞類似度＋ｃ×文書ＵＲＬの類似度
＋ … ＋ｂ＿ｗ×Ｉ（単語ｗが一致）＋ … （１）

図５では人物・類似度指標１４５１、企業・類似度指標１４５２、及びスポーツ・類似度指標１４５３を示している。

次に、類似度スコア算出装置１が行う処理について説明する。図６は類似度指標作成処理の手順を示すフローチャートである。類似度指標作成処理は、類似度指標作成モードにおける動作である。類似度スコア算出装置１のＣＰＵ１１は類似度指標を作成するための文書を取得し、文書ＤＢ１４１に記憶する（ステップＳ１）。取得対象となる文書は大規模知識ベースへのリンクが埋め込まれた文書である。文書は通信部１５を介して他のコンピュータから取得する。文書を記憶した可搬型記憶媒体１ａより読み取り部１７を介して取得してもよい。文書を記憶した半導体メモリ１ｂから取得してもよい。

ＣＰＵ１１は文書ＤＢ１４１に記憶した各文書から実体情報を取得し、実体情報ＤＢ１４２に記憶する（ステップＳ２）。文書ＤＢ１４１に記憶している各文書は上述したように、大規模知識ベースへのリンクが埋め込まれている。ここで、リンクが埋め込まれている部分をｍｅｎｔｉｏｎ、リンク先をｅｎｔｉｔｙとする。また、カテゴリはｅｎｔｉｔｙが大規模知識ベース上で属するカテゴリとする。ＣＰＵ１１は文書、ｍｅｎｔｉｏｎ、ｅｎｔｉｔｙ、及びカテゴリを対応付けて、実体情報ＤＢ１４２に記憶する。

ＣＰＵ１１は処理対象とするカテゴリを１つ選択する（ステップＳ３）。ＣＰＵ１１は選択したカテゴリについての実体情報を実体情報ＤＢ１４２から取得する（ステップＳ４）。ＣＰＵ１１は取得した実体情報よりデータセットを作成し、データセットＤＢ１４３に記憶する（ステップＳ５）。ＣＰＵ１１は取得した実体情報において、ｍｅｎｔｉｏｎが同一である２つの文書からなる文書対を作成する。ＣＰＵ１１取得した文書対それぞれについて、文書対に含まれる文書それぞれのｅｎｔｉｔｙを比較する。ＣＰＵ１１は比較結果に基づいて、文書対に付与するラベルを決定する。ＣＰＵ１１は２つのｅｎｔｉｔｙが一致すると判定した場合には、文書対に対して、一致というラベルを付与する。ＣＰＵ１１は２つのｅｎｔｉｔｙが相違すると判定した場合には、文書対に対して、不一致というラベルを付与する。ＣＰＵ１１はラベルを付与した文書対、すなわち、データセットをデータセットＤＢ１４３に記憶する。

ＣＰＵ１１は作成したデータセットを基づき、類似度指標を作成する（ステップＳ６）。類似度指標は例えば、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｔｏｒＭａｃｈｉｎｅ）やロジスティック回帰を用いた機械学習による類似度スコア学習を行い求める。機械学習による類似度指標の作成は公知の技術であるので、詳細は省略する。

ＣＰＵ１１は作成した類似度指標をカテゴリと対応付けて、類似度指標ＤＢ１４５に記憶する（ステップＳ７）。ＣＰＵ１１は未処理のカテゴリがあるか否かを判定する（ステップＳ８）。ここで未処理とは類似度指標の作成を行っていないということである。ＣＰＵ１１は未処理のカテゴリがあると判定した場合（ステップＳ８でＹＥＳ）、処理をステップＳ３に戻し、未処理のカテゴリについての処理を行う。ＣＰＵ１１は未処理のカテゴリがないと判定した場合（ステップＳ８でＮＯ）、処理を終了する。

続いて、類似度スコア算出モードでの類似度スコア算出装置１の動作について説明する。類似度スコア算出モードの動作では、類似度スコア算出装置１はカテゴリ別の類似度指標を使用する。したがって、類似度スコア算出モードで動作の前には、類似度指標作成モードの動作により、カテゴリ別の類似度指標が作成されているのが前提となる。

類似度スコア算出について説明する前に、固有表現抽出について説明する。固有表現抽出は公知の技術であるので、簡単な説明に留める。固有表現抽出は、文書から、人物・企業となどの固有名詞や数値表現などを抽出する技術である。固有表現抽出に得られる固有表現には複数の種類（ここでは、タイプという）がある。固有表現抽出により、文書に含まれる固有表現の表出箇所とそのタイプを抽出することが可能となる。例えば、「田中太郎は汐留にあるＯＸ製薬の研究員だ。」との文章に対して、固有表現抽出を行う。得られるは結果は「＜人物＞田中太郎＜／人物＞は＜場所＞汐留＜／場所＞にある＜企業＞ＯＸ製薬＜／企業＞の研究員だ。」となる。ここで、下線が引かれた部分、すなわち、タグ＜…＞＜／…＞で囲まれた部分が固有表現であることを示す。タグ中の…がタイプを示す。上記の例では、「田中太郎」がタイプ：人物の固有表現であることを示す。「汐留」がタイプ：場所の固有表現であることを示す。「ＯＸ製薬」がタイプ：企業の固有表現であることを示す。

図７は類似度スコア算出処理の手順を示すフローチャートである。ＣＰＵ１１はキーワード及び文書対を取得する（ステップＳ１１）。キーワードは類似度を判定する基準となる語である。また、キーワードはｍｅｎｔｉｏｎとなる前提である。例えば、田中太郎について書かれた文書対の類似度スコアを算出したい場合は、キーワードは田中太郎となる。文書対は類似度スコアの算出対象となる文書の対である。ＣＰＵ１１は文書対に含まれる文書それぞれについて、固有表現抽出を行う（ステップＳ１２）。文書それぞれについてキーワードに対応するｍｅｎｔｉｏｎの固有表現タイプが得られる。ＣＰＵ１１は文書それぞれのｍｅｎｔｉｏｎの固有表現タイプが一致している否かを判定する（ステップＳ１３）。ＣＰＵ１１は固有表現タイプが一致しないと判定した場合（ステップＳ１３でＮＯ）、文書対は不一致と判定し、予め定めた最低スコアを出力する（ステップＳ１４）。ＣＰＵ１１は処理を終了する。ＣＰＵ１１は文書それぞれから取得した固有表現タイプが一致していると判定した場合（ステップＳ１３でＹＥＳ）、一致した固有表現タイプに対応したカテゴリをタイプ−カテゴリ対応ＤＢ１４４から取得する（ステップＳ１５）。ＣＰＵ１１は取得したカテゴリに対応した類似度指標を類似度指標ＤＢ１４５から取得し、類似度スコアを算出する（ステップＳ１６）。ＣＰＵ１１は算出したスコアを出力する（ステップＳ１７）。

なお、１つの文書中に複数のｍｅｎｔｉｏｎがある場合には、そのうち最初の１つを代表として使用し、スコア算出を行う。又は、各ｍｅｎｔｉｏｎについてスコア算出を行い、算出したすべてのスコアの平均値を最終的なスコアとする。

本実施形態は、次の効果を奏する。類似度を判定する対象（人物、企業、市町村）毎に異なる文書類似度指標を選択して、類似度スコアを算出するので、精度の高い類似度スコアを取得することが可能となる。

続いて、類似度スコアを用いた文書群のクラスタリングについて説明する。以下の説明においては、例として、文書群を人物の実体毎にクラスタリングする場合について説明する。例えば、人物評伝、伝記、回顧録などの人物について書かれた多数の文書を、取り上げられている人物毎に分類する場合である。図８はクラスタリング処理の手順を示すフローチャートである。ＣＰＵ１１はカテゴリ及び文書群を取得する（ステップＳ２１）。カテゴリはここでは人物である。文書群に含まれる各文書に対して固有表現抽出を行う（ステップＳ２２）。ＣＰＵ１１固有表現抽出で抽出した人名毎に文書群を分割し、文書ＤＢ１４１等に記憶する（ステップＳ２３）。ＣＰＵ１１はカテゴリ：人物に対応する類似度指標を類似度指標ＤＢ１４５から取得する（ステップＳ２４）。ＣＰＵ１１は人名毎に分割した文書群から類似度スコアを算出する。（ステップＳ２５）。ＣＰＵ１１は類似度スコアを用いて、文書群のまとめあげを行う（ステップＳ２６）。ＣＰＵ１１は、ステップＳ２５及びＳ２６を人名毎に分割した文書群それぞれに対して行う。ＣＰＵ１１は結果を出力し（ステップＳ２７）、処理を終了する。

図９は類似度指標を用いた文書まとめあげの例を示す説明図である。文書まとめあげを行う際には、「文書−文書」対に対する類似度指標だけでなく、「文書−文書グループ」対、「文書グループ−文書グループ」対に付いても定義を行う。図９Ａは「文書−文書」対に対する処理を示している。文書１及び文書２が含まれている文書について、類似度スコアを算出する。スコアの値が予め定めた閾値よりも大きければ、２つの文書を同じ文書グループとする。スコアの値が閾値以下であれば、２つの文書は違う文書グループとする。

図９Ｂ及び図９Ｃは「文書−文書グループ」対に対する処理を示している。図９Ｂ及び図９Ｃに示す例では、すでに文書グループとして、グループ１とグループ２の２つのグループが作られている場合に、グループ分けがされていない文書（新規文書）が属するグループを決定する処理を示している。図９Ｂは新規文書がグループ１に分けられる例を示している。新規文書とグループ１との類似度スコア、及び新規文書とグループ２との類似度スコアを算出する。算出した結果、前者として３．５を、後者として０．５を得たとする。このとき、新規文書をスコアの高い方のグループ、すなわちグループ１にグループ分けする。図９Ｃは新規文書がいずれグループにも分けられず、新たなグループを作成する場合を示している。算出した類似度スコアのいずれもが所定の閾値以下の時、新規文書は既存のグループに分けず、新たなグループ作成する。図９Ｃに示す例では閾値を０と定義している。そして、新規文書とグループ１との類似度スコアが−１．０、新規文書とグループ２との類似度スコアが−０．５であった。いずれの類似度スコアも０以下であるので、新規文書は新規に作成したグループ３にグループ分けされる。図９の処理により、文書群をまとめあげすることができる。

続いて、クラスタリング処理の他の例について説明する。上述と同じく人物の実体毎にクラスタリングする例である。ここでの例は、目的の人名で文書群に対して全文検索をかけた結果をクラスタリングする処理である。目的とする人物以外に同姓同名の他の人物が存在し、当該他の人物に関する文書も検索結果に含まれている場合に有効な処理である。

図１０はクラスタリング処理の他の手順を示すフローチャートである。ＣＰＵ１１はカテゴリ、キーワード、及び文書群を取得する（ステップＳ３１）。ここではカテゴリは人物である。キーワードは例えば鈴木一郎などの人名である。ＣＰＵ１１は文書群に対して、キーワード検索を行う（ステップＳ３２）。ＣＰＵ１１はキーワード検索にヒットした文書を文書ＤＢ１４１などに記憶する（ステップＳ３３）。ＣＰＵ１１はカテゴリ：人物に対応した類似度指標を類似度指標ＤＢ１４５から取得する（ステップＳ３４）。ＣＰＵ１１はステップＳ３３で記憶した文書群について類似度スコアを算出する（ステップＳ３５）。ＣＰＵ１１は算出したスコアを用いて、文書群のまとめあげを行う（ステップＳ３６）。ＣＰＵ１１はまとめあげた結果を出力し（ステップＳ３７）、処理を終了する。類似度スコアの算出、文書群のまとめあげは上述したものと同様であるので、説明を省略する。

次に、タイプ−カテゴリ対応ＤＢ１４４について、詳細に説明する。類似度スコア算出装置１は文書のカテゴリ毎に類似度指標を使い分けることで、類似度スコアの精度向上を実現する。文書のカテゴリは、固有表現抽出より得た固有表現タイプをタイプ−カテゴリ対応ＤＢ１４４を用いて、カテゴリに変換することにより得ている。そして、カテゴリに対応した類似度指標を選択している。そのため、タイプ−カテゴリ対応ＤＢ１４４の正確性が、類似度スコアの精度に影響を与える。

タイプ−カテゴリ対応ＤＢ１４４の作成方法として、２つの方法について述べる。第１の方法は上述のように固有表現タイプとカテゴリとを１対１対応とする場合である。第２の方法は固有表現タイプとカテゴリとを１対多対応とする場合である。以下の説明においては、地理的な位置情報を例として説明する。固有表現タイプにおいて、地理的な位置情報はＬＯＣＡＴＩＯＮとする。大規模知識ベースのカテゴリにおいて、地理的な位置情報は、日本の市町村、日本の区、日本の地理の３種類があるとする。

図１１はタイプ−カテゴリ対応ＤＢ１４４の作成方法を示す説明図である。図１１は固有表現タイプとカテゴリとを１対１対応とする場合である。類似度指標はカテゴリ毎に指標が作成される。そのため、類似度指標作成処理により、カテゴリ：日本の市町村に対応した類似度指標１４５ａ、カテゴリ：日本の区に対応した類似度指標１４５ｂ、及びカテゴリ：日本の地理に対応した類似度指標１４５ｃが作成される。

３つの類似度指標を作成後、類似度指標の評価を行い、もっとも精度が高いと評価される指標に対応するカテゴリを固有表現ＬＯＣＡＴＩＯＮに対応するものとする。類似度指標作成後、類似度指標作成時に用いた文書とは異なる文書群からデータセットを生成する。データセットは上述と同様である。データセットは、文書対及び文書対のｅｎｔｉｔｙが一致するか否かのラベルを含む。生成したデータセットそれぞれに含まれる文書対の類似度スコアを類似度指標毎に算出する。類似度スコアとラベルの値とを比較することにより、類似度指標の精度を算出することが可能である。精度の算出方法は公知の技術であるので、説明を省略する。図１１の例では、カテゴリ：日本の市町村に対応した類似度指標の精度がもっとも高かったため、固有表現タイプ：ＬＯＣＡＴＩＯＮに対応するカテゴリは日本の市町村である旨のレコードをタイプ−カテゴリ対応ＤＢ１４４に記憶する。

図１２はタイプ−カテゴリ対応ＤＢ１４４の他の作成方法を示す説明図である。図１２は固有表現タイプとカテゴリとを１対多対応とする場合である。３つの類似度指標１４５ａ、１４５ｂ、１４５ｃを作成する点、３つの類似度指標１４５ａ、１４５ｂ、１４５ｃそれぞれの評価を行う点は１対１対応の場合と同様である。

１対多対応の場合は、固有表現タイプ１つにつき、複数のカテゴリの類似度指標によるスコアを、重み付けをして組み合わせる。重み付けは各指標の評価結果により決定する。図１２に示す例では、重み付けは各指標の精度としてある。タイプ−カテゴリ対応ＤＢ１４４は、固有表現タイプがＬＯＣＡＴＩＯＮの場合、日本の市町村に対応した類似度指標１４５ａ、日本の区に対応した類似度指標１４５ｂ、日本の地理に対応した類似度指標１４５ｃを用いることを示している。まず、類似度指標１４５ａ、１４５ｂ、１４５ｃそれぞれを用いてスコアを計算する。それぞれのスコアがＳＣ１、ＳＣ２、ＳＣ３であったとき、最終的なスコアＳは、以下の式（２）で算出される。

Ｓ＝０．８×ＳＣ１＋０．６×ＳＣ２＋０．３×ＳＣ３ … （２）

以上のように、タイプ−カテゴリ対応ＤＢ１４４の作成を、人手ではなく機械学習を用いて行うことにより、類似度スコアの精度の向上が可能となる。

図１３は類似度スコア算出装置１の機能構成の一例を示すブロック図である。類似度スコア算出装置１は取得部１１ａ、グループ生成部１１ｂ、文書対生成部１１ｃ、付与部１１ｄ、作成部１１ｅ、及び出力部１１ｆを含む。これらの各機能部は、ＣＰＵ１１が制御プログラム１Ｐに基づいて動作することにより、実現される。

取得部１１ａは、文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する。グループ生成部１１ｂは、取得した文書を対応付けられたカテゴリ毎に分類した文書グループを生成する。文書対生成部１１ｃは、生成した文書グループ毎に、同一のメンションが対応付けられた文書を含む文書対を生成する。付与部１１ｄは生成した文書対に対して、エンティティが一致するか否かのラベルを付与する。作成部１１ｅは、ラベルを付与した文書対に基づいて、類似度指標を作成する。出力部１１ｆは、作成した類似度指標を文書グループに対応したカテゴリと対応付けて出力する。

各実施の形態で記載されている技術的特徴（構成要件）はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

以上の実施の形態に関し、さらに以下の付記を開示する。

（付記１）
コンピュータが、
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理を行う
判別方法。

（付記２）
前記カテゴリは前記知識ベースにおいて定義され、前記エンティティ毎に付与されるものである
付記１に記載の判別方法。

（付記３）
キーワードと、該キーワードを用いて検索にヒットした複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
前記キーワードに対応するメンションの固有表現タイプを文書毎に比較し、
複数の文書間で一致する場合は、前記固有表現タイプに対応した前記カテゴリを取得し、
取得したカテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて複数文書間の類似度スコアを求め、
求めた類似度スコアを出力する
付記１又は付記２に記載の判別方法。

（付記４）
前記カテゴリと複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
抽出した固有表現に対応する固有表現タイプから１つを選択し、
選択した固有表現タイプの固有表現毎に、前記複数の文書を分割し、
前記カテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて分割して得た文書群毎に類似度スコアを求め、
求めた類似度スコアを出力する
付記１又は付記２に記載の判別方法。

（付記５）
前記類似度スコアにより前記複数の文書又は文書群をクラスタリングし、
クラスタリングした結果を出力する
付記３又は４に記載の判別方法。

（付記６）
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理をコンピュータに実行させる判別プログラム。

（付記７）
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する取得部と、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成するグループ生成部と、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成する文書対生成部と、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与する付与部と、
ラベルを付与した前記文書対に基づいて、類似度指標を作成する作成部（１１ｅ）と、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する出力部と
を備える判別装置。

１類似度スコア算出装置
１１ＣＰＵ
１１ａ取得部
１１ｂグループ生成部
１１ｃ文書対生成部
１１ｄ付与部
１１ｅ作成部
１１ｆ出力部
１２ＲＯＭ
１３ＲＡＭ
１４大容量記憶部
１４１文書ＤＢ
１４２実体情報ＤＢ
１４３データセットＤＢ
１４４カテゴリ対応ＤＢ
１４５類似度指標ＤＢ
１５通信部
１６入出力部
１７読み取り部
１Ｐ制御プログラム
１ａ可搬型記憶媒体
１ｂ半導体メモリ
Ｂバス

Claims

コンピュータが、
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理を行う
判別方法。
前記カテゴリは前記知識ベースにおいて定義され、前記エンティティ毎に付与されるものである
請求項１に記載の判別方法。
キーワードと、該キーワードを用いて検索にヒットした複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
前記キーワードに対応するメンションの固有表現タイプを文書毎に比較し、
複数の文書間で一致する場合は、前記固有表現タイプに対応した前記カテゴリを取得し、
取得したカテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて複数文書間の類似度スコアを求め、
求めた類似度スコアを出力する
請求項１又は請求項２に記載の判別方法。
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理をコンピュータに実行させる判別プログラム。
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する取得部と、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成するグループ生成部と、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成する文書対生成部と、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与する付与部と、
ラベルを付与した前記文書対に基づいて、類似度指標を作成する作成部と、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する出力部と
を備える判別装置。