[go: up one dir, main page]

JP2018180866A - 判別方法、判別プログラム及び判別装置 - Google Patents

判別方法、判別プログラム及び判別装置 Download PDF

Info

Publication number
JP2018180866A
JP2018180866A JP2017078509A JP2017078509A JP2018180866A JP 2018180866 A JP2018180866 A JP 2018180866A JP 2017078509 A JP2017078509 A JP 2017078509A JP 2017078509 A JP2017078509 A JP 2017078509A JP 2018180866 A JP2018180866 A JP 2018180866A
Authority
JP
Japan
Prior art keywords
document
category
similarity index
similarity
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017078509A
Other languages
English (en)
Other versions
JP6816621B2 (ja
Inventor
和 吉川
Kazu Yoshikawa
和 吉川
友哉 岩倉
Tomoya Iwakura
友哉 岩倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017078509A priority Critical patent/JP6816621B2/ja
Publication of JP2018180866A publication Critical patent/JP2018180866A/ja
Application granted granted Critical
Publication of JP6816621B2 publication Critical patent/JP6816621B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書のカテゴリに適した類似度指標を判別する判別方法等を提供する。【解決手段】コンピュータが、文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、ラベルを付与した前記文書対に基づいて、類似度指標を作成し、作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する処理を行う。【選択図】図6

Description

本発明は、クラスタリングのために文書内容を判別する判別方法等に関する。
2つの文書の類似度を求める技術が提案されている(特許文献1等)。類似度は文書に含まれる単語の類似度合いを数値にした類似度指標により判定する。
特開2000−155762号公報
しかし、特許文献1等の類似度指標は、文書のカテゴリによって、類似度指標を変えることはできない。そのため、文書のカテゴリによっては、類似度指標の精度が低下するという問題がある。
1つの側面では、文書のカテゴリに適した類似度指標を判別する判別方法等を提供することである。
本願に開示する判定方法は、コンピュータが、文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、ラベルを付与した前記文書対に基づいて、類似度指標を作成し、作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する処理を行う。
本願の一観点によれば、文書のカテゴリに適した類似度指標を判別することが可能となる。
類似度スコア算出装置の構成例を示すブロック図である。 実体情報DBのレコードレイアウト例を示す説明図である。 データセットDBのレコードレイアウト例を示す説明図である。 タイプ−カテゴリ対応DBのレコードレイアウト例を示す説明図である。 類似度指標DBのレコード例を示す説明図である。 類似度指標作成処理の手順を示すフローチャートである。 類似度スコア算出処理の手順を示すフローチャートである。 クラスタリング処理の手順を示すフローチャートである。 類似度指標を用いた文書まとめあげの例を示す説明図である。 クラスタリング処理の他の手順を示すフローチャートである。 タイプーカテゴリ対応DBの作成方法を示す説明図である。 タイプーカテゴリ対応DBの他の作成方法を示す説明図である。 類似度スコア算出装置の機能構成の一例を示すブロック図である。
以下実施の形態を、図面を参照して説明する。
実施の形態1
図1は類似度スコア算出装置1の構成例を示すブロック図である。類似度スコア算出装置(判別装置)1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、大容量記憶部14、通信部15、入出力部16及び読み取り部17を含む。各構成はバスBで接続されている。
CPU11はROM12に記憶された制御プログラム(判別プログラム)1Pに従い、ハードウェア各部を制御する。RAM13は例えばSRAM(Static RAM)、DRAM(Dynamic RAM)又はフラッシュメモリである。RAM13はCPU11によるプログラムの実行時に発生するデータを一時的に記憶する。
大容量記憶部14は、例えばハードディスク又はSSD(Solid State Drive)などである。大容量記憶部14は類似度指標の判別処理や類似度スコア算出処理に必要な各種データを記憶する。大容量記憶部14は文書DB(Data Base)141、実体情報DB142、データセットDB143、タイプ−カテゴリ対応DB144、類似度指標DB145を記憶する。また、制御プログラム1Pを大容量記憶部14に記憶してもよい。
通信部15はネットワークを介して、他のコンピュータと通信を行う。入出力部16はキーボードやマウスからの操作信号が入力される。また、入出力部16は液晶表示装置などの表示装置へ表示画像を出力する。
読み取り部17はCD(Compact Disc)−ROM及びDVD(Digital Versatile Disc)−ROMを含む可搬型記憶媒体1aを読み取る。CPU11が読み取り部17を介して、制御プログラム1Pを可搬型記憶媒体1aより読み取り、大容量記憶部14に記憶してもよい。また、ネットワーク等を介して他のコンピュータからCPU11が制御プログラム1Pをダウンロードし、大容量記憶部14に記憶してもよい。さらにまた、半導体メモリ1bから、CPU11が制御プログラム1Pを読み込んでもよい。
次に類似度スコア算出装置1の動作について説明する。類似度スコア算出装置1は2つの動作モードを持つ。2つの動作モードは、類似度指標作成モード、類似度スコア算出モードである。類似度指標作成モードでは、類似度スコア算出装置1はカテゴリ別の類似度指標を取得する。類似度スコア算出装置1は類似度指標を学習により取得する。類似度スコア算出装置1は大規模知識ベースを利用して、学習に用いる学習データを獲得する。大規模知識ベースの一例は、Wikipedia(ウィキペディア)である。
類似度スコア算出モードでは、類似度スコア算出装置1は、類似度指標作成モードで取得したカテゴリ別の類似度指標を用いて、文書対の類似度スコアを算出する。
ここで、以下の説明において用いる用語の定義を示す。mentionは、文書中に現れる特定の実体を指す文字列である。entityは実体そのものである。例えば、「今日は作家の鈴木一郎のサイン会だ。」との文章では、鈴木一郎がmentionである。同じ文章において、作家の鈴木一郎という人物がentityである。また、カテゴリとは、主題の分類である。カテゴリは例えば、人物、企業、市町村である。
また、類似度指標の取得においては、上述したように大規模知識ベースを利用する。大規模知識ベースの利用は、次の仮説が成り立つことを前提としている。(1)文書中に現れる実体の一致度の判定基準は、entityの属性(カテゴリ)によって異なる。(2)属性(カテゴリ)を、大規模知識ベースのカテゴリ情報に対応付けることができる。(1)及び(2)が成り立つことにより、大規模知識ベースを利用し、カテゴリ別類似度指標を得るための学習データを獲得することが可能となる。
続いて、大容量記憶部14に記憶するデータベースについて説明する。文書DB141は種々の文書データを記憶する。文書データは例えば、類似度指標作成モードで用いる大規模知識ベースから取得した文書や、類似度スコア算出モードで類似度スコア算出の対象となる文書群である。なお、類似度指標作成モードで用いる文書は、知識ベースのentityに紐付いていれば(例えば、リンクがあれば)よく、知識ベースから取得したものでなくてもよい。
図2は実体情報DB142のレコードレイアウト例を示す説明図である。実体情報DB142は文書に含まれる実体(人物、企業など)についての情報を記憶する。文書は、例えば文書DB141に記憶しているものである。実体情報DB142が記憶する情報は、類似度指標作成のための学習コーパスの1つである。実体情報DB142は文書列、mention列、entity列、及びカテゴリ列を含む。文書列は文書の内容を記憶する。mention列は文書に含まれるmentionを記憶する。entity列は文書に含まれるentityを記憶する。カテゴリ列はentityが大規模知識ベース上で属するカテゴリを記憶する。
図3はデータセットDB143のレコードレイアウト例を示す説明図である。データセットDB143はカテゴリ毎に文書対が一致するか否かを記憶する。データセットDB143が記憶する情報は、類似度指標作成のための学習コーパスの1つである。データセットDB143はカテゴリ列、第1文書列、第2文書列及びラベル列を含む。カテゴリ列は文書のカテゴリを記憶する。第1文書列及び第2文書列それぞれは文書の内容を記憶する。ラベル列は第1文書のentityと第2文書のentityとが一致しているか否かを記憶する。データセットDB143は実体情報DB142の内容を基に作成される。
図4はタイプ−カテゴリ対応DB144のレコードレイアウト例を示す説明図である。タイプ−カテゴリ対応DB144は固有表現タイプ列及び知識ベースカテゴリ列を含む。固有表現タイプ列は固有表現抽出により得られる固有表現タイプを記憶する。知識ベースカテゴリ列は固有表現タイプに対応する大規模知識ベースのカテゴリを記憶する。タイプ−カテゴリ対応DB144は予め人手により作成しておく。それに限らず、機械学習より生成してもよい。
図5は類似度指標DB145のレコード例を示す説明図である。類似度指標DB145はカテゴリ別に類似度指標を算出する際の係数を記憶している。類似度指標の算出式は例えば以下の式(1)である。
類似度指標 = a×単語類似度+b×固有名詞類似度+c×文書URLの類似度
+ … +b_w×I(単語wが一致) + … (1)
図5では人物・類似度指標1451、企業・類似度指標1452、及びスポーツ・類似度指標1453を示している。
次に、類似度スコア算出装置1が行う処理について説明する。図6は類似度指標作成処理の手順を示すフローチャートである。類似度指標作成処理は、類似度指標作成モードにおける動作である。類似度スコア算出装置1のCPU11は類似度指標を作成するための文書を取得し、文書DB141に記憶する(ステップS1)。取得対象となる文書は大規模知識ベースへのリンクが埋め込まれた文書である。文書は通信部15を介して他のコンピュータから取得する。文書を記憶した可搬型記憶媒体1aより読み取り部17を介して取得してもよい。文書を記憶した半導体メモリ1bから取得してもよい。
CPU11は文書DB141に記憶した各文書から実体情報を取得し、実体情報DB142に記憶する(ステップS2)。文書DB141に記憶している各文書は上述したように、大規模知識ベースへのリンクが埋め込まれている。ここで、リンクが埋め込まれている部分をmention、リンク先をentityとする。また、カテゴリはentityが大規模知識ベース上で属するカテゴリとする。CPU11は文書、mention、entity、及びカテゴリを対応付けて、実体情報DB142に記憶する。
CPU11は処理対象とするカテゴリを1つ選択する(ステップS3)。CPU11は選択したカテゴリについての実体情報を実体情報DB142から取得する(ステップS4)。CPU11は取得した実体情報よりデータセットを作成し、データセットDB143に記憶する(ステップS5)。CPU11は取得した実体情報において、mentionが同一である2つの文書からなる文書対を作成する。CPU11取得した文書対それぞれについて、文書対に含まれる文書それぞれのentityを比較する。CPU11は比較結果に基づいて、文書対に付与するラベルを決定する。CPU11は2つのentityが一致すると判定した場合には、文書対に対して、一致というラベルを付与する。CPU11は2つのentityが相違すると判定した場合には、文書対に対して、不一致というラベルを付与する。CPU11はラベルを付与した文書対、すなわち、データセットをデータセットDB143に記憶する。
CPU11は作成したデータセットを基づき、類似度指標を作成する(ステップS6)。類似度指標は例えば、SVM(Support Vetor Machine)やロジスティック回帰を用いた機械学習による類似度スコア学習を行い求める。機械学習による類似度指標の作成は公知の技術であるので、詳細は省略する。
CPU11は作成した類似度指標をカテゴリと対応付けて、類似度指標DB145に記憶する(ステップS7)。CPU11は未処理のカテゴリがあるか否かを判定する(ステップS8)。ここで未処理とは類似度指標の作成を行っていないということである。CPU11は未処理のカテゴリがあると判定した場合(ステップS8でYES)、処理をステップS3に戻し、未処理のカテゴリについての処理を行う。CPU11は未処理のカテゴリがないと判定した場合(ステップS8でNO)、処理を終了する。
続いて、類似度スコア算出モードでの類似度スコア算出装置1の動作について説明する。類似度スコア算出モードの動作では、類似度スコア算出装置1はカテゴリ別の類似度指標を使用する。したがって、類似度スコア算出モードで動作の前には、類似度指標作成モードの動作により、カテゴリ別の類似度指標が作成されているのが前提となる。
類似度スコア算出について説明する前に、固有表現抽出について説明する。固有表現抽出は公知の技術であるので、簡単な説明に留める。固有表現抽出は、文書から、人物・企業となどの固有名詞や数値表現などを抽出する技術である。固有表現抽出に得られる固有表現には複数の種類(ここでは、タイプという)がある。固有表現抽出により、文書に含まれる固有表現の表出箇所とそのタイプを抽出することが可能となる。例えば、「田中太郎は汐留にあるOX製薬の研究員だ。」との文章に対して、固有表現抽出を行う。得られるは結果は「<人物>田中太郎</人物>は<場所>汐留</場所>にある<企業>OX製薬</企業>の研究員だ。」となる。ここで、下線が引かれた部分、すなわち、タグ<…></…>で囲まれた部分が固有表現であることを示す。タグ中の…がタイプを示す。上記の例では、「田中太郎」がタイプ:人物の固有表現であることを示す。「汐留」がタイプ:場所の固有表現であることを示す。「OX製薬」がタイプ:企業の固有表現であることを示す。
図7は類似度スコア算出処理の手順を示すフローチャートである。CPU11はキーワード及び文書対を取得する(ステップS11)。キーワードは類似度を判定する基準となる語である。また、キーワードはmentionとなる前提である。例えば、田中太郎について書かれた文書対の類似度スコアを算出したい場合は、キーワードは田中太郎となる。文書対は類似度スコアの算出対象となる文書の対である。CPU11は文書対に含まれる文書それぞれについて、固有表現抽出を行う(ステップS12)。文書それぞれについてキーワードに対応するmentionの固有表現タイプが得られる。CPU11は文書それぞれのmentionの固有表現タイプが一致している否かを判定する(ステップS13)。CPU11は固有表現タイプが一致しないと判定した場合(ステップS13でNO)、文書対は不一致と判定し、予め定めた最低スコアを出力する(ステップS14)。CPU11は処理を終了する。CPU11は文書それぞれから取得した固有表現タイプが一致していると判定した場合(ステップS13でYES)、一致した固有表現タイプに対応したカテゴリをタイプ−カテゴリ対応DB144から取得する(ステップS15)。CPU11は取得したカテゴリに対応した類似度指標を類似度指標DB145から取得し、類似度スコアを算出する(ステップS16)。CPU11は算出したスコアを出力する(ステップS17)。
なお、1つの文書中に複数のmentionがある場合には、そのうち最初の1つを代表として使用し、スコア算出を行う。又は、各mentionについてスコア算出を行い、算出したすべてのスコアの平均値を最終的なスコアとする。
本実施形態は、次の効果を奏する。類似度を判定する対象(人物、企業、市町村)毎に異なる文書類似度指標を選択して、類似度スコアを算出するので、精度の高い類似度スコアを取得することが可能となる。
続いて、類似度スコアを用いた文書群のクラスタリングについて説明する。以下の説明においては、例として、文書群を人物の実体毎にクラスタリングする場合について説明する。例えば、人物評伝、伝記、回顧録などの人物について書かれた多数の文書を、取り上げられている人物毎に分類する場合である。図8はクラスタリング処理の手順を示すフローチャートである。CPU11はカテゴリ及び文書群を取得する(ステップS21)。カテゴリはここでは人物である。文書群に含まれる各文書に対して固有表現抽出を行う(ステップS22)。CPU11固有表現抽出で抽出した人名毎に文書群を分割し、文書DB141等に記憶する(ステップS23)。CPU11はカテゴリ:人物に対応する類似度指標を類似度指標DB145から取得する(ステップS24)。CPU11は人名毎に分割した文書群から類似度スコアを算出する。(ステップS25)。CPU11は類似度スコアを用いて、文書群のまとめあげを行う(ステップS26)。CPU11は、ステップS25及びS26を人名毎に分割した文書群それぞれに対して行う。CPU11は結果を出力し(ステップS27)、処理を終了する。
図9は類似度指標を用いた文書まとめあげの例を示す説明図である。文書まとめあげを行う際には、「文書−文書」対に対する類似度指標だけでなく、「文書−文書グループ」対、「文書グループ−文書グループ」対に付いても定義を行う。図9Aは「文書−文書」対に対する処理を示している。文書1及び文書2が含まれている文書について、類似度スコアを算出する。スコアの値が予め定めた閾値よりも大きければ、2つの文書を同じ文書グループとする。スコアの値が閾値以下であれば、2つの文書は違う文書グループとする。
図9B及び図9Cは「文書−文書グループ」対に対する処理を示している。図9B及び図9Cに示す例では、すでに文書グループとして、グループ1とグループ2の2つのグループが作られている場合に、グループ分けがされていない文書(新規文書)が属するグループを決定する処理を示している。図9Bは新規文書がグループ1に分けられる例を示している。新規文書とグループ1との類似度スコア、及び新規文書とグループ2との類似度スコアを算出する。算出した結果、前者として3.5を、後者として0.5を得たとする。このとき、新規文書をスコアの高い方のグループ、すなわちグループ1にグループ分けする。図9Cは新規文書がいずれグループにも分けられず、新たなグループを作成する場合を示している。算出した類似度スコアのいずれもが所定の閾値以下の時、新規文書は既存のグループに分けず、新たなグループ作成する。図9Cに示す例では閾値を0と定義している。そして、新規文書とグループ1との類似度スコアが−1.0、新規文書とグループ2との類似度スコアが−0.5であった。いずれの類似度スコアも0以下であるので、新規文書は新規に作成したグループ3にグループ分けされる。図9の処理により、文書群をまとめあげすることができる。
続いて、クラスタリング処理の他の例について説明する。上述と同じく人物の実体毎にクラスタリングする例である。ここでの例は、目的の人名で文書群に対して全文検索をかけた結果をクラスタリングする処理である。目的とする人物以外に同姓同名の他の人物が存在し、当該他の人物に関する文書も検索結果に含まれている場合に有効な処理である。
図10はクラスタリング処理の他の手順を示すフローチャートである。CPU11はカテゴリ、キーワード、及び文書群を取得する(ステップS31)。ここではカテゴリは人物である。キーワードは例えば鈴木一郎などの人名である。CPU11は文書群に対して、キーワード検索を行う(ステップS32)。CPU11はキーワード検索にヒットした文書を文書DB141などに記憶する(ステップS33)。CPU11はカテゴリ:人物に対応した類似度指標を類似度指標DB145から取得する(ステップS34)。CPU11はステップS33で記憶した文書群について類似度スコアを算出する(ステップS35)。CPU11は算出したスコアを用いて、文書群のまとめあげを行う(ステップS36)。CPU11はまとめあげた結果を出力し(ステップS37)、処理を終了する。類似度スコアの算出、文書群のまとめあげは上述したものと同様であるので、説明を省略する。
次に、タイプ−カテゴリ対応DB144について、詳細に説明する。類似度スコア算出装置1は文書のカテゴリ毎に類似度指標を使い分けることで、類似度スコアの精度向上を実現する。文書のカテゴリは、固有表現抽出より得た固有表現タイプをタイプ−カテゴリ対応DB144を用いて、カテゴリに変換することにより得ている。そして、カテゴリに対応した類似度指標を選択している。そのため、タイプ−カテゴリ対応DB144の正確性が、類似度スコアの精度に影響を与える。
タイプ−カテゴリ対応DB144の作成方法として、2つの方法について述べる。第1の方法は上述のように固有表現タイプとカテゴリとを1対1対応とする場合である。第2の方法は固有表現タイプとカテゴリとを1対多対応とする場合である。以下の説明においては、地理的な位置情報を例として説明する。固有表現タイプにおいて、地理的な位置情報はLOCATIONとする。大規模知識ベースのカテゴリにおいて、地理的な位置情報は、日本の市町村、日本の区、日本の地理の3種類があるとする。
図11はタイプ−カテゴリ対応DB144の作成方法を示す説明図である。図11は固有表現タイプとカテゴリとを1対1対応とする場合である。類似度指標はカテゴリ毎に指標が作成される。そのため、類似度指標作成処理により、カテゴリ:日本の市町村に対応した類似度指標145a、カテゴリ:日本の区に対応した類似度指標145b、及びカテゴリ:日本の地理に対応した類似度指標145cが作成される。
3つの類似度指標を作成後、類似度指標の評価を行い、もっとも精度が高いと評価される指標に対応するカテゴリを固有表現LOCATIONに対応するものとする。類似度指標作成後、類似度指標作成時に用いた文書とは異なる文書群からデータセットを生成する。データセットは上述と同様である。データセットは、文書対及び文書対のentityが一致するか否かのラベルを含む。生成したデータセットそれぞれに含まれる文書対の類似度スコアを類似度指標毎に算出する。類似度スコアとラベルの値とを比較することにより、類似度指標の精度を算出することが可能である。精度の算出方法は公知の技術であるので、説明を省略する。図11の例では、カテゴリ:日本の市町村に対応した類似度指標の精度がもっとも高かったため、固有表現タイプ:LOCATIONに対応するカテゴリは日本の市町村である旨のレコードをタイプ−カテゴリ対応DB144に記憶する。
図12はタイプ−カテゴリ対応DB144の他の作成方法を示す説明図である。図12は固有表現タイプとカテゴリとを1対多対応とする場合である。3つの類似度指標145a、145b、145cを作成する点、3つの類似度指標145a、145b、145cそれぞれの評価を行う点は1対1対応の場合と同様である。
1対多対応の場合は、固有表現タイプ1つにつき、複数のカテゴリの類似度指標によるスコアを、重み付けをして組み合わせる。重み付けは各指標の評価結果により決定する。図12に示す例では、重み付けは各指標の精度としてある。タイプ−カテゴリ対応DB144は、固有表現タイプがLOCATIONの場合、日本の市町村に対応した類似度指標145a、日本の区に対応した類似度指標145b、日本の地理に対応した類似度指標145cを用いることを示している。まず、類似度指標145a、145b、145cそれぞれを用いてスコアを計算する。それぞれのスコアがSC1、SC2、SC3であったとき、最終的なスコアSは、以下の式(2)で算出される。
S=0.8×SC1+0.6×SC2+0.3×SC3 … (2)
以上のように、タイプ−カテゴリ対応DB144の作成を、人手ではなく機械学習を用いて行うことにより、類似度スコアの精度の向上が可能となる。
図13は類似度スコア算出装置1の機能構成の一例を示すブロック図である。類似度スコア算出装置1は取得部11a、グループ生成部11b、文書対生成部11c、付与部11d、作成部11e、及び出力部11fを含む。これらの各機能部は、CPU11が制御プログラム1Pに基づいて動作することにより、実現される。
取得部11aは、文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する。グループ生成部11bは、取得した文書を対応付けられたカテゴリ毎に分類した文書グループを生成する。文書対生成部11cは、生成した文書グループ毎に、同一のメンションが対応付けられた文書を含む文書対を生成する。付与部11dは生成した文書対に対して、エンティティが一致するか否かのラベルを付与する。作成部11eは、ラベルを付与した文書対に基づいて、類似度指標を作成する。出力部11fは、作成した類似度指標を文書グループに対応したカテゴリと対応付けて出力する。
各実施の形態で記載されている技術的特徴(構成要件)はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
以上の実施の形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータが、
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理を行う
判別方法。
(付記2)
前記カテゴリは前記知識ベースにおいて定義され、前記エンティティ毎に付与されるものである
付記1に記載の判別方法。
(付記3)
キーワードと、該キーワードを用いて検索にヒットした複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
前記キーワードに対応するメンションの固有表現タイプを文書毎に比較し、
複数の文書間で一致する場合は、前記固有表現タイプに対応した前記カテゴリを取得し、
取得したカテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて複数文書間の類似度スコアを求め、
求めた類似度スコアを出力する
付記1又は付記2に記載の判別方法。
(付記4)
前記カテゴリと複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
抽出した固有表現に対応する固有表現タイプから1つを選択し、
選択した固有表現タイプの固有表現毎に、前記複数の文書を分割し、
前記カテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて分割して得た文書群毎に類似度スコアを求め、
求めた類似度スコアを出力する
付記1又は付記2に記載の判別方法。
(付記5)
前記類似度スコアにより前記複数の文書又は文書群をクラスタリングし、
クラスタリングした結果を出力する
付記3又は4に記載の判別方法。
(付記6)
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理をコンピュータに実行させる判別プログラム。
(付記7)
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する取得部と、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成するグループ生成部と、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成する文書対生成部と、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与する付与部と、
ラベルを付与した前記文書対に基づいて、類似度指標を作成する作成部(11e)と、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する出力部と
を備える判別装置。
1 類似度スコア算出装置
11 CPU
11a 取得部
11b グループ生成部
11c 文書対生成部
11d 付与部
11e 作成部
11f 出力部
12 ROM
13 RAM
14 大容量記憶部
141 文書DB
142 実体情報DB
143 データセットDB
144 カテゴリ対応DB
145 類似度指標DB
15 通信部
16 入出力部
17 読み取り部
1P 制御プログラム
1a 可搬型記憶媒体
1b 半導体メモリ
B バス

Claims (5)

  1. コンピュータが、
    文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
    取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
    生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
    生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
    ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
    作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
    処理を行う
    判別方法。
  2. 前記カテゴリは前記知識ベースにおいて定義され、前記エンティティ毎に付与されるものである
    請求項1に記載の判別方法。
  3. キーワードと、該キーワードを用いて検索にヒットした複数の文書を受け付け、
    受け付けた複数の文書より固有表現抽出を行い、
    前記キーワードに対応するメンションの固有表現タイプを文書毎に比較し、
    複数の文書間で一致する場合は、前記固有表現タイプに対応した前記カテゴリを取得し、
    取得したカテゴリに対応付けられた類似度指標を取得し、
    取得した類似度指標を用いて複数文書間の類似度スコアを求め、
    求めた類似度スコアを出力する
    請求項1又は請求項2に記載の判別方法。
  4. 文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
    取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
    生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
    生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
    ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
    作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
    処理をコンピュータに実行させる判別プログラム。
  5. 文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する取得部と、
    取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成するグループ生成部と、
    生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成する文書対生成部と、
    生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与する付与部と、
    ラベルを付与した前記文書対に基づいて、類似度指標を作成する作成部と、
    作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する出力部と
    を備える判別装置。
JP2017078509A 2017-04-11 2017-04-11 判別方法、判別プログラム及び判別装置 Active JP6816621B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017078509A JP6816621B2 (ja) 2017-04-11 2017-04-11 判別方法、判別プログラム及び判別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017078509A JP6816621B2 (ja) 2017-04-11 2017-04-11 判別方法、判別プログラム及び判別装置

Publications (2)

Publication Number Publication Date
JP2018180866A true JP2018180866A (ja) 2018-11-15
JP6816621B2 JP6816621B2 (ja) 2021-01-20

Family

ID=64275534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017078509A Active JP6816621B2 (ja) 2017-04-11 2017-04-11 判別方法、判別プログラム及び判別装置

Country Status (1)

Country Link
JP (1) JP6816621B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210040319A (ko) * 2020-04-23 2021-04-13 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999014690A1 (fr) * 1997-09-17 1999-03-25 Hitachi, Ltd. Procede d'addition d'un mot cle au moyen d'informations de liaison
WO2004084096A1 (ja) * 2003-03-19 2004-09-30 Fujitsu Limited 事例分類装置および方法
JP2007164583A (ja) * 2005-12-15 2007-06-28 Oki Electric Ind Co Ltd 判定装置,判定方法および判定プログラム
JP2009098952A (ja) * 2007-10-17 2009-05-07 Mitsubishi Electric Corp 情報検索システム
US20130097104A1 (en) * 2011-10-18 2013-04-18 Ming Chuan University Method and system for document classification
JP2015201185A (ja) * 2014-04-04 2015-11-12 富士通株式会社 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999014690A1 (fr) * 1997-09-17 1999-03-25 Hitachi, Ltd. Procede d'addition d'un mot cle au moyen d'informations de liaison
WO2004084096A1 (ja) * 2003-03-19 2004-09-30 Fujitsu Limited 事例分類装置および方法
JP2007164583A (ja) * 2005-12-15 2007-06-28 Oki Electric Ind Co Ltd 判定装置,判定方法および判定プログラム
JP2009098952A (ja) * 2007-10-17 2009-05-07 Mitsubishi Electric Corp 情報検索システム
US20130097104A1 (en) * 2011-10-18 2013-04-18 Ming Chuan University Method and system for document classification
JP2015201185A (ja) * 2014-04-04 2015-11-12 富士通株式会社 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210040319A (ko) * 2020-04-23 2021-04-13 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
JP2021168124A (ja) * 2020-04-23 2021-10-21 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
KR102504699B1 (ko) * 2020-04-23 2023-02-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
US11704492B2 (en) 2020-04-23 2023-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device, and storage medium for entity linking by determining a linking probability based on splicing of embedding vectors of a target and a reference text
JP7398402B2 (ja) 2020-04-23 2023-12-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Also Published As

Publication number Publication date
JP6816621B2 (ja) 2021-01-20

Similar Documents

Publication Publication Date Title
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
US20120290561A1 (en) Information processing apparatus, information processing method, program, and information processing system
CN104169948A (zh) 用于文本语义处理的方法、装置及产品
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
JP2012230713A (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
JP6846666B2 (ja) 翻訳文生成方法、翻訳文生成装置及び翻訳文生成プログラム
Köksal et al. Improving automated Turkish text classification with learning‐based algorithms
CN111797245A (zh) 基于知识图谱模型的信息匹配方法及相关装置
CN120234386A (zh) 一种面向检索增强生成系统的检索联合优化方法
Pilz et al. The identification of spelling variants in English and German historical texts: Manual or automatic?
TWI852325B (zh) 資訊處理裝置及資訊處理方法
CN1979467A (zh) 用于翻译的装置及方法
JP6816621B2 (ja) 判別方法、判別プログラム及び判別装置
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
CN119537672A (zh) 一种检索处理方法及相关设备
CN118568508A (zh) 文本匹配方法和文本匹配装置
KR20240154740A (ko) 빅데이터 기반 k-콘텐츠 평가 서비스 제공 시스템
JP2018055224A (ja) データ生成装置、方法、及びプログラム
JP7351502B2 (ja) 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
JP2732661B2 (ja) テキスト型データベース装置
JP7646091B2 (ja) 情報処理装置、検索方法、及び検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201207

R150 Certificate of patent or registration of utility model

Ref document number: 6816621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150