JP2018180866A - 判別方法、判別プログラム及び判別装置 - Google Patents
判別方法、判別プログラム及び判別装置 Download PDFInfo
- Publication number
- JP2018180866A JP2018180866A JP2017078509A JP2017078509A JP2018180866A JP 2018180866 A JP2018180866 A JP 2018180866A JP 2017078509 A JP2017078509 A JP 2017078509A JP 2017078509 A JP2017078509 A JP 2017078509A JP 2018180866 A JP2018180866 A JP 2018180866A
- Authority
- JP
- Japan
- Prior art keywords
- document
- category
- similarity index
- similarity
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は類似度スコア算出装置1の構成例を示すブロック図である。類似度スコア算出装置(判別装置)1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、大容量記憶部14、通信部15、入出力部16及び読み取り部17を含む。各構成はバスBで接続されている。
+ … +b_w×I(単語wが一致) + … (1)
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
コンピュータが、
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理を行う
判別方法。
前記カテゴリは前記知識ベースにおいて定義され、前記エンティティ毎に付与されるものである
付記1に記載の判別方法。
キーワードと、該キーワードを用いて検索にヒットした複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
前記キーワードに対応するメンションの固有表現タイプを文書毎に比較し、
複数の文書間で一致する場合は、前記固有表現タイプに対応した前記カテゴリを取得し、
取得したカテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて複数文書間の類似度スコアを求め、
求めた類似度スコアを出力する
付記1又は付記2に記載の判別方法。
前記カテゴリと複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
抽出した固有表現に対応する固有表現タイプから1つを選択し、
選択した固有表現タイプの固有表現毎に、前記複数の文書を分割し、
前記カテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて分割して得た文書群毎に類似度スコアを求め、
求めた類似度スコアを出力する
付記1又は付記2に記載の判別方法。
前記類似度スコアにより前記複数の文書又は文書群をクラスタリングし、
クラスタリングした結果を出力する
付記3又は4に記載の判別方法。
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理をコンピュータに実行させる判別プログラム。
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する取得部と、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成するグループ生成部と、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成する文書対生成部と、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与する付与部と、
ラベルを付与した前記文書対に基づいて、類似度指標を作成する作成部(11e)と、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する出力部と
を備える判別装置。
11 CPU
11a 取得部
11b グループ生成部
11c 文書対生成部
11d 付与部
11e 作成部
11f 出力部
12 ROM
13 RAM
14 大容量記憶部
141 文書DB
142 実体情報DB
143 データセットDB
144 カテゴリ対応DB
145 類似度指標DB
15 通信部
16 入出力部
17 読み取り部
1P 制御プログラム
1a 可搬型記憶媒体
1b 半導体メモリ
B バス
Claims (5)
- コンピュータが、
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理を行う
判別方法。 - 前記カテゴリは前記知識ベースにおいて定義され、前記エンティティ毎に付与されるものである
請求項1に記載の判別方法。 - キーワードと、該キーワードを用いて検索にヒットした複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
前記キーワードに対応するメンションの固有表現タイプを文書毎に比較し、
複数の文書間で一致する場合は、前記固有表現タイプに対応した前記カテゴリを取得し、
取得したカテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて複数文書間の類似度スコアを求め、
求めた類似度スコアを出力する
請求項1又は請求項2に記載の判別方法。 - 文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理をコンピュータに実行させる判別プログラム。 - 文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する取得部と、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成するグループ生成部と、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成する文書対生成部と、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与する付与部と、
ラベルを付与した前記文書対に基づいて、類似度指標を作成する作成部と、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する出力部と
を備える判別装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017078509A JP6816621B2 (ja) | 2017-04-11 | 2017-04-11 | 判別方法、判別プログラム及び判別装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017078509A JP6816621B2 (ja) | 2017-04-11 | 2017-04-11 | 判別方法、判別プログラム及び判別装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018180866A true JP2018180866A (ja) | 2018-11-15 |
| JP6816621B2 JP6816621B2 (ja) | 2021-01-20 |
Family
ID=64275534
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017078509A Active JP6816621B2 (ja) | 2017-04-11 | 2017-04-11 | 判別方法、判別プログラム及び判別装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6816621B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20210040319A (ko) * | 2020-04-23 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1999014690A1 (fr) * | 1997-09-17 | 1999-03-25 | Hitachi, Ltd. | Procede d'addition d'un mot cle au moyen d'informations de liaison |
| WO2004084096A1 (ja) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | 事例分類装置および方法 |
| JP2007164583A (ja) * | 2005-12-15 | 2007-06-28 | Oki Electric Ind Co Ltd | 判定装置,判定方法および判定プログラム |
| JP2009098952A (ja) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | 情報検索システム |
| US20130097104A1 (en) * | 2011-10-18 | 2013-04-18 | Ming Chuan University | Method and system for document classification |
| JP2015201185A (ja) * | 2014-04-04 | 2015-11-12 | 富士通株式会社 | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 |
-
2017
- 2017-04-11 JP JP2017078509A patent/JP6816621B2/ja active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1999014690A1 (fr) * | 1997-09-17 | 1999-03-25 | Hitachi, Ltd. | Procede d'addition d'un mot cle au moyen d'informations de liaison |
| WO2004084096A1 (ja) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | 事例分類装置および方法 |
| JP2007164583A (ja) * | 2005-12-15 | 2007-06-28 | Oki Electric Ind Co Ltd | 判定装置,判定方法および判定プログラム |
| JP2009098952A (ja) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | 情報検索システム |
| US20130097104A1 (en) * | 2011-10-18 | 2013-04-18 | Ming Chuan University | Method and system for document classification |
| JP2015201185A (ja) * | 2014-04-04 | 2015-11-12 | 富士通株式会社 | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20210040319A (ko) * | 2020-04-23 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 |
| JP2021168124A (ja) * | 2020-04-23 | 2021-10-21 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
| KR102504699B1 (ko) * | 2020-04-23 | 2023-02-27 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 |
| US11704492B2 (en) | 2020-04-23 | 2023-07-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, electronic device, and storage medium for entity linking by determining a linking probability based on splicing of embedding vectors of a target and a reference text |
| JP7398402B2 (ja) | 2020-04-23 | 2023-12-14 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6816621B2 (ja) | 2021-01-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7252914B2 (ja) | 検索提案を提供する方法、装置、機器及び媒体 | |
| US20120290561A1 (en) | Information processing apparatus, information processing method, program, and information processing system | |
| CN104169948A (zh) | 用于文本语义处理的方法、装置及产品 | |
| WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
| JP2012230713A (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
| KR20220134695A (ko) | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 | |
| KR20180129001A (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
| CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
| JP6846666B2 (ja) | 翻訳文生成方法、翻訳文生成装置及び翻訳文生成プログラム | |
| Köksal et al. | Improving automated Turkish text classification with learning‐based algorithms | |
| CN111797245A (zh) | 基于知识图谱模型的信息匹配方法及相关装置 | |
| CN120234386A (zh) | 一种面向检索增强生成系统的检索联合优化方法 | |
| Pilz et al. | The identification of spelling variants in English and German historical texts: Manual or automatic? | |
| TWI852325B (zh) | 資訊處理裝置及資訊處理方法 | |
| CN1979467A (zh) | 用于翻译的装置及方法 | |
| JP6816621B2 (ja) | 判別方法、判別プログラム及び判別装置 | |
| KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
| CN119537672A (zh) | 一种检索处理方法及相关设备 | |
| CN118568508A (zh) | 文本匹配方法和文本匹配装置 | |
| KR20240154740A (ko) | 빅데이터 기반 k-콘텐츠 평가 서비스 제공 시스템 | |
| JP2018055224A (ja) | データ生成装置、方法、及びプログラム | |
| JP7351502B2 (ja) | 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体 | |
| JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
| JP2732661B2 (ja) | テキスト型データベース装置 | |
| JP7646091B2 (ja) | 情報処理装置、検索方法、及び検索プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201109 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201124 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201207 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6816621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |