JP7520783B2 - 識別装置、方法、プログラムおよび学習装置 - Google Patents
識別装置、方法、プログラムおよび学習装置 Download PDFInfo
- Publication number
- JP7520783B2 JP7520783B2 JP2021133394A JP2021133394A JP7520783B2 JP 7520783 B2 JP7520783 B2 JP 7520783B2 JP 2021133394 A JP2021133394 A JP 2021133394A JP 2021133394 A JP2021133394 A JP 2021133394A JP 7520783 B2 JP7520783 B2 JP 7520783B2
- Authority
- JP
- Japan
- Prior art keywords
- event
- causal relationship
- sentences
- subsets
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1の実施形態に係る識別装置について図1のブロック図を参照して説明する。
第1の実施形態に係る識別装置10は、取得部101と、サブセット生成部102と、選択部103と、因果関係識別部104と、決定部105とを含む。
選択部103は、複数のサブセットそれぞれにおいて、因果関係の識別対象となるセンテンスであるターゲットを選択する。
決定部105は、サブセットごとに識別された因果関係に基づき、イベントと文書全体との因果関係を決定する。
ステップS201では、取得部101が、外部から文書およびイベントを取得する。
ステップS202では、サブセット生成部102が、取得した文書に含まれる複数のセンテンスを用いて、複数のセンテンスのうちの一部のセンテンスをグループ化し、複数のサブセットを生成する。サブセットの生成において、例えば、取得したイベントと関連性の低いセンテンスは除外し、入力されたイベントとの関連性が閾値以上であるセンテンスを文書から選択してグループ化する。関連性は、例えばイベントと各センテンスとの情報の類似度を分析すればよい。また、類似度は、イベントとセンテンスとが類似する度合いを示し、イベントの内容とセンテンスの内容とが近いほど、類似度が高い。よって、類似度が閾値以上であるセンテンスを関連性が閾値以上のセンテンスであると決定する。また、関連性として、イベントの文字列と、各センテンスの内容から分析される情報量を用いてもよい。例えば、センテンスを構成する単語群の意味または出現頻度から、各文の情報量を分析する。情報量が高い文ほど、他の文と比較してユニークな情報が含まれる。
ステップS204では、選択部103が、処理対象のサブセットに含まれる複数のセンテンスのうち、イベントとの比較対象であるターゲットを選択する。
図3は、文書30と、当該文書30から生成された複数のサブセット32との一例を示す。
図3の例では、関連性が閾値以上となるセンテンス1からセンテンス5まで、およびセンテンス7の6つが抽出され、センテンス6が関連性が閾値未満であるノイズとなり得るセンテンスであるとして、除外されるとする。
このようにサブセット32は、文書に含まれるセンテンスの数をN(Nは3以上の自然数)、サブセットに含まれるセンテンスの数をM(Mは2以上N未満の自然数)とすると、NCMの組み合わせ数まで生成することができる。すなわち、図3の例では、6C4=15通りのサブセット32を生成することができる。各サブセット32は関係性を有するセンテンスがグループ化されているため、複数パターンの文脈を生成できる。
図4は、サブセットAからサブセットEまでの5つのサブセットにそれぞれ含まれる、4つのセンテンスの因果関係の識別結果を示すテーブルである。4つのセンテンスは、6つセンテンス(センテンス1~センテンス5,センテンス7)のうちの4つの組み合わせである。識別結果として、ここでは0(ゼロ)から1まで間の数値が割り当てられる例を示す。0に近いほど、イベントとセンテンスとの間で因果関係がないことを示し、1に近いほど、イベントとセンテンスとの間に因果関係があることを示す。なお、サブセットに含まれないセンテンスの欄には、該当なしであることを示す「-」の記号が入力される。
図5は、図4に示すテーブルに、平均値を示す項目と、因果関係のありなしを示す項目と、イベントと文書全体との因果関係を示す最終結果の項目とを追加したテーブルである。
図5では、決定部105は、複数のサブセットに含まれるセンテンスの識別結果を示す値の平均値を算出する。決定部105は、当該平均値と閾値とを比較する。ここでは、識別結果の平均値に対する閾値として「0.7」を設定する。決定部105は、平均値が閾値以上であれば、「因果関係あり」と決定し、平均値が閾値未満であれば、「因果関係なし」と決定する。また、決定部105は、因果関係ありと判定されたセンテンスの中で、平均値が最大のセンテンスを、イベントに対する文書全体の因果関係の最終結果として出力してもよい。
決定部105は、識別結果の値から「0.4~0.6」の値を除き、「0.0~0.3」および「0.7~1.0」までの値のみを用いて、例えば投票により識別結果の有無の多数決をとればよい。図6では、図5のテーブルに対し、「0.4~0.6」の値については、斜線を記入して計算から除外することを表現する。
上述した図5では、「センテンス5」の平均値が閾値未満であるため、因果関係なしと決定されたが、図6の例では、「センテンス5」の平均値が「0.7」となり、平均値が閾値以上となるため、因果関係ありと決定される。
このように、確信度が高い値に基づいて因果関係の最終結果を決定することにより、因果関係識別部のモデルによるあいまいな識別結果を除外しつつ、確信度の高い値を用いることで、より因果関係抽出の精度を高めることができる。
図7は、センテンス1~センテンス5およびセンテンス7のセンテンスごとに、複数の統計処理の結果である統計値が入力されたテーブルである。
さらに、複数のサブセットにそれぞれ含まれる複数のセンテンスは、関係性を有しているため、複数パターンの文脈を生成できる。よって、学習済みモデルにおいて複数パターンの文脈を考慮した因果関係の識別結果が得られるため、確信度の高い因果関係の抽出結果を得ることができる。すなわち、高精度な識別を実現することができる。
第1の実施形態では、学習済みモデルを用いて複数のサブセットから因果関係を抽出する例を示すが、生成部により生成された複数のサブセットにより因果関係部のモデルを学習することもできる。
第2の実施形態に係る学習装置80は、取得部801と、サブセット生成部802と、選択部803と、因果関係識別部804と、学習部805と、モデル格納部806とを含む。
サブセット生成部802は、第1の実施形態と同様に、文書から複数のサブセットを生成する。
選択部803は、複数のサブセットのそれぞれから、イベントに対するターゲットを選択する。
学習部805は、ネットワークモデルの出力と正解となるラベルとの学習誤差を算出する。学習部805は、学習誤差が最小となるように、ネットワークモデルのパラメータを更新する。学習部805による学習が完了すると、学習済みモデルが生成される。
モデル格納部806は、学習前のネットワークモデルおよび学習後の学習済みモデルを格納する。また、必要に応じて、学習データを生成するための文書などを格納してもよい。
図9は、ラベル付き文書の例である。センテンス1からセンテンス10までの10個のセンテンスを含む1つの文書90のうち、「センテンス2」がイベントと因果関係があることを示すラベルが付与される。また、サブセット生成部802により、文書90から4個のセンテンスを含むサブセットが複数生成されることを想定する。
このように、複数のサブセットごとに、センテンスがターゲットとして選択される際に、正例および負例のラベルが付与された学習データを用意することができるため、1つの文書90をまとめて学習データとする場合よりも、学習データ数の増強(データオーギュメンテーション)を実現できる。
図10は、因果関係識別部804を実現する、学習対象となるネットワークモデルを示す。ネットワークモデルは、第1特徴量抽出層1001と、重み付き平均層1002と、結合(Concatenate)層1003と、第2特徴量抽出層1004と、因果関係識別層1005と、出力層1006とを含む。
ステップS1101では、取得部801が、イベントと、ラベル付き文書とを取得する。
ステップS1102では、サブセット生成部802が、ラベル付き文書に含まれる複数のセンテンスに基づいて、複数のサブセットを生成することで、学習データを生成する。サブセットの生成処理については、第1の実施形態と同様の処理を行えばよいため、説明を省略する。
ステップS1104では、選択部803が、処理対象のサブセットに含まれる複数のセンテンスからターゲットを選択する。
また、データ増強された学習データを用いてネットワークモデルを学習することで、より高精度な因果関係抽出を実行できる学習済みモデルを生成できる。
識別装置10および学習装置80は、CPU(Central Processing Unit)1201と、RAM(Random Access Memory)1202と、ROM(Read Only Memory)1203と、ストレージ1204と、表示装置1205と、入力装置1206と、通信装置1207とを含み、それぞれバスにより接続される。
通信装置1207は、CPU1201からの制御に応じて外部機器とネットワークを介して通信する。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (9)
- 処理対象となる事例を表す文字列であるイベントと、複数のセンテンスを含む文書とを取得する取得部と、
前記複数のセンテンスから一部をランダムに複数回選択してグループ化したサブセットを複数生成する生成部と、
前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係を識別する識別部と、
を具備する識別装置。 - 前記生成部は、前記イベントと前記文書に含まれる各センテンスとの間の関連性が閾値以上となるセンテンスを前記複数のセンテンスとして抽出した後、前記サブセットを生成する、請求項1に記載の識別装置。
- 前記複数のサブセットそれぞれにおいて、対象となるセンテンスであるターゲットを選択する選択部をさらに具備し、
前記識別部は、前記イベントと前記ターゲットとの間の因果関係を識別する、請求項1または請求項2に記載の識別装置。 - 前記サブセットごとに識別された因果関係に基づき、前記イベントと前記文書全体との因果関係を決定する決定部をさらに具備する、請求項1から請求項3のいずれか1項に記載の識別装置。
- 前記決定部は、前記サブセットごとに識別された因果関係の確信度を算出し、前記確信度に基づいて前記イベントと前記文書全体との因果関係を決定する、請求項4に記載の識別装置。
- 前記決定部は、前記サブセットごとに因果関係について複数の識別手段により複数の値を算出し、前記複数の値に関する投票により、前記イベントと前記文書全体との因果関係を決定する、請求項4または請求項5に記載の識別装置。
- 取得手段が、処理対象となる事例を表す文字列であるイベントと、複数のセンテンスを含む文書とを取得し、
生成手段が、前記複数のセンテンスから一部をランダムに複数回選択してグループ化したサブセットを複数生成し、
識別手段が、前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係を識別する、識別方法。 - コンピュータを、
処理対象となる事例を表す文字列であるイベントと、複数のセンテンスを含む文書とを取得する取得手段と、
前記複数のセンテンスから一部をランダムに複数回選択してグループ化したサブセットを複数生成する生成手段と、
前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係を識別する識別手段として機能させるための識別プログラム。 - 処理対象となる事例を表す文字列であるイベントと、複数のセンテンスを含む文書であって、前記イベントと因果関係のあるセンテンスに関するラベルを含むラベル付き文書とを取得する取得部と、
前記ラベル付き文書に含まれる複数のセンテンスから一部をランダムに複数回選択してグループ化したサブセットを、複数生成する生成部と、
ネットワークモデルを用いて、前記サブセットごとに、前記サブセットに含まれるセンテンスと前記イベントとの間の因果関係の識別した値を出力する識別部と、
前記値と前記ラベルとの差分に関する誤差関数を最小化するように前記ネットワークモデルを学習し、学習済みモデルを生成する学習部と、
を具備する学習装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021133394A JP7520783B2 (ja) | 2021-08-18 | 2021-08-18 | 識別装置、方法、プログラムおよび学習装置 |
| US17/674,295 US20230059476A1 (en) | 2021-08-18 | 2022-02-17 | Discrimination apparatus, method and learning apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021133394A JP7520783B2 (ja) | 2021-08-18 | 2021-08-18 | 識別装置、方法、プログラムおよび学習装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023027985A JP2023027985A (ja) | 2023-03-03 |
| JP7520783B2 true JP7520783B2 (ja) | 2024-07-23 |
Family
ID=85228500
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021133394A Active JP7520783B2 (ja) | 2021-08-18 | 2021-08-18 | 識別装置、方法、プログラムおよび学習装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20230059476A1 (ja) |
| JP (1) | JP7520783B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117932079B (zh) * | 2023-12-20 | 2025-04-22 | 北京百度网讯科技有限公司 | 模型生成结果的处理方法、装置、电子设备及存储介质 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002132811A (ja) | 2000-10-19 | 2002-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 |
| JP2018124914A (ja) | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | パッセージ型質問応答装置、方法、及びプログラム |
| JP2019020893A (ja) | 2017-07-13 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
| JP2021018588A (ja) | 2019-07-19 | 2021-02-15 | 国立研究開発法人情報通信研究機構 | 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5034580B2 (ja) * | 2007-03-15 | 2012-09-26 | オムロン株式会社 | 因果推論装置、その制御プログラムおよび制御方法 |
| US9069754B2 (en) * | 2010-09-29 | 2015-06-30 | Rhonda Enterprises, Llc | Method, system, and computer readable medium for detecting related subgroups of text in an electronic document |
| JP6150282B2 (ja) * | 2013-06-27 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
| US10678816B2 (en) * | 2017-08-23 | 2020-06-09 | Rsvp Technologies Inc. | Single-entity-single-relation question answering systems, and methods |
| US10242320B1 (en) * | 2018-04-19 | 2019-03-26 | Maana, Inc. | Machine assisted learning of entities |
| US11748393B2 (en) * | 2018-11-28 | 2023-09-05 | International Business Machines Corporation | Creating compact example sets for intent classification |
| US11386358B2 (en) * | 2019-04-17 | 2022-07-12 | International Business Machines Corporation | Intelligent decision support system |
| US11062270B2 (en) * | 2019-10-01 | 2021-07-13 | Microsoft Technology Licensing, Llc | Generating enriched action items |
| US12056437B2 (en) * | 2020-06-23 | 2024-08-06 | Samsung Electronics Co., Ltd. | Electronic device and method for converting sentence based on a newly coined word |
-
2021
- 2021-08-18 JP JP2021133394A patent/JP7520783B2/ja active Active
-
2022
- 2022-02-17 US US17/674,295 patent/US20230059476A1/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002132811A (ja) | 2000-10-19 | 2002-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 |
| JP2018124914A (ja) | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | パッセージ型質問応答装置、方法、及びプログラム |
| JP2019020893A (ja) | 2017-07-13 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
| JP2021018588A (ja) | 2019-07-19 | 2021-02-15 | 国立研究開発法人情報通信研究機構 | 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US20230059476A1 (en) | 2023-02-23 |
| JP2023027985A (ja) | 2023-03-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11574122B2 (en) | Method and system for joint named entity recognition and relation extraction using convolutional neural network | |
| CN1457041B (zh) | 为一个自然语言理解系统用来自动注解训练数据的一个系统 | |
| US10410622B2 (en) | Systems and methods for automatic repair of speech recognition engine output using a sliding window mechanism | |
| CN114064487B (zh) | 一种代码缺陷检测方法 | |
| CN112528003A (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
| CN116228383A (zh) | 风险预测方法及装置、存储介质和电子设备 | |
| Weaver et al. | Herbarium specimen label transcription reimagined with large language models: Capabilities, productivity, and risks | |
| CN117292679A (zh) | 语音识别模型的训练方法、语音识别方法及相关设备 | |
| CN118982030A (zh) | 一种使用大语言模型推理的多回合对话情感四重提取方法 | |
| CN118964615A (zh) | Ai文本检测模型的构建方法、装置、设备及存储介质 | |
| US12368938B2 (en) | Method for coherent, unsupervised, transcript-based, extractive summarisation of long videos of spoken content | |
| JP5253317B2 (ja) | 要約文作成装置、要約文作成方法、プログラム | |
| CN117173530A (zh) | 目标异常检测方法及装置 | |
| JP7520783B2 (ja) | 識別装置、方法、プログラムおよび学習装置 | |
| US20230281392A1 (en) | Computer-readable recording medium storing computer program, machine learning method, and natural language processing apparatus | |
| CN117421573A (zh) | 用于问答检索模型的训练方法、装置及存储介质 | |
| CN114661616B (zh) | 目标代码的生成方法及装置 | |
| US20220222576A1 (en) | Data generation apparatus, method and learning apparatus | |
| CN113536790A (zh) | 基于自然语言处理的模型训练方法及装置 | |
| CN117540275A (zh) | 一种基于预训练模型的客户诉求识别方法及系统 | |
| CN116629271A (zh) | 基于bert和bilstm的重复缺陷报告检测方法 | |
| KR102483927B1 (ko) | 계층적 단어 정보를 이용한 문장 인코딩 방법 및 장치 | |
| CN114417849A (zh) | 业务需求的匹配方法以及业务需求的匹配装置 | |
| JP6772393B1 (ja) | 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム | |
| CN112866257A (zh) | 一种域名检测方法、系统及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230315 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231215 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240311 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240326 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240522 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240611 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240710 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7520783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |