[go: up one dir, main page]

JP5161891B2 - 辞書システム - Google Patents

辞書システム Download PDF

Info

Publication number
JP5161891B2
JP5161891B2 JP2009546971A JP2009546971A JP5161891B2 JP 5161891 B2 JP5161891 B2 JP 5161891B2 JP 2009546971 A JP2009546971 A JP 2009546971A JP 2009546971 A JP2009546971 A JP 2009546971A JP 5161891 B2 JP5161891 B2 JP 5161891B2
Authority
JP
Japan
Prior art keywords
word
dictionary
unit
compound
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009546971A
Other languages
English (en)
Other versions
JPWO2009081620A1 (ja
Inventor
朋子 田代
望 中橋
義孝 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
T-TERMINOLOGY, LTD.
Original Assignee
T-TERMINOLOGY, LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by T-TERMINOLOGY, LTD. filed Critical T-TERMINOLOGY, LTD.
Priority to JP2009546971A priority Critical patent/JP5161891B2/ja
Publication of JPWO2009081620A1 publication Critical patent/JPWO2009081620A1/ja
Application granted granted Critical
Publication of JP5161891B2 publication Critical patent/JP5161891B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、辞書システムに関する。特に、文書を検索するための、或いは、文書を構成する語の正規化のための、辞書システムに関する。
従来、システムにより実現した文書データベース(いわゆるインターネット上のWebサイトを含む)等において、ユーザが目的とする情報を含んだ文書データを効率的に得るための各種の検索方法が提案されている。例えば、特許文献1には、登録対象文書からキーワードとなる単語を抽出し、該単語に対する異表記、異字体、同義語、類義語等の特定の意味を持つ複数の単語群データを参照し、標準表記を取得する。そして、キーワードとなる単語と、標準表記を含む単語群データと、登録対象文書とを関連付けた検索用データを作成する。その後の検索時に、ユーザの検索条件から、キーワードとなる単語を抽出し、該単語に対する異表記、異字体、同義語、類義語等の特定の意味を持つ複数の単語群データを参照し、標準表記を取得する。そして、検索用データから、キーワードとなる単語、及び標準表記を含む単語群データと一致する単語を持つ文書データを検索し、検索結果を出力する。このように、ユーザの検索条件に含まれる単語に対する、異表記、異字体、同義語、類義語等の単語を含む文書データを検索する技術が開示されている。
特開2004−86307号公報
しかしながら、特許文献1に記載の技術によっても、キーワードとなる単語に対する、異表記、異字体、同義語、類義語等の特定の意味を持つ複数の単語データに対する標準表記を全て登録して、更新していくには手間的な限界もあり現実的ではない。更に、複数の単語で構成される複合語に対する表記の揺れに対応する技術は開示されていない。
そこで、本発明は、文書検索の利用に供する、或いは、文書を構成する語の正規化の利用に供する、より改良された辞書システムを提供することを目的とする。更に、複数の単純語で構成される複合語にも対応可能な辞書システムを提供することを目的とする。
より具体的には、本発明は、次のようなものを提供する。
(1) 文書を検索するための、或いは、文書を構成する語の正規化のための、辞書システムであって、
少なくとも1の単純語又は未成語文字配列を含んで構成する単純語辞書単位と、
前記単純語辞書単位を構成する単純語又は未成語文字配列の1を含んで構成する複合語を示す複合語辞書単位と、
を記憶する記憶部を備え、
前記複合語を構成するそれぞれの単純語又は未成語文字配列は、前記単純語辞書単位へのポインタ(単位識別子)、及び前記単純語又は未成語文字配列へのポインタ(語識別子)を介して参照される辞書システム。
本発明のこのような構成によれば、前記辞書システムは、ある単純語辞書単位を構成する単純語が複合語の一部を構成する場合、当該複合語を示す複合語辞書単位は当該単純語を直接記憶せず、当該単純語が構成する単純語辞書単位へのポインタを介して参照する。
このことにより、前記辞書システムは、前記ポインタを介して参照する単純語辞書単位を構成する単純語を入れ替えることにより、自動的に前記複合語の類義語を生成することができる。更に、前記単純語辞書単位を構成する単純語をメンテナンスすることによって、前記複合語の類義語の範囲も自動的にメンテナンスすることができる。
その結果、前記辞書システムは、メンテナンスに伴うシステム負荷及び人的負荷を抑制することができる。
このように、前記辞書システムは、前記複合語或いは前記単純語を含んで構成された文書を検索する際に、前記複合語を構成するそれぞれの単純語を、前記単純語辞書単位へのポインタ(単位識別子)を介して参照する。
従って、前記辞書システムは、前記複合語或いは前記単純語を含んで構成された文書を検索する際に、前記複合語或いは前記単純語の類義語を順次検索要求語及び検索要求語の類義語と照合・比較するのではなく、前記複合語を構成するそれぞれの単純語を、前記単純語辞書単位へのポインタ(単位識別子)を含む符号に置き換えて、更に、前記複合語或いは前記単純語を含んで構成された検索要求語について、前記複合語を構成するそれぞれの単純語を、前記単純語辞書単位へのポインタ(単位識別子)を含む符号に置き換えて、前記ポインタ(単位識別子)を含む符号同士の照合・比較を行うことができる。
このように、前記辞書システムは、前記単純語辞書単位或いは前記複合語辞書単位に含まれる類義語の数にかかわらず、前記ポインタ(単位識別子)を含む符号同士の整合・比較を一回行うだけで、精度を落とすことなく効率的に検索を行うことができる。
同様に、前記辞書システムは、前記複合語或いは前記単純語を含んで構成された文書の語を正規化する際に、前記複合語を構成するそれぞれの単純語を、前記単純語辞書単位へのポインタ(単位識別子)を介して参照する。
従って、前記辞書システムは、前記複合語或いは前記単純語を含んで構成された文書の語を正規化する際に、前記複合語を構成するそれぞれの単純語を、前記単純語辞書単位へのポインタ(単位識別子)を含む符号に置き換えることができる。
このように、前記辞書システムは、前記単純語辞書単位或いは前記複合語辞書単位に含まれる類義語の数にかかわらず、前記複合語を構成するそれぞれの単純語を、前記ポインタ(単位識別子)を含む符号に置き換えることで、前記文書の検索を受け付ける際の前処理として語の正規化を実施し、前記検索の精度を落とすことなく効率的に検索を行うことができる。
(2) 検索要求語の入力を受け付ける手段と、
受け付けた検索要求語から、前記複合語に一致する部分を抽出する手段と、
その余の部分から、前記単純語に一致する部分を抽出する手段と、
一致した前記複合語を構成する単純語及び一致した単純語がそれぞれ含まれる単純語辞書単位に含まれる全ての単純語を組み合わせて検索候補語を生成する手段と、
生成された検索候補語の属する前記複合語を構成する前記単純語辞書単位へのポインタ(単位識別子)及び、その余の部分の単純語を構成する単純語又は未成語文字配列へのポインタ(語識別子)を正規化して登録する手段と、
を備える(1)に記載の辞書システム。
本発明のこのような構成によれば、前記辞書システムは、入力を受け付けた検索要求語に含まれる複合語及び単純語について、記憶している複合語辞書単位及び単純語辞書単位を参照し、前記複合語辞書単位に含まれる複合語を構成する単純語及び単純語辞書単位に含まれる単純語をそれぞれ前記単純語辞書単位に含まれる単純語に入れ替えることによって、検索候補語としていわゆる類義語を自動的に生成して検索を行うことができる。
(3) 単純語又は複合語の新たな関連付けを示すデータの入力を受け付ける手段と、
前記新たな関連付けを示された単純語又は複合語が互いに別々の辞書単位を構成している場合に、同じ単純語辞書単位へのポインタ(単位識別子)を付与して前記別々の辞書単位を統合する手段と、
前記新たな関連付けを示された単純語又は複合語が互いに同じ辞書単位を構成している場合に、関連付けのない単純語又は複合語とすべく、前記単純語辞書単位へのポインタ(単位識別子)を削除し、未成語文字配列へのポインタ(語識別子)を付与する手段と、
を更に備える(1)又は(2)に記載の辞書システム。
本発明のこのような構成によれば、前記辞書システムは、単純語又は複合語の新たな関連付けを示すデータの入力を受け付けて、前記新たな関連付けを示された単純語又は複合語が互いに別々の辞書単位を構成している場合に、前記別々の辞書単位を統合することができる。
(4) 複合語同士の新たな関連付けを示すデータの入力を受け付ける手段と、
前記新たな関連付けを示された複合語の一部が同一の辞書単位を構成している場合に、その余の部分を構成する単純語又は複合語同士が関連するものとして類推して、前記その余の部分を構成する単純語又は複合語を含むように、同一の単純語辞書単位へのポインタ(単位識別子)で構成して新たな辞書単位を生成する手段と、を更に備える(1)から(3)のいずれか1項に記載の辞書システム。
本発明のこのような構成によれば、前記辞書システムは、複合語同士の新たな関連付けを示すデータの入力を受け付けて、前記新たな関連付けを示された複合語の一部が同一の辞書単位を構成している場合に、その余の部分を構成する単純語又は複合語同士が関連するものとして、前記その余の部分を構成する単純語又は複合語を含んで構成する新たな辞書単位を生成することができる。
(5) 複数の単純語又は複合語を含んで構成する辞書単位に対する分割を示すデータの入力を受け付ける手段と、
受け付けた分割を示すデータに基づいて前記辞書単位を分割する手段と、
受け付けた分割を示すデータに、分割可能な単純語が含まれていない場合には、当該単純語に対して、前記単純語又は未成語文字配列へのポインタ(語識別子)を付与する手段と、
を更に備える(1)から(4)のいずれか1項に記載の辞書システム。
のいずれか1項に記載の辞書システム。
本発明のこのような構成によれば、前記辞書システムは、複数の単純語又は複合語を含んで構成する辞書単位に対する分割を示すデータの入力を受け付けて、受け付けた分割を示すデータに基づいて前記辞書単位を分割することができる。
(6) 前記記憶部に記憶した単純語辞書単位を構成する単純語が、その他の単純語辞書単位を構成する単純語又は複合語辞書単位を構成する複合語を構成する単純語を含んでいる場合に、当該含んでいる単純語を含んで構成する複合語として単純語辞書単位へのポインタ(単位識別子)、及び前記単純語又は未成語文字配列へのポインタ(語識別子)を付して記憶する手段を更に備える(1)から(5)のいずれか1項に記載の辞書システム。
本発明のこのような構成によれば、前記辞書システムは、前記記憶部に記憶した単純語辞書単位を構成する単純語が、その他の単純語辞書単位を構成する単純語又は複合語辞書単位を構成する複合語を構成する単純語を含んでいる場合に、当該含んでいる単純語を含んで構成する複合語として記憶するので、当該含んでいる単純語を共有する複数の複合語を含む語が検索要求語や検索対象文書に含まれる場合においても、当該複数の複合語を漏れなく検索することが出来る。
(7) 前記検索要求語に含まれる複合語又は単純語が構成する辞書単位に含まれる単純語辞書単位へのポインタ(単位識別子)により特定される単純語のが検索対象文書に含まれている場合に一致したと見なす(2)に記載の辞書システム。
本発明のこのような構成によれば、前記辞書システムは、前記検索要求語に含まれる複合語又は単純語が構成する辞書単位に含まれる語が検索対象文書に含まれている場合に一致したと見なすので、当該辞書単位毎に一部一致の検索を行なうことができる。
(8) 辞書システムに、文書の検索、或いは、文書を構成する語の正規化を実行させるプログラムであって、
前記辞書システムは、少なくとも1の単純語又は未成語文字配列を含んで構成する単純語辞書単位と、
前記単純語辞書単位を構成する単純語又は未成語文字配列の1を含んで構成する複合語を示す複合語辞書単位と、を記憶する記憶部を備え、
前記辞書システムに、前記複合語を構成するそれぞれの単純語を、前記単純語辞書単位へのポインタ(単位識別子)、及び前記単純語又は未成語文字配列へのポインタ(語識別子)を介して参照させるステップを実行させるプログラム。
(9) (1)に記載の辞書システムを含み、管理対象となる文書を構成する語の正規化を行う文書管理装置。
本発明によれば、前記辞書システムは、ある単純語辞書単位を構成する単純語が複合語の一部を構成する場合、当該複合語を示す複合語辞書単位は当該単純語を直接記憶せず、当該単純語が構成する単純語辞書単位へのポインタを介して参照する。このことにより、前記辞書システムは、前記ポインタを介して参照する単純語辞書単位を構成する単純語を入れ替えることにより、自動的に前記複合語の類義語を生成することができる。また、前記辞書システムは、前記複合語或いは前記単純語を含んで構成された文書を検索する際に、前記複合語或いは前記単純語の類義語を順次検索要求語及び検索要求語の類義語と照合・比較するのではなく、前記複合語を構成するそれぞれの単純語を、前記単純語辞書単位へのポインタ(単位識別子)を含む符号に置き換えて、更に、前記複合語或いは前記単純語を含んで構成された検索要求語について、前記複合語を構成するそれぞれの単純語を、前記単純語辞書単位へのポインタ(単位識別子)を含む符号に置き換えて、前記ポインタ(単位識別子)を含む符号同士の照合・比較を行うことができる。或いは、前記辞書システムは、前記単純語辞書単位或いは前記複合語辞書単位に含まれる類義語の数にかかわらず、前記複合語を構成するそれぞれの単純語を、前記ポインタ(単位識別子)を含む符号に置き換えることで、前記文書の検索を受け付ける際の前処理として語の正規化を実施し、前記検索の精度を落とすことなく効率的に検索を行うことができる。
本発明の好適な実施形態の一例に係るシステム1の全体構成を示す図である。 本発明の好適な実施形態の一例に係るサーバ10及び端末20のハードウェア構成の一例を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける語の構成を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける辞書単位を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける単純語のデータ構造を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける複合語のデータ構造を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける辞書の全体構造を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける参照を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける融合を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける再構成を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける例示に用いる辞書の設定を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける登録語による要求語の分解を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける関連語による変換候補断片の列挙を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける候補リストの生成を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける例示に用いる辞書の設定を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける登録語による要求語の分解を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける既存の関連の確認を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける新たな関連の類推を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける新たな辞書単位の登録を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける分割を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける総順列の洗い出しを示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける検索処理を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける新たな関連付け処理1を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける新たな関連付け処理2を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける分割処理を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける語と単位識別子の対応を示す図である。 本発明の好適な実施形態の一例に係る辞書システムによる文書を構成する語の正規化を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける文書を構成する語の正規化処理を示すフローチャートである。 、本発明の好適な実施形態の一例に係る辞書システムにおける辞書の再構成処理を示すフローチャートである。 本発明の好適な実施形態の一例に係る辞書システムにおける登録内容の一例を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける登録内容の一例を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける検索語又は被検索語の一例を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける登録内容の一例を示す図である。 本発明の好適な実施形態の一例に係る辞書システムにおける一部一致検索処理を示すフローチャートである。 本発明の好適な実施形態の一例に係る辞書システムにおける登録内容の一例を示す図である。
符号の説明
1 辞書システム
10 サーバ
20、20a、20b、20c 端末
30 通信ネットワーク
60 Webサイト
発明を実施するための形態
以下、図面を参照しながら本発明の実施形態の一例について述べる。
図1は、本発明の好適な実施形態の一例に係るシステム1の全体構成を示す図である。図2は、本発明の好適な実施形態の一例に係るサーバ10及び端末20のハードウェア構成の一例を示す図である。図3は、本発明の好適な実施形態の一例に係る辞書システムにおける語の構成を示す図である。図4は、本発明の好適な実施形態の一例に係る辞書システムにおける辞書単位を示す図である。図5は、本発明の好適な実施形態の一例に係る辞書システムにおける単純語のデータ構造を示す図である。図6は、本発明の好適な実施形態の一例に係る辞書システムにおける複合語のデータ構造を示す図である。図7は、本発明の好適な実施形態の一例に係る辞書システムにおける辞書の全体構造を示す図である。図8は、本発明の好適な実施形態の一例に係る辞書システムにおける参照を示す図である。図9は、本発明の好適な実施形態の一例に係る辞書システムにおける融合を示す図である。図10は、本発明の好適な実施形態の一例に係る辞書システムにおける再構成を示す図である。図11は、本発明の好適な実施形態の一例に係る辞書システムにおける例示に用いる辞書の設定を示す図である。図12は、本発明の好適な実施形態の一例に係る辞書システムにおける登録語による要求語の分解を示す図である。図13は、本発明の好適な実施形態の一例に係る辞書システムにおける関連語による変換候補断片の列挙を示す図である。図14は、本発明の好適な実施形態の一例に係る辞書システムにおける候補リストの生成を示す図である。図15は、本発明の好適な実施形態の一例に係る辞書システムにおける例示に用いる辞書の設定を示す図である。図16は、本発明の好適な実施形態の一例に係る辞書システムにおける登録語による要求語の分解を示す図である。図17は、本発明の好適な実施形態の一例に係る辞書システムにおける既存の関連の確認を示す図である。図18は、本発明の好適な実施形態の一例に係る辞書システムにおける新たな関連の類推を示す図である。図19は、本発明の好適な実施形態の一例に係る辞書システムにおける新たな辞書単位の登録を示す図である。図20は、本発明の好適な実施形態の一例に係る辞書システムにおける分割を示す図である。図21は、本発明の好適な実施形態の一例に係る辞書システムにおける総順列の洗い出しを示す図である。図22は、本発明の好適な実施形態の一例に係る辞書システムにおける検索処理を示す図である。図23は、本発明の好適な実施形態の一例に係る辞書システムにおける新たな関連付け処理1を示す図である。図24は、本発明の好適な実施形態の一例に係る辞書システムにおける新たな関連付け処理2を示す図である。図25は、本発明の好適な実施形態の一例に係る辞書システムにおける分割処理を示す図である。図26は、本発明の好適な実施形態の一例に係る辞書システムにおける語と単位識別子の対応を示す図である。図27は、本発明の好適な実施形態の一例に係る辞書システムによる文書を構成する語の正規化を示す図である。図28は、本発明の好適な実施形態の一例に係る辞書システムにおける文書を構成する語の正規化処理を示すフローチャートである。図29は、本発明の好適な実施形態の一例に係る辞書システムにおける辞書の再構成処理を示すフローチャートである。図30は、本発明の好適な実施形態の一例に係る辞書システムにおける登録内容の一例を示す図である。図31は、本発明の好適な実施形態の一例に係る辞書システムにおける登録内容の一例を示す図である。図32は、本発明の好適な実施形態の一例に係る辞書システムにおける検索語又は被検索語の一例を示す図である。図33は、本発明の好適な実施形態の一例に係る辞書システムにおける登録内容の一例を示す図である。図34は、本発明の好適な実施形態の一例に係る辞書システムにおける一部一致検索処理を示すフローチャートである。図35は、本発明の好適な実施形態の一例に係る辞書システムにおける登録内容の一例を示す図である。
図1は、本発明の好適な実施形態の一例に係るシステム1の全体構成を示す図である。
本実施形態におけるシステム1は、サーバ10が、通信ネットワーク30を介して、端末20及びWebサイト60と接続可能な状態で構成される。
サーバ10は、テキストや画像等を含んだ文書データ(例えば、インターネットやイントラネット上のWebページ)を受け付けて、又は収集して記憶する。更に、サーバ10は、文書データを解析し、語データを抽出して辞書システムとして記憶する。そして、端末20のWebブラウザ等からのユーザの検索要求に応じて、記憶している語データを検索した結果を送信する機能を備えている。なお、サーバ10のハードウェアの数に制限はなく、必要に応じて、1又は複数のハードウェアで構成してよい。
Webサイト60は、文書データ(例えば、Webページデータ)を蓄積しており、通信ネットワーク30、例えば、インターネット等のネットワークを通じて、これらのデータを端末20に送信する機能を有している。なお、個人や会社のホームページ等のWebページデータ群、又はWebページデータ群を管理しているインターネット上の場所を、Webサイトという。
通信ネットワーク30は、サーバ10、Webサイト60、及び端末20を接続する。ここで、通信ネットワーク30は、有線により実現するものだけではなく、携帯電話等のように、基地局を介して一部を無線により実現するもの、アクセスポイントを介して無線LANにより実現するもの等、本発明の技術的思想に合致するものであれば様々な通信ネットワークにより実現してよい。
端末20は、PC(Personal Computer)20aの他、携帯電話機20b、及びPDA(Personal Data Assistant)20c、等のいわゆるコンピュータ以外の通信端末であってもよい。
[サーバ10のハードウェア構成]
なお、辞書システム1、は後述するソフトウェアによる情報処理を端末20において集約して実行し、スタンドアロンで全ての機能を発揮するように構成しても良い。また、端末20においてスタンドアロンで実現した辞書システム1は、検索対象となる文書(被検索文書)を更に含んで、検索機能付き或いは正規化機能付き文書管理装置を構成してもよい。或いは、ソフトウェア及び検索対象となる文書(被検索文書)を組み合わせて文献集として構成してもよい。
図2は、本発明の好適な実施形態の一例に係るサーバ10及び端末20のハードウェア構成の一例を示す図である。図2に示すように、入力部110、通信インターフェイス部120、制御部130、表示部140、及び記憶部150がバスライン105により接続されてサーバ10を構成する。
入力部110は、マウス並びにキーボード等の入力装置により実現することができる。又、通信インターフェイス部120は、LANアダプタ並びにモデムアダプタ等により実現することができる。更に、制御部130は、CPU(Central Processing Unit)により構成してよく、サーバ10全体を制御し、例えば、記憶部150に記憶されたプログラムを読み出して実行することにより、後述する各種処理を実現している。そして又、表示部140は、液晶表示装置(LCD)、並びにブラウン管表示装置(CRT)等により実現することができる。そして更に、記憶部150は、ハードディスク並びに半導体メモリ等で実現することができる。
以上の例は、サーバ10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。従って、本発明において一実施形態として説明したサーバ10により実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
[端末20のハードウェア構成]
ここで端末20は、上述のサーバ10と同様の構成を備えてよい。なお、入力部210、通信インターフェイス部220、制御部230、表示部240、及び記憶部250がバスライン205により接続されて端末20を構成する。
図3は、本発明の好適な実施形態の一例に係る辞書システムにおける語の構成を示す図である。辞書を構成するまとまりのある文字列を語(term)という。語には、単純語(simple term)と複合語(complex term)がある。全ての語は本辞書システムの登録対象となる。
ここで、単純語は、本辞書システムにおいて、分割可能な語が辞書に含まれていないために、それ以上分割ができない語である。具体的には例えば、「犬」、「イヌ」、「猫」、「ネコ」、「医院」、「クリニック」等がある。数は特殊な単純語として扱う。具体的には例えば、「123」、「123,456」等がある。
また、複合語は、一つ以上の単純語又は単純語と未成語文字列(fragmentary string;語として登録されていない文字列)の連結されたものをいう。これらの単純語・複合語の区別は、後述するように辞書操作に依存し、単純語は容易に複合語となり、複合語は容易に単純語となる。
図4は、本発明の好適な実施形態の一例に係る辞書システムにおける辞書単位を示す図である。辞書単位は一以上の語を含んで構成されている。全ての辞書単位は、単位識別子(unit identifier)と対応しており、後述するように、辞書単位は単位識別子をポインタとして外部から参照される。
辞書単位を構成する語は、互いに類義語の関係にあることを示している。この例では、単位識別子「1D35BF」に対応する辞書単位に含まれる語である「医院」、「クリニック」、「病院」は、互いに類義語として定義される。また、それぞれの語は、語識別子(term identifier)と対応している。即ち、この例では、「医院」は「001」、「クリニック」は「002」、「病院」は「003」という語識別子と対応しており、ポインタとして外部から参照される。例えば、「医院」という語は、「1D35BF」「001」という単位識別子と語識別子で構成するポインタで参照することができる。
図5は、本発明の好適な実施形態の一例に係る辞書システムにおける単純語のデータ構造を示す図である。単純語は、上述のように、辞書システムにおいて、分割可能な語が辞書に含まれていないために、それ以上分割ができない語である。この例では、単純語「医院」は語識別子「001」をポインタとして識別されることを示している。
図6は、本発明の好適な実施形態の一例に係る辞書システムにおける複合語のデータ構造を示す図である。この例では、単位識別子「59C46B」をポインタとして外部から参照される「複合語」は、「31DB02(002)+FFFFFF(000)+0F87AE(005)」という単位識別子及び語識別子を含んで構成する識別子の配列を含んで定義されている。更に「31DB02」という単位識別子で参照される単純語辞書単位は、更に語識別子「001」で参照される「インシュリン」、更に語識別子「002」で参照される「インスリン」を含んで構成されている。即ちこれらは類義語として定義されている。また、単位識別子「FFFFFF」で参照される未成語文字列配列「非依存型」が定義されている。同様に、単位識別子「0F87AE」で参照される単純語辞書単位は、更に語識別子「004」で参照される「DM」、更に語識別子「005」で参照される「糖尿病」を含んで構成されている。この例では、これらの定義により「インスリン非依存型糖尿病」という語が定義されている。
このようにして、単位識別子「59C46B」で参照される「インスリン非依存型糖尿病」という語には、後述するように「インスリン非依存型DM」、「インシュリン非依存型糖尿病」、「インシュリン非依存型DM」という類義語が存在することが定義され、検索時に検索候補語として使用することができる。
図7は、本発明の好適な実施形態の一例に係る辞書システムにおける辞書の全体構造を示す図である。上述のように、辞書システムは、辞書単位及び未成語文字列配列を含んで構成され、参照用入出力(I/O interface for reference)及び保守用入出力(I/O interface for maintenance)を含んで構成する語解析部(term analyzing module)を含んで構成されている。
この参照用入出力は、この辞書システムが、検索要求語を受け付ける手段と、受け付けた検索要求語から、前記複合語に一致する部分を抽出する手段と、その余の部分から、前記単純語に一致する部分を抽出する手段と、一致した前記複合語を構成する単純語及び一致した単純語がそれぞれ含まれる単純語辞書単位に含まれる全ての単純語を組み合わせて検索候補語を生成する手段と、を構成する。
図8は、本発明の好適な実施形態の一例に係る辞書システムにおける参照を示す図である。上述のように、この例では、「インスリン非依存型糖尿病」という語への参照が示されている。
図22は、本発明の好適な実施形態の一例に係る辞書システムにおける検索処理を示す図である。
まず、端末20の制御部230は、検索要求語の入力を受け付ける(ステップS101)。なお、サーバ10が直接受け付けてもよい。端末20は、通信ネットワーク30を介してサーバ10に当該検索要求語を示すデータを送信する。
次に、サーバ10の制御部130は、受け付けた検索要求語を解析して、記憶部150に記憶された辞書を参照し、複合語に一致する部分を抽出する(ステップS102)。
次に、サーバ10の制御部130は、残りの部分から単純語に一致する部分を抽出する(ステップS103)。
次に、サーバ10の制御部130は、一致した複合語を構成する単純語及び単純語が含まれる単純語辞書単位に含まれる全ての単純語を組み合わせて、検索候補語を生成する(ステップS104)。
次に、サーバ10の制御部130は、検索候補語に基づいて、検索対象の文書(例えばWebサイト60が管理する文書)を検索する(ステップS105)。
例えば、制御部130が、上述のように単位識別子「59C46B」で参照される「インスリン非依存型糖尿病」を検索要求語として入力を受け付けた場合、「インスリン非依存型DM」、「インシュリン非依存型糖尿病」、「インシュリン非依存型DM」という類義語が自動的に検索候補語として生成され、検索対象の文書を検索することができる。更に、これらの単純語の順序を入れ替えたものを、検索候補語として生成してもよい。
或いは、制御部130は、検索要求語が上述の類義語のいずれかの1であった場合に、全て単位識別子「59C46B」を検索要求語とし、被検索文書のうち上述の類義語の部分を全て単位識別子「59C46B」として置き換えて、この単位識別子同士を比較して検索を行ってもよい。或いは、図6に示した例においては、「31DB02+FFFFFF+0F87AE」という単位識別子の配列に置き換えて、この単位識別子同士を比較して検索を行ってもよい。
このように、制御部130は、単位識別子「59C46B」或いは、単位識別子の配列「31DB02+FFFFFF+0F87AE」を介して「インスリン非依存型糖尿病」という複合語を参照することによって、精度を落とすことなく、登録された類義語をカバーする検索を効率的に行うことができる。
また、保守用入出力は、この辞書システムが、単純語又は複合語の新たな関連付けを示すデータの入力を受け付ける手段と、前記新たな関連付けを示された単純語又は複合語が互いに別々の辞書単位を構成している場合に、前記別々の辞書単位を統合(融合)する手段と、複合語同士の新たな関連付けを示すデータの入力を受け付ける手段と、前記新たな関連付けを示された複合語の一部が同一の辞書単位を構成している場合に、その余の部分を構成する単純語又は複合語同士が関連するものと類推して、前記その余の部分を構成する単純語又は複合語を含んで構成する新たな辞書単位を生成する手段と、複数の単純語又は複合語を含んで構成する辞書単位に対する分割を示すデータの入力を受け付ける手段と、受け付けた分割を示すデータに基づいて前記辞書単位を分割する手段と、を構成する。
図9は、本発明の好適な実施形態の一例に係る辞書システムにおける融合を示す図である。この例では、「医院」と「病院」との関連付けを示すデータを受け付けて、それぞれの語が構成する辞書単位「175D0E」及び「3FF82B」を統合(融合)して新たな辞書単位「175D0E」が定義されている。この場合、それぞれの語識別子は新たに振り直される。
図23は、本発明の好適な実施形態の一例に係る辞書システムにおける新たな関連付け処理1を示す図である。
まず、端末20の制御部230は、単純語又は複合語の新たな関連付けを示すデータの入力を受け付ける(ステップS201)。なお、サーバ10が直接受け付けてもよい。端末20は、通信ネットワーク30を介してサーバ10に当該新たな関連付けを示すデータを送信する。
次に、サーバ10の制御部130は、当該受け付けたデータに含まれる各語に基づいて、記憶部150に記憶された辞書を参照し、当該各語が互いに別々の辞書単位を構成しているか否かを判定する(ステップS202)。
次に、サーバ10の制御部130は、ステップS202の判定が真の場合、当該別々の辞書単位を統合する(ステップS203)。図9の例では、「医院」と「病院」がそれぞれ辞書単位「175D0E」と「3FF82B」を構成しているので、双方を新たな辞書単位「175D0E」に統合する。
図10は、本発明の好適な実施形態の一例に係る辞書システムにおける再構成を示す図である。まず再構成(1)の例では、単位識別子「59C46B」に対応付けられた複合語を構成する単純語である「病院」が、単位識別子「175D0E」をポインタとして、更に語識別子「003」をポインタとして参照されている。ここで、この語「病院」を当該辞書単位から削除する場合、もはや「病院」は辞書単位には含まれない語、即ち未成語文字列となるため、この部分を未成語文字列への参照「FFFFFF 000」に置き換える。
また、再構成(2)の例では、上記の例の逆で、元々未成語文字列として参照していた「病院」を新たに辞書単位に登録する際に、それを参照する複合語を含む辞書単位の該当部分も、当該新たに登録した辞書単位への単位識別子をポインタとして参照されるように置き換える。
図11乃至図14及び図21は、本発明の好適な実施形態の一例に係る辞書システムにおいて、検索要求語の入力を受け付けた場合の検索候補語の生成処理の例を示す図である。
まず、図11に示すように、3つの辞書単位にそれぞれ「犬」及び「イヌ」、「猫」及び「ネコ」、並びに「医院」及び「病院」が設定されている場合を考える。
ここで、図12に示すように、検索要求語として「犬猫医院」が与えられた場合、これらを登録語「犬」、「猫」、「医院」に分解する。
次に、図13に示すように、それぞれの登録語(語)が含まれる辞書単位を参照し、「犬」に対して「イヌ」が類義語であること、「猫」に対して「ネコ」が類義語であること、及び「医院」に対して「病院」が類義語であることがわかる。
次に、図21に示すように、これらの類義語の全ての順列を展開する。この例の場合には、2×2×2で8通りに展開されることになる。
次に、図14に示すように、更に、それぞれの順列の順序を入れ替えて完全な候補リストを生成する。
図15乃至図19は、本発明の好適な実施形態の一例に係る辞書システムにおいて、複合語同士の新たな関連付けが与えられた場合の辞書の再構成の処理を示す図である。
更に、図24は、本発明の好適な実施形態の一例に係る辞書システムにおける新たな関連付け処理2(辞書の再構成)を示す図である。
まず、端末20の制御部230は、複合語同士の新たな関連付けを示すデータの入力を受け付ける(ステップS301)。なお、サーバ10が直接受け付けてもよい。端末20は、通信ネットワーク30を介してサーバ10に当該新たな関連付けを示すデータを送信する。
次に、サーバ10の制御部130は、当該受け付けた複合語の一部が同一の辞書単位を構成しているか否かを判定する(ステップS302)。
次に、サーバ10の制御部130は、ステップS302の判定が真の場合、その余の部分を構成する単純語又は複合語を含んで構成する新たな辞書単位を生成する(ステップS303)。以下、具体例を用いて説明する。
図15に示すような辞書に対して、複合語「犬猫医院」及び「動物病院」が関連付けられていることを示すデータを受け付けた場合を考える。
この場合、図16に示すように、これら2つの複合語を登録語「犬」、「猫」、「医院」及び「動物」、「病院」にそれぞれ分解する。
次に、図17に示すように、「医院」と「病院」が同一の辞書単位を構成していることを確認する。
次に、図18に示すように、その余の部分である「犬」、「猫」及び「動物」を図19に示すように、新たな辞書単位を構成すべく登録する。具体的には、「犬猫」と「動物」で構成する辞書単位、「犬猫医院」と「動物病院」で構成する辞書単位を新たに生成して登録する。
図25は、本発明の好適な実施形態の一例に係る辞書システムにおける分割処理を示す図である。
まず、端末20の制御部230は、辞書単位の分割を示すデータの入力を受け付ける(ステップS401)。なお、サーバ10が直接受け付けてもよい。端末20は、通信ネットワーク30を介してサーバ10に当該分割を示すデータを送信する。
次に、サーバ10の制御部130は、当該受け付けた分割を示すデータに基づいて、辞書単位を分割する(ステップS402)。以下具体例を用いて説明する。
図20は、本発明の好適な実施形態の一例に係る辞書システムにおける分割を示す図である。この例では、同一の単位識別子「175D0E」をポインタとして参照される辞書単位を構成する「病院」と「ホスピタル」を分割することを示すデータを受け付ける。
次に、当該分割の対象となる「病院」と「ホスピタル」を含んで構成する新たな辞書単位を生成して登録し、単位識別子「3FF82B」をポインタとして参照する。
図26は、本発明の好適な実施形態の一例に係る辞書システムにおける語と単位識別子の対応を示す図である。
この例では、単位識別子「31DB02」で参照される辞書単位は登録語「インシュリン」及び登録語「インスリン」を含み、単位識別子「0F87AE」で参照される辞書単位は登録語「糖尿病」及び登録語「DM」を含み、単位識別子「1A2B3C」で参照される辞書単位は登録語「非依存型」及び登録語「非依存性」を含む。ここで、新たに、「インスリン非依存型糖尿病」及び「2型糖尿病」を登録語として含む単位識別子「59C46B」で参照される辞書単位を登録すると、前述のように、登録語「2型」と、登録語「インシュリン非依存性」、「インシュリン非依存型」、「インスリン非依存性」、「インスリン非依存型」と、を登録語とする新たな辞書単位が自動的に作成される(図示しない)。この場合、登録語「インスリン非依存型糖尿病」は、「31DB02+1A2B3C+0F87AE」なる単位識別子の配列で置き換えることができる。
図27は、図26の例における文書を構成する語の正規化を示す図である。
この例では、登録語「インシュリン」は単位識別子「31DB02」で置き換えられ、登録語「インシュリン非依存性糖尿病」は単位識別子の配列「31DB02+1A2B3C+0F87AE」で置き換えられ、登録語「2型糖尿病」は単位識別子「59C46B」で置き換えられ、登録語「糖尿病」は、単位識別子「0F87AE」で置き換えられる。このように、単位識別子「59C46B」に登録されている複合語の部分(インスリン、非依存型)が、被検索文書の語(インシュリン、非依存性)に一致しない場合においても、当該複合語を構成する語を含む他の辞書単位(31DB02、1A2B3C)を参照することにより、一意に正規化することができる。
更に、このように、辞書システム1に含まれる登録語をそれぞれ対応する単位識別子で置き換えることにより、被検索文書を構成する語を正規化することができる。このような正規化を行うことにより、登録された類義語を単一の単位識別子で表現することが可能となり、その後の検索処理をこの単位識別子同士の参照・対比により実現することで、精度を落とすことなくより効率的な検索を行うことができる。
この例では、文書1に含まれる登録語「インシュリン非依存性糖尿病」及び文書2に含まれる登録語「2型糖尿病」は、それぞれ単位識別子の配列「31DB02+1A2B3C+0F87AE」及び単位識別子「59C46B」で置き換えられるので、単位識別子「59C46B」で複合語の辞書単位を参照すれば、これらが互いに類義語の関係にあることが確認できる。
なお、この例では、「インシュリン非依存性糖尿病」は「31DB02+1A2B3C+0F87AE」で置き換え、「2型糖尿病」は「59C46B」で置き換えたが、双方とも「31DB02+1A2B3C+0F87AE」で置き換えてもよい。このような正規化を行うと、複合語辞書単位を参照することなく、その後の検索処理において、これらが互いに類義語の関係にあることを確認することができる。また、このような置き換えを行えば、単位識別子「31DB02」で参照される登録語「インシュリン」が登録語「インシュリン非依存性糖尿病」及び登録語「2型糖尿病」に一部一致する関係にあることを単位識別子「31DB02」を介して確認することができる。このことは、仮に登録語「インシュリン」(単位識別子「31DB02」語識別子「001」)が登録語「インスリン」(単位識別子「31DB02」語識別子「002」)であった場合にも、依然として単位識別子「31DB02」で置き換えられるため、類義語であることが確認され、上述の検索精度は保証されることになる。
図28は、本発明の好適な実施形態の一例に係る辞書システムにおける文書を構成する語の正規化処理を示すフローチャートである。
まず、制御部130は、正規化の対象となる文書の入力を受け付ける(ステップS501)。ここで、制御部130は、通信ネットワーク30を介して受け付けてもよいし、ユーザによる入力操作を入力部110が受け付けることにより実施してもよい。
次に、制御部130は、受け付けた被検索文書のうち、辞書システム1に登録された語を構成する複合語に一致する部分を抽出する(ステップS502)。図27の例であれば、制御部130は、登録語である複合語「インシュリン非依存性糖尿病」及び「2型糖尿病」を抽出する。
次に、制御部130は、残りの部分から単純語に一致する部分を抽出する(ステップS503)。図27の例であれば、制御部130は、単純語「インシュリン」及び単純語「糖尿病」を抽出する。
次に、制御部130は、一致した複合語を含む単位識別子及び単純語を含む単位識別子で文書を構成する登録語を正規化して記憶する(ステップS504)。図27の例であれば、登録語「インシュリン」を単位識別子「31DB02」で置き換え、登録語「インシュリン非依存性糖尿病」を単位識別子の配列「31DB02+1A2B3C+0F87AE」で置き換え、登録語「2型糖尿病」を単位識別子「59C46B」で置き換え、登録語「糖尿病」を単位識別子「0F87AE」で置き換えて、正規化する。
図29は、本発明の好適な実施形態の一例に係る辞書システムにおける辞書の再構成処理を示すフローチャートである。
まず、制御部130は、記憶部150に記憶した単純語辞書単位を構成する単純語が、その他の単純語辞書単位を構成する単純語又は複合語辞書単位を構成する複合語を構成する単純語を含んでいるか否かを判断する(ステップS601)。含んでいると判断した場合、制御部130は、当該含んでいる単純語を含んで構成する複合語として記憶する(ステップS602)。
より具体的には、例えば、図30に示すように、単位識別子「A0011」で参照される登録語「末梢神経」及び「末梢神経系」と、単位識別子「B0022」で参照される登録語「神経障害」及び「神経疾患」と、単位識別子「D01」で参照される登録語「神経」を記憶部150が記憶している場合に、制御部130は、登録語「神経」を登録語「末梢神経」、「末梢神経系」、「神経障害」及び「神経疾患」が含んでいるため、単位識別子「A0011」及び単位識別子「B0022」で参照されるこれらの登録語を「複合語」として記憶する。
更に、制御部130は、当該「神経」で分断される語、即ち「抹消」、「系」、「障害」及び「疾患」も単純語として登録してもよい。その結果、図33に示すような登録となる。
従って、「末梢神経障害」が検索語又は被検索語となる場合、始めに単純語のポインタでコード化すると「E02+D01+G04」となり、この中には辞書に登録されている複合語の「E02+D01」及び「D01+G04」があることがわかる。そこで、これらの複合語のポインタで置き換えて、末梢神経障害を次の2種類の検索語、又は索引語とすることが可能である。
E02+D01+G04 → 「A0011+G04」、「E02+B0022」
これらのポインタから登録されている語を展開させることにより、次の検索語、又は索引語を得ることができる。
末梢神経障害、末梢神経系障害、末梢神経疾患
図34は、本発明の好適な実施形態の一例に係る辞書システムにおける一部一致検索処理を示すフローチャートである。
まず、制御部130は、検索要求語の入力を受け付ける(ステップS701)。
次に、制御部130は、当該検索要求語に含まれる複合語又は単純語が構成する辞書単位に含まれる語が検索対象文書に含まれているか否かを判断する(ステップS702)。
含まれていると判断した場合に、制御部130は、一致したと見なす(ステップS703)。
具体的には、記憶部150が、図35に示すような登録語を記憶している場合、検索語「サイトメガロウイルス性肺炎」はX0011+Y0022となる。従って、X0011に登録された語群とY0022に登録された語群のそれぞれを検索することが可能である。これにより「CMVによる急性の肺臓炎」からX0011、Y0022を見つけ出すことができる。
更に、「急性サイトメガロウイルス肺炎」を検索した場合、その全体に一致する被検索語がなくても、「CMV肺臓炎」を部分が一致する文字列として検索することが可能である。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

Claims (9)

  1. 文書を検索するための、或いは、文書を構成する語の正規化のための、辞書システムであって、
    少なくとも1の単純語又は未成語文字配列を含んで構成する単純語辞書単位と、
    前記単純語辞書単位を構成する単純語又は未成語文字配列の1を含んで構成する複合語を示す複合語辞書単位と、
    を記憶する記憶部を備え、
    前記複合語を構成するそれぞれの単純語又は未成語文字配列は、前記単純語辞書単位へのポインタ(単位識別子)、及び前記単純語又は未成語文字配列へのポインタ(語識別子)を介して参照される辞書システム。
  2. 検索要求語の入力を受け付ける手段と、
    受け付けた検索要求語から、前記複合語に一致する部分を抽出する手段と、
    その余の部分から、前記単純語に一致する部分を抽出する手段と、
    一致した前記複合語を構成する単純語及び一致した単純語がそれぞれ含まれる単純語辞書単位に含まれる全ての単純語を組み合わせて検索候補語を生成する手段と、
    生成された検索候補語の属する前記複合語を構成する前記単純語辞書単位へのポインタ(単位識別子)及び、その余の部分の単純語を構成する単純語又は未成語文字配列へのポインタ(語識別子)を正規化して登録する手段と、
    を備える請求項1に記載の辞書システム。
  3. 単純語又は複合語の新たな関連付けを示すデータの入力を受け付ける手段と、
    前記新たな関連付けを示された単純語又は複合語が互いに別々の辞書単位を構成している場合に、同じ単純語辞書単位へのポインタ(単位識別子)を付与して前記別々の辞書単位を統合する手段と、
    前記新たな関連付けを示された単純語又は複合語が互いに同じ辞書単位を構成している場合に、関連付けのない単純語又は複合語とすべく、前記単純語辞書単位へのポインタ(単位識別子)を削除し、未成語文字配列へのポインタ(語識別子)を付与する手段と、
    を更に備える請求項1又は請求項2に記載の辞書システム。
  4. 複合語同士の新たな関連付けを示すデータの入力を受け付ける手段と、
    前記新たな関連付けを示された複合語の一部が同一の辞書単位を構成している場合に、その余の部分を構成する単純語又は複合語同士が関連するものとして類推して、前記その余の部分を構成する単純語又は複合語を含むように、同一の単純語辞書単位へのポインタ(単位識別子)で構成して新たな辞書単位を生成する手段と、を更に備える請求項1から請求項3のいずれか1項に記載の辞書システム。
  5. 複数の単純語又は複合語を含んで構成する辞書単位に対する分割を示すデータの入力を受け付ける手段と、
    受け付けた分割を示すデータに基づいて前記辞書単位を分割する手段と、
    受け付けた分割を示すデータに、分割可能な単純語が含まれていない場合には、当該単純語に対して、前記単純語又は未成語文字配列へのポインタ(語識別子)を付与する手段と、
    を更に備える請求項1から請求項4のいずれか1項に記載の辞書システム。
  6. 前記記憶部に記憶した単純語辞書単位を構成する単純語が、その他の単純語辞書単位を構成する単純語又は複合語辞書単位を構成する複合語を構成する単純語を含んでいる場合に、当該含んでいる単純語を含んで構成する複合語として単純語辞書単位へのポインタ(単位識別子)、及び前記単純語又は未成語文字配列へのポインタ(語識別子)を付して記憶する手段を更に備える請求項1から請求項5のいずれか1項に記載の辞書システム。
  7. 前記検索要求語に含まれる複合語又は単純語が構成する辞書単位に含まれる単純語辞書単位へのポインタ(単位識別子)により特定される単純語のが検索対象文書に含まれている場合に一致したと見なす請求項2に記載の辞書システム。
  8. 辞書システムに、文書の検索、或いは、文書を構成する語の正規化を実行させるプログラムであって、
    前記辞書システムは、少なくとも1の単純語又は未成語文字配列を含んで構成する単純語辞書単位と、
    前記単純語辞書単位を構成する単純語又は未成語文字配列の1を含んで構成する複合語を示す複合語辞書単位と、を記憶する記憶部を備え、
    前記辞書システムに、前記複合語を構成するそれぞれの単純語を、前記単純語辞書単位へのポインタ(単位識別子)、及び前記単純語又は未成語文字配列へのポインタ(語識別子)を介して参照させるステップを実行させるプログラム。
  9. 請求項1に記載の辞書システムを含み、管理対象となる文書を構成する語の正規化を行う文書管理装置。
JP2009546971A 2007-12-26 2008-08-22 辞書システム Active JP5161891B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009546971A JP5161891B2 (ja) 2007-12-26 2008-08-22 辞書システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007334013 2007-12-26
JP2007334013 2007-12-26
PCT/JP2008/065013 WO2009081620A1 (ja) 2007-12-26 2008-08-22 辞書システム
JP2009546971A JP5161891B2 (ja) 2007-12-26 2008-08-22 辞書システム

Publications (2)

Publication Number Publication Date
JPWO2009081620A1 JPWO2009081620A1 (ja) 2011-05-06
JP5161891B2 true JP5161891B2 (ja) 2013-03-13

Family

ID=40800937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009546971A Active JP5161891B2 (ja) 2007-12-26 2008-08-22 辞書システム

Country Status (3)

Country Link
US (1) US20120191746A1 (ja)
JP (1) JP5161891B2 (ja)
WO (1) WO2009081620A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015146169A (ja) * 2014-02-04 2015-08-13 有限会社ティ辞書企画 検索装置、検索方法、及びプログラム
JP2015146171A (ja) * 2014-02-04 2015-08-13 有限会社ティ辞書企画 検索装置、検索方法、及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3041794B1 (fr) * 2015-09-30 2017-10-27 Commissariat Energie Atomique Procede et systeme de recherche d'images similaires quasi-independant de l'echelle de la collection d'images
US12093265B2 (en) * 2021-08-02 2024-09-17 Sap Se Semantics based data and metadata mapping

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02165276A (ja) * 1988-12-20 1990-06-26 Fujitsu Ltd 知識ベース検索方式
JPH0350669A (ja) * 1989-07-19 1991-03-05 Ricoh Co Ltd 情報処理装置
JPH03189870A (ja) * 1989-12-20 1991-08-19 Hitachi Ltd データベースのマッチング方法
JPH04111063A (ja) * 1990-08-31 1992-04-13 Hitachi Ltd 複数文翻訳における訳語選択方法およびこれを用いた機械翻訳システム
JPH06162098A (ja) * 1992-11-24 1994-06-10 Fujitsu Ltd 類義語生成処理方法
JPH10254882A (ja) * 1997-03-11 1998-09-25 Mitsubishi Electric Corp 複合語情報抽出装置および複合語情報抽出方法
JP2002288175A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp 文書の標準化
JP2003167894A (ja) * 2001-11-30 2003-06-13 Mitsubishi Space Software Kk 関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム
US20070088695A1 (en) * 2005-10-14 2007-04-19 Uptodate Inc. Method and apparatus for identifying documents relevant to a search query in a medical information resource

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210868A (en) * 1989-12-20 1993-05-11 Hitachi Ltd. Database system and matching method between databases
US6915254B1 (en) * 1998-07-30 2005-07-05 A-Life Medical, Inc. Automatically assigning medical codes using natural language processing
US7761286B1 (en) * 2005-04-29 2010-07-20 The United States Of America As Represented By The Director, National Security Agency Natural language database searching using morphological query term expansion
US7912864B2 (en) * 2007-09-25 2011-03-22 Oracle International Corp. Retrieving collected data mapped to a base dictionary

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02165276A (ja) * 1988-12-20 1990-06-26 Fujitsu Ltd 知識ベース検索方式
JPH0350669A (ja) * 1989-07-19 1991-03-05 Ricoh Co Ltd 情報処理装置
JPH03189870A (ja) * 1989-12-20 1991-08-19 Hitachi Ltd データベースのマッチング方法
JPH04111063A (ja) * 1990-08-31 1992-04-13 Hitachi Ltd 複数文翻訳における訳語選択方法およびこれを用いた機械翻訳システム
JPH06162098A (ja) * 1992-11-24 1994-06-10 Fujitsu Ltd 類義語生成処理方法
JPH10254882A (ja) * 1997-03-11 1998-09-25 Mitsubishi Electric Corp 複合語情報抽出装置および複合語情報抽出方法
JP2002288175A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp 文書の標準化
JP2003167894A (ja) * 2001-11-30 2003-06-13 Mitsubishi Space Software Kk 関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム
US20070088695A1 (en) * 2005-10-14 2007-04-19 Uptodate Inc. Method and apparatus for identifying documents relevant to a search query in a medical information resource

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200501179003; 田代朋子: '医薬系シソーラス辞書「T辞書」の構造と特徴' オンライン検索 第25巻,第3/4号, 2004, p.197-205, 日本端末研究会 *
JPN6012043641; 田代朋子: '医薬系シソーラス辞書「T辞書」の構造と特徴' オンライン検索 第25巻,第3/4号, 2004, p.197-205, 日本端末研究会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015146169A (ja) * 2014-02-04 2015-08-13 有限会社ティ辞書企画 検索装置、検索方法、及びプログラム
JP2015146171A (ja) * 2014-02-04 2015-08-13 有限会社ティ辞書企画 検索装置、検索方法、及びプログラム
WO2015119171A1 (ja) * 2014-02-04 2015-08-13 有限会社ティ辞書企画 検索装置、検索方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2009081620A1 (ja) 2011-05-06
WO2009081620A1 (ja) 2009-07-02
US20120191746A1 (en) 2012-07-26

Similar Documents

Publication Publication Date Title
US7593927B2 (en) Unstructured data in a mining model language
US7584188B2 (en) System and method for searching and matching data having ideogrammatic content
CN112860727B (zh) 基于大数据查询引擎的数据查询方法、装置、设备及介质
EP1473639A1 (en) Document knowledge management apparatus and method
US20020173986A1 (en) Automatic categorization of financial transactions
EP2891075A1 (en) Contextually blind data conversion using indexed string matching
KR20130108503A (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
CN111858567A (zh) 一种通过标准数据元进行政务数据清洗的方法和系统
CN1815477A (zh) 用于提供基于标记语言的限定词的方法和系统
US6219664B1 (en) Search method and system using syntactic information
JP5161891B2 (ja) 辞書システム
US20090210787A1 (en) Document data managing method, managing system, and computer software
JPWO2020245887A1 (ja) 文章生成装置、文章生成方法、および文章生成プログラム
KR100797041B1 (ko) 분류된 웹 사이트 검색 시스템 및 방법
CN110309214B (zh) 一种指令执行方法及其设备、存储介质、服务器
US20210295031A1 (en) Automated classification and interpretation of life science documents
CN104298676A (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
KR20040048548A (ko) 지능형 데이터베이스 및 검색 편집 프로그램을 통한사용자 맞춤 검색 방법 및 시스템
JP7685921B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
JP4362492B2 (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP2022190845A (ja) エンティティとインテントとコーパスの自動生成装置及びプログラム
US20220254449A1 (en) Biological information handling
CN113519029A (zh) 生物测序
US20250363310A1 (en) Techniques for training and validating an optimized machine learning model
US20240152522A1 (en) Data set semantic similarity clustering

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121214

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5161891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250