[go: up one dir, main page]

JP2008197976A - 連結情報生成プログラム及び連結情報生成方法 - Google Patents

連結情報生成プログラム及び連結情報生成方法 Download PDF

Info

Publication number
JP2008197976A
JP2008197976A JP2007033424A JP2007033424A JP2008197976A JP 2008197976 A JP2008197976 A JP 2008197976A JP 2007033424 A JP2007033424 A JP 2007033424A JP 2007033424 A JP2007033424 A JP 2007033424A JP 2008197976 A JP2008197976 A JP 2008197976A
Authority
JP
Japan
Prior art keywords
similarity
field
database
name
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007033424A
Other languages
English (en)
Inventor
Tadashi Hoshiai
忠 星合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007033424A priority Critical patent/JP2008197976A/ja
Publication of JP2008197976A publication Critical patent/JP2008197976A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】三つ以上のデータベーステーブルを連結するための連結情報が生成できるようにすること。
【解決手段】データベース連結装置20は、操作者から、連結対象として選択したデータベーステーブル11、12、13、…のURLやパスを受け付けると(ステップS101)、それらデータベーステーブルのフィールド名のそれぞれについて、そのフィールド名とそれ以外の比較対象フィールド名と双方のフィールド名の類似度とを対応付けた連結情報が記録された対応テーブル71を、生成する(ステップS104〜S113)。
【選択図】図11

Description

本発明は、複数のデータベーステーブルを連結するための連結情報を生成するためのプログラム及び方法に、関する。
周知のように、多くの企業は、商品に関する情報や顧客に関する情報を、データベースにおいて管理している。そして、この種の企業同士が合併したり業務提携したりすることにより、互いのデータベースを相互利用しようとする場合に、それらデータベースのデータベーステーブルが連結されることがある。
複数のデータベーステーブルを連結する場合、各データベーステーブルに共通するフィールドを探し出す必要がある。ここで、各データベーステーブルのレコードが、互いに同じフィールド名のフィールドを有していれば、各データベーステーブルを連結することは簡単である。しかし、例えば、顧客名が事実上記録されているフィールドが各データベーステーブルに存在しているにも拘わらず、そのフィールド名が利用者名や登録者名のように、データベーステーブルによって異なることがある。このため、複数のデータベーステーブルを連結することは、現実的には、簡単ではない。
なお、二つのデータベーステーブルにおいて、フィールド名が互いに実質的に共通するフィールドを探し出す技術は、特許文献1において開示されている。
特開2005−063332号公報
しかしながら、前述した特許文献1に係る技術は、実質的に共通するフィールド名同士を対応付ける連結情報が、二つのデータベーステーブルを連結するためだけの連結情報となっており、三つ以上のデータベーステーブルを連結するための連結情報を生成する技術は、存在していない。
本発明は、前述した従来の事情に鑑みてなされたものであり、その課題は、三つ以上のデータベーステーブルを連結するための連結情報が生成できるようにすることにある。
上記の課題を解決するための案出された連結情報生成プログラムは、コンピュータを、幾つかのフィールドを有する複数のレコードを記憶する複数のデータベーステーブルの中から選択された幾つかのデータベーステーブルを特定する選択情報を、操作者から入力装置を通じて受け付ける選択受付手段,その選択受付手段が受け付けた選択情報により特定される全てのデータベーステーブルのそれぞれについて、そのデータベーステーブルの各フィールド名を特徴付ける語句の集合である特徴語セットを、各フィールドの値に基づいて生成する特徴語セット生成手段,その特徴語セット生成手段が生成した全ての特徴語セットのそれぞれについて、特徴ベクトルを生成する特徴ベクトル生成手段,選択受付手段が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名に対するそれ以外の残りの比較対象フィールド名の類似度を、特徴ベクトル生成手段が生成した特徴ベクトルに基づいて算出する処理、及び、そのフィールド名に対応する類似度テーブルに比較対象フィールド名と類似度とを対応付けて記録する処理を行う類似度生成手段,及び、受付手段が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名とそれ以外の比較対象フィールド名と双方のフィールド名の類似度とを対応付けた連結情報を、記憶装置内の対応テーブルに記録する記録手段として機能させることを、特徴としている。
このように構成されると、コンピュータは、操作者が連結対象として幾つかのデータベーステーブルを選択した場合に、それらデータベーステーブルのフィールド名のそれぞれについて、そのフィールド名とそれ以外の比較対象フィールド名と双方のフィールド名の類似度とを対応付けた連結情報が記録された対応テーブルを、生成する。この対応テーブルに記録された連結情報には、双方のフィールド名の類似度が含まれているため、操作者は、類似度の高いフィールド名同士を、実質的に共通するフィールド名として把握することができる。
従って、本発明によれば、三つ以上のデータベーステーブルを連結するための連結情報が生成できるようになる。
以下、添付図面を参照しながら、本発明を実施するための最良の形態について、説明する。
図1は、三台以上のデータベース装置10と本実施形態のデータベース連結装置20とからなるコンピュータネットワークシステムの構成図である。
何れのデータベース装置10とも、データベース機能が付加された汎用コンピュータであり、ネットワークを介してデータベース連結装置20に通信自在に接続されている。従って、これらデータベース装置10は、図示していないが、少なくとも、ストレージ、CPU[Central Processing Unit]、メモリ、及び、通信アダプタを、内蔵している。なお、ストレージは、プログラムやデータを記憶しておくための記憶装置である。CPUは、そのストレージ内のプログラムに従って処理を実行する処理装置である。メモリは、CPUが読み出したプログラムやデータがキャッシュされたりCPUの作業領域が展開されたりする記憶装置である。通信アダプタは、他のコンピュータとの間でデータの遣り取りをするための通信装置である。そして、何れのデータベース装置10とも、データベース機能を実現するため、そのストレージに、レコードが蓄積されたデータベーステーブル11,12,13,…と、与えられた検索条件を用いてそのデータベーステーブルを検索するためのプログラムとを、記憶している。
図2は、このデータベース連結装置20の構成図である。
データベース連結装置20は、データベース連結機能が付加されたパーソナルコンピュータである。従って、データベース連結装置20は、液晶ディスプレイ等の表示装置20aと、キーボードやマウス等の入力装置20bと、これら装置20a,20bに接続された本体とからなる。また、その本体は、少なくとも、ストレージ20c、CPU20d、メモリ20e、及び、通信アダプタ20fを、内蔵している。そして、このデータベース連結装置20は、データベース連結機能を実現するため、そのストレージ20cに、データベース連結ツール21を、記憶している。このデータベース連結ツール21は、複数のデータベースを連結するための連結情報を生成するためのプログラムである。このデータベース連結ツール21は、入力装置20bを通じて操作者からの実行指示を受けたCPU20dにより、実行される。
図3及び図4は、データベース連結ツール21による処理の流れを示す図である。
データベース連結ツール21の実行開始後、最初のステップS101において、CPU20dは、連結対象となるデータベーステーブル11,12,13,…の指定を、入力装置20bを通じて操作者から受け付ける。具体的には、CPU20dは、データベーステーブル11,12,13,…のURL[Uniform Resource Locator]やパスを入力するための入力欄を含む画面を表示装置20aに表示し、その入力欄に入力されたURLやパスを取得することにより、連結対象として操作者に選択されたデータベーステーブル11,12,13,…の指定を受け付ける。
なお、このステップS101を実行するCPU20dは、前述した選択受付手段に相当する。
次のステップS102では、CPU20dは、ステップS101で連結対象として指定された全てのデータベーステーブル11,12,13,…の各フィールド名の中から同一又は類似のフィールド名を抽出するときの抽出条件を、入力装置20bを通じて操作者から受け付ける。なお、ここで受け付けられる抽出条件には、「類似度閾値」及び「順位閾値」がある。このうち、また、「類似度閾値」は、互いに類似していると判断すべきフィールド名同士の類似度(後述)の下限値である。「順位閾値」とは、連結対象として指定された全てのデータベーステーブルの全フィールドの名称のうち、或るフィールド名を処理対象とした場合において、その処理対象フィールド名以外の残りの全てのフィールド名を、処理対象フィールド名に対する類似度の高さの順に並べたときに、処理対象フィールド名に類似していると判断すべきフィールド名の順番の下限値を言う。CPU20dは、これら「類似度閾値」及び「順位閾値」を入力するための入力欄を含む画面を表示装置20aに表示し、その入力欄に入力された類似度閾値及び順位閾値を取得することにより、操作者から抽出条件を受け付ける。
なお、このステップS102を実行するCPU20dは、類似度閾値受付手段及び順位閾値受付手段に相当する。
次のステップS103では、CPU20dは、連結対象として指定された全てのデータベーステーブルの全フィールドの名称のうち、或るフィールド名を処理対象とした場合において、その処理対象フィールド名と同一又は類似である否かが判断される比較対象の中に、処理対象フィールド名と同じデータベーステーブル内のフィールド名を含めるか否かの指定を、入力装置20bを通じて操作者から受け付ける。具体的には、CPU20dは、同一データベーステーブル内のフィールド名も比較対象とするか否かを指定する指定情報を入力するための入力欄を含む画面を表示装置20aに表示し、その入力欄に入力された指定情報を通じて、同一データベーステーブル内のフィールド名も比較対象とするか否かの指定を受け付ける。
なお、このステップS103を実行するCPU20dは、指定受付手段に相当する。
このステップS103の後、CPU20dは、第1の処理ループL1を実行する。第1の処理ループL1では、CPU20dは、ステップS101で受け付けた指定により特定される全てのデータベーステーブルのそれぞれについて、順に、ステップS104を実行する。
ステップS104では、CPU20dは、処理対象データベーステーブルのオブジェクト化を実行する。ここで、データベーステーブルのオブジェクト化について説明する。
図5は、データベーステーブル11のデータ構造の一例を示す図である。また、図6は、図5のデータベーステーブル11から生成したオブジェクト31,34及びテーブル32,33,35の構造の一例を示す図である。
図5に示すように、データベーステーブル11の各レコードは、フィールド名が従業員番号、氏名、住所、…である複数のフィールドを、有している。CPU20dは、このデータベーステーブル11から、基底クラスオブジェクト31、プロパティ名リストテーブル32、インスタンスリストテーブル33、複数のインスタンスオブジェクト34、及び、複数のプロパティ値リストテーブル35を生成する。
この基底クラスオブジェクト31は、データベーステーブル11のテーブル名を、クラス名として持つ。また、この基底クラスオブジェクト31は、プロパティ名リストテーブル32のポインタと、インスタンスリストテーブル33のポインタとを、持っている。
プロパティ名リストテーブル32は、データベーステーブル11内のレコードが有するフィールドと同数のレコードを、有している。各レコードは、データベーステーブル11内のレコードが有する各フィールドの名称を一意に特定するための番号が記録される「番号」フィールドと、そのフィールド名がプロパティ名として記録される「プロパティ名」フィールドとを、有している。
インスタンスリストテーブル33は、データベーステーブル11と同数のレコードを、有している。各レコードは、各インスタンスオブジェクト34を一意に特定するための番号が記録される「番号」フィールドと、それらインスタンスオブジェクト34のポインタが記録される「インスタンス」フィールドとを、有している。
インスタンスオブジェクト34は、インスタンスを一意に特定するためのインスタンスIDと、プロパティ値リストテーブル35のポインタとを持つ。このインスタンスオブジェクト34とプロパティ値リストテーブル35は、データベーステーブル11の一レコードにつき、一つ生成される。従って、インスタンスオブジェクト34とプロパティ値リストテーブル35は、データベーステーブル11のレコードと同数生成される。
プロパティ値リストテーブル35は、データベーステーブル11の一レコードのフィールド数と同数のレコードを、有している。各レコードは、データベーステーブル11内の対応するレコードにおける各フィールドの値を一意に特定するための番号が記録されるフィールドと、その対応レコードの各フィールドの値が記録されるフィールドとを、有している。
なお、処理対象のデータベーステーブルから生成されるオブジェクト31,34及びテーブル32,33,35は、一つの情報体系を構成する。
CPU20dは、ステップS101で受け付けた指定により特定される全てのデータベーステーブルのそれぞれについて、図6に示すようなオブジェクトを生成した後、第1の処理ループL1から離脱し、図3のステップS105へ処理を進める。
ステップS105では、CPU20dは、統合クラスオブジェクトを生成する。
図7は、統合クラスオブジェクト41の構造の一例を示す図である。
図7に示すように、統合クラスオブジェクト41は、クラス名を持つが、インスタンスリストテーブルのポインタと、プロパティ名リストテーブルのポインタは、持っていない。なお、このクラス名は、ステップS104で生成された全ての情報体系を連結してなる総合的な情報体系の名称である。CPU20dは、この統合クラスオブジェクト41を生成した後、この統合クラスオブジェクト41のクラス名を、ステップS104で生成された各基底クラスオブジェクト31の上位クラスのクラス名として、これら基底クラスオブジェクト31のそれぞれに格納する。なお、このように各情報体系を統合クラスオブジェクト41に関連付けただけでは、各情報体系は、互いに連結されたことにはならない。後述の対応テーブル71が生成されることにより、各情報体系は、互いに連結されたこととなる。
次のステップS106(図3)では、CPU20dは、依存情報管理オブジェクトを生成する。依存情報オブジェクトは、互いに関連付ける前の各情報体系(それらの基は、各データベーステーブル11、12、13、…)と、互いに関連付けた後の総合的な情報体系との関係を管理するためのオブジェクトである。
図8は、依存情報管理オブジェクト51の構造の一例を示す図である。
図8に示すように、依存情報管理オブジェクト51は、総合的な情報体系の名称として、図7の統合クラスオブジェクト41のクラス名と同じクラス名を、持っている。また、依存情報管理オブジェクト51は、連結前情報体系名リストテーブル52のポインタを持つ。その連結前情報体系名リストテーブル52は、ステップS101で受け付けた指定により特定される全てのデータベーステーブルと同数のレコードを、有している。各レコードは、各データベーステーブルを一意に特定するための番号が記録される「番号」フィールドと、各データベーステーブルを管理するための連結前情報体系オブジェクト53のポインタが記録される「連結前情報体系」フィールドとを、有している。連結前情報体系オブジェクト53は、各データベーステーブルのテーブル名(すなわち基底クラスオブジェクト31のクラス名)を、クラス名として持つとともに、基底クラスオブジェクト31へのポインタを持つ。
次のステップS107(図3)では、CPU20dは、ステップS105で互いに関連付けられた各情報体系における全てのプロパティ名(すなわち、ステップS101で受け付けた指定により特定される全てのデータベーステーブルの全てのフィールド名)について、特徴語セットを生成する。特徴語セットとは、或る語句を特徴付ける語句の集合を言う。すなわち、CPU20dは、或るデータベーステーブル内の或るフィールド名について、そのフィールド名を特徴付ける語句を、各レコードにおけるそのフィールドの値の中から抽出し、抽出した語句を、特徴語セットとして、図6のプロパティ名リストテーブル32の対応するプロパティ名に対応付けて、保存する。なお、図9には、「氏名」フィールド、「名前」フィールド、及び、「社員名」のフィールド名についてそれぞれ生成された特徴語セットが、示されている。なお、特徴語セットの生成方法については、様々なものが案出され、開示されているので、ここでは、説明しない。
なお、このステップS107を実行するCPU20dは、前述した特徴語セット生成手段に相当する。
次のステップS108(図3)では、CPU20dは、ステップS105で互いに関連付けられた各情報体系における全てのプロパティ名(すなわち、ステップS101で受け付けた指定により特定される全てのデータベーステーブルの全てのフィールド名)のそれぞれについて、そのプロパティ名に対応付けられた特徴語セットに基づいて、特徴ベクトルを生成する。なお、特徴語セットから特徴ベクトルを生成する方法については、様々なものが案出され、開示されているので、ここでは、説明しない。
なお、このステップS108を実行するCPU20dは、前述した特徴ベクトル生成手段に相当する。
CPU20dは、特徴語セット及び特徴ベクトルの生成を終えた後、第2の処理ループL2を実行する。第2の処理ループL2では、CPU20dは、ステップS104で生成された全てのプロパティ名リストテーブル内の全てのプロパティ名(全てのフィールド名)のそれぞれについて、一つずつ、順に、ステップS109を実行する。
ステップS109では、CPU20dは、処理対象プロパティ名について、処理対象プロパティオブジェクト及び類似度テーブルを、生成する。
図10は、処理対象プロパティオブジェクト61及び類似度テーブル62のデータ構造の一例を示す図である。
処理対象プロパティオブジェクト61は、処理対象プロパティ名とそれに関連する類似度テーブル62とを結びつけるためのオブジェクトである。この処理対象プロパティオブジェクト61は、処理対象のプロパティ名を持つとともに、そのプロパティ名に関連する類似度テーブル62のポインタを持っている。
類似度テーブル62は、処理対象プロパティ名に対するその処理対象プロパティ名以外の全てのプロパティ名の類似度を、記録しておくためのテーブルである。この類似度テーブル62は、処理対象プロパティ名以外の全てのプロパティ名と同数のレコードを、有している。各レコードは、「類似プロパティ名」、「類似度」及び「順位」の各フィールドを、有している。「類似プロパティ名」フィールドは、処理対象プロパティ名の比較対象であるプロパティ名が記録されるフィールドである。「類似度」フィールドは、そのプロパティ名の特徴ベクトルと処理対象プロパティ名の特徴ベクトルとの間の距離が類似度として記録されるフィールドである。「順位」フィールドは、処理対象プロパティ名以外の全てのプロパティ名を類似度の高い順に並べた場合におけるそのプロパティ名の順位が記録されるフィールドである。なお、一対の情報要素が持つ特徴ベクトル同士の間の距離に基づいて情報要素間の類似度を求める方法については、特開2005−63332号公報に開示されている。
CPU20dは、ステップS104で生成された全てのプロパティ名リストテーブル32内の全てのプロパティ名(すなわち、ステップS101で受け付けた指定により特定される全てのデータベーステーブルの全てのフィールド名)のそれぞれについて、処理対象プロパティオブジェクト61及び類似度テーブル62を生成した後、第2の処理ループL2から離脱し、図4のステップS110へ処理を進める。
ステップS110では、CPU20dは、ステップS103で受け付けた指定が、処理対象プロパティ名と同一の情報体系(データベーステーブル)のプロパティ名(フィールド名)を比較対象に含めることを示すものであるか否かを、判別する。そして、ステップS103で受け付けた指定が、処理対象プロパティ名と同一の情報体系のプロパティ名を比較対象に含めることを示すものであった場合、CPU20dは、ステップS110からステップS112へ処理を分岐させる。一方、ステップS103で受け付けた指定が、処理対象プロパティ名と同一の情報体系のプロパティ名を比較対象に含めることを示すものでなかった場合、CPU20dは、ステップS111へ処理を進める。
ステップS111では、CPU20dは、ステップS104で生成された全てのプロパティ名リストテーブル32内の全てのプロパティ名(すなわち、ステップS101で受け付けた指定により特定される全てのデータベーステーブルの全てのフィールド名)のそれぞれについて、そのプロパティ名の類似度テーブル62から、同一情報体系に含まれるプロパティ名のレコードを削除する。なお、或るプロパティ名とそれの比較対象であるプロパティ名とが同一情報体系に含まれるか否かは、ステップS104で生成された全てのプロパティ名リストテーブル32のうち、二つのプロパティ名を含むプロパティ名リストテーブル32が存在するか否かにより、判断される。
CPU20dは、全てのプロパティ名のそれぞれについて、類似度テーブル62から同一情報体系のプロパティ名を含むレコードを削除する処理を行った後、ステップS112へ処理を進める。
ステップS112では、CPU20dは、全てのプロパティ名に対応する類似度テーブルから、ステップS102で受け付けた抽出条件(類似度閾値及び順位閾値)に合致しないレコードを、除去する。例えば、操作者により、類似度閾値及び順位閾値が、0.7及び3と設定された場合、各類似度テーブル62からは、類似度が0.7未満、又は、順位が4位以下のレコードが、除去されることとなる。
なお、これらステップS109乃至S112を実行するCPU20dは、前述した類似度生成手段に相当する。
次のステップS113では、CPU20dは、対応テーブル71を生成する。対応テーブル71は、全ての類似度テーブル62を統合したテーブルである。
図11は、対応テーブル71のデータ構造の一例を示す図である。
図11に示すように、対応テーブル71の各レコードは、「番号」、「テーブル名1」、「フィールド名1」、「類似度」、「フィールド名2」及び「テーブル名2」の各フィールドを、有している。「番号」フィールドは、各レコードを一意に識別するための番号が記録されるフィールドである。「テーブル名1」フィールドは、類似度テーブル62に対応付けられているプロパティ名(フィールド名)を含む情報体系(データベーステーブル)のクラス名(基底クラスオブジェクト31がクラス名として持つテーブル名)が記録されるフィールドである。「フィールド名1」フィールドは、類似度テーブル62に対応付けられているプロパティ名(フィールド名)が記録されるフィールドである。「フィールド名2」及び「類似度」の各フィールドは、「フィールド名1」フィールド内のプロパティ名に対応付けられている類似度テーブル62における「類似プロパティ名」及び「類似度」フィールド内の値(プロパティ名及び類似度)がそれぞれ記録されるフィールドである。「テーブル名2」フィールドは、「フィールド名2」フィールド内の値(プロパティ名)を含む情報体系(データベーステーブル)のクラス名(基底クラスオブジェクト31がクラス名として持つテーブル名)が記録されるフィールドである。
CPU20dは、全ての類似度テーブル62に基づいて、図11の対応テーブルを生成した後、図3及び図4に係る処理を終了する。
なお、このステップS113を実行するCPU20dは、前述した記録手段に相当する。
次に、本実施形態のデータベース連結装置20の作用及び効果について説明する。
操作者が、入力装置20bを通じて、データベース連結ツール21を実行すると、データベーステーブル11、12、13、…のURLやパスを入力するための入力欄を含む画面(図示略)が、表示装置20aに表示される(ステップS101)。操作者は、任意のデータベーステーブルを幾つか選択して、それらのURL及びパスをその入力欄に入力して、図示せぬ決定ボタンをクリックする。すると、抽出条件を入力するための入力欄を含む画面(図示略)が、表示装置20aに表示される(ステップS102)。操作者は、類似度閾値及び順位閾値として選択した値をその入力欄に入力して、図示せぬ決定ボタンをクリックする。すると、同一データベーステーブル内に含まれるフィールド名同士の比較を行うか否かを指定する指定情報を入力するための入力欄を含む画面(図示略)が、表示装置20aに表示される(ステップS103)。操作者は、指定情報をその入力欄に入力して、図示せぬ決定ボタンをクリックする。すると、操作者が選択した幾つかのデータベーステーブルを連結するための対応テーブル71が、データベース連結装置20によって、生成される(ステップS104〜S113)。
この生成された対応テーブル71には、フィールド名と比較対象のフィールド名と双方のフィールド名の類似度とを対応付けたレコードが、連結情報として、記録されている。この連結情報には、双方のフィールド名の類似度が含まれているため、操作者は、類似度の高いフィールド名同士を、実質的に共通するフィールド名として把握することができる。
また、類似度閾値が設定されている場合には、この対応テーブル71には、その類似度閾値以上を持つ連結情報のみが、記録される(ステップS109)。従って、操作者は、類似度閾値を適宜設定しておけば、類似度が閾値未満の連結情報を対応テーブル71から事前に除去しておくことができる。
また、順位閾値が設定されている場合には、この対応テーブル71には、各類似度テーブル62においてその順位閾値以上の連結情報のみが、記録される(ステップS109)。従って、操作者は、順位度閾値を適宜設定しておけば、各類似度テーブル62での順位が閾値未満の連結情報を、対応テーブル71から事前に除去しておくことができる。
さらに、同一データベーステーブル内に含まれるフィールド名同士の比較を行わないよう指定されていた場合には、各類似度テーブル62からは、その類似度テーブル62に対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名のレコードが、除去される(ステップS110;YES,S111)。従って、操作者は、このような指定を事前に行っておけば、同じデータベーステーブルに属するフィールド名同士の連結情報を対応テーブル71から事前に除去しておくことができる。
逆に、同一データベーステーブル内に含まれるフィールド名同士の比較を行うよう指定されていた場合には、各類似度テーブル62からは、その類似度テーブル62に対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名のレコードは、残されたままとなる(ステップS110;NO)。従って、操作者は、このような指定を事前に行っておけば、同じデータベーステーブルに属するフィールド名同士の連結情報をも対応テーブル71に抽出させることができる。
(付記1)
コンピュータを、
幾つかのフィールドを有する複数のレコードを記憶する複数のデータベーステーブルの中から選択された幾つかのデータベーステーブルを特定する選択情報を、操作者から入力装置を通じて受け付ける選択受付手段,
前記選択受付手段が受け付けた選択情報により特定される全てのデータベーステーブルのそれぞれについて、そのデータベーステーブルの各フィールド名を特徴付ける語句の集合である特徴語セットを、各フィールドの値に基づいて生成する特徴語セット生成手段,
前記特徴語セット生成手段が生成した全ての特徴語セットのそれぞれについて、特徴ベクトルを生成する特徴ベクトル生成手段,
前記選択受付手段が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名に対するそれ以外の残りの比較対象フィールド名の類似度を、前記特徴ベクトル生成手段が生成した特徴ベクトルに基づいて算出する処理、及び、そのフィールド名に対応する類似度テーブルに比較対象フィールド名と類似度とを対応付けて記録する処理を行う類似度生成手段,及び、
前記選択受付手段が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名とそれ以外の比較対象フィールド名と双方のフィールド名の類似度とを対応付けた連結情報を、記憶装置内の対応テーブルに記録する記録手段
として機能させる
ことを特徴とする連結情報生成プログラム。
(付記2)
前記コンピュータを、更に、
前記類似度の下限値を特定する類似度閾値情報を、操作者から入力装置を通じて受け付ける類似度閾値受付手段
として機能させるとともに、
前記類似度生成手段は、全てのフィールド名のそれぞれについて類似度テーブルを生成した後、それら類似度テーブルから、前記類似度閾値受付手段が受け付けた類似度閾値情報にて特定される類似度の下限値を下回るレコードを、削除する
ことを特徴とする付記1記載の連結情報生成プログラム。
(付記3)
前記コンピュータを、更に、
前記各類似度テーブル内において類似度の高さの順番にレコードを並べ替えた場合におけるその順番の下限値を特定する順位閾値情報を、操作者から入力装置を通じて受け付ける順位閾値受付手段
として機能させるとともに、
前記類似度生成手段は、全てのフィールド名のそれぞれについて類似度テーブルを生成した後、それら類似度テーブル内のレコードを、類似度の高さの順番に並べ替え、更に、前記順位閾値受付手段が受け付けた順位閾値情報にて特定される順位の下限値を下回るレコードを、削除する
ことを特徴とする付記1又は2記載の連結情報生成プログラム。
(付記4)
前記コンピュータを、更に、
前記類似度テーブルに対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名をその類似度テーブルに記録すべきか否かを指定する指定情報を、操作者から入力装置を通じて受け付ける指定受付手段
として機能させるとともに、
前記類似度生成手段は、前記指定受付手段が受け付けた指定情報が、前記類似度テーブルに対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名をその類似度テーブルに記録しないことを指定するものであった場合において、前記選択受付手段が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて類似度テーブルを作成するときには、その類似度テーブルに対応するフィールド名と異なるデータベーステーブルに属する比較対象フィールド名と類似度とだけを、その類似度テーブルに記録する
ことを特徴とする付記1,2又は3記載の連結情報生成プログラム。
(付記5)
コンピュータが、
幾つかのフィールドを有する複数のレコードを記憶する複数のデータベーステーブルの中から選択された幾つかのデータベーステーブルを特定する選択情報を、操作者から入力装置を通じて受け付ける選択受付手順,
前記選択受付手順において受け付けた選択情報により特定される全てのデータベーステーブルのそれぞれについて、そのデータベーステーブルの各フィールド名を特徴付ける語句の集合である特徴語セットを、各フィールドの値に基づいて生成する特徴語セット生成手順,
前記特徴語セット生成手順において生成した全ての特徴語セットのそれぞれについて、特徴ベクトルを生成する特徴ベクトル生成手順,
前記選択受付手順において受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名に対するそれ以外の残りの比較対象フィールド名の類似度を、前記特徴ベクトル生成手順で生成した特徴ベクトルに基づいて算出する処理、及び、そのフィールド名に対応する類似度テーブルに比較対象フィールド名と類似度とを対応付けて記録する処理を行う類似度生成手順,及び、
前記選択受付手順において受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名とそれ以外の比較対象フィールド名と双方のフィールド名の類似度とを対応付けた連結情報を、記憶装置内の対応テーブルに記録する記録手順
を実行する
ことを特徴とする連結情報生成方法。
(付記6)
前記コンピュータが、更に、
前記類似度の下限値を特定する類似度閾値情報を、操作者から入力装置を通じて受け付ける類似度閾値受付手順
を実行するとともに、
前記類似度生成手順において、全てのフィールド名のそれぞれについて類似度テーブルを生成した後、それら類似度テーブルから、前記類似度閾値受付手段が受け付けた類似度閾値情報にて特定される類似度の下限値を下回るレコードを、削除する
ことを特徴とする付記5記載の連結情報生成方法。
(付記7)
前記コンピュータが、更に、
前記各類似度テーブル内において類似度の高さの順番にレコードを並べ替えた場合におけるその順番の下限値を特定する順位閾値情報を、操作者から入力装置を通じて受け付ける順位閾値受付手順
を実行するとともに、
前記類似度生成手順において、全てのフィールド名のそれぞれについて類似度テーブルを生成した後、それら類似度テーブル内のレコードを、類似度の高さの順番に並べ替え、更に、前記順位閾値受付手順で受け付けた順位閾値情報にて特定される順位の下限値を下回るレコードを、削除する
ことを特徴とする付記5又は6記載の連結情報生成方法。
(付記8)
前記コンピュータが、更に、
前記類似度テーブルに対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名をその類似度テーブルに記録すべきか否かを指定する指定情報を、操作者から入力装置を通じて受け付ける指定受付手順
を実行するとともに、
前記類似度生成手順において、前記指定受付手順で受け付けた指定情報が、前記類似度テーブルに対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名をその類似度テーブルに記録しないことを指定するものであった場合において、前記選択受付手順で受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて類似度テーブルを作成するときには、その類似度テーブルに対応するフィールド名と異なるデータベーステーブルに属する比較対象フィールド名と類似度とだけを、その類似度テーブルに記録する
ことを特徴とする付記5,6又は7記載の連結情報生成方法。
(付記9)
幾つかのフィールドを有する複数のレコードを記憶する複数のデータベーステーブルの中から選択された幾つかのデータベーステーブルを特定する選択情報を、操作者から入力装置を通じて受け付ける選択受付部,
前記選択受付部が受け付けた選択情報により特定される全てのデータベーステーブルのそれぞれについて、そのデータベーステーブルの各フィールド名を特徴付ける語句の集合である特徴語セットを、各フィールドの値に基づいて生成する特徴語セット生成部,
前記特徴語セット生成部が生成した全ての特徴語セットのそれぞれについて、特徴ベクトルを生成する特徴ベクトル生成部,
前記選択受付部が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名に対するそれ以外の残りの比較対象フィールド名の類似度を、前記特徴ベクトル生成部が生成した特徴ベクトルに基づいて算出する処理、及び、そのフィールド名に対応する類似度テーブルに比較対象フィールド名と類似度とを対応付けて記録する処理を行う類似度生成部,及び、
前記選択受付部が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名とそれ以外の比較対象フィールド名と双方のフィールド名の類似度とを対応付けた連結情報を、記憶装置内の対応テーブルに記録する記録部
を備えることを特徴とする連結情報生成装置。
(付記10)
前記類似度の下限値を特定する類似度閾値情報を、操作者から入力装置を通じて受け付ける類似度閾値受付部
を更に備えるとともに、
前記類似度生成部は、全てのフィールド名のそれぞれについて類似度テーブルを生成した後、それら類似度テーブルから、前記類似度閾値受付部が受け付けた類似度閾値情報にて特定される類似度の下限値を下回るレコードを、削除する
ことを特徴とする付記9記載の連結情報生成装置。
(付記11)
前記各類似度テーブル内において類似度の高さの順番にレコードを並べ替えた場合におけるその順番の下限値を特定する順位閾値情報を、操作者から入力装置を通じて受け付ける順位閾値受付部
を更に備えるとともに、
前記類似度生成部は、全てのフィールド名のそれぞれについて類似度テーブルを生成した後、それら類似度テーブル内のレコードを、類似度の高さの順番に並べ替え、更に、前記順位閾値受付部が受け付けた順位閾値情報にて特定される順位の下限値を下回るレコードを、削除する
ことを特徴とする付記9又は10記載の連結情報生成装置。
(付記12)
前記類似度テーブルに対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名をその類似度テーブルに記録すべきか否かを指定する指定情報を、操作者から入力装置を通じて受け付ける指定受付部
を更に備えるとともに、
前記類似度生成部は、前記指定受付部が受け付けた指定情報が、前記類似度テーブルに対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名をその類似度テーブルに記録しないことを指定するものであった場合において、前記選択受付部が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて類似度テーブルを作成するときには、その類似度テーブルに対応するフィールド名と異なるデータベーステーブルに属する比較対象フィールド名と類似度とだけを、その類似度テーブルに記録する
ことを特徴とする付記9,10又は11記載の連結情報生成装置。
三台以上のデータベース装置と本実施形態のデータベース連結装置とからなるコンピュータネットワークシステムの構成図 データベース連結装置の構成図 データベース連結ツールによる処理の流れを示す図 データベース連結ツールによる処理の流れを示す図 データベーステーブルのデータ構造の一例を示す図 図5のデータベーステーブルから生成したオブジェクト及びテーブルの構造の一例を示す図 統合クラスオブジェクトの構造の一例を示す図 依存情報管理オブジェクトの構造の一例を示す図 「氏名」フィールド、「名前」フィールド、及び「社員名」のフィールド名についてそれぞれ生成された特徴語セットを示す図 処理対象プロパティオブジェクト及び類似度テーブルのデータ構造の一例を示す図 対応テーブルのデータ構造の一例を示す図
符号の説明
10 データベース装置
11 データベーステーブル
12 データベーステーブル
13 データベーステーブル
20 データベース連結装置
20a 表示装置
20b 入力装置
20c ストレージ
20d CPU
21 データベース連結ツール

Claims (5)

  1. コンピュータを、
    幾つかのフィールドを有する複数のレコードを記憶する複数のデータベーステーブルの中から選択された幾つかのデータベーステーブルを特定する選択情報を、操作者から入力装置を通じて受け付ける選択受付手段,
    前記選択受付手段が受け付けた選択情報により特定される全てのデータベーステーブルのそれぞれについて、そのデータベーステーブルの各フィールド名を特徴付ける語句の集合である特徴語セットを、各フィールドの値に基づいて生成する特徴語セット生成手段,
    前記特徴語セット生成手段が生成した全ての特徴語セットのそれぞれについて、特徴ベクトルを生成する特徴ベクトル生成手段,
    前記選択受付手段が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名に対するそれ以外の残りの比較対象フィールド名の類似度を、前記特徴ベクトル生成手段が生成した特徴ベクトルに基づいて算出する処理、及び、そのフィールド名に対応する類似度テーブルに比較対象フィールド名と類似度とを対応付けて記録する処理を行う類似度生成手段,及び、
    前記受付手段が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名とそれ以外の比較対象フィールド名と双方のフィールド名の類似度とを対応付けた連結情報を、記憶装置内の対応テーブルに記録する記録手段
    として機能させる
    ことを特徴とする連結情報生成プログラム。
  2. 前記コンピュータを、更に、
    前記類似度の下限値を特定する類似度閾値情報を、操作者から入力装置を通じて受け付ける類似度閾値受付手段
    として機能させるとともに、
    前記類似度生成手段は、全てのフィールド名のそれぞれについて類似度テーブルを生成した後、それら類似度テーブルから、前記類似度閾値受付手段が受け付けた類似度閾値情報にて特定される類似度の下限値を下回るレコードを、削除する
    ことを特徴とする請求項1記載の連結情報生成プログラム。
  3. 前記コンピュータを、更に、
    前記各類似度テーブル内において類似度の高さの順番にレコードを並べ替えた場合におけるその順番の下限値を特定する順位閾値情報を、操作者から入力装置を通じて受け付ける順位閾値受付手段
    として機能させるとともに、
    前記類似度生成手段は、全てのフィールド名のそれぞれについて類似度テーブルを生成した後、それら類似度テーブル内のレコードを、類似度の高さの順番に並べ替え、更に、前記順位閾値受付手段が受け付けた順位閾値情報にて特定される順位の下限値を下回るレコードを、削除する
    ことを特徴とする請求項1又は2記載の連結情報生成プログラム。
  4. 前記コンピュータを、更に、
    前記類似度テーブルに対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名をその類似度テーブルに記録すべきか否かを指定する指定情報を、操作者から入力装置を通じて受け付ける指定受付手段
    として機能させるとともに、
    前記類似度生成手段は、前記指定受付手段が受け付けた指定情報が、前記類似度テーブルに対応するフィールド名と同じデータベーステーブルに属する比較対象フィールド名をその類似度テーブルに記録しないことを指定するものであった場合において、前記選択受付手段が受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて類似度テーブルを作成するときには、その類似度テーブルに対応するフィールド名と異なるデータベーステーブルに属する比較対象フィールド名と類似度とだけを、その類似度テーブルに記録する
    ことを特徴とする請求項1,2又は3記載の連結情報生成プログラム。
  5. コンピュータが、
    幾つかのフィールドを有する複数のレコードを記憶する複数のデータベーステーブルの中から選択された幾つかのデータベーステーブルを特定する選択情報を、操作者から入力装置を通じて受け付ける選択受付手順,
    前記選択受付手順において受け付けた選択情報により特定される全てのデータベーステーブルのそれぞれについて、そのデータベーステーブルの各フィールド名を特徴付ける語句の集合である特徴語セットを、各フィールドの値に基づいて生成する特徴語セット生成手順,
    前記特徴語セット生成手順において生成した全ての特徴語セットのそれぞれについて、特徴ベクトルを生成する特徴ベクトル生成手順,
    前記選択受付手順において受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名に対するそれ以外の残りの比較対象フィールド名の類似度を、前記特徴ベクトル生成手順で生成した特徴ベクトルに基づいて算出する処理、及び、そのフィールド名に対応する類似度テーブルに比較対象フィールド名と類似度とを対応付けて記録する処理を行う類似度生成手順,及び、
    前記受付手順において受け付けた選択情報により特定される全てのデータベーステーブルの全てのフィールド名のそれぞれについて、そのフィールド名とそれ以外の比較対象フィールド名と双方のフィールド名の類似度とを対応付けた連結情報を、記憶装置内の対応テーブルに記録する記録手順
    を実行する
    ことを特徴とする連結情報生成方法。
JP2007033424A 2007-02-14 2007-02-14 連結情報生成プログラム及び連結情報生成方法 Withdrawn JP2008197976A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007033424A JP2008197976A (ja) 2007-02-14 2007-02-14 連結情報生成プログラム及び連結情報生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007033424A JP2008197976A (ja) 2007-02-14 2007-02-14 連結情報生成プログラム及び連結情報生成方法

Publications (1)

Publication Number Publication Date
JP2008197976A true JP2008197976A (ja) 2008-08-28

Family

ID=39756850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007033424A Withdrawn JP2008197976A (ja) 2007-02-14 2007-02-14 連結情報生成プログラム及び連結情報生成方法

Country Status (1)

Country Link
JP (1) JP2008197976A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010134440A1 (ja) * 2009-05-19 2010-11-25 株式会社エヌ・ティ・ティ・ドコモ データ結合システム及びデータ結合方法
JP2012178019A (ja) * 2011-02-25 2012-09-13 Ntt Data Corp キーワード付与装置、コンテンツ提供システム、キーワード付与方法およびプログラム
JP5877488B1 (ja) * 2015-06-08 2016-03-08 Mrd株式会社 Rdbシステム
JP2019207469A (ja) * 2018-05-28 2019-12-05 富士通株式会社 テーブル生成方法、テーブル生成装置およびテーブル生成プログラム
KR20200070775A (ko) * 2018-12-10 2020-06-18 한국전자통신연구원 이기종 시스템의 보안정보 정규화 장치 및 방법
CN114385623A (zh) * 2021-11-30 2022-04-22 北京达佳互联信息技术有限公司 数据表获取方法、设备、装置、存储介质及程序产品

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010134440A1 (ja) * 2009-05-19 2010-11-25 株式会社エヌ・ティ・ティ・ドコモ データ結合システム及びデータ結合方法
JP2012178019A (ja) * 2011-02-25 2012-09-13 Ntt Data Corp キーワード付与装置、コンテンツ提供システム、キーワード付与方法およびプログラム
JP5877488B1 (ja) * 2015-06-08 2016-03-08 Mrd株式会社 Rdbシステム
WO2016199466A1 (ja) * 2015-06-08 2016-12-15 Mrd株式会社 Rdbシステム
JP2019207469A (ja) * 2018-05-28 2019-12-05 富士通株式会社 テーブル生成方法、テーブル生成装置およびテーブル生成プログラム
JP7060797B2 (ja) 2018-05-28 2022-04-27 富士通株式会社 テーブル生成方法、テーブル生成装置およびテーブル生成プログラム
KR20200070775A (ko) * 2018-12-10 2020-06-18 한국전자통신연구원 이기종 시스템의 보안정보 정규화 장치 및 방법
KR102175950B1 (ko) 2018-12-10 2020-11-09 한국전자통신연구원 이기종 시스템의 보안정보 정규화 장치 및 방법
CN114385623A (zh) * 2021-11-30 2022-04-22 北京达佳互联信息技术有限公司 数据表获取方法、设备、装置、存储介质及程序产品

Similar Documents

Publication Publication Date Title
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
CN108647276B (zh) 一种搜索方法
US20110082803A1 (en) Business flow retrieval system, business flow retrieval method and business flow retrieval program
JP2013531289A (ja) 検索におけるモデル情報群の使用
WO1999046698A1 (en) Document processor and recording medium
JP5237353B2 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
JP5588811B2 (ja) データ分析支援システム及び方法
JP2008197976A (ja) 連結情報生成プログラム及び連結情報生成方法
US20100161659A1 (en) Information supplying server
CN110609959A (zh) 基于项目生命周期的检索方法、存储介质及电子设备
JP2009015589A (ja) 関連文書提示システム及びプログラム
TW201211804A (en) Information provision device, information provision method, programme, and information recording medium
TWI507902B (zh) A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium
KR20140019987A (ko) 토픽 맵 기반 온라인 중고 상품 거래 시스템, 상품 목록 추가 방법, 상품 검색 방법 및 키워드 확장 방법
JP6534454B2 (ja) 情報検索方法及び情報検索装置並びに情報検索システム
JP5997738B2 (ja) 情報提供システム、情報提供サーバ、情報提供方法及びプログラム
JP5380874B2 (ja) 情報検索方法、プログラム及び装置
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP6901533B2 (ja) 計算機システム及び業務の支援方法
JPH11306187A (ja) カテゴリ付文書の検索結果の提示処理方法およびその装置
JP2011022624A (ja) ウェブページ検索システム、ウェブページ検索方法、ウェブページ検索サーバ及びウェブページ検索プログラム
CN113849736A (zh) 一种基于用户信息的全文检索与匹配方法及系统
JP2008197700A (ja) 文書管理システムおよび文書管理方法
CN115796465A (zh) Okr信息展示方法、装置、设备及存储介质
JP7431100B2 (ja) データ生成支援装置、データ生成支援方法、及びデータ生成支援システム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100511