JP5372851B2 - データプロファイリング - Google Patents
データプロファイリング Download PDFInfo
- Publication number
- JP5372851B2 JP5372851B2 JP2010153800A JP2010153800A JP5372851B2 JP 5372851 B2 JP5372851 B2 JP 5372851B2 JP 2010153800 A JP2010153800 A JP 2010153800A JP 2010153800 A JP2010153800 A JP 2010153800A JP 5372851 B2 JP5372851 B2 JP 5372851B2
- Authority
- JP
- Japan
- Prior art keywords
- field
- data
- records
- fields
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
- G06F16/24544—Join order optimisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Computer Security & Cryptography (AREA)
- Operations Research (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Numerical Control (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Television Systems (AREA)
- Holo Graphy (AREA)
- Crystals, And After-Treatments Of Crystals (AREA)
- Optical Communication System (AREA)
Description
本出願は、2003年9月15日付の米国仮出願第60/502,908号、2003年10月20日付の第60/513,038号、および2003年12月22日付の第60/532,956号の優先権を主張するものである。
本発明はデータプロファイリングに関する。
一態様では、一般に、本発明は、データを処理するための方法、および対応ソフトウエア、ならびにシステムを特徴とする。データソースからのデータをプロファイリングする。このプロファイリングには、データソースからデータを読み取るステップ、データを読み取りながらデータを特性付ける要約データを計算するステップ、および要約データに基づくプロファイル情報を格納するステップが含まれる。本処理には、格納プロファイル情報へアクセスするステップ、およびアクセスしたプロファイル情報に従ってデータを処理するステップが含まれる。
1 概要
図1を参照する。データ処理システム10には、プロファイリングおよび処理のサブシステム20が含まれ、それを用いてデータソース30からのデータを処理し、データ格納サブシステム40のメタデータ格納112、およびデータ格納124を更新する。すると、格納したメタデータおよびデータは、インターフェースサブシステム50を用いてユーザーにとってアクセス可能になる。
プロファイリングモジュール100は、メタデータ格納112を用いて、各種のメタデータおよびプロファイリングの初期設定(preference)、および結果を編成し、データオブジェクト内に格納する。図2を参照する。メタデータ格納112は、それぞれがプロファイルジョブと関連する情報に対するプロファイル設定オブジェクトグループ201、それぞれがデータセットと関連する情報に対するデータセットオブジェクトグループ207、およびそれぞれが特定のデータフォーマットを記述するDMLファイルグループ211を格納できる。プロファイル設定オブジェクトは、プロファイリングモジュール100が実行するプロファイリング実行のための初期設定を含む。ユーザー118は、新規プロファイル設定オブジェクトを作成するか、またはあらかじめ格納してあるプロファイル設定オブジェクト200を選択するのに用いる情報を入力できる。
プロファイリングモジュール100は、データソースからのデータを読み取り、個別のワーク構成要素のフローとして処理できるランタイム環境で動作する。プロファイリングモジュール100、および処理モジュール120が実行する計算は、計算要素がグラフの頂点と関係付けられ、および要素間のデータフローがグラフのリンク(弧、枝)と対応する有向グラフによるデータフローの形式で表すことができる。このようなグラフベースの計算を実装するシステムは、米国特許第5,966,072号の「グラフとして表される計算の実行」に記載されている。このシステムにより作成されるグラフは、グラフ要素により表される個々の処理に情報を出入りさせ、処理間で情報を移動し、そして処理の実行順序を定義するための方法を提供する。このシステムには、処理間通信方法(例えば、グラフのリンクによる通信パスは、TCP/IP、またはUNIX(登録商標)ドメインソケットを用いることができ、または共有メモリを用いて処理間でデータを受け渡すことができる)を選定するアルゴリズムが含まれる。
図3を参照する。好適な実施の形態では、プロファイリンググラフ400は、プロファイリングモジュール100の計算を実行する。「入力データセット」要素402は、何種類かの可能性があるデータシステムからのデータを表す。データシステムは、異なる物理媒体形式(例えば、磁気式、光学式、磁気光学式)、および/または異なるデータフォーマット型(例えば、バイナリ、データベース、スプレッドシート、ASCII文字列、CSV、またはXML)を有してもよい。「入力データセット」要素402は、データフローをセンサス作成要素406に送る。センサス作成要素406は、データセットの「センサス(census)」を実施して、要素に流れ込むレコードの一意のフィールド/値の各対について別々のセンサスレコードを新規作成する。各センサスレコードには、そのセンサスレコードに対する一意のフィールド/値の対の出現数のカウントを含む。
インポート要素は、広く多様なデータシステムのデータフォーマットを解釈するプロファイリングモジュール100の一部を実装する。インポート要素は、DMLファイルを使わずに幾つかのデータフォーマットを直接解釈するよう構成する。例えば、インポート要素は、データベースにアクセスし、操作するための、ANSI規格のコンピューター言語である構造化照会言語(SQL)を用いるデータシステムからのデータを読むことができる。DMLファイルを用いずに扱える他のデータフォーマットは、例えば、XML規格によるか、またはカンマ区切りフォーマット(CSV)を用いてフォーマットされたテキストファイルである。
型オブジェクト − 生データと、生データにより表される値との間の対応を定義する。
キー指定子 − レコード間の順序、区切り、およびグループ化の関係を定義する。
式 − 定数、データレコードのフィールド、または他の式の結果からの値を用いて新しい値を生成する計算を定義する。
変換関数 − ゼロ個以上の入力レコードから1つ以上の出力レコードを生成するために用いる規則および他の論理の集合を定義する。
パッケージ − 各種のタスクを実行するために要素が用いることができる型オブジェクト、変換関数、および変数をグループ化する有用な方法を提供する。
図5Aを参照する。センサス作成要素406の一実施の形態を実装するサブグラフ600には、プロファイル設定オブジェクト200に格納されるフィルタ式に基づいて入力されてくるレコードの一部を通過させるフィルタ要素602が含まれる。フィルタ式は、プロファイルされる値のフィールド、または数を制限できる。フィルタ式の実施例は、入力されてくる各レコードの単一フィールド(例えば、「タイトル」)にプロファイリングを制限するものである。フィルタ要素602の別のオプション機能は、上記のクリーニングオプションを実装することであり、妥当でないレコードのサンプルを非妥当レコード要素408に送る。フィルタ要素602から流れ出るレコードは、ローカルロールアップシーケンス統計要素604、および総当たりによるパーティション要素612に流れ込む。
5.1 データ把握
図9は、別の処理で用いることができるようにデータセットをプロファイリングしてその内容を把握するための手順900の実施例についてのフロー図を示す。手順900は、自動的に(例えば、スケジュール化スクリプトによる)、または手動で(例えば、ユーザーが端末で)実行できる。手順900はまず、902にてランタイム環境内でアクセス可能な1つ以上のデータシステム上で、プロファイリングするデータセットを識別する。次いで、手順900はオプションとして、供給される情報または既存のメタデータに基づいて、904にてレコードフォーマットを設定でき、906にて検証規則を設定できる。データベーステーブルなどの、データ型によっては、デフォルトのレコードフォーマット、および検証規則を用いることができる。次いで、手順900は、908にてデータセット(またはデータセットのサブセット)にプロファイルを実行する。手順900は、初期プロファイルの結果に基づいて、910にてレコードフォーマットを改良し、または、912にて検証規則を改良することができる。いずれかのプロファイリングオプションを変更した場合、手順900は、914にて新規オプションを用いてデータに別のプロファイルを実行するか、またはデータセットについての十分な情報が(おそらく繰り返しの)プロファイリングから得られた場合、916にてデータセットを処理するかどうかを決定する。その処理は、プロファイリングから得られた情報を用いて、1つ以上のデータシステムから直接読み取る。
図10は、データ格納に変換およびロードできるように、データセットをプロファイリングして、その品質を検査するための手順1000の実施例についてのフロー図を示す。手順1000は、自動的に、または手動で実行できる。データセットの品質を検査するための規則は、データセットの過去の知識から、および/または類似のデータセット(例えば、検査するデータセットと同一のソースからのデータセット)に実行する手順900などの、プロファイリング手順の結果からもたらされる。この手順1000は、例えばビジネスで、ビジネス相手から送られてくる定期的な(例えば、月次)データをプロファイリングしてから、データをインポートし、または処理するのに用いることができる。これにより「不良(bad)」データ(例えば、妥当でない値の割合が閾値を超えるデータ)を検出することが可能となり、既存のデータ格納が、取り消しが困難なアクションにより「汚染(pollute)」されなくなる。
プロファイリングモジュール100は、データセットからのレコードのフローを処理するために用いることができるグラフ要素などの、実行可能なコードを生成できる。生成した要素は、入力されてくるレコードにフィルタをかけることができ、プロファイリンググラフ400のクリーニングオプションと同様に、妥当なレコードだけを流し出すことができる。例えば、ユーザーは、プロファイル実行が完了した時に、クリーニング要素が生成されるよう指示するプロファイルオプションを選択できる。要素を実装するためのコードは、(ユーザーが指定する)ファイル場所に向けられる。そして、生成されたクリーニング要素は、プロファイリング実行中にメタデータ格納112に格納した情報を用いて、プロファイリングモジュール100と同一のランタイム環境で動作可能である。
プロファイリングモジュール100は、1つ以上のフィールドグループ関連性をオプションで解析できる。例えば、プロファイリングモジュール100は、同一でも異なってもよいデータセット内の2つのフィールド対の間の解析を実行できる。同様に、プロファイリングモジュール100は、幾つかのフィールド対の解析を実行でき、例えば、あるデータセット内の各フィールドを、別のデータセット内の全てのフィールドにより解析したり、または、あるデータセット内の各フィールドを、同一データセット内の他の全てのフィールドにより解析したりできる。異なるデータセット内の2つのフィールドの解析は、以下に詳細に説明するように、これらのフィールド上の2つのデータセットの結合演算の特性と関連している。
各種合計を出現チャート内の数字から計算する。これらの合計の幾つかには、テーブルA、およびテーブルBの両方に出現する別個のキーフィールド値の合計数、テーブルAに出現する別個のキーフィールド値の合計数、テーブルBに出現する別個のキーフィールド値の合計数、およびそれぞれのテーブルに一意の値(すなわち、キーフィールドの単一のレコードにのみ出現する値)の合計数が含まれる。これらの合計に基づく統計を用いて、フィールド対が上記3種類の関連性のうちの1つを有するかを判定する。統計には、別個の、または一意の値をもつフィールド内の全レコードの割合、特定の出現パターンをもつ全レコードの割合、および各フィールドに対する「相対重複値」が含まれる。相対重複値は、一方のフィールドに出現し、他方のフィールドにも出現する別個の値の割合である。フィールド対が3種類の関連性(必ずしも相互排他とは限らない)のうちの1つを有するかどうかを判定するための基準は次の通りである。
外部キー関連性 − フィールドの第1のものが、高い相対重複値を有し(例えば、>99%)、第2フィールドが、一意の値の高い割合(例えば、>99%)を有する。第2フィールドは、一次キーの可能性があり、第2フィールドは、一次キーの外部キーの可能性がある。
十分結合関連性 − フィールドの少なくとも1つが、除去レコードの割合が少なく(例えば、<10%)、N×Nの出現パターンをもつ個々の結合レコードの割合が少ない(例えば、<1%)。
共通領域関連性 − フィールドの少なくとも1つが、高い相対重複値を有する(例えば、>95%)。
図12Aを参照する。テーブルに結合演算を実際に実行する代替として、センサス結合要素1200が、テーブルAおよびテーブルBからのフィールドを解析し、テーブルに対するセンサスデータから「センサス結合」演算を実行することにより、出現チャートについての統計を集計する。各センサスレコードは、フィールド/値の対、およびフィールド内の値の出現カウントを有する。各センサスレコードは、一意のフィールド/値の対を有するので、所与のキーフィールドに対して、センサス結合要素1200の入力フローの値は一意である。図12Aの実施例は、キーフィールドA1、B1(図11Aに図示)の対への結合演算と対応する。フィルタ1202が「フィールド1」(A1)を選択し、およびフィルタ1204が「フィールド1」(B1)を選択して、結合演算のキーフィールドと対応するセンサスレコードを比較することにより、センサス結合要素1200は、テーブルAおよびテーブルBからの個々のレコードのキーフィールドを比較する結合要素1100よりずっと少ない数の比較ですむ可能性がある。図12Bの実施例は、フィルタ1206が、「フィールド1」(A1)を選択し、およびフィルタ1208が「フィールド2」(B2)を選択する結合演算と対応する。選択したセンサスレコード1210〜1218は、フィールド/値の対のそれぞれのフィールドに対する値、およびその値に対する出現カウントによるラベルを付けて示す。
単一のセンサス結合演算での多数のフィールド対に対する結合フィールド解析には、センサスレコードに基づいて「拡張レコード」を生成するステップが含まれる。図13に示す実施例では、センサス結合要素1200は、図12A〜図12Bに示す結合フィールド解析を組み合わせて、キーフィールドA1、B1、およびA1、B2の二対の結合フィールド解析に対するレコードを比較する。拡張レコードは、結合されたキーフィールド対に対する一意の識別子をセンサスレコードの値と連結し、センサスレコードと同一の出現カウントを保持することにより、センサスレコードから生成される。
結合フィールド解析が、多数の他のフィールドと結合されているフィールドの結果を含む場合、そのフィールドの値毎に多数の拡張レコードが生成される。例えば、センサスレコード1210は、値「W」がそれぞれ識別子「A1B1」、および「A1B2」と連結された2つの拡張レコード1301〜1302と対応する。センサス結合要素1200は、値「WA1B1」をもつセンサスレコードを扱うかのように拡張レコード1301を扱う。同様に、センサスレコード1211は、2つの拡張レコード1303〜1304と対応し、センサスレコード1212は、2つの拡張レコード1305〜1306と対応する。
図15A〜図15Bは、データソース30内のソース(例えば、テーブルまたはファイル)にある選択フィールドの結合フィールド解析をオプションとして実行するためにプロファイリングモジュール100が用いるグラフを示す。ユーザー118は、プロファイリングし、結合フィールド解析をするためのオプションを選択する。オプションは、結合フィールド解析せずにプロファイルを実行するステップを含む。ユーザー118は、互いに対となる2つの特定フィールド、他の全てのフィールドと対になる1つのフィールド、または他の全てのフィールドと対になる全てのフィールドを含む結合フィールド解析のためのフィールド対を選択する。ユーザー118は、同一のテーブルまたはファイル内のフィールドを対にできるオプション、または異なるテーブルまたはファイルからのフィールドだけを対にできるオプションを選択する。これらのオプションはメタデータ格納112に格納されている。
プロファイリングモジュール100が実行可能な別の種類の解析は、フィールドの値の間の機能関連性の検査である。検査するフィールドは、フィールドセットをもつ単一のテーブルからでも、(例えば、セクション7.3で更に詳細に説明するように、共通キーフィールドを用いるフィールドの結合演算により)関連する多数のソースからのフィールドを含む「仮想テーブル(virtual table)」からでもよい。フィールド対の間の機能関連性の一種に、レコードのあるフィールドと関係付けられる値が、そのレコードの別のフィールドと関係付けられる値により一意に決定できる「機能依存性」がある。例えば、データベースが「State」フィールド、および「Zip Code」フィールドを有する場合、「Zip Code」フィールドの値(例えば、「90019」)は、「State」フィールドの値(例えば、「CA」)を決定する。すなわち、「多対一」マッピングにより、「Zip Code」フィールドの各値を「State」フィールドの一意の値にマッピングする。機能依存関連性は、レコードの一方のフィールドと関係付けられる値を、レコードの他のフィールドと関係付けられる値により一意に決定できるフィールドのサブセット間に存在させることもできる。例えば、「Zip Code」フィールドの値は、「City」フィールド、および「Street」フィールドの値により一意に決定できる。
図17は、データソース30内の1つ以上のソース(例えば、単一のテーブル、もしくはファイル、またはセクション7.3で説明するような多数のテーブルおよび/もしくはファイル)の選択フィールドの機能依存性解析オプションを実行するためにプロファイリングモジュール100が用いるグラフ1700の実施例を示す。ユーザー118は、プロファイリング、および機能依存性解析のためのオプションを選択する。機能依存性解析をせずにプロファイリングを実行するオプションも含まれる。ユーザー118は、機能関連性を検査するフィールド対を選択する。ユーザー118は、データソース(例えば、テーブルまたはファイル)の特定フィールドを選択し、例えば、「全てから選択したものに」、もしくは「選択したものから選択したものに」を選んで、検査するフィールド対を決定するか、または「全てから全てに」を選んでデータソースのフィールド対全てを検査する。ユーザーは機能依存度を判定するための閾値を選択してから、あるフィールドが別のフィールドと機能依存しているかどうかを決定することもできる。例えば、ユーザーは、どれくらいの例外を(レコードの割合として)許容するかを決定する閾値を選択してもよい。これらのオプションはメタデータ格納112に格納される。
Name,name_b),(Last Name,name_c),...,(Citizenship,Canada),(Citizenship,US),(Citizenship,US)...など)を入力として取り込む。
good),(Zip/State/33102/FL,3 good),(Zip/State/00000/FL,1 good,1 exception),(Zip/State/77010/TX,1
good)を生成する。「State」フィールドがf1と対応し、「Zip」フィールドがf2と対応する場合は、要素1724は、(State/Zip/CA/90019,4
good,2 exceptions),(State/Zip/FL/33102,3 good,1
exception),(State/Zip/TX/77010,1 good,1 exception)を生成する。
good,4 exceptions)を生成する。
多様な最適化を適用して、例えば、対選択要素1706でフィールド対にフィルタをかけることにより、またはフィルタ要素1712でレコードにフィルタをかけることにより、機能依存性解析を高速化できる。幾つかの最適化は、上記のグラフ1700で発見される機能依存関連性には、ユーザーにとって、他のものより重要でないものもあるという考えに基づく。所与のフィールド対に対して、これらのケースの幾つかは、プロファイリングモジュール100が提供する統計に基づいて対選択要素1706により検出し、フィルタで排除することにより、コンピューターリソースを節約できる。例えば、第1フィールドf1の値全てが一意の場合(各値が単一のレコードだけに出現する)、そのフィールドf1の値は、フィールドf2に出現する値にかかわらず、第2フィールドf2の値を決定する。
多数のソース(例えば、データベーステーブル)を横断する機能依存性を検査するための一手法では、プロファイリングモジュール100は、多数のソースからのフィールドを含む「仮想テーブル」を生成する。仮想テーブルは、例えば、ソースに共通なキーフィールドを用いて、ソース上に結合演算を実行することにより生成できる。
Claims (35)
- データを処理するための方法であって、
データソースの複数のデータレコードのフィールドの複数サブセットを識別するステップであって、前記複数のデータレコードは、第1フィールド及び第2フィールドを有し、前記複数のデータレコードの少なくとも幾つかのそれぞれは、前記第1フィールド及び前記第2フィールドの両方を有する、ステップと、
前記複数サブセットのそれぞれに対する共出現統計を決定するステップであって、
前記複数のデータレコードをパーツにパーティション化するステップと、
前記パーツの第1にある1つ以上のレコードの前記第2フィールドに出現する値の分布に基づいて量を決定するステップであって、前記1つ以上のレコードは、前記1つ以上のレコードの第1フィールドに出現する共通値を有する、決定ステップと、
前記量を前記パーツの他にあるレコードからの他の量と組み合わせて合計量を生成するステップと、
を含むステップと、
前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するステップと、
を含む方法。 - フィールドの前記サブセットの少なくとも1つが、2つのフィールドのサブセットである請求項1の方法。
- 前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するステップが、前記複数サブセットの1つ以上を、可能性がある所定の複数の機能関連性のうちの1つを有すると識別するステップを含む請求項1の方法。
- 前記共出現統計を決定するステップが、それぞれが一対のフィールドを識別するデータ構成要素を形成するステップ、および前記複数のデータレコードのうちの1つにある前記フィールド対に出現する一対の値を識別するステップを含む請求項1の方法。
- 前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するステップが、前記合計量に基づいて前記第1および第2フィールド間の機能関連性を識別するステップを含む請求項1の方法。
- 前記パーツが、前記第1フィールド、および前記第2フィールドの値に基づく請求項1の方法。
- 前記パーツが、並列成分のセットのうちの別々のものを用いて処理される請求項1の方法。
- 前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するステップが、前記機能関連性に対する一致度を決定するステップを含む請求項1の方法。
- 前記一致度が、前記機能関連性と整合しない幾つかの例外レコードを含む請求項8の方法。
- 前記機能関連性が、第1フィールドの少なくとも幾つかの前記値の、第2フィールドの少なくとも幾つかの前記値へのマッピングを含む請求項1の方法。
- 前記マッピングが、多対一のマッピングである請求項10の方法。
- 前記マッピングが、一対多のマッピングである請求項10の方法。
- 前記マッピングが、一対一のマッピングである請求項10の方法。
- 前記複数のサブセットのフィールドの値を特性化する情報に基づいて前記複数のサブセットにフィルタをかけるステップを更に含む請求項1の方法。
- 前記複数のデータレコードが、データベーステーブルのレコードを含む請求項1の方法。
- 前記複数のデータレコードが、複数のデータベーステーブルのレコードを含む請求項15の方法。
- データ処理システム上で実行されると、請求項1から16までの何れかの方法ステップ全てを実行するように成された命令を含むソフトウエア。
- コンピューター可読媒体上に実装される請求項17のソフトウエア。
- データを処理するためのシステムであって、
データソースの複数のデータレコードのフィールドの複数サブセットを識別するよう構成される識別処理モジュールであって、前記複数のデータレコードは、第1フィールド及び第2フィールドを有し、前記複数のデータレコードの少なくとも幾つかのそれぞれは、前記第1フィールド及び前記第2フィールドの両方を有する、識別処理モジュールと、
前記複数サブセットのそれぞれに対する共出現統計を決定するよう構成される統計処理モジュールであって、
前記複数のデータレコードをパーツにパーティション化するよう構成されるパーティション化モジュールと、
前記パーツの第1にある1つ以上のレコードの前記第2フィールドに出現する値の分布に基づいて量を決定するよう構成される決定モジュールであって、前記1つ以上のレコードは、前記1つ以上のレコードの第1フィールドに出現する共通値を有する、決定モジュールと、
前記量を前記パーツの他にあるレコードからの他の量と組み合わせて合計量を生成するよう構成される生成モジュールと、
を含む統計処理モジュールと、
前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するよう構成される機能関連性処理モジュールと、
を含むシステム。 - データを処理するためのシステムであって、
データソースの複数のデータレコードのフィールドの複数サブセットを識別するための手段であって、前記複数のデータレコードは、第1フィールド及び第2フィールドを有し、前記複数のデータレコードの少なくとも幾つかのそれぞれは、前記第1フィールド及び前記第2フィールドの両方を有する、手段と、
前記複数サブセットのそれぞれに対する共出現統計を決定するための手段であって、
前記複数のデータレコードをパーツにパーティション化するための手段と、
前記パーツの第1にある1つ以上のレコードの前記第2フィールドに出現する値の分布に基づいて量を決定するための手段であって、前記1つ以上のレコードは、前記1つ以上のレコードの第1フィールドに出現する共通値を有する、手段と、
前記量を前記パーツの他にあるレコードからの他の量と組み合わせて合計量を生成するための手段と、
を含む手段と、
前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別するための手段と、
を含むシステム。 - フィールドの前記サブセットの少なくとも1つが、2つのフィールドのサブセットである請求項19または20のシステム。
- 前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別することが、前記複数サブセットの1つ以上を、可能性がある所定の複数の機能関連性のうちの1つを有すると識別することを含む請求項19または20のシステム。
- 前記共出現統計を決定することが、それぞれが一対のフィールドを識別するデータ構成要素を形成すること、および前記複数のデータレコードのうちの1つにある前記フィールド対に出現する一対の値を識別することを含む請求項19または20のシステム。
- 前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別することが、前記合計量に基づいて前記第1および第2フィールド間の機能関連性を識別することを含む請求項19または20のシステム。
- 前記パーツが、前記第1フィールド、および前記第2フィールドの値に基づく請求項19または20のシステム。
- 前記パーツが、並列成分のセットのうちの別々のものを用いて処理される請求項19または20のシステム。
- 前記複数サブセットの1つ以上を、前記識別サブセットの前記フィールド間に機能関連性があると識別することが、前記機能関連性に対する一致度を決定することを含む請求項19または20のシステム。
- 前記一致度が、前記機能関連性と整合しない幾つかの例外レコードを含む請求項27のシステム。
- 前記機能関連性が、第1フィールドの少なくとも幾つかの前記値の、第2フィールドの少なくとも幾つかの前記値へのマッピングを含む請求項19または20のシステム。
- 前記マッピングが、多対一のマッピングである請求項29のシステム。
- 前記マッピングが、一対多のマッピングである請求項29のシステム。
- 前記マッピングが、一対一のマッピングである請求項29のシステム。
- 前記複数のサブセットのフィールドの値を特性化する情報に基づいて前記複数のサブセットにフィルタをかけることを更に含む請求項19または20のシステム。
- 前記複数のデータレコードが、データベーステーブルのレコードを含む請求項19または20のシステム。
- 前記複数のデータレコードが、複数のデータベーステーブルのレコードを含む請求項34のシステム。
Applications Claiming Priority (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US50290803P | 2003-09-15 | 2003-09-15 | |
| US60/502,908 | 2003-09-15 | ||
| US51303803P | 2003-10-20 | 2003-10-20 | |
| US60/513,038 | 2003-10-20 | ||
| US53295603P | 2003-12-22 | 2003-12-22 | |
| US60/532,956 | 2003-12-22 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006526986A Division JP5328099B2 (ja) | 2003-09-15 | 2004-09-15 | データプロファイリング |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010267289A JP2010267289A (ja) | 2010-11-25 |
| JP5372851B2 true JP5372851B2 (ja) | 2013-12-18 |
Family
ID=34381971
Family Applications (3)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006526986A Expired - Lifetime JP5328099B2 (ja) | 2003-09-15 | 2004-09-15 | データプロファイリング |
| JP2010153800A Expired - Lifetime JP5372851B2 (ja) | 2003-09-15 | 2010-07-06 | データプロファイリング |
| JP2010153799A Expired - Lifetime JP5372850B2 (ja) | 2003-09-15 | 2010-07-06 | データプロファイリング |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006526986A Expired - Lifetime JP5328099B2 (ja) | 2003-09-15 | 2004-09-15 | データプロファイリング |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010153799A Expired - Lifetime JP5372850B2 (ja) | 2003-09-15 | 2010-07-06 | データプロファイリング |
Country Status (9)
| Country | Link |
|---|---|
| US (5) | US8868580B2 (ja) |
| EP (3) | EP2261820A3 (ja) |
| JP (3) | JP5328099B2 (ja) |
| KR (4) | KR101033179B1 (ja) |
| CN (1) | CN102982065B (ja) |
| AT (1) | ATE515746T1 (ja) |
| AU (3) | AU2004275334B9 (ja) |
| CA (3) | CA2655735C (ja) |
| WO (1) | WO2005029369A2 (ja) |
Families Citing this family (229)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2655735C (en) | 2003-09-15 | 2011-01-18 | Ab Initio Software Corporation | Data profiling |
| US7653641B2 (en) * | 2004-05-04 | 2010-01-26 | Accruent, Inc. | Abstraction control solution |
| US7349898B2 (en) * | 2004-06-04 | 2008-03-25 | Oracle International Corporation | Approximate and exact unary inclusion dependency discovery |
| US7647293B2 (en) * | 2004-06-10 | 2010-01-12 | International Business Machines Corporation | Detecting correlation from data |
| US7386566B2 (en) * | 2004-07-15 | 2008-06-10 | Microsoft Corporation | External metadata processing |
| US8732004B1 (en) | 2004-09-22 | 2014-05-20 | Experian Information Solutions, Inc. | Automated analysis of data to generate prospect notifications based on trigger events |
| US20060082581A1 (en) | 2004-10-14 | 2006-04-20 | Microsoft Corporation | Encoding for remoting graphics to decoder device |
| US7852342B2 (en) | 2004-10-14 | 2010-12-14 | Microsoft Corporation | Remote client graphics rendering |
| US7610264B2 (en) * | 2005-02-28 | 2009-10-27 | International Business Machines Corporation | Method and system for providing a learning optimizer for federated database systems |
| CN102004950A (zh) * | 2005-04-25 | 2011-04-06 | 因文西斯系统公司 | 在工业过程控制环境中记录和跟踪非趋势生产数据和事件 |
| US7836104B2 (en) * | 2005-06-03 | 2010-11-16 | Sap Ag | Demonstration tool for a business information enterprise system |
| US7877350B2 (en) * | 2005-06-27 | 2011-01-25 | Ab Initio Technology Llc | Managing metadata for graph-based computations |
| US20070006070A1 (en) * | 2005-06-30 | 2007-01-04 | International Business Machines Corporation | Joining units of work based on complexity metrics |
| US8788464B1 (en) * | 2005-07-25 | 2014-07-22 | Lockheed Martin Corporation | Fast ingest, archive and retrieval systems, method and computer programs |
| US20070033198A1 (en) * | 2005-08-02 | 2007-02-08 | Defries Anthony | Data representation architecture for media access |
| US8527563B2 (en) | 2005-09-12 | 2013-09-03 | Microsoft Corporation | Remoting redirection layer for graphics device interface |
| US20070073721A1 (en) * | 2005-09-23 | 2007-03-29 | Business Objects, S.A. | Apparatus and method for serviced data profiling operations |
| US20070074176A1 (en) * | 2005-09-23 | 2007-03-29 | Business Objects, S.A. | Apparatus and method for parallel processing of data profiling information |
| US8996586B2 (en) * | 2006-02-16 | 2015-03-31 | Callplex, Inc. | Virtual storage of portable media files |
| US7873628B2 (en) * | 2006-03-23 | 2011-01-18 | Oracle International Corporation | Discovering functional dependencies by sampling relations |
| US20070271259A1 (en) * | 2006-05-17 | 2007-11-22 | It Interactive Services Inc. | System and method for geographically focused crawling |
| US7526486B2 (en) * | 2006-05-22 | 2009-04-28 | Initiate Systems, Inc. | Method and system for indexing information about entities with respect to hierarchies |
| WO2007143157A2 (en) | 2006-06-02 | 2007-12-13 | Initiate Systems, Inc. | Automatic weight generation for probabilistic matching |
| US7711736B2 (en) * | 2006-06-21 | 2010-05-04 | Microsoft International Holdings B.V. | Detection of attributes in unstructured data |
| US7698268B1 (en) | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
| US7685093B1 (en) | 2006-09-15 | 2010-03-23 | Initiate Systems, Inc. | Method and system for comparing attributes such as business names |
| US8356009B2 (en) | 2006-09-15 | 2013-01-15 | International Business Machines Corporation | Implementation defined segments for relational database systems |
| US8266147B2 (en) * | 2006-09-18 | 2012-09-11 | Infobright, Inc. | Methods and systems for database organization |
| WO2008034213A1 (en) * | 2006-09-18 | 2008-03-27 | Infobright Inc. | A method and system for data compression in a relational database |
| US8762834B2 (en) * | 2006-09-29 | 2014-06-24 | Altova, Gmbh | User interface for defining a text file transformation |
| US9846739B2 (en) | 2006-10-23 | 2017-12-19 | Fotonation Limited | Fast database matching |
| US20080097992A1 (en) * | 2006-10-23 | 2008-04-24 | Donald Martin Monro | Fast database matching |
| US7809747B2 (en) * | 2006-10-23 | 2010-10-05 | Donald Martin Monro | Fuzzy database matching |
| US7774329B1 (en) | 2006-12-22 | 2010-08-10 | Amazon Technologies, Inc. | Cross-region data access in partitioned framework |
| US8150870B1 (en) | 2006-12-22 | 2012-04-03 | Amazon Technologies, Inc. | Scalable partitioning in a multilayered data service framework |
| US7613707B1 (en) * | 2006-12-22 | 2009-11-03 | Amazon Technologies, Inc. | Traffic migration in a multilayered data service framework |
| CN101226523B (zh) * | 2007-01-17 | 2012-09-05 | 国际商业机器公司 | 数据概况分析方法和系统 |
| US8359339B2 (en) | 2007-02-05 | 2013-01-22 | International Business Machines Corporation | Graphical user interface for configuration of an algorithm for the matching of data records |
| US20080195575A1 (en) * | 2007-02-12 | 2008-08-14 | Andreas Schiffler | Electronic data display management system and method |
| US8515926B2 (en) * | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
| US8370355B2 (en) | 2007-03-29 | 2013-02-05 | International Business Machines Corporation | Managing entities within a database |
| WO2008121824A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for data exchange among data sources |
| US8423514B2 (en) | 2007-03-29 | 2013-04-16 | International Business Machines Corporation | Service provisioning |
| WO2008121170A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for parsing languages |
| US20120164613A1 (en) * | 2007-11-07 | 2012-06-28 | Jung Edward K Y | Determining a demographic characteristic based on computational user-health testing of a user interaction with advertiser-specified content |
| US8069129B2 (en) | 2007-04-10 | 2011-11-29 | Ab Initio Technology Llc | Editing and compiling business rules |
| US20090254588A1 (en) * | 2007-06-19 | 2009-10-08 | Zhong Li | Multi-Dimensional Data Merge |
| US20110010214A1 (en) * | 2007-06-29 | 2011-01-13 | Carruth J Scott | Method and system for project management |
| US8842091B2 (en) * | 2007-07-12 | 2014-09-23 | Atmel Corporation | Two-dimensional touch panel |
| US20090055828A1 (en) * | 2007-08-22 | 2009-02-26 | Mclaren Iain Douglas | Profile engine system and method |
| JP5453273B2 (ja) * | 2007-09-20 | 2014-03-26 | アビニシオ テクノロジー エルエルシー | グラフベース計算におけるデータフロー管理 |
| US9690820B1 (en) * | 2007-09-27 | 2017-06-27 | Experian Information Solutions, Inc. | Database system for triggering event notifications based on updates to database records |
| WO2009042941A1 (en) * | 2007-09-28 | 2009-04-02 | Initiate Systems, Inc. | Method and system for analysis of a system for matching data records |
| JP5306359B2 (ja) | 2007-09-28 | 2013-10-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 複数言語によるデータ記録を関連付ける方法およびシステム |
| US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
| US8321914B2 (en) * | 2008-01-21 | 2012-11-27 | International Business Machines Corporation | System and method for verifying an attribute in records for procurement application |
| US8224797B2 (en) * | 2008-03-04 | 2012-07-17 | International Business Machines Corporation | System and method for validating data record |
| US8046385B2 (en) * | 2008-06-20 | 2011-10-25 | Ab Initio Technology Llc | Data quality tracking |
| KR101499599B1 (ko) | 2008-06-30 | 2015-03-18 | 아브 이니티오 테크놀로지 엘엘시 | 그래프 기반 계산에서의 데이터 로깅 |
| US8239389B2 (en) * | 2008-09-29 | 2012-08-07 | International Business Machines Corporation | Persisting external index data in a database |
| CN102197406B (zh) | 2008-10-23 | 2014-10-15 | 起元技术有限责任公司 | 模糊数据操作 |
| JP5525541B2 (ja) * | 2008-12-02 | 2014-06-18 | アビニシオ テクノロジー エルエルシー | データ管理システム内のデータセットのインスタンスのマッピング |
| US20100174638A1 (en) | 2009-01-06 | 2010-07-08 | ConsumerInfo.com | Report existence monitoring |
| CN102301324B (zh) * | 2009-01-30 | 2015-08-19 | 起元技术有限责任公司 | 使用矢量字段处理数据 |
| US8051060B1 (en) * | 2009-02-13 | 2011-11-01 | At&T Intellectual Property I, L.P. | Automatic detection of separators for compression |
| CA2750279C (en) | 2009-02-13 | 2019-03-26 | Ab Initio Technology Llc | Managing task execution |
| US9846732B2 (en) * | 2009-02-13 | 2017-12-19 | Ab Initio Technology Llc | Communicating with data storage systems |
| US10102398B2 (en) | 2009-06-01 | 2018-10-16 | Ab Initio Technology Llc | Generating obfuscated data |
| CN102460076B (zh) * | 2009-06-10 | 2015-06-03 | 起元技术有限责任公司 | 生成测试数据 |
| JP2011008560A (ja) * | 2009-06-26 | 2011-01-13 | Hitachi Ltd | 情報管理システム |
| US8205113B2 (en) | 2009-07-14 | 2012-06-19 | Ab Initio Technology Llc | Fault tolerant batch processing |
| AU2010295547B2 (en) * | 2009-09-16 | 2015-05-07 | Ab Initio Technology Llc | Mapping dataset elements |
| EP2479701B1 (en) * | 2009-09-17 | 2019-07-03 | Panasonic Corporation | Information processing device, administration device, invalid-module detection system, invalid-module detection method, recording medium having an invalid-module detection program recorded thereon, administration method, recording medium having an administration program recorded thereon, and integrated circuit |
| US8700577B2 (en) * | 2009-12-07 | 2014-04-15 | Accenture Global Services Limited GmbH | Method and system for accelerated data quality enhancement |
| AU2010337218B2 (en) | 2009-12-14 | 2015-09-24 | Ab Initio Technology Llc | Specifying user interface elements |
| US9477369B2 (en) * | 2010-03-08 | 2016-10-25 | Salesforce.Com, Inc. | System, method and computer program product for displaying a record as part of a selected grouping of data |
| US8205114B2 (en) | 2010-04-07 | 2012-06-19 | Verizon Patent And Licensing Inc. | Method and system for partitioning data files for efficient processing |
| US8577094B2 (en) | 2010-04-09 | 2013-11-05 | Donald Martin Monro | Image template masking |
| US8417727B2 (en) | 2010-06-14 | 2013-04-09 | Infobright Inc. | System and method for storing data in a relational database |
| US8521748B2 (en) | 2010-06-14 | 2013-08-27 | Infobright Inc. | System and method for managing metadata in a relational database |
| AU2011268459B2 (en) | 2010-06-15 | 2014-09-18 | Ab Initio Technology Llc | Dynamically loading graph-based computations |
| CN103080932B (zh) | 2010-06-22 | 2016-08-31 | 起元技术有限责任公司 | 处理相关数据集 |
| EP2593879A4 (en) * | 2010-07-13 | 2015-12-02 | Hewlett Packard Development Co | METHOD, DEVICE AND MANUFACTURED ARTICLES FOR DATA ARCHIVING |
| US8515863B1 (en) * | 2010-09-01 | 2013-08-20 | Federal Home Loan Mortgage Corporation | Systems and methods for measuring data quality over time |
| WO2012061109A1 (en) | 2010-10-25 | 2012-05-10 | Ab Initio Technology Llc | Managing data set objects in a dataflow graph that represents a computer program |
| KR20120061308A (ko) * | 2010-12-03 | 2012-06-13 | 삼성전자주식회사 | 휴대용 단말기에서 데이터 베이스를 제어하기 위한 장치 및 방법 |
| AU2012205339B2 (en) | 2011-01-14 | 2015-12-03 | Ab Initio Technology Llc | Managing changes to collections of data |
| CN103348598B (zh) * | 2011-01-28 | 2017-07-14 | 起元科技有限公司 | 生成数据模式信息 |
| US9116759B2 (en) | 2011-02-18 | 2015-08-25 | Ab Initio Technology Llc | Restarting data processing systems |
| US9021299B2 (en) | 2011-02-18 | 2015-04-28 | Ab Initio Technology Llc | Restarting processes |
| US9311487B2 (en) * | 2011-03-15 | 2016-04-12 | Panasonic Corporation | Tampering monitoring system, management device, protection control module, and detection module |
| US9558519B1 (en) | 2011-04-29 | 2017-01-31 | Consumerinfo.Com, Inc. | Exposing reporting cycle information |
| US20120330880A1 (en) * | 2011-06-23 | 2012-12-27 | Microsoft Corporation | Synthetic data generation |
| US8782016B2 (en) * | 2011-08-26 | 2014-07-15 | Qatar Foundation | Database record repair |
| US9116934B2 (en) * | 2011-08-26 | 2015-08-25 | Qatar Foundation | Holistic database record repair |
| US8863082B2 (en) | 2011-09-07 | 2014-10-14 | Microsoft Corporation | Transformational context-aware data source management |
| US8719271B2 (en) | 2011-10-06 | 2014-05-06 | International Business Machines Corporation | Accelerating data profiling process |
| US9430117B2 (en) * | 2012-01-11 | 2016-08-30 | International Business Machines Corporation | Triggering window conditions using exception handling |
| US9438656B2 (en) | 2012-01-11 | 2016-09-06 | International Business Machines Corporation | Triggering window conditions by streaming features of an operator graph |
| US20130304712A1 (en) * | 2012-05-11 | 2013-11-14 | Theplatform For Media, Inc. | System and method for validation |
| US9582553B2 (en) * | 2012-06-26 | 2017-02-28 | Sap Se | Systems and methods for analyzing existing data models |
| US9633076B1 (en) * | 2012-10-15 | 2017-04-25 | Tableau Software Inc. | Blending and visualizing data from multiple data sources |
| US10489360B2 (en) * | 2012-10-17 | 2019-11-26 | Ab Initio Technology Llc | Specifying and applying rules to data |
| CA2887661C (en) * | 2012-10-22 | 2022-08-02 | Ab Initio Technology Llc | Characterizing data sources in a data storage system |
| US9569434B2 (en) * | 2012-10-22 | 2017-02-14 | Ab Initio Technology Llc | Profiling data with source tracking |
| US10108521B2 (en) | 2012-11-16 | 2018-10-23 | Ab Initio Technology Llc | Dynamic component performance monitoring |
| US9507682B2 (en) | 2012-11-16 | 2016-11-29 | Ab Initio Technology Llc | Dynamic graph performance monitoring |
| US9703822B2 (en) | 2012-12-10 | 2017-07-11 | Ab Initio Technology Llc | System for transform generation |
| EP2757467A1 (en) * | 2013-01-22 | 2014-07-23 | Siemens Aktiengesellschaft | Management apparatus and method for managing data elements of a version control system |
| US9892026B2 (en) * | 2013-02-01 | 2018-02-13 | Ab Initio Technology Llc | Data records selection |
| US9471545B2 (en) | 2013-02-11 | 2016-10-18 | Oracle International Corporation | Approximating value densities |
| US9135280B2 (en) * | 2013-02-11 | 2015-09-15 | Oracle International Corporation | Grouping interdependent fields |
| US9110949B2 (en) | 2013-02-11 | 2015-08-18 | Oracle International Corporation | Generating estimates for query optimization |
| US9811233B2 (en) | 2013-02-12 | 2017-11-07 | Ab Initio Technology Llc | Building applications for configuring processes |
| US10332010B2 (en) | 2013-02-19 | 2019-06-25 | Business Objects Software Ltd. | System and method for automatically suggesting rules for data stored in a table |
| US9576036B2 (en) | 2013-03-15 | 2017-02-21 | International Business Machines Corporation | Self-analyzing data processing job to determine data quality issues |
| KR101444249B1 (ko) * | 2013-05-13 | 2014-09-26 | (주) 아트리아트레이딩 | 대차 거래, 공매도 거래 또는 주식 스왑 거래에 관한 정보를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 |
| EP3379415B1 (en) * | 2013-05-17 | 2019-11-06 | Ab Initio Technology LLC | Managing memory and storage space for a data operation |
| US20150032907A1 (en) * | 2013-07-26 | 2015-01-29 | Alcatel-Lucent Canada, Inc. | Universal adapter with context-bound translation for application adaptation layer |
| US10460830B2 (en) | 2013-08-22 | 2019-10-29 | Genomoncology, Llc | Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein |
| EP3049913B1 (en) | 2013-09-27 | 2022-05-11 | Ab Initio Technology LLC | Evaluating rules applied to data |
| US20150120224A1 (en) * | 2013-10-29 | 2015-04-30 | C3 Energy, Inc. | Systems and methods for processing data relating to energy usage |
| EP3092557B1 (en) | 2013-12-05 | 2024-03-27 | AB Initio Technology LLC | Managing interfaces for dataflow graphs composed of sub-graphs |
| JP6882892B2 (ja) | 2013-12-18 | 2021-06-02 | アビニシオ テクノロジー エルエルシー | データ生成 |
| US9529849B2 (en) | 2013-12-31 | 2016-12-27 | Sybase, Inc. | Online hash based optimizer statistics gathering in a database |
| US11487732B2 (en) * | 2014-01-16 | 2022-11-01 | Ab Initio Technology Llc | Database key identification |
| US9984173B2 (en) * | 2014-02-24 | 2018-05-29 | International Business Machines Corporation | Automated value analysis in legacy data |
| JP6427592B2 (ja) * | 2014-03-07 | 2018-11-21 | アビニシオ テクノロジー エルエルシー | データ型に関連するデータプロファイリング操作の管理 |
| CN106462583B (zh) | 2014-03-10 | 2020-03-24 | 因特拉纳公司 | 用于快速数据分析的系统和方法 |
| US9633058B2 (en) | 2014-06-16 | 2017-04-25 | International Business Machines Corporation | Predictive placement of columns during creation of a large database |
| US9846567B2 (en) | 2014-06-16 | 2017-12-19 | International Business Machines Corporation | Flash optimized columnar data layout and data access algorithms for big data query engines |
| EP3690637A1 (en) | 2014-07-18 | 2020-08-05 | AB Initio Technology LLC | Managing parameter sets |
| CN107145344B (zh) * | 2014-09-02 | 2020-12-04 | 起元科技有限公司 | 在基于图的程序中指定组件 |
| US9626393B2 (en) | 2014-09-10 | 2017-04-18 | Ab Initio Technology Llc | Conditional validation rules |
| US9880818B2 (en) * | 2014-11-05 | 2018-01-30 | Ab Initio Technology Llc | Application testing |
| US10055333B2 (en) | 2014-11-05 | 2018-08-21 | Ab Initio Technology Llc | Debugging a graph |
| US10296507B2 (en) | 2015-02-12 | 2019-05-21 | Interana, Inc. | Methods for enhancing rapid data analysis |
| US9952808B2 (en) | 2015-03-26 | 2018-04-24 | International Business Machines Corporation | File system block-level tiering and co-allocation |
| CN104850590A (zh) * | 2015-04-24 | 2015-08-19 | 百度在线网络技术(北京)有限公司 | 一种生成结构化数据的元数据的方法与装置 |
| US11068647B2 (en) * | 2015-05-28 | 2021-07-20 | International Business Machines Corporation | Measuring transitions between visualizations |
| KR101632073B1 (ko) * | 2015-06-04 | 2016-06-20 | 장원중 | 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
| CA3001304C (en) | 2015-06-05 | 2021-10-19 | C3 Iot, Inc. | Systems, methods, and devices for an enterprise internet-of-things application development platform |
| US9384203B1 (en) * | 2015-06-09 | 2016-07-05 | Palantir Technologies Inc. | Systems and methods for indexing and aggregating data records |
| US10409802B2 (en) | 2015-06-12 | 2019-09-10 | Ab Initio Technology Llc | Data quality analysis |
| US10241979B2 (en) * | 2015-07-21 | 2019-03-26 | Oracle International Corporation | Accelerated detection of matching patterns |
| US9977805B1 (en) * | 2017-02-13 | 2018-05-22 | Sas Institute Inc. | Distributed data set indexing |
| US10657134B2 (en) | 2015-08-05 | 2020-05-19 | Ab Initio Technology Llc | Selecting queries for execution on a stream of real-time data |
| US10127264B1 (en) | 2015-09-17 | 2018-11-13 | Ab Initio Technology Llc | Techniques for automated data analysis |
| US10607139B2 (en) | 2015-09-23 | 2020-03-31 | International Business Machines Corporation | Candidate visualization techniques for use with genetic algorithms |
| US10140337B2 (en) * | 2015-10-30 | 2018-11-27 | Sap Se | Fuzzy join key |
| EP3369013A4 (en) * | 2015-10-30 | 2019-04-10 | Acxiom Corporation | AUTOMATIC EVALUATION FOR THE LAYOUT OF STRUCTURED MULTIPLE FILES |
| US11410230B1 (en) | 2015-11-17 | 2022-08-09 | Consumerinfo.Com, Inc. | Realtime access and control of secure regulated data |
| US10757154B1 (en) | 2015-11-24 | 2020-08-25 | Experian Information Solutions, Inc. | Real-time event-based notification system |
| US10459730B2 (en) * | 2016-02-26 | 2019-10-29 | Hitachi, Ltd. | Analysis system and analysis method for executing analysis process with at least portions of time series data and analysis data as input data |
| US10685035B2 (en) | 2016-06-30 | 2020-06-16 | International Business Machines Corporation | Determining a collection of data visualizations |
| US10146835B2 (en) | 2016-08-23 | 2018-12-04 | Interana, Inc. | Methods for stratified sampling-based query execution |
| US10423387B2 (en) | 2016-08-23 | 2019-09-24 | Interana, Inc. | Methods for highly efficient data sharding |
| US11604795B2 (en) | 2016-09-26 | 2023-03-14 | Splunk Inc. | Distributing partial results from an external data system between worker nodes |
| US11860940B1 (en) | 2016-09-26 | 2024-01-02 | Splunk Inc. | Identifying buckets for query execution using a catalog of buckets |
| US11620336B1 (en) | 2016-09-26 | 2023-04-04 | Splunk Inc. | Managing and storing buckets to a remote shared storage system based on a collective bucket size |
| US12013895B2 (en) | 2016-09-26 | 2024-06-18 | Splunk Inc. | Processing data using containerized nodes in a containerized scalable environment |
| US10353965B2 (en) | 2016-09-26 | 2019-07-16 | Splunk Inc. | Data fabric service system architecture |
| US10956415B2 (en) | 2016-09-26 | 2021-03-23 | Splunk Inc. | Generating a subquery for an external data system using a configuration file |
| US11281706B2 (en) | 2016-09-26 | 2022-03-22 | Splunk Inc. | Multi-layer partition allocation for query execution |
| US11093703B2 (en) * | 2016-09-29 | 2021-08-17 | Google Llc | Generating charts from data in a data table |
| US9633078B1 (en) * | 2016-09-30 | 2017-04-25 | Semmle Limited | Generating identifiers for tuples of recursively defined relations |
| US9720961B1 (en) | 2016-09-30 | 2017-08-01 | Semmle Limited | Algebraic data types for database query languages |
| JP7170638B2 (ja) | 2016-12-01 | 2022-11-14 | アビニシオ テクノロジー エルエルシー | 系統メタデータの生成、アクセス、及び表示 |
| US10650050B2 (en) | 2016-12-06 | 2020-05-12 | Microsoft Technology Licensing, Llc | Synthesizing mapping relationships using table corpus |
| US10936555B2 (en) * | 2016-12-22 | 2021-03-02 | Sap Se | Automated query compliance analysis |
| US10565173B2 (en) * | 2017-02-10 | 2020-02-18 | Wipro Limited | Method and system for assessing quality of incremental heterogeneous data |
| US10514993B2 (en) * | 2017-02-14 | 2019-12-24 | Google Llc | Analyzing large-scale data processing jobs |
| CN107220283B (zh) * | 2017-04-21 | 2019-11-08 | 东软集团股份有限公司 | 数据处理方法、装置、存储介质及电子设备 |
| US9934287B1 (en) | 2017-07-25 | 2018-04-03 | Capital One Services, Llc | Systems and methods for expedited large file processing |
| US12248484B2 (en) | 2017-07-31 | 2025-03-11 | Splunk Inc. | Reassigning processing tasks to an external storage system |
| US11989194B2 (en) * | 2017-07-31 | 2024-05-21 | Splunk Inc. | Addressing memory limits for partition tracking among worker nodes |
| US11921672B2 (en) | 2017-07-31 | 2024-03-05 | Splunk Inc. | Query execution at a remote heterogeneous data store of a data fabric service |
| US12118009B2 (en) * | 2017-07-31 | 2024-10-15 | Splunk Inc. | Supporting query languages through distributed execution of query engines |
| US11423083B2 (en) | 2017-10-27 | 2022-08-23 | Ab Initio Technology Llc | Transforming a specification into a persistent computer program |
| US11055074B2 (en) * | 2017-11-13 | 2021-07-06 | Ab Initio Technology Llc | Key-based logging for processing of structured data items with executable logic |
| US11509540B2 (en) * | 2017-12-14 | 2022-11-22 | Extreme Networks, Inc. | Systems and methods for zero-footprint large-scale user-entity behavior modeling |
| US11068540B2 (en) | 2018-01-25 | 2021-07-20 | Ab Initio Technology Llc | Techniques for integrating validation results in data profiling and related systems and methods |
| EP3743820A1 (en) * | 2018-01-25 | 2020-12-02 | Ab Initio Technology LLC | Techniques for integrating validation results in data profiling and related systems and methods |
| US11334543B1 (en) | 2018-04-30 | 2022-05-17 | Splunk Inc. | Scalable bucket merging for a data intake and query system |
| EP3575980A3 (en) | 2018-05-29 | 2020-03-04 | Accenture Global Solutions Limited | Intelligent data quality |
| KR101917807B1 (ko) * | 2018-05-31 | 2018-11-13 | 주식회사 웨어밸리 | 원본 데이터베이스의 부하를 최소화한 데이터 정합성 검증 방법 및 시스템 |
| JP7464543B2 (ja) | 2018-07-19 | 2024-04-09 | アビニシオ テクノロジー エルエルシー | データウェアハウスへの発行 |
| US11080266B2 (en) * | 2018-07-30 | 2021-08-03 | Futurewei Technologies, Inc. | Graph functional dependency checking |
| US10671749B2 (en) | 2018-09-05 | 2020-06-02 | Consumerinfo.Com, Inc. | Authenticated access and aggregation database platform |
| US11227065B2 (en) | 2018-11-06 | 2022-01-18 | Microsoft Technology Licensing, Llc | Static data masking |
| US11423009B2 (en) * | 2019-05-29 | 2022-08-23 | ThinkData Works, Inc. | System and method to prevent formation of dark data |
| US11704494B2 (en) | 2019-05-31 | 2023-07-18 | Ab Initio Technology Llc | Discovering a semantic meaning of data fields from profile data of the data fields |
| US11153400B1 (en) | 2019-06-04 | 2021-10-19 | Thomas Layne Bascom | Federation broker system and method for coordinating discovery, interoperability, connections and correspondence among networked resources |
| US11494380B2 (en) | 2019-10-18 | 2022-11-08 | Splunk Inc. | Management of distributed computing framework components in a data fabric service system |
| US11030256B2 (en) | 2019-11-05 | 2021-06-08 | Tableau Software, Inc. | Methods and user interfaces for visually analyzing data visualizations with multi-row calculations |
| US11475052B1 (en) | 2019-11-08 | 2022-10-18 | Tableau Software, Inc. | Using visual cues to validate object models of database tables |
| US10997217B1 (en) | 2019-11-10 | 2021-05-04 | Tableau Software, Inc. | Systems and methods for visualizing object models of database tables |
| CN111143433B (zh) * | 2019-12-10 | 2024-07-09 | 中国平安财产保险股份有限公司 | 一种统计数据仓数据的方法及装置 |
| FR3105844A1 (fr) * | 2019-12-31 | 2021-07-02 | Bull Sas | PROCEDE ET système D’IDENTIFICATION DE VARIABLES PERTINENTES |
| KR102365910B1 (ko) * | 2019-12-31 | 2022-02-22 | 가톨릭관동대학교산학협력단 | 속성 값 품질 지수를 이용한 데이터 프로파일링 방법 및 데이터 프로파일링 시스템 |
| US11200215B2 (en) * | 2020-01-30 | 2021-12-14 | International Business Machines Corporation | Data quality evaluation |
| US11922222B1 (en) | 2020-01-30 | 2024-03-05 | Splunk Inc. | Generating a modified component for a data intake and query system using an isolated execution environment image |
| US11886399B2 (en) | 2020-02-26 | 2024-01-30 | Ab Initio Technology Llc | Generating rules for data processing values of data fields from semantic labels of the data fields |
| US11321340B1 (en) | 2020-03-31 | 2022-05-03 | Wells Fargo Bank, N.A. | Metadata extraction from big data sources |
| US11556563B2 (en) * | 2020-06-12 | 2023-01-17 | Oracle International Corporation | Data stream processing |
| US11403268B2 (en) * | 2020-08-06 | 2022-08-02 | Sap Se | Predicting types of records based on amount values of records |
| CN112115138B (zh) * | 2020-08-19 | 2025-07-25 | 第四范式(北京)技术有限公司 | 确定数据表之间关联关系的方法、装置及设备 |
| US11704313B1 (en) | 2020-10-19 | 2023-07-18 | Splunk Inc. | Parallel branch operation using intermediary nodes |
| KR102265937B1 (ko) * | 2020-12-21 | 2021-06-17 | 주식회사 모비젠 | 시퀀스데이터의 분석 방법 및 그 장치 |
| US11847390B2 (en) | 2021-01-05 | 2023-12-19 | Capital One Services, Llc | Generation of synthetic data using agent-based simulations |
| US20220215243A1 (en) * | 2021-01-05 | 2022-07-07 | Capital One Services, Llc | Risk-Reliability Framework for Evaluating Synthetic Data Models |
| US12106026B2 (en) | 2021-01-05 | 2024-10-01 | Capital One Services, Llc | Extensible agents in agent-based generative models |
| WO2022165326A1 (en) | 2021-01-31 | 2022-08-04 | Ab Initio Technology Llc | Dataset multiplexer for data processing system |
| CA3209125A1 (en) | 2021-01-31 | 2022-08-04 | Ab Initio Technology Llc | Data processing system with manipulation of logical dataset groups |
| US11537594B2 (en) | 2021-02-05 | 2022-12-27 | Oracle International Corporation | Approximate estimation of number of distinct keys in a multiset using a sample |
| CN112925792B (zh) * | 2021-03-26 | 2024-01-05 | 北京中经惠众科技有限公司 | 数据存储控制方法、装置、计算设备及介质 |
| US12072939B1 (en) | 2021-07-30 | 2024-08-27 | Splunk Inc. | Federated data enrichment objects |
| CN113656430B (zh) * | 2021-08-12 | 2024-02-27 | 上海二三四五网络科技有限公司 | 一种批量表数据自动扩充的控制方法及装置 |
| KR102714923B1 (ko) * | 2021-12-22 | 2024-10-08 | 세종대학교산학협력단 | 데이터 프로파일링 장치 및 방법 |
| KR102437098B1 (ko) | 2022-04-15 | 2022-08-25 | 이찬영 | 인공 지능 기반의 오류 데이터 판정 방법 및 그 장치 |
| US12093272B1 (en) | 2022-04-29 | 2024-09-17 | Splunk Inc. | Retrieving data identifiers from queue for search of external data system |
| US12141137B1 (en) | 2022-06-10 | 2024-11-12 | Cisco Technology, Inc. | Query translation for an external data system |
| CN115168504A (zh) * | 2022-06-20 | 2022-10-11 | 阿里云计算有限公司 | 一种函数依赖的确定方法及装置 |
| US20240005343A1 (en) * | 2022-06-30 | 2024-01-04 | Open Text Holdings, Inc. | Data interrogator for edi mapping and migration |
| US11907051B1 (en) | 2022-09-07 | 2024-02-20 | International Business Machines Corporation | Correcting invalid zero value for data monitoring |
| WO2024064705A1 (en) | 2022-09-20 | 2024-03-28 | Ab Initio Technology Llc | Techniques for discovering and updating semantic meaning of data fields |
| US12287790B2 (en) | 2023-01-31 | 2025-04-29 | Splunk Inc. | Runtime systems query coordinator |
| US20250028714A1 (en) | 2023-07-17 | 2025-01-23 | Splunk Inc. | Query execution using a data processing scheme of a separate data processing system |
| WO2025137522A1 (en) * | 2023-12-21 | 2025-06-26 | Ab Initio Technology Llc | A development environment for automatically generating code using a multi-tiered metadata model |
Family Cites Families (73)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2760794B2 (ja) * | 1988-01-29 | 1998-06-04 | 株式会社日立製作所 | データベース処理方法および装置 |
| US5179643A (en) * | 1988-12-23 | 1993-01-12 | Hitachi, Ltd. | Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor |
| JPH032938A (ja) | 1989-05-31 | 1991-01-09 | Hitachi Ltd | データベース処理方法 |
| JPH04152440A (ja) * | 1990-10-17 | 1992-05-26 | Hitachi Ltd | 知的問合せ処理方法 |
| FR2698465B1 (fr) | 1992-11-20 | 1995-01-13 | Bull Sa | Méthode d'extraction de profils de statistiques, utilisation des statistiques créées par la méthode. |
| US5742806A (en) | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
| JP3519126B2 (ja) | 1994-07-14 | 2004-04-12 | 株式会社リコー | 自動レイアウトシステム |
| US5842200A (en) * | 1995-03-31 | 1998-11-24 | International Business Machines Corporation | System and method for parallel mining of association rules in databases |
| US6601048B1 (en) * | 1997-09-12 | 2003-07-29 | Mci Communications Corporation | System and method for detecting and managing fraud |
| US5966072A (en) * | 1996-07-02 | 1999-10-12 | Ab Initio Software Corporation | Executing computations expressed as graphs |
| US5778373A (en) | 1996-07-15 | 1998-07-07 | At&T Corp | Integration of an information server database schema by generating a translation map from exemplary files |
| US6138123A (en) * | 1996-07-25 | 2000-10-24 | Rathbun; Kyle R. | Method for creating and using parallel data structures |
| JPH1055367A (ja) | 1996-08-09 | 1998-02-24 | Hitachi Ltd | データ利用システム |
| US5845285A (en) | 1997-01-07 | 1998-12-01 | Klein; Laurence C. | Computer system and method of data analysis |
| US5987453A (en) | 1997-04-07 | 1999-11-16 | Informix Software, Inc. | Method and apparatus for performing a join query in a database system |
| US6134560A (en) | 1997-12-16 | 2000-10-17 | Kliebhan; Daniel F. | Method and apparatus for merging telephone switching office databases |
| US6826556B1 (en) * | 1998-10-02 | 2004-11-30 | Ncr Corporation | Techniques for deploying analytic models in a parallel |
| US6959300B1 (en) * | 1998-12-10 | 2005-10-25 | At&T Corp. | Data compression method and apparatus |
| US6343294B1 (en) | 1998-12-15 | 2002-01-29 | International Business Machines Corporation | Data file editor for multiple data subsets |
| JP4037001B2 (ja) * | 1999-02-23 | 2008-01-23 | 三菱電機株式会社 | データベース作成装置およびデータベース検索装置 |
| US6741995B1 (en) * | 1999-03-23 | 2004-05-25 | Metaedge Corporation | Method for dynamically creating a profile |
| US6430539B1 (en) * | 1999-05-06 | 2002-08-06 | Hnc Software | Predictive modeling of consumer financial behavior |
| US6163774A (en) | 1999-05-24 | 2000-12-19 | Platinum Technology Ip, Inc. | Method and apparatus for simplified and flexible selection of aggregate and cross product levels for a data warehouse |
| CN100375088C (zh) | 1999-06-18 | 2008-03-12 | 国际商业机器公司 | 利用事务语义法分段和处理连续数据流 |
| US6801938B1 (en) * | 1999-06-18 | 2004-10-05 | Torrent Systems, Inc. | Segmentation and processing of continuous data streams using transactional semantics |
| JP3318834B2 (ja) | 1999-07-30 | 2002-08-26 | 三菱電機株式会社 | データファイルシステム及びデータ検索方法 |
| JP3567861B2 (ja) | 2000-07-07 | 2004-09-22 | 日本電信電話株式会社 | 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体 |
| JP4366845B2 (ja) * | 2000-07-24 | 2009-11-18 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラム提供媒体 |
| US6788302B1 (en) | 2000-08-03 | 2004-09-07 | International Business Machines Corporation | Partitioning and load balancing graphical shape data for parallel applications |
| US20020073138A1 (en) * | 2000-12-08 | 2002-06-13 | Gilbert Eric S. | De-identification and linkage of data records |
| US6952693B2 (en) * | 2001-02-23 | 2005-10-04 | Ran Wolff | Distributed mining of association rules |
| US20020161778A1 (en) | 2001-02-24 | 2002-10-31 | Core Integration Partners, Inc. | Method and system of data warehousing and building business intelligence using a data storage model |
| US20020120602A1 (en) | 2001-02-28 | 2002-08-29 | Ross Overbeek | System, method and computer program product for simultaneous analysis of multiple genomes |
| JP2002269114A (ja) * | 2001-03-14 | 2002-09-20 | Kousaku Ookubo | 知識データベース及び知識データベースの構築方法 |
| US20030033138A1 (en) * | 2001-07-26 | 2003-02-13 | Srinivas Bangalore | Method for partitioning a data set into frequency vectors for clustering |
| US7130852B2 (en) * | 2001-07-27 | 2006-10-31 | Silicon Valley Bank | Internal security system for a relational database system |
| WO2003014867A2 (en) * | 2001-08-03 | 2003-02-20 | John Allen Ananian | Personalized interactive digital catalog profiling |
| US6801903B2 (en) | 2001-10-12 | 2004-10-05 | Ncr Corporation | Collecting statistics in a database system |
| US20030140027A1 (en) * | 2001-12-12 | 2003-07-24 | Jeffrey Huttel | Universal Programming Interface to Knowledge Management (UPIKM) database system with integrated XML interface |
| US7813937B1 (en) * | 2002-02-15 | 2010-10-12 | Fair Isaac Corporation | Consistency modeling of healthcare claims to detect fraud and abuse |
| US7031969B2 (en) | 2002-02-20 | 2006-04-18 | Lawrence Technologies, Llc | System and method for identifying relationships between database records |
| WO2003081391A2 (en) * | 2002-03-19 | 2003-10-02 | Mapinfo Corporation | Location based service provider |
| US20040083199A1 (en) * | 2002-08-07 | 2004-04-29 | Govindugari Diwakar R. | Method and architecture for data transformation, normalization, profiling, cleansing and validation |
| US6657568B1 (en) | 2002-08-27 | 2003-12-02 | Fmr Corp. | Data packing for real-time streaming |
| US7047230B2 (en) * | 2002-09-09 | 2006-05-16 | Lucent Technologies Inc. | Distinct sampling system and a method of distinct sampling for optimizing distinct value query estimates |
| US20040111410A1 (en) * | 2002-10-14 | 2004-06-10 | Burgoon David Alford | Information reservoir |
| US7698163B2 (en) * | 2002-11-22 | 2010-04-13 | Accenture Global Services Gmbh | Multi-dimensional segmentation for use in a customer interaction |
| US7403942B1 (en) * | 2003-02-04 | 2008-07-22 | Seisint, Inc. | Method and system for processing data records |
| US7117222B2 (en) * | 2003-03-13 | 2006-10-03 | International Business Machines Corporation | Pre-formatted column-level caching to improve client performance |
| US7433861B2 (en) * | 2003-03-13 | 2008-10-07 | International Business Machines Corporation | Byte-code representations of actual data to reduce network traffic in database transactions |
| US20040249810A1 (en) * | 2003-06-03 | 2004-12-09 | Microsoft Corporation | Small group sampling of data for use in query processing |
| GB0314591D0 (en) | 2003-06-21 | 2003-07-30 | Ibm | Profiling data in a data store |
| US7426520B2 (en) | 2003-09-10 | 2008-09-16 | Exeros, Inc. | Method and apparatus for semantic discovery and mapping between data sources |
| CA2655735C (en) | 2003-09-15 | 2011-01-18 | Ab Initio Software Corporation | Data profiling |
| US7587394B2 (en) * | 2003-09-23 | 2009-09-08 | International Business Machines Corporation | Methods and apparatus for query rewrite with auxiliary attributes in query processing operations |
| US7149736B2 (en) | 2003-09-26 | 2006-12-12 | Microsoft Corporation | Maintaining time-sorted aggregation records representing aggregations of values from multiple database records using multiple partitions |
| AU2003279999A1 (en) | 2003-10-21 | 2005-06-08 | Nielsen Media Research, Inc. | Methods and apparatus for fusing databases |
| US20050177578A1 (en) | 2004-02-10 | 2005-08-11 | Chen Yao-Ching S. | Efficient type annontation of XML schema-validated XML documents without schema validation |
| US7376656B2 (en) * | 2004-02-10 | 2008-05-20 | Microsoft Corporation | System and method for providing user defined aggregates in a database system |
| US8447743B2 (en) * | 2004-08-17 | 2013-05-21 | International Business Machines Corporation | Techniques for processing database queries including user-defined functions |
| US7774346B2 (en) | 2005-08-26 | 2010-08-10 | Oracle International Corporation | Indexes that are based on bitmap values and that use summary bitmap values |
| US20070073721A1 (en) | 2005-09-23 | 2007-03-29 | Business Objects, S.A. | Apparatus and method for serviced data profiling operations |
| US8271452B2 (en) | 2006-06-12 | 2012-09-18 | Rainstor Limited | Method, system, and database archive for enhancing database archiving |
| US8412713B2 (en) | 2007-03-06 | 2013-04-02 | Mcafee, Inc. | Set function calculation in a database |
| US7912867B2 (en) * | 2008-02-25 | 2011-03-22 | United Parcel Services Of America, Inc. | Systems and methods of profiling data for integration |
| US9251212B2 (en) | 2009-03-27 | 2016-02-02 | Business Objects Software Ltd. | Profiling in a massive parallel processing environment |
| AU2010295547B2 (en) | 2009-09-16 | 2015-05-07 | Ab Initio Technology Llc | Mapping dataset elements |
| KR20120115233A (ko) | 2009-11-13 | 2012-10-17 | 아브 이니티오 테크놀로지 엘엘시 | 레코드 포맷 정보의 관리 |
| US8396873B2 (en) | 2010-03-10 | 2013-03-12 | Emc Corporation | Index searching using a bloom filter |
| US8296274B2 (en) | 2011-01-27 | 2012-10-23 | Leppard Andrew | Considering multiple lookups in bloom filter decision making |
| CN103348598B (zh) | 2011-01-28 | 2017-07-14 | 起元科技有限公司 | 生成数据模式信息 |
| US8615519B2 (en) | 2011-06-17 | 2013-12-24 | Sap Ag | Method and system for inverted indexing of a dataset |
| US8762396B2 (en) | 2011-12-22 | 2014-06-24 | Sap Ag | Dynamic, hierarchical bloom filters for network data routing |
-
2004
- 2004-09-15 CA CA2655735A patent/CA2655735C/en not_active Expired - Lifetime
- 2004-09-15 KR KR1020077021527A patent/KR101033179B1/ko not_active Expired - Lifetime
- 2004-09-15 EP EP20100009155 patent/EP2261820A3/en not_active Withdrawn
- 2004-09-15 US US10/941,402 patent/US8868580B2/en not_active Expired - Lifetime
- 2004-09-15 KR KR1020067005255A patent/KR100899850B1/ko not_active Expired - Lifetime
- 2004-09-15 WO PCT/US2004/030144 patent/WO2005029369A2/en not_active Ceased
- 2004-09-15 US US10/941,401 patent/US7756873B2/en not_active Expired - Lifetime
- 2004-09-15 CA CA002538568A patent/CA2538568C/en not_active Expired - Lifetime
- 2004-09-15 KR KR1020097003696A patent/KR20090039803A/ko not_active Ceased
- 2004-09-15 AU AU2004275334A patent/AU2004275334B9/en not_active Expired
- 2004-09-15 EP EP10009234.5A patent/EP2261821B1/en not_active Expired - Lifetime
- 2004-09-15 KR KR1020077021526A patent/KR100922141B1/ko not_active Expired - Lifetime
- 2004-09-15 AT AT04784113T patent/ATE515746T1/de not_active IP Right Cessation
- 2004-09-15 CN CN201210367944.3A patent/CN102982065B/zh not_active Expired - Lifetime
- 2004-09-15 US US10/941,373 patent/US7849075B2/en active Active
- 2004-09-15 CA CA2655731A patent/CA2655731C/en not_active Expired - Lifetime
- 2004-09-15 JP JP2006526986A patent/JP5328099B2/ja not_active Expired - Lifetime
- 2004-09-15 EP EP04784113A patent/EP1676217B1/en not_active Expired - Lifetime
-
2009
- 2009-01-28 AU AU2009200293A patent/AU2009200293B2/en not_active Expired
- 2009-01-28 AU AU2009200294A patent/AU2009200294A1/en not_active Abandoned
-
2010
- 2010-07-06 JP JP2010153800A patent/JP5372851B2/ja not_active Expired - Lifetime
- 2010-07-06 JP JP2010153799A patent/JP5372850B2/ja not_active Expired - Lifetime
-
2014
- 2014-10-20 US US14/519,030 patent/US9323802B2/en not_active Expired - Lifetime
-
2016
- 2016-04-22 US US15/135,852 patent/US20160239532A1/en not_active Abandoned
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5372851B2 (ja) | データプロファイリング | |
| JP5826260B2 (ja) | 関連データセットの処理 | |
| CN105051729A (zh) | 数据记录的选择 | |
| CN101271471B (zh) | 数据处理方法、软件和数据处理系统 | |
| AU2013200067B2 (en) | Data profiling | |
| HK1150672A (en) | Data profiling | |
| HK1150671A (en) | Data profiling | |
| HK1150672B (en) | Data profiling | |
| HK1093568B (en) | Data profiling |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120323 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120419 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120808 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130212 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130612 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130730 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130823 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130918 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5372851 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| EXPY | Cancellation because of completion of term |