JP2008015774A - Counterfeit document detection system and program - Google Patents
Counterfeit document detection system and program Download PDFInfo
- Publication number
- JP2008015774A JP2008015774A JP2006186004A JP2006186004A JP2008015774A JP 2008015774 A JP2008015774 A JP 2008015774A JP 2006186004 A JP2006186004 A JP 2006186004A JP 2006186004 A JP2006186004 A JP 2006186004A JP 2008015774 A JP2008015774 A JP 2008015774A
- Authority
- JP
- Japan
- Prior art keywords
- document
- counterfeit
- unit
- inspection
- imitation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】複数の文書間における類似部分を検出可能な模倣文書検出システム及びプログラムを提供することを目的とする。
【解決手段】模倣文書検出システム1では、複数の文書ファイル7を投入するための投入インタフェース部2と、投入された前記文書ファイル7を蓄積する文書蓄積部3と、入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部4と、前記文書蓄積部3に蓄積された文書ファイル群から順次文書ファイルの組(文書ファイル7)を取り出して、前記模倣検査部4に入力し、該文書ファイルの組に対して前記模倣検査部4が出力する検査結果を保持する模倣検査駆動部5と、前記模倣検査駆動部5が保持している前記検査結果に基づいて、蓄積された前記文書ファイル7間の模倣関係を提示する結果表示部6とを具備する。
【選択図】図1An object of the present invention is to provide a counterfeit document detection system and program capable of detecting similar parts between a plurality of documents.
In a counterfeit document detection system, a combination of an input interface unit for inputting a plurality of document files, a document storage unit for storing the input document files, and an input document file The imitation inspection unit 4 that inspects the imitation part and outputs the inspection result, and sequentially extracts a set of document files (document file 7) from the document file group stored in the document storage unit 3, and the imitation The imitation inspection driving unit 5 that holds the inspection result input to the inspection unit 4 and output from the counterfeit inspection unit 4 for the set of document files, and the inspection result held by the imitation inspection driving unit 5 And a result display unit 6 for presenting the imitation relationship between the stored document files 7.
[Selection] Figure 1
Description
本発明は、複数の文書間における模倣部分を検出可能な模倣文書検出システム及びプログラムに関する。 The present invention relates to a counterfeit document detection system and program capable of detecting a counterfeit portion between a plurality of documents.
近年、レポート作成の電子化(ワードプロセッサの利用等)が一般的となるのに伴い、他人(例えば先輩など)のレポートやインターネット上のWebページを、剽窃するケースが増加している。これをチェックする教員の負担は大きく、また見逃しの可能性もあるため、コンピュータによる支援が必要である。特にeラーニングにおいては、レポート等も電子的形式で提出されること、受講者の行動が直接には見えないことから、模倣のチェックを電子的に行なう意味は大きい。
しかし、従来、検索対象となる複数の文書内から、各文書間で相互に類似する模倣部分を検出するシステムは存在していなかった。 However, heretofore, there has not been a system for detecting imitation parts that are similar to each other among a plurality of documents to be searched.
関連する周知技術として、文書の集合の中から検索キーに該当する文書を検索する技術(例えば特許文献1)があるが、当該技術を利用して類似する可能性がある関連文書を検索しても、レポートの模倣チェックを行なう場合には、結局教員がチェック対象となるレポートと、前記関連文書とを逐一見比べてチェックしなければならなかった。このような背景から、人手に頼っていたチェック作業の自動化が切望されていた。 As a related well-known technique, there is a technique (for example, Patent Document 1) for searching a document corresponding to a search key from a set of documents. By using the technique, a related document that is likely to be similar is searched. However, when a report imitation check is performed, the teacher eventually has to check the report to be checked against the related documents one by one. Against this background, there was a keen desire to automate check operations that relied on human hands.
そこで本発明は上記問題点に鑑み、複数の文書間における類似部分を検出可能な模倣文書検出システム及びプログラムを提供することを目的とする。 In view of the above problems, an object of the present invention is to provide a counterfeit document detection system and program capable of detecting a similar portion between a plurality of documents.
本発明における請求項1の模倣文書検出システムでは、複数の文書ファイルを投入するための投入インタフェース部と、投入された前記文書ファイルを蓄積する文書蓄積部と、入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部と、前記文書蓄積部に蓄積された文書ファイル群から順次文書ファイルの組を取り出して、前記模倣検査部に入力し、該文書ファイルの組に対して前記模倣検査部が出力する検査結果を保持する模倣検査駆動部と、前記模倣検査駆動部が保持している前記検査結果に基づいて、蓄積された前記文書ファイル間の模倣関係を提示する結果表示部とを具備する。
In the imitation document detection system according to
このようにすると、システムに投入した複数の文書ファイル間の模倣を検査して、模倣文書を検出することができる。 In this way, it is possible to detect imitation documents by inspecting imitation between a plurality of document files input to the system.
本発明における請求項2の模倣文書検出システムでは、前記文書蓄積部が、蓄積すべき前記文書ファイルを分類できるものであり、前記模倣検査駆動部が、前記文書蓄積部における分類とユーザからの指示に基づいて、順次前記文書ファイルの組を前記文書蓄積部から取り出して、前記模倣検査部に入力し、該文書ファイルの組に対して前記模倣検査部が出力する検査結果を保持するものであることを特徴とする。
In the counterfeit document detection system according to
このようにすると、ユーザは模倣検査対象となる分類を自由に指定でき、当該分類に属する文書ファイルについて模倣検査を行なうことができる。 In this way, the user can freely specify the classification to be subjected to the imitation inspection, and can perform the imitation inspection on the document file belonging to the classification.
本発明における請求項3の模倣文書検出システムでは、前記結果表示部が、模倣関係のある前記文書ファイルの組の文書ファイル名と、該文書ファイルの組に対する模倣度とを一覧として表形式で表示するとともに、該文書ファイルの組の一覧中における任意の文書ファイルの組について模倣部分を表示するものであることを特徴とする。 In the counterfeit document detection system according to the third aspect of the present invention, the result display unit displays the document file name of the set of document files having a counterfeit relationship and the degree of imitation for the set of document files in a tabular form. In addition, the imitation part is displayed for an arbitrary set of document files in the list of sets of document files.
このようにすると、一覧表により模倣関係のある文書ファイルを一目で確認することができ、文書ファイル内のどの部分が模倣部分であるかを具体的に確認することができる。 In this way, it is possible to confirm at a glance a document file having a counterfeit relationship from the list, and it is possible to specifically confirm which part in the document file is the imitation part.
本発明における請求項4の模倣文書検出システムでは、文書ファイルを投入するための投入インタフェース部と、該文書投入インターフェース部を介して入力された前記文書ファイルを蓄積する文書蓄積部と、入力された前記文書ファイルに記述された文章に基づいて検索語群を生成し、該生成した前記検索語群に基づいて、システム外部の電子的にアクセス可能な文書を検索してその検索結果の文書群を出力する文書検索部と、該投入された前記文書ファイルを前記文書検索部に入力して得られる前記検索結果の文書群を個々の文書に対して識別可能な識別子を付与した上で検索結果文書ファイルとして蓄積する検索結果文書蓄積部と、入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部と、前記検索結果文書蓄積部から前記検索結果文書ファイルを順次取り出して、投入されて前記文書蓄積部に蓄積された前記文書ファイルとの組を作り、該文書ファイルの組を前記模倣検査部に入力し、該文書ファイルの組に対して前記模倣検査部が出力する検査結果を保持する模倣検査駆動部と、前記模倣検査駆動部が保持している前記検査結果に基づいて、投入された前記文書ファイルと前記文書検索部により検索された前記検索結果文書ファイルとの間の模倣関係を提示する結果表示部とを具備する。
In the imitation document detection system according to
このようにすると、システムに投入した検査対象となる文書ファイルと、システム外部から検索された不特定多数の関連文書との間における模倣を検査することにより、投入した文書ファイルが模倣文書であるか否かをより広い文書範囲で判定することができる。 In this way, whether the input document file is a counterfeit document by checking imitation between the document file to be inspected input to the system and a large number of unspecified related documents retrieved from outside the system. Whether or not can be determined in a wider document range.
本発明における請求項5の模倣文書検出システムでは、前記結果表示部が、投入された前記文書ファイルと模倣関係のある前記検索結果文書ファイルの文書ファイル識別子と、該検索結果文書ファイルに対する模倣度とを一覧として表形式で表示するとともに、該文書ファイル識別子一覧中における任意の前記検索結果文書ファイルについて、投入された前記文書ファイルとの模倣部分を表示するものであることを特徴とする。
In the counterfeit document detection system according to
このようにすると、一覧表により模倣関係のある文書ファイルを一目で確認することができ、文書ファイル内のどの部分が模倣部分であるかを具体的に確認することができる。 In this way, it is possible to confirm at a glance a document file having a counterfeit relationship from the list, and it is possible to specifically confirm which part in the document file is the imitation part.
本発明における請求項6の模倣文書検出システムでは、複数の文書ファイルを投入するための投入インタフェース部と、投入された前記文書ファイルを蓄積する文書蓄積部と、入力された前記文書ファイルに記述された文章に基づいて検索語群を生成し、該生成した前記検索語群に基づいて、外部の電子的にアクセス可能な文書を検索してその検索結果の文書群を出力する文書検索部と、前記文書蓄積部に蓄積された個々の前記文書ファイルに対して、該文書ファイルを前記文書検索部に入力して得られる前記検索結果の文書群を個々の文書に対して識別可能な識別子を付与した上で検索結果文書ファイルとして蓄積する検索結果文書蓄積部と、入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部と、前記文書蓄積部に蓄積された前記文書ファイル群及び前記検索結果文書蓄積部に蓄積された検索結果文書ファイル群の中から順次文書ファイルの組を取り出して、前記模倣検査部に入力し、該文書ファイルの組に対して前記模倣検査部が出力する検査結果を保持する模倣検査駆動部と、前記模倣検査駆動部が保持している前記検査結果に基づいて、蓄積された前記文書ファイル間及び投入された前記文書ファイルと前記文書検索部により検索された前記検索結果文書ファイルとの間の模倣関係を提示する結果表示部とを具備する。
In the counterfeit document detection system according to
このようにすると、システムに投入した複数の文書ファイル間の模倣を検査すると共に、システムに投入した文書ファイルと、システム外部から検索された不特定多数の関連文書との間における模倣を検査することにより、投入した文書ファイルが模倣文書であるか否かをさらに広い文書範囲で判定することができる。 In this way, the imitation between a plurality of document files input to the system is checked, and the imitation between the document file input to the system and an unspecified number of related documents searched from outside the system is checked. Thus, it can be determined in a wider document range whether the input document file is a counterfeit document.
本発明における請求項7の模倣文書検出システムでは、前記文書蓄積部及び前記検索結果文書蓄積部が、蓄積すべき前記文書ファイル及び前記検索結果文書ファイルを分類できるものであり、前記模倣検査駆動部が、前記文書蓄積部及び前記検索結果文書蓄積部における分類とユーザからの指示に基づいて、順次前記文書ファイルの組を前記文書蓄積部及び前記検索結果文書蓄積部から取り出して、前記模倣検査部に入力し、該文書ファイルの組に対して前記模倣検査部が出力する検査結果を保持するものであることを特徴とする。
In the imitation document detection system according to
このようにすると、ユーザは模倣検査対象となる分類を自由に指定でき、当該分類に属する文書ファイルについて模倣検査を行なうことができる。 In this way, the user can freely specify the classification to be subjected to the imitation inspection, and can perform the imitation inspection on the document file belonging to the classification.
本発明における請求項8の模倣文書検出システムでは、前記結果表示部が、模倣関係のある前記文書ファイルの組の文書ファイル名又は文書ファイル識別子と、該文書ファイルの組に対する模倣度とを一覧として表形式で表示するとともに、該文書ファイルの組の一覧中における任意の文書ファイルの組について模倣部分を表示するものであることを特徴とする。 In the counterfeit document detection system according to claim 8 of the present invention, the result display unit displays a list of document file names or document file identifiers of the set of document files having a counterfeit relationship, and imitation levels for the set of document files. In addition to displaying in tabular form, the imitation part is displayed for an arbitrary set of document files in the list of sets of document files.
このようにすると、一覧表により模倣関係のある文書ファイルを一目で確認することができ、文書ファイル内のどの部分が模倣部分であるかを具体的に確認することができる。 In this way, it is possible to confirm at a glance a document file having a counterfeit relationship from the list, and it is possible to specifically confirm which part in the document file is the imitation part.
本発明における請求項9の模倣文書検出システムでは、前記結果表示部が、模倣関係のある前記文書ファイルの組の集合について、該集合に含まれる個々の文書ファイルを節点とし、文書ファイル間に模倣関係がある場合に該模倣関係のある文書ファイルの節点間を枝により結び、該文書ファイル間の模倣度に基づいて該枝の視覚的特徴を決定し、グラフとして表示するものであることを特徴とする。 In the counterfeit document detection system according to claim 9 of the present invention, the result display unit uses a set of document files in the set as a node for the set of sets of document files having a counterfeit relationship, and imitates between the document files. When there is a relationship, the nodes of the document file having the imitation relationship are connected by a branch, the visual characteristics of the branch are determined based on the degree of imitation between the document files, and displayed as a graph And
このようにすると、文書ファイルの検査結果がグラフ化されるので、各文書ファイル間の模倣関係が視覚的に明確となり、ユーザが検査結果を容易に理解することができる。 In this way, the inspection result of the document file is graphed, so that the imitation relationship between the document files becomes visually clear, and the user can easily understand the inspection result.
本発明における請求項10のプログラムでは、コンピュータを、前記請求項1〜9のいずれか一つの模倣文書検出システムとして機能させる。 According to a program of a tenth aspect of the present invention, a computer is caused to function as the counterfeit document detection system according to any one of the first to ninth aspects.
このようにすると、コンピュータにより模倣文書検出システムを容易に構築することができる。 In this way, a counterfeit document detection system can be easily constructed by a computer.
本発明の請求項1によると、複数の文書間における類似部分を検出可能な模倣文書検出システムを提供することができる。 According to the first aspect of the present invention, it is possible to provide a counterfeit document detection system capable of detecting a similar portion between a plurality of documents.
本発明の請求項2によると、模倣検査対象を分類別に選択可能とすることで、検査効率を向上させることができる。
According to
本発明の請求項3によると、ユーザに対して模倣検査結果をわかりやすく提示することができる。 According to the third aspect of the present invention, the imitation inspection result can be presented to the user in an easily understandable manner.
本発明の請求項4によると、システム外部の関連文書を用いて、より広い文書範囲における模倣を検出可能な模倣文書検出システムを提供することができる。
According to
本発明の請求項5によると、ユーザに対して模倣検査結果をわかりやすく提示することができる。
According to
本発明の請求項6によると、複数の文書間における類似部分を検出可能、かつシステム外部の関連文書を用いて、より広い文書範囲における模倣を検出可能な模倣文書検出システムを提供することができる。
According to
本発明の請求項7によると、模倣検査対象を分類別に選択可能とすることで、検査効率を向上させることができる。
According to
本発明の請求項8によると、ユーザに対して模倣検査結果をわかりやすく提示することができる。 According to claim 8 of the present invention, the imitation inspection result can be presented to the user in an easily understandable manner.
本発明の請求項9によると、ユーザに対して模倣検査結果をよりわかりやすく視覚的に提示することができる。 According to the ninth aspect of the present invention, it is possible to visually present the imitation inspection result to the user in an easy-to-understand manner.
本発明の請求項10によると、コンピュータにより模倣文書検出システムを容易に構築することができる。 According to claim 10 of the present invention, a counterfeit document detection system can be easily constructed by a computer.
以下、添付図面を参照しながら、本発明における模倣文書検出システム及びプログラムの好ましい各実施例を説明する。なお、各実施例において同一箇所には同一符号を付し、共通する部分の説明は重複するため極力省略する。また、各実施例では模倣文書検出システムについてのみ説明するが、本発明の模倣文書検出プログラムは、インストールされたコンピュータを、各実施例のシステムの各構成部と同等に機能させるものであるため、その説明を省略する。 Hereinafter, preferred embodiments of a counterfeit document detection system and program according to the present invention will be described with reference to the accompanying drawings. In addition, in each Example, the same code | symbol is attached | subjected to the same location, Since description of a common part overlaps, it abbreviate | omits as much as possible. In each embodiment, only the counterfeit document detection system will be described, but the counterfeit document detection program of the present invention causes the installed computer to function in the same manner as each component of the system of each embodiment. The description is omitted.
図1は、第1実施例における模倣文書検出システムのシステム構成図である。模倣文書検出システム1は、投入インタフェース部2と、文書蓄積部3と、模倣検査部4と、模倣検査駆動部5と、結果表示部6とを具備して構成される。
FIG. 1 is a system configuration diagram of a counterfeit document detection system in the first embodiment. The counterfeit
文書投入インタフェース部2は、ユーザが例えばキーボードやマウスなどの操作入力手段を用いて、複数の電子形式ファイル7(以下、文書ファイル7と呼ぶ)を文書蓄積部3へ投入することを可能とするものであり、ユーザが実際に操作する操作画面等がこれに相当する。なお、文書ファイル7は、例えばレポート,論文,小説,新聞記事などあらゆる分野のあらゆる文書としてよい。
The document
文書投入インタフェース部2は、模倣文書検出システム1のシステム構成により、その構成態様が若干異なる。すなわち、模倣文書検出システム1が、例えばインターネットやLANなどのネットワークを利用して構築されたシステムであれば、文書投入インタフェース部2はユーザが操作するクライアントに該当し、ネットワークを介して、サーバに内蔵された文書蓄積部3へ文書ファイル7をアップロードするためのデータ通信手段を備える。当該クライアントにおいては、前記操作画面が例えば専用アプリケーションやWebページなどによって、ユーザに対して提供されることとなる。
The configuration of the document
文書蓄積部3は、投入された文書ファイル7を文書投入インタフェース部2から受け取り蓄積するものであり、例えばハードディスクなどの記憶装置に保存されたデータベース等がこれに相当する。この文書蓄積部3により、文書ファイル7がシステム内で保存,管理される。とりわけ、文書蓄積部3は、文書ファイル7の保存に際して、ユーザからの指示に基づいて蓄積すべき文書ファイル7を、例えばレポート提出年度毎などに分類できるように構成されている。当該分類は、ユーザからの指示に限らず、あらかじめ設定された分類基準に基づいて自動的に行なってもよい。
The
模倣検査部4は、入力された二つの文書ファイル7に対して、相互に模倣部分を検査し、模倣部分と模倣度とを結果として出力するものであるが、その模倣検査アルゴリズムについては後述する。
The
模倣検査駆動部5は、文書蓄積部3における分類とユーザからの指示に基づいて、文書蓄積部3に蓄積された文書ファイル群から順次二つの文書ファイル7の組を取り出して、模倣検査部4に入力し、該文書ファイル7の組に対して模倣検査部4が出力する検査結果を保持するものである。
The counterfeit
模倣文書検出システム1が、ネットワークを利用して構築されたシステムであれば、これら文書蓄積部3,模倣検査部4,模倣検査駆動部5はサーバ側に備えられ、クライアントからの要求に応じて模倣検査処理を実行し、模倣検査処理結果のみを要求元のクライアントへ返答する。
If the counterfeit
結果表示部6は、模倣検査駆動部5が保持している模倣検査結果に基づいて、ユーザに対して、蓄積された文書ファイル7間の模倣関係を提示するものであり、ユーザが実際に視認する検査結果表示画面等がこれに相当する。より詳細には、結果表示部6は、模倣検査駆動部5から検査結果を受け取って、模倣関係のある文書ファイル7の組の文書ファイル名と、該文書ファイル7の組に対する模倣度とを一覧として表形式で表示するとともに、ユーザの操作により該文書ファイル7の組の一覧中における任意の文書ファイル7の組について模倣部分を表示する。また、検査結果の別の表示態様として、模倣関係のある文書ファイル7の組の集合について、該集合に含まれる個々の文書ファイル7を節点とし、文書ファイル7間に模倣関係がある場合に、該模倣関係のある文書ファイル7の節点間を枝により結び、該文書ファイル7間の模倣度に基づいて、該枝の例えば長さ,太さ,色等の視覚的特徴を決定し、グラフとして表示する。
The
結果表示部6は、文書投入インタフェース部2と同様に、模倣文書検出システム1が、ネットワークを利用して構築されたシステムであれば、結果表示部6はユーザが操作するクライアントに該当し、ネットワークを介して、サーバに内蔵された模倣検査駆動部5から検査結果データをダウンロードするためのデータ通信手段を備える。当該クライアントにおいては、前記検査結果表示画面等が例えば専用アプリケーションやWebページなどによって、ユーザに対して提供されることとなる。
Similar to the document
ここで、模倣検査部4に実装される模倣検査アルゴリズムの具体的な実施例について説明する。模倣検査部4では、類似文字解析手法を利用して、文書間に存在する類似文字列を検出する。なお、これら以外にも例えばベクトル空間法など周知の類似文字解析手法が適用可能である。これらの解析手法にはそれぞれ一長一短があるため、模倣検査時にユーザが選択できるようにしてもよい。
Here, the specific Example of the imitation inspection algorithm mounted in the
まず、n-gram解析(文字n-gram解析)について説明する。これはもっとも基礎的なn-gram解析であり、文字を単位としたn-gramを利用して一致を検出する。以下、当該文字n-gram解析について具体例を挙げて説明する。例えば、「あいうえおかきくけこさしすあいうえおかき」というドキュメントAと「うえおかきくけたちつ」というドキュメントBがあったとする。それぞれのドキュメントの5-gramは、図4に示す通りになる。括弧内は、n-gramにおける先頭文字の位置である。この中から相互に一致する組を見つけると、A(03)-B(01),A(04)-B(02),A(05)-B(03),A(16)-B(01)の4組となる。 First, n-gram analysis (character n-gram analysis) will be described. This is the most basic n-gram analysis, and matches are detected using n-grams in character units. Hereinafter, the character n-gram analysis will be described with a specific example. For example, it is assumed that there is a document A “Ai Ueoki Kakusashi Ai Ueokiki” and a document B “Ueokaki Kaketsutsutsu”. The 5-gram of each document is as shown in FIG. The parenthesis is the position of the first character in the n-gram. When a pair that matches each other is found, A (03) -B (01), A (04) -B (02), A (05) -B (03), A (16) -B (01 ) 4 sets.
これより一致検出結果のマトリックスは図5に示すものとなる。同図では、ドキュメントAを横方向、ドキュメントBを縦方向にとっており、前記相互に一致する組に対応する要素を1としている。なお、同図中、1でない場所には実際には値として0が入るが、ここでは省略されている。基本的に1が入っている場所に対応するn-gramが、類似部分すなわち模倣部分として検出されるが、1が所定数以上連続して斜めに並ぶ部分に対応するn-gram集合を模倣部分として検出してもよい。当該一致検出は、ドキュメントAのn-gramの個々のエントリとドキュメントBのn-gramの個々のエントリとを総当りすれば可能である。 Thus, the matrix of coincidence detection results is as shown in FIG. In the figure, document A is in the horizontal direction and document B is in the vertical direction, and the element corresponding to the mutually matching set is 1. In the figure, 0 is actually entered as a value at a place other than 1, but it is omitted here. An n-gram corresponding to a place where 1 is entered is basically detected as a similar part, that is, an imitation part, but an imitation part of an n-gram set corresponding to a part where 1 is continuously arranged diagonally. You may detect as. The coincidence detection can be performed by hitting each entry of the n-gram of the document A and each entry of the n-gram of the document B.
しかし、より効率的な処理方法が考えられる。n-gramの個々のエントリを辞書順にソートし、同一エントリの位置情報を、そのエントリにリストとして持たせる。すなわち、図6に示すリストであり、これをインバーテッド・リストという。この例ではもともとn-gramエントリがほとんど辞書順になっていた(もとのドキュメントがその内容となっていた)ため、あまり違いがないように見えるが、実際のドキュメントの場合には、前述の単なるn-gramの羅列とは様子がかなり違ったものとなるはずである。 However, a more efficient processing method can be considered. Each entry of n-gram is sorted in dictionary order, and the position information of the same entry is given to the entry as a list. That is, the list shown in FIG. 6 is called an inverted list. In this example, the n-gram entries were mostly in lexicographic order (the original document was the content), so it seems that there is not much difference, but in the case of an actual document, It should look very different from the n-gram list.
インバーテッド・リストはエントリが辞書順にソートされているため、ドキュメントAとドキュメントBとの一致エントリを調べるには、総当りする必要はなく、ドキュメントA用のポインタとドキュメントB用のポインタを用い、両ポインタが示す位置のエントリ同士を比較して、小さい方を示しているポインタを進めることによって、一致エントリを検出できる。ドキュメントAのエントリ数をN,ドキュメントBのエントリ数をMとすると、総当りでは、N×M回の比較が必要になる。一方、インバーテッド・リストにおけるエントリ数をそれぞれN´,M´とすると、これを用いた場合の比較回数はN´+M´で済むので、比較回数(=処理量)を大幅に低減できる(得られる結果は当然ながら同じ)。 Since the entries in the inverted list are sorted in lexicographic order, it is not necessary to make a brute force check for matching entries between document A and document B, using the pointers for document A and B, A match entry can be detected by comparing the entries at the positions indicated by both pointers and advancing the pointer indicating the smaller one. Assuming that the number of entries in document A is N and the number of entries in document B is M, a total of N × M comparisons is required. On the other hand, if the number of entries in the inverted list is N ′ and M ′, respectively, the number of comparisons using N ′ and M ′ is sufficient, so that the number of comparisons (= processing amount) can be greatly reduced. The result is of course the same).
次に、別のn-gram解析として単語n-gram解析について説明する。この解析手法では、文字のかわりに単語(形態素解析して得られた自立語)を用いる。ドキュメントAを「柿食えば鐘が鳴るなり法隆寺」,ドキュメントBを「隣の客は良く柿食う客だ」とすると、これを形態素解析して得られる自立語のリストは、(形態素解析器によって違うが)ドキュメントAが<柿><食う><鐘><鳴る><法隆寺>、ドキュメントBが<隣><客><良い><柿><食う><客>になる。これの単語2-gramをとると、図7に示す通りとなる。同図において一致を調べると、A(01)-B(04)となる。一致検出結果のマトリックスは、文字n-gramの場合と同様になる。また、一致検出アルゴリズムも同様である。 Next, word n-gram analysis will be described as another n-gram analysis. In this analysis method, words (independent words obtained by morphological analysis) are used instead of characters. If Document A is "Horyuji, the bell rings if you eat it," and Document B is "The next customer is a customer who eats well," a list of free-standing words obtained by morphological analysis is (by the morphological analyzer) Document A becomes <柿> <eat> <bell> <ring> <Horyuji> and document B becomes <neighbor> <customer> <good> <柿> <eat> <customer>. Taking this word 2-gram, it is as shown in FIG. When matching is examined in the figure, A (01) -B (04) is obtained. The matrix of the coincidence detection result is the same as in the case of the character n-gram. The same applies to the coincidence detection algorithm.
以下、上記構成により構築された模倣文書検出システム1の作用について、その操作方法と共に説明する。ここでは、模倣文書検出システム1として、ネットワークを利用したクライアントサーバシステムを採用し、文書ファイル7としてのレポートに対して模倣検査を行なう場合を考える。
Hereinafter, the operation of the counterfeit
ユーザは、解析を行なうレポートを準備し、クライアントのWebブラウザ等を利用して、文書投入インタフェース部2が提供する操作画面ページにアクセスする。当該操作画面ページを通じてサーバの文書蓄積部3へレポートをアップロードし、解析実行操作を行なう。このとき、解析比較対象の分類についての選択や、解析手法の選択等も行なう。
The user prepares a report to be analyzed, and accesses an operation screen page provided by the document
クライアントからの解析実行要求を受けて、サーバ内では、模倣検査駆動部5が、文書蓄積部3に蓄積された複数のレポート群の中から比較する二つのレポートの組を順次取り出し、模倣検査部4へ入力する。模倣検査部4は、上述の模倣検査アルゴリズムに従って、入力された二つのレポート間において相互に類似する模倣部分を検査し、検出された模倣部分とその模倣度(類似度)とを検査結果として模倣検査駆動部5へ出力する。当該検査結果は、模倣検査駆動部5から結果表示部6へ伝送され、結果表示部6でWebページに埋め込まれることにより、解析結果表示ページがクライアント側で表示される。
Upon receiving the analysis execution request from the client, in the server, the counterfeit
図8は、解析結果表示ページ10を図示したものである。ページ下方には、模倣検出された二つのレポートの組の一覧表11が表示されている。この一覧表11には、左から、一のレポートのファイル名(ファイル名1),もう一つのレポートのファイル名(ファイル名2),最長一致数,全体の一致数,詳細表示へのリンク16(詳細を見る)が掲載されている。これらの表示は、解析結果の項目に応じて適宜変更してよい。最上部にある解析方法のリンク12をクリックすると、一覧表11の表示内容がその解析方法による結果一覧に切り替わり、解析方法別に一覧表示することができる。一覧表11に一覧表示する解析結果の指定をリストボックス13により行なうことができ、表示種別として「最長一致数、全体の一致数、ファイル1のオリジナル度数」があり、また、表示種別に対して「件数、数値、全件」を指定して一覧表11に表示する結果を操作できる。当該指定は、再表示ボタン14をクリックすることで確定し、一覧表11の表示内容が変更され再表示される。なお、計算式(1−(一致gram数/総gram数))×100に従い、各レポートのオリジナル度数を算出している。算出されたオリジナル度数は、例えば一覧表11に掲載されたファイル名の後ろに赤字などで記載される。ここで、オリジナル度数の計算式はあくまでも本実施例における一例であり、本発明におけるオリジナル度数は、ここで示した計算式に限定されるものではない。
FIG. 8 shows the analysis
リンク16をクリックすると、図9に示す詳細表示ページが表示される。このページには、左右に分割された領域に、一覧表11のファイル名1とファイル名2との組に該当する二つの文書ファイル7の内容が左右にそれぞれ対比表示される。一致した箇所(模倣部分)は色付きで強調表示される。一致している箇所には番号が振ってあり、左右の同じ番号がそれぞれ対応している。また、その番号をクリックすると、対応箇所にページ内リンクする。最長一致箇所は太文字で表示される。
When the
図8の「グループ化して画像を表示」と書かれたグラフ表示ボタン15をクリックすると、図10のようなグラフ表示ページが表示される。これは図8において表示されている一覧表11における相関性を図示したものである。当該相関グラフ20は、模倣関係のある文書ファイル7の組の集合について、該集合に含まれる個々の文書ファイル7を節点とし、文書ファイル7間に模倣関係がある場合に該模倣関係のある文書ファイル7の節点間を枝により結び、該文書ファイル7間の模倣度に基づいて該枝の例えば長さ,太さ,色等の視覚的特徴を決定し、グラフとして表示したものである。相関グラフ20中に表示される記号・数値としては、例えば、節点としての濃い円:このフォルダのファイル,節点としての薄い円:比較対象に追加したフォルダのファイル,枝としての線:ファイルごとの結びつき,赤い文字:ファイル番号,水色の文字:全体の一致数などとして描画すればよく、文書ファイル7間の相関関係を表すパラメータやデザイン上の都合に応じて適宜変更される。
When the
以上のように本第1実施例の模倣文書検出システム1では、複数の文書ファイル7を投入するための投入インタフェース部2と、投入された前記文書ファイル7を蓄積する文書蓄積部3と、入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部4と、前記文書蓄積部3に蓄積された文書ファイル群から順次文書ファイルの組(文書ファイル7)を取り出して、前記模倣検査部4に入力し、該文書ファイルの組に対して前記模倣検査部4が出力する検査結果を保持する模倣検査駆動部5と、前記模倣検査駆動部5が保持している前記検査結果に基づいて、蓄積された前記文書ファイル7間の模倣関係を提示する結果表示部6とを具備する。
As described above, in the counterfeit
このようにすると、システムに投入した複数の文書ファイル7間の模倣を検査して、模倣文書を検出することができる。従って、複数の文書間における類似部分を検出可能な模倣文書検出システムを提供することができる。
In this way, it is possible to detect imitation documents by inspecting imitation between a plurality of
また本第1実施例の模倣文書検出システム1では、前記文書蓄積部3が、蓄積すべき前記文書ファイル7を分類できるものであり、前記模倣検査駆動部5が、前記文書蓄積部3における分類とユーザからの指示に基づいて、順次前記文書ファイルの組を前記文書蓄積部3から取り出して、前記模倣検査部4に入力し、該文書ファイルの組に対して前記模倣検査部4が出力する検査結果を保持するものであることを特徴とする。
Further, in the counterfeit
このようにすると、ユーザは模倣検査対象となる分類を自由に指定でき、当該分類に属する文書ファイル7について模倣検査を行なうことができる。従って、模倣検査対象を分類別に選択可能とすることで、検査効率を向上させることができる。
In this way, the user can freely specify the classification to be subjected to the imitation inspection, and can perform the imitation inspection on the
さらに本第1実施例の模倣文書検出システム1では、前記結果表示部6が、模倣関係のある前記文書ファイルの組の文書ファイル名と、該文書ファイルの組に対する模倣度とを一覧として表形式で表示するとともに、該文書ファイルの組の一覧中における任意の文書ファイルの組について模倣部分を表示するものであることを特徴とする。
Furthermore, in the counterfeit
このようにすると、一覧表により模倣関係のある文書ファイル7を一目で確認することができ、文書ファイル7内のどの部分が模倣部分であるかを具体的に確認することができる。従って、ユーザに対して模倣検査結果をわかりやすく提示することができる。
In this way, the
また本第1実施例の模倣文書検出システム1では、前記結果表示部6が、模倣関係のある前記文書ファイルの組の集合について、該集合に含まれる個々の文書ファイルを節点とし、文書ファイル間に模倣関係がある場合に該模倣関係のある文書ファイルの節点間を枝により結び、該文書ファイル間の模倣度に基づいて該枝の視覚的特徴を決定し、グラフとして表示するものであることを特徴とする。
Further, in the counterfeit
このようにすると、文書ファイルの検査結果がグラフ化されるので、各文書ファイル間の模倣関係が視覚的に明確となり、ユーザが検査結果を容易に理解することができる。従って、ユーザに対して模倣検査結果をよりわかりやすく視覚的に提示することができる。 In this way, the inspection result of the document file is graphed, so that the imitation relationship between the document files becomes visually clear, and the user can easily understand the inspection result. Therefore, the imitation inspection result can be visually presented to the user in an easy-to-understand manner.
なお、本第1実施例は、コンピュータを、模倣文書検出システム1として機能させるためのプログラムで実現することもできる。
The first embodiment can also be realized by a program for causing a computer to function as the counterfeit
このようにすると、コンピュータにより模倣文書検出システムを容易に構築することができる。 In this way, a counterfeit document detection system can be easily constructed by a computer.
図2は、第2実施例における模倣文書検出システムのシステム構成図である。模倣文書検出システム51は、投入インタフェース部2と、文書蓄積部3と、文書検索部57と、検索結果文書蓄積部59と、模倣検査部4と、模倣検査駆動部55と、結果表示部56とを具備して構成される。投入インタフェース部2,文書蓄積部3,模倣検査部4は第1実施例と略同様の構成であるが、本第2実施例では、文書投入インタフェース部2に投入される文書ファイル7が1つになっている。これは、本第2実施例における模倣文書検出システム51では、例えばインターネットなどの検索エンジンを利用して検索された検索結果文書ファイルとしての不特定多数のシステム外部文書ファイル57と、検査対象となる文書ファイル7との間で模倣検査が行なわれるためである。もちろん、これは、本特許において文書投入インタフェース部2から投入できる文書を1文書に限定するものではない。複数の文書が投入された場合には、該複数の文書を文書蓄積部3に蓄積した後、該文書蓄積部3から文書をひとつずつ取出しながら、本実施例で述べた動作を繰返せば良い。
FIG. 2 is a system configuration diagram of the counterfeit document detection system in the second embodiment. The counterfeit
文書検索部57は、入力された文書ファイル7に記述された文章に基づいて、該文書に内容的に関連のあるシステム外部の電子的アクセス可能な文書となるシステム外部文書ファイル58を検索して、その結果の文書群を出力するものである。システム外部文書ファイル58としては、例えばインターネット上で公開されているWebページや電子文書ファイルなどが該当する。当該Webページ等は、厳密には、後述する検索結果文書蓄積部59において適当な識別子が付与された上でシステム外部文書ファイル58として保存されることとなる。文書検索部57は、既存技術を組み合わせることにより様々な構成で実現できる。例えば、インターネットのWebページ群を、該Webページに記述されたリンク情報をたどることにより横断的に収集し、該収集した個々のページと入力された文書ファイル7との類似度を、両文書間で一致する単語の出現頻度から計算して、類似度の高いWebページを結果として出力する構成や、入力された文書ファイル7の文章の中から出現頻度に基づいてその文書の主題となる単語群を抽出し、該単語群を検索語としてインターネット上でサービスが提供されているWeb文書全文検索サービスを利用して検索し、該検索エンジンが出力する検索結果を文書検索部57の検索結果として出力する構成等が考えられる。
Based on the text described in the
検索結果文書蓄積部59は、文書検索部57で得られる検索結果の文書群としてのシステム外部文書ファイル58を、これらの個々の文書に対して識別可能な識別子を付与した上で蓄積するものであり、例えばハードディスクなどの記憶装置に保存されたデータベース等がこれに相当する。この検索結果文書蓄積部59により、システム外部文書ファイル58がシステム内で保存,管理される。とりわけ、検索結果文書蓄積部59は、システム外部文書ファイル58の保存に際して、ユーザからの指示に基づいて蓄積すべきシステム外部文書ファイル58を分類できるように構成されている。
The search result
模倣検査駆動部55は、検索結果文書蓄積部59からシステム外部文書ファイル58を順次一つずつ取り出して、投入されて文書蓄積部3に蓄積された文書ファイル7との組を作り、該文書ファイルの組(文書ファイル7とシステム外部文書ファイル58)を模倣検査部4に入力し、該文書ファイルの組に対して模倣検査部4が出力する検査結果を保持するものである。
The counterfeit
結果表示部56は、模倣検査駆動部5が保持している模倣検査結果に基づいて、ユーザに対して、蓄積された文書ファイル7とシステム外部文書ファイル58間の模倣関係を提示するものであり、ユーザが実際に視認する検査結果表示画面等がこれに相当する。より詳細には、結果表示部6は、投入された文書ファイル7に関して模倣関係のあるシステム外部文書ファイル58の文書ファイル識別子と、システム外部文書ファイル58に対する模倣度とを一覧として表形式で表示するとともに、ユーザの操作により該文書ファイル識別子一覧中における任意のシステム外部文書ファイル58について投入された文書ファイル7との模倣部分を表示する。また、検査結果の別の表示態様として、模倣関係のある文書ファイル7とシステム外部文書ファイル58との組の集合について、該集合に含まれる個々の文書ファイル7,システム外部文書ファイル58を節点とし、文書ファイル7とシステム外部文書ファイル58間に模倣関係がある場合に、該模倣関係のある文書ファイル7,システム外部文書ファイル58の節点間を枝により結び、該文書ファイル7とシステム外部文書ファイル58間の模倣度に基づいて、該枝の例えば長さ,太さ,色等の視覚的特徴を決定し、グラフとして表示する。
The
以上のように本第2実施例の模倣文書検出システム51では、文書ファイル7を投入するための投入インタフェース部2と、該文書投入インターフェース部2を介して入力された前記文書ファイル7を蓄積する文書蓄積部3と、入力された前記文書ファイル7に記述された文章に基づいて検索語群を生成し、該生成した前記検索語群に基づいて、システム外部の電子的にアクセス可能な文書を検索してその検索結果の文書群を出力する文書検索部57と、該投入された前記文書ファイル7を前記文書検索部57に入力して得られる前記検索結果の文書群を個々の文書に対して識別可能な識別子を付与した上で検索結果文書ファイルに相当するシステム外部文書ファイル58として蓄積する検索結果文書蓄積部59と、入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部4と、前記検索結果文書蓄積部59から前記システム外部文書ファイル58を順次取り出して、投入されて前記文書蓄積部3に蓄積された前記文書ファイル7との組を作り、該文書ファイルの組(文書ファイル7,システム外部文書ファイル58)を前記模倣検査部4に入力し、該文書ファイルの組に対して前記模倣検査部4が出力する検査結果を保持する模倣検査駆動部55と、前記模倣検査駆動部55が保持している前記検査結果に基づいて、投入された前記文書ファイル7と前記文書検索部57により検索された前記システム外部文書ファイル58との間の模倣関係を提示する結果表示部56とを具備する。
As described above, in the counterfeit
このようにすると、システムに投入した検査対象となる文書ファイル7と、システム外部から検索された不特定多数の関連文書との間における模倣を検査することにより、投入した文書ファイル7が模倣文書であるか否かをより広い文書範囲で判定することができる。従って、システム外部の関連文書を用いて、より広い文書範囲における模倣を検出可能な模倣文書検出システムを提供することができる。
In this way, by checking imitation between the
また本第2実施例の模倣文書検出システム51では、前記結果表示部56が、投入された前記文書ファイル7と模倣関係のある前記システム外部文書ファイル58の文書ファイル識別子と、該システム外部文書ファイル58に対する模倣度とを一覧として表形式で表示するとともに、該文書ファイル識別子一覧中における任意の前記システム外部文書ファイル58について、投入された前記文書ファイル7との模倣部分を表示するものであることを特徴とする。
In the counterfeit
このようにすると、一覧表により模倣関係のある文書ファイルを一目で確認することができ、文書ファイル内のどの部分が模倣部分であるかを具体的に確認することができる。従って、ユーザに対して模倣検査結果をわかりやすく提示することができる。 In this way, it is possible to confirm at a glance a document file having a counterfeit relationship from the list, and it is possible to specifically confirm which part in the document file is the imitation part. Therefore, the imitation inspection result can be presented to the user in an easy-to-understand manner.
図3は、第3実施例における模倣文書検出システムのシステム構成図である。本第3実施例では、第1実施例と第2実施例とを組み合わせたシステムを提供する。すなわち、模倣文書検出システム61は、投入インタフェース部2と、文書蓄積部3と、文書検索部57と、検索結果文書蓄積部59と、模倣検査部4と、模倣検査駆動部65と、結果表示部66とを具備して構成される。投入インタフェース部2,文書蓄積部3,模倣検査部4は第1実施例のものと、文書検索部57,検索結果文書蓄積部59は第2実施例のものと、それぞれ略同様の構成である。
FIG. 3 is a system configuration diagram of the counterfeit document detection system in the third embodiment. In the third embodiment, a system in which the first embodiment and the second embodiment are combined is provided. That is, the counterfeit
模倣検査駆動部65は、文書蓄積部3に蓄積された文書ファイル群(文書ファイル7)及び検索結果文書蓄積部59に蓄積された文書群(システム外部文書ファイル58)の中から順次二つの文書ファイルの組(文書ファイル7の組又は文書ファイル7とシステム外部文書ファイル58との組)を取り出して、模倣検査部4に入力し、該文書ファイルの組に対して模倣検査部4が出力する検査結果を保持するものである。
The counterfeit
結果表示部66は、模倣検査駆動部5が保持している模倣検査結果に基づいて、ユーザに対して、蓄積された文書ファイル7間、及び文書ファイル7とシステム外部文書ファイル58間の模倣関係を提示するものであり、ユーザが実際に視認する検査結果表示画面等がこれに相当する。より詳細には、結果表示部6は、模倣関係にある前記文書ファイルの組の文書ファイル名又は文書ファイル識別子と、該文書ファイルの組に対する模倣度とを一覧として表形式で表示するとともに、ユーザの操作により該文書ファイルの組の一覧中における任意の文書ファイルの組について模倣部分を表示する。また、検査結果の別の表示態様として、模倣関係のある該文書ファイルの組の集合について、当該集合に含まれる個々の文書ファイル7,システム外部文書ファイル58を節点とし、該文書ファイルの組の間に模倣関係がある場合に、該模倣関係のある文書ファイル7,システム外部文書ファイル58の節点間を枝により結び、該文書ファイルの組の間の模倣度に基づいて、該枝の例えば長さ,太さ,色等の視覚的特徴を決定し、グラフとして表示する。
The
以上のように本第3実施例の模倣文書検出システム61では、複数の文書ファイル7を投入するための投入インタフェース部2と、投入された前記文書ファイル7を蓄積する文書蓄積部3と、入力された前記文書ファイル7に記述された文章に基づいて検索語群を生成し、該生成した前記検索語群に基づいて、外部の電子的にアクセス可能な文書を検索してその検索結果の文書群を出力する文書検索部57と、前記文書蓄積部3に蓄積された個々の前記文書ファイル7に対して、該文書ファイル7を前記文書検索部57に入力して得られる前記検索結果の文書群を個々の文書に対して識別可能な識別子を付与した上で検索結果文書ファイルに相当するシステム外部文書ファイル58として蓄積する検索結果文書蓄積部59と、入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部4と、前記文書蓄積部3に蓄積された前記文書ファイル群及び前記検索結果文書蓄積部59に蓄積された検索結果文書ファイル群の中から順次文書ファイルの組(文書ファイル7,システム外部文書ファイル58)を取り出して、前記模倣検査部4に入力し、該文書ファイルの組に対して前記模倣検査部4が出力する検査結果を保持する模倣検査駆動部65と、前記模倣検査駆動部65が保持している前記検査結果に基づいて、蓄積された前記文書ファイル7間及び投入された前記文書ファイル7と前記文書検索部57により検索された前記システム外部文書ファイル58との間の模倣関係を提示する結果表示部66とを具備する。 As described above, in the counterfeit document detection system 61 of the third embodiment, the input interface unit 2 for inputting a plurality of document files 7, the document storage unit 3 for storing the input document files 7, and the input A search word group is generated based on the written text described in the document file 7, and an external electronically accessible document is searched based on the generated search word group, and the search result document A document search unit 57 for outputting a group, and the search result document obtained by inputting the document file 7 to the document search unit 57 for each document file 7 stored in the document storage unit 3 A search result document storage unit 59 for storing a group as a system external document file 58 corresponding to a search result document file after assigning an identifiable identifier to each document, and a set of input document files The imitation inspection unit 4 that inspects the imitation part and outputs the inspection result, the document file group stored in the document storage unit 3, and the search result document file group stored in the search result document storage unit 59 A set of document files (document file 7, system external document file 58) is sequentially extracted from the list, input to the imitation inspection unit 4, and the inspection result output by the imitation inspection unit 4 for the set of document files Based on the inspection result held by the counterfeit inspection driving unit 65 and between the stored document files 7 and the input document file 7 and the document search unit 57 And a result display unit 66 for presenting the imitation relationship with the system external document file 58 retrieved by the above.
このようにすると、システムに投入した複数の文書ファイル間の模倣を検査すると共に、システムに投入した文書ファイル7と、システム外部から検索された不特定多数の関連文書との間における模倣を検査することにより、投入した文書ファイル7が模倣文書であるか否かをさらに広い文書範囲で判定することができる。従って、複数の文書間における類似部分を検出可能、かつシステム外部の関連文書を用いて、より広い文書範囲における模倣を検出可能な模倣文書検出システムを提供することができる。
In this manner, imitation between a plurality of document files input to the system is inspected, and imitation between the
また本第3実施例の模倣文書検出システム61では、前記文書蓄積部3及び前記検索結果文書蓄積部59が、蓄積すべき前記文書ファイル7及び前記システム外部文書ファイル58を分類できるものであり、前記模倣検査駆動部65が、前記文書蓄積部3及び前記検索結果文書蓄積部59における分類とユーザからの指示に基づいて、順次前記文書ファイルの組を前記文書蓄積部3及び前記検索結果文書蓄積部59から取り出して、前記模倣検査部4に入力し、該文書ファイルの組に対して前記模倣検査部4が出力する検査結果を保持するものであることを特徴とする。
In the counterfeit
このようにすると、ユーザは模倣検査対象となる分類を自由に指定でき、当該分類に属する文書ファイルについて模倣検査を行なうことができる。従って、模倣検査対象を分類別に選択可能とすることで、検査効率を向上させることができる。 In this way, the user can freely specify the classification to be subjected to the imitation inspection, and can perform the imitation inspection on the document file belonging to the classification. Therefore, the inspection efficiency can be improved by making it possible to select the imitation inspection target by classification.
さらに本実施例の模倣文書検出システム61では、前記結果表示部66が、模倣関係のある前記文書ファイルの組の文書ファイル名又は文書ファイル識別子と、該文書ファイルの組に対する模倣度とを一覧として表形式で表示するとともに、該文書ファイルの組の一覧中における任意の文書ファイルの組について模倣部分を表示するものであることを特徴とする。
Further, in the counterfeit
このようにすると、一覧表により模倣関係のある文書ファイルを一目で確認することができ、文書ファイル内のどの部分が模倣部分であるかを具体的に確認することができる。従って、ユーザに対して模倣検査結果をわかりやすく提示することができる。 In this way, it is possible to confirm at a glance a document file having a counterfeit relationship from the list, and it is possible to specifically confirm which part in the document file is the imitation part. Therefore, the imitation inspection result can be presented to the user in an easy-to-understand manner.
なお、本発明は、上記実施例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。 In addition, this invention is not limited to the said Example, It can change in the range which does not deviate from the meaning of this invention.
1 模倣文書検出システム
2 投入インタフェース部
3 文書蓄積部
4 模倣検査部
5 模倣検査駆動部
6 結果表示部
7 文書ファイル
51 模倣文書検出システム
55 模倣検査駆動部
56 結果表示部
57 文書検索部
58 システム外部文書ファイル(検索結果文書ファイル)
59 検索結果文書蓄積部
61 模倣文書検出システム
65 模倣検査駆動部
66 結果表示部
DESCRIPTION OF
51 Counterfeit document detection system
55 Imitation inspection drive
56 Result display area
57 Document Search Department
58 System external document file (Search result document file)
59 Search result document storage
61 Counterfeit document detection system
65 Imitation inspection drive
66 Result display area
Claims (10)
入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部と、
前記文書蓄積部に蓄積された文書ファイル群から順次文書ファイルの組を取り出して、前記模倣検査部に入力し、該文書ファイルの組に対して前記模倣検査部が出力する検査結果を保持する模倣検査駆動部と、
前記模倣検査駆動部が保持している前記検査結果に基づいて、蓄積された前記文書ファイル間の模倣関係を提示する結果表示部と
を具備することを特徴とする模倣文書検出システム。 An input interface unit for inputting a plurality of document files, a document storage unit for storing the input document files,
A counterfeit inspection unit that inspects a counterfeit portion against a set of input document files and outputs the inspection result;
Imitation in which a set of document files is sequentially extracted from the document file group stored in the document storage unit, input to the imitation inspection unit, and the inspection result output by the imitation inspection unit for the set of document files is retained An inspection drive unit;
A counterfeit document detection system comprising: a result display unit that presents a counterfeit relationship between the stored document files based on the test result held by the counterfeit test drive unit.
該文書投入インターフェース部を介して入力された前記文書ファイルを蓄積する文書蓄積部と、
入力された前記文書ファイルに記述された文章に基づいて検索語群を生成し、該生成した前記検索語群に基づいて、システム外部の電子的にアクセス可能な文書を検索してその検索結果の文書群を出力する文書検索部と、
該投入された前記文書ファイルを前記文書検索部に入力して得られる前記検索結果の文書群を個々の文書に対して識別可能な識別子を付与した上で検索結果文書ファイルとして蓄積する検索結果文書蓄積部と、
入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部と、
前記検索結果文書蓄積部から前記検索結果文書ファイルを順次取り出して、投入されて前記文書蓄積部に蓄積された前記文書ファイルとの組を作り、該文書ファイルの組を前記模倣検査部に入力し、該文書ファイルの組に対して前記模倣検査部が出力する検査結果を保持する模倣検査駆動部と、
前記模倣検査駆動部が保持している前記検査結果に基づいて、投入された前記文書ファイルと前記文書検索部により検索された前記検索結果文書ファイルとの間の模倣関係を提示する結果表示部と
を具備することを特徴とする模倣文書検出システム。 A submission interface for submitting document files;
A document storage unit for storing the document file input via the document input interface unit;
A search word group is generated based on the text described in the input document file, and an electronically accessible document outside the system is searched based on the generated search word group. A document search unit for outputting a document group;
A search result document that stores the search result document group obtained by inputting the input document file into the document search unit, with an identifier that can be identified for each document, and stored as a search result document file A storage unit;
A counterfeit inspection unit that inspects a counterfeit portion against a set of input document files and outputs the inspection result;
The retrieval result document file is sequentially taken out from the retrieval result document storage unit, and a pair is formed with the document file that is input and stored in the document storage unit, and the set of document files is input to the imitation inspection unit. , A counterfeit inspection driving unit that holds an inspection result output by the counterfeit inspection unit for the set of document files;
A result display unit that presents a mimicry relationship between the input document file and the search result document file searched by the document search unit based on the inspection result held by the counterfeit inspection drive unit; A counterfeit document detection system comprising:
投入された前記文書ファイルを蓄積する文書蓄積部と、
入力された前記文書ファイルに記述された文章に基づいて検索語群を生成し、該生成した前記検索語群に基づいて、外部の電子的にアクセス可能な文書を検索してその検索結果の文書群を出力する文書検索部と、
前記文書蓄積部に蓄積された個々の前記文書ファイルに対して、該文書ファイルを前記文書検索部に入力して得られる前記検索結果の文書群を個々の文書に対して識別可能な識別子を付与した上で検索結果文書ファイルとして蓄積する検索結果文書蓄積部と、
入力された文書ファイルの組に対して模倣部分を検査し、当該検査結果を出力する模倣検査部と、
前記文書蓄積部に蓄積された前記文書ファイル群及び前記検索結果文書蓄積部に蓄積された検索結果文書ファイル群の中から順次文書ファイルの組を取り出して、前記模倣検査部に入力し、該文書ファイルの組に対して前記模倣検査部が出力する検査結果を保持する模倣検査駆動部と、
前記模倣検査駆動部が保持している前記検査結果に基づいて、蓄積された前記文書ファイル間及び投入された前記文書ファイルと前記文書検索部により検索された前記検索結果文書ファイルとの間の模倣関係を提示する結果表示部と
を具備することを特徴とする模倣文書検出システム。 A submission interface for submitting multiple document files;
A document storage unit for storing the input document file;
A search term group is generated based on the text described in the input document file, and an external electronically accessible document is searched based on the generated search term group, and the search result document A document search unit for outputting groups,
For each of the document files stored in the document storage unit, an identifier capable of identifying the document group of the search result obtained by inputting the document file to the document search unit is assigned to each document file. And a search result document storage unit for storing as a search result document file,
A counterfeit inspection unit that inspects a counterfeit portion against a set of input document files and outputs the inspection result;
A set of document files is sequentially extracted from the document file group stored in the document storage unit and the search result document file group stored in the search result document storage unit, and is input to the imitation checking unit, and the document A counterfeit inspection driving unit that holds the inspection result output by the counterfeit inspection unit for a set of files;
Imitation between the stored document files and between the input document file and the search result document file searched by the document search unit based on the inspection result held by the counterfeit inspection driving unit A counterfeit document detection system comprising a result display unit for presenting a relationship.
A program for causing a computer to function as the imitation document detection system according to any one of claims 1 to 9.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006186004A JP2008015774A (en) | 2006-07-05 | 2006-07-05 | Counterfeit document detection system and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006186004A JP2008015774A (en) | 2006-07-05 | 2006-07-05 | Counterfeit document detection system and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2008015774A true JP2008015774A (en) | 2008-01-24 |
Family
ID=39072724
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006186004A Pending JP2008015774A (en) | 2006-07-05 | 2006-07-05 | Counterfeit document detection system and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2008015774A (en) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009205674A (en) * | 2008-02-01 | 2009-09-10 | Kanazawa Inst Of Technology | Quotation determination supporting device and quotation determination supporting program |
| JP2010231766A (en) * | 2009-03-02 | 2010-10-14 | Fujitsu Ltd | Document inspection apparatus, computer-readable recording medium, and document inspection method |
| JP5138046B2 (en) * | 2008-10-20 | 2013-02-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Search system, search method and program |
| KR101453867B1 (en) * | 2012-08-02 | 2014-10-23 | 주식회사 와이즈넛 | Method of copy detection visualizing copy sections with a unified document tpye |
| JP2020181529A (en) * | 2019-04-26 | 2020-11-05 | 一般財団法人日本特許情報機構 | Investigation support method, investigation support computer program, and investigation support system |
-
2006
- 2006-07-05 JP JP2006186004A patent/JP2008015774A/en active Pending
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009205674A (en) * | 2008-02-01 | 2009-09-10 | Kanazawa Inst Of Technology | Quotation determination supporting device and quotation determination supporting program |
| JP2014149848A (en) * | 2008-02-01 | 2014-08-21 | Kanazawa Inst Of Technology | Quotation determination supporting device and quotation determination supporting program |
| JP5138046B2 (en) * | 2008-10-20 | 2013-02-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Search system, search method and program |
| US9031935B2 (en) | 2008-10-20 | 2015-05-12 | International Business Machines Corporation | Search system, search method, and program |
| JP2010231766A (en) * | 2009-03-02 | 2010-10-14 | Fujitsu Ltd | Document inspection apparatus, computer-readable recording medium, and document inspection method |
| KR101453867B1 (en) * | 2012-08-02 | 2014-10-23 | 주식회사 와이즈넛 | Method of copy detection visualizing copy sections with a unified document tpye |
| JP2020181529A (en) * | 2019-04-26 | 2020-11-05 | 一般財団法人日本特許情報機構 | Investigation support method, investigation support computer program, and investigation support system |
| JP7348746B2 (en) | 2019-04-26 | 2023-09-21 | 一般財団法人日本特許情報機構 | Research support method, research support computer program, and research support system |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4637969B1 (en) | Properly understand the intent of web pages and user preferences, and recommend the best information in real time | |
| US20070067317A1 (en) | Navigating through websites and like information sources | |
| JP2009515249A (en) | Patent document search method and system using similarity | |
| CN111183421B (en) | Service provision system, business analysis support system, method and recording medium | |
| JP2017134787A (en) | Apparatus, program and method for analyzing topic evaluation in multiple regions | |
| Gomez et al. | Analyzing trends and patterns across the educational technology communities using Fontana framework | |
| WO2008134617A1 (en) | Genealogical system and mehtod | |
| CN109791797A (en) | According to the systems, devices and methods of chemical structure similarity searching and display available information in large database concept | |
| US7752557B2 (en) | Method and apparatus of visual representations of search results | |
| US8904272B2 (en) | Method of multi-document aggregation and presentation | |
| CN109213830B (en) | Document retrieval system for professional technical documents | |
| JP2003345829A (en) | Method and apparatus for retrieving information, and computer program for information retrieval | |
| JP2008015774A (en) | Counterfeit document detection system and program | |
| KR101850853B1 (en) | Method and apparatus of search using big data | |
| US20080104510A1 (en) | Graphical Interface for Search Engine | |
| JP2007011604A (en) | Fault diagnostic system and program | |
| WO2010030168A2 (en) | Method and system for retrieving data and displaying content density of a data storage | |
| JP2011175486A (en) | Name identification check support device, name identification check support program, and name identification check support method | |
| JP5368900B2 (en) | Information presenting apparatus, information presenting method, and program | |
| KR101667918B1 (en) | Methodand device of providing query-adaptive smart search service | |
| JP6419525B2 (en) | Visualization means selection support system, visualization means selection support method, and visualization means selection support program | |
| JP2009032180A (en) | Text mining apparatus and text mining method | |
| JP4946779B2 (en) | Risk category management system, risk category management device, and risk category management program | |
| JP5187187B2 (en) | Experience information search system | |
| JP2008210229A (en) | Intellectual property information search apparatus, intellectual property information search method, and intellectual property information search program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080613 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20080902 |
|
| A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20080909 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080929 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081126 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081222 |