[go: up one dir, main page]

JP2004280569A - Information monitoring device - Google Patents

Information monitoring device Download PDF

Info

Publication number
JP2004280569A
JP2004280569A JP2003072311A JP2003072311A JP2004280569A JP 2004280569 A JP2004280569 A JP 2004280569A JP 2003072311 A JP2003072311 A JP 2003072311A JP 2003072311 A JP2003072311 A JP 2003072311A JP 2004280569 A JP2004280569 A JP 2004280569A
Authority
JP
Japan
Prior art keywords
site
url
document
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003072311A
Other languages
Japanese (ja)
Inventor
Akito Nagai
明人 永井
Tomohiro Masushio
智宏 増塩
Yasuhiro Takayama
泰博 高山
Katsushi Suzuki
克志 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003072311A priority Critical patent/JP2004280569A/en
Publication of JP2004280569A publication Critical patent/JP2004280569A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To efficiently extract a site containing a large amount of information matching to an investigation object. <P>SOLUTION: An information monitoring device acquires many Web documents from the Internet, acquires site URLs to which the documents belong to, calculates the appearance frequency of rumor expression contained in the document and a site feature expressing the feature of the document contents with respect to each site URL, and stores the appearance frequency and the site feature into a site management table. For the Web document obtained on the basis of retrieval conditions inputted by a system user, the site feature for every URL is calculated by the same method mentioned above, and a site similar to the site feature contained in the feature list of the site specified by the system user is outputted as an objective site. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
この発明は、インターネット上の文書を収集し、所望の情報を抽出して配信するための情報監視装置に関するものである。
【0002】
【従来の技術】
インターネット上に大量に存在するWeb文書の中から業務上の分析に役立つ情報を抽出し、企業の危機管理や顧客ニーズの発掘、販売促進などに利用しようとする企業は多い。しかし、インターネット上で公開される掲示板やメールマガジンなどの情報提供サイトは非常な勢いで増加しており、それらのサイトで提供される情報は随時更新されているため人手で調査することは不可能である。
【0003】
企業から調査依頼を受け、インターネット上で提供される情報の中から製品の苦情や企業の風評など所望の情報を抽出して調査報告書を作成し、依頼元へ配信する情報クリッピングサービスへの需要も急速に高まっている。
情報クリッピングサービスは、(1)調査内容に関連するWeb文書を収集し、(2)収集したWeb文書の中から苦情や風評等必要な情報を抽出し、(3)抽出した情報を整理して依頼元の企業へ配信する、という三段階の処理に分けられる。従来では、(1)〜(3)の処理を全て自動で行なう代行システムはなく、一般に公開されて用いられている全文検索エンジンや、その他の検索ソフトウエアを用いてWeb文書を収集し、人手作業を介して全体の作業を行っているのが通常である。
【0004】
従来の情報クリッピングサービス支援技術として、例えば特許文献1に示されたWebページ検索レポート装置においては、調査依頼人によって指定された検索条件を用いて複数の検索エンジンによるWebページ検索を行う。検索の結果得られたWebページのURL(Uniform Resource Locator)は、該Webページの更新日時と共にデータベースに保存される。新たに得られたWebページまたは更新されたWebページが報告対象としてダウンロードされる。さらに、ダウンロードしたWebページの中から検索キーワードを含む前後文が抜粋され、検索結果レポートが作成されて調査依頼人に提供される。
【0005】
【特許文献1】
特開2001−325275公報
【0006】
【発明が解決しようとする課題】
このように従来の情報クリッピングサービスでは、検索キーワードが掲載されたWebページを抽出することができる。しかし、情報クリッピングサービスに対しては、Webページ単位の検索のみならず、調査の目的に合致した内容が多く含まれる情報提供サイト自体を発見し、継続してそのサイト全体の情報を監視したいという要求が高い。
ここでいうサイトとは、あるWebサーバ上に構築された、情報提供の話題に関するWebページの集合体のことを意味しており、一般に、トップページとトップページ以下の下位階層とからなる構造を有している。
従来の方法ではWebページ単位のURLは抽出できるが、そのWebページが属するサイトのトップページのURL(サイトURL)を抽出することができなかった。さらに、サイトに含まれる各Webページの内容を判定する管理機能がないため、調査の目的に合致したサイトを発見する手段がないという問題があった。
【0007】
この発明は上記のような課題を解決するためになされたもので、調査目的に合致した情報を多く含むサイトを抽出する情報監視装置を得ることを目的とする。
【0008】
【課題を解決するための手段】
この発明に係る情報監視装置は、インターネット上の文書から、Web文書を巡回収集し、収集された文書と文書URLを出力するクローラ部と、クローラ部で収集された各文書から、予め設定された風評表現を抽出し、抽出された風評表現に対応する評価値に基づいて各文書の風評度を算出して出力する第1の風評度算出部と、クローラ部で出力された文書URLから、各文書の属するサイトURLを抽出する第1のサイト抽出部と、サイトURLで指定されるサイトの内容的特徴を表すサイト特徴を出力し、サイトURLとサイト特徴を対応付けてサイト管理テーブルに記憶する第1のサイト特徴算出部と、サイト管理テーブルから、システム利用者により指定されたサイトURLのサイト特徴Bを抽出するサイト選択部と、入力された検索条件を基にインターネット上の文書を検索し、検索結果として文書URLおよび更新日時を含む文書情報を出力する文書検索部と、文書URL毎の文書情報を記憶するURL管理テーブルを参照し、文書検索部により出力された文書URLのうち、URL管理テーブルに登録されていない文書URLおよび文書情報が更新されている文書URLを新規URLとして出力し、URL管理テーブルに新規URLの文書情報を登録する新規URL抽出部と、新規URLの文書をインターネット上から取得するダウンロード部と、ダウンロード部で取得された各文書から、予め設定された風評表現を抽出し、抽出された風評表現に対応する評価値に基づいて各文書の風評度を算出して出力する第2の風評度算出部と、新規URLから、各文書の属する新規サイトURLを抽出する第2のサイト抽出部と、新規サイトURLで指定されるサイトの内容的特徴を表すサイト特徴Aを出力する第2のサイト特徴算出部と、サイト特徴Aとサイト特徴Bの類似度を算出し、類似度が一定値以上の新規サイトURLを出力すると共に、当新規サイトURLの文書情報をサイト管理テーブルに記録する類似サイト抽出部とを備えたものである。
【0009】
【発明の実施の形態】
以下、この発明の実施の様々な形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1によるインターネット情報監視装置(情報監視装置)100の構成を示すブロック図である。
図に示すように、インターネット情報監視装置100はクローラ部1、第1の風評度算出部2、第1のサイト抽出部3、第1のサイト特徴算出部4、サイト管理テーブル5、文書検索部6、新規URL抽出部7、URL管理テーブル8、ダウンロード部9、第2の風評度算出部10、第2のサイト抽出部11、第2のサイト特徴算出部12、サイト選択部13、および類似サイト抽出部14を備える。
【0010】
インターネット情報監視装置100は、インターネット接続機能やWebページ閲覧機能等を備えたコンピュータである。また、クローラ部1、第1の風評度算出部2、第1のサイト抽出部3、第1のサイト特徴算出部4、文書検索部6、新規URL抽出部7、ダウンロード部9、第2の風評度算出部10、第2のサイト抽出部11、第2のサイト特徴算出部12、サイト選択部13、および類似サイト抽出部14は、インターネット情報監視装置100の中央演算処理装置の動作を制御するプログラムのモジュールに従って該中央演算処理装置を便宜的に分割したものである。
【0011】
サイト管理テーブル5およびURL管理テーブル8は、リレーショナル型データベース等によって管理されるデータレコードの集合であり、インターネット情報監視装置100外部の記憶装置等に格納される。なお、サイト管理テーブル5およびURL管理テーブル8は同一の記憶装置に格納されていてもよい。
【0012】
次に、インターネット情報監視装置100による情報監視処理について説明する。
情報監視処理は、サイト登録処理とサイト情報抽出処理の2段階の処理に分けることができる。まず、図2のフローチャートに従って、サイト登録処理について説明する。
【0013】
まず、クローラ部1において、監視対象サイトの候補を収集するため、Web上の文書が巡回収集される(ステップST201)。クローラ部1に対しては予め設定された巡回収集の起点となるシードURLリストが与えられる。クローラ部1は、シードURLリストの先頭から順にURLを取り出し、該当するURLにアクセスする。クローラ部1は、当該URLの文書内容を解析し、リンク先として指定されているURLを順次たどっていくことによりリンクされている文書を巡回収集する。この際、文書のタイトル、URL、更新日時などの文書情報もあわせて取得する。巡回収集は、リンクの深さやアクセス回数などの所定の終了条件で終了する。
【0014】
次に、第1の風評度算出部2において、ステップST201で収集された各文書を解析し、各文書に含まれる風評表現を抽出する。風評表現とは、例えば、企業や製品に対する評判や苦情などの情報である。第1の風評度算出部2は、後述する風評度算出処理によって、文書毎に風評表現の含まれる度合い(風評度)を数値化し、風評抽出結果として出力する(ステップST202)。
【0015】
次に、第1のサイト抽出部3において、ステップST201で取得した各文書の内容を解析し、各文書が属するサイトのURLを抽出する(ステップST203)。
例えば、ある文書がHTML(Hyper Text Markup Language)で記述されている場合には、HTML文書を解析し、トップページへのハイパーリンクに対応するアンカータグがあればそこから各文書が属するサイトのURLを抽出する。具体的には、トップページを表わす特徴語(「トップ」、「TOP」、「HOME」、「ホーム」など)を含むアンカータグのリンク先URL(href属性の値)を抽出する。
あるいは、予め代表的なサイトのURLを保持しておき、それらとの照合によりサイトURLを決定してもよい。
【0016】
次に、第1のサイト特徴算出部4において、ステップST201で取得した各文書のうち、同一サイトに属する文書の内容を総合的に判断した結果をサイト特徴としてサイト毎に出力する(ステップST204)。
図4を用いてサイト特徴の生成方法を具体的に説明する。図中、W(iは1〜nの自然数)はある単語を表し、S(jは1〜mの自然数)はサイトURL識別番号を表す。サイトURL識別番号は、1つのサイトURLに対して割り当てられる番号である。
【0017】
ijは、単語WのサイトURL識別番号Sで示されるサイト内における出現傾向の特徴を表す重みを示す値であり、所定の算出基準で算出される。
ijの算出方法の例について説明する。まず、サイトURL識別番号Sで示されるサイトに属する複数の文書の中から、ステップST202で得られた風評度の値が高い文書を複数選択する。それらの文書のテキスト情報をマージしてサイトテキスト情報を作成する。次に、サイトテキスト情報を利用して単語Wの出現頻度に関する統計情報を取得し、wijとする。統計情報としては、例えばTF−IDF値、χ値等を利用することができる。また、単語の出現傾向の特徴を表すものであれば、他の方法により算出してもよい。
実施の形態1では、図中の点線の枠で囲った部分、すなわちサイトURL識別番号Sのサイトにおける各単語のwijを要素とするベクトルを当該サイトのサイト特徴とする。
【0018】
次に、第1のサイト特徴算出部4において、ステップST202〜ステップST204で取得した情報をサイトURLに関連付けてサイト管理テーブル5へ記録する(ステップST205)。
図5は、サイト管理テーブル5のレコードの例を示す図である。サイト管理テーブル5は、サイトURL毎にサイトURL識別番号を保持し、該URL識別番号に対応するサイト特徴を管理する。また、サイトURLに関する更新日時やタイトルなどの文書情報、およびサイトURL内の複数の文書のうち、ステップST202で算出された風評度の値が高い文書に対応する代表URLとその風評度を保持する。さらに、サイトURLに関する種々の属性情報なども管理する。
【0019】
次に、サイト選択部13において、システムの利用者によって予め指定されたサイトURLに対応するサイト特徴がサイト管理テーブル5から取得され、指定サイト特徴リストが出力される(ステップST206)。
指定サイトは、システムの利用者が監視対象としたいサイトURLであり、図示しない入力手段によって指定することができる。
サイト特徴リストは、各利用者に対して作成され、図示しないテーブルに格納される。あるいは、ファイルとして保存されるようにしてもよい。
【0020】
次に、図3のフローチャートに従って、サイト情報抽出処理について説明する。
以下の処理では、システム利用者が予め設定した検索条件を用いて自動的にWeb文書を取得し、その中から、サイト登録処理時に作成された指定サイト特徴リストに含まれるサイトと同一または内容が類似するサイトの情報を抽出する。これにより、システム利用者は大量の検索結果文書の中から調査目的に合致した情報を多く含むものを効率よく取得することができる。
【0021】
利用者は、予め調査対象とする内容に関する検索キーワードを検索条件(クエリ)として設定しておく(ステップST301)。ここで、検索条件とは、情報クリッピングサービスへの依頼者が情報の監視内容を指定するため、収集したい文書内容に関するキーワードの組を事前に顧客プロファイルデータとして登録したものである。例えば、依頼者が、監視したい調査内容に関係する語を、文書収集に用いられる検索キーワードとして自由に設定することができる。キーワードとしては、例えば企業名や人名、「テレビ」、「携帯電話」、「車」などの製品カテゴリ名や具体的な製品名、その他「ブランド」、「株価」、「経営」といった調査したい分野名などに関する語が考えられる。さらに、更新日時、言語、ドメイン名、などの文書情報に関する条件を検索条件に追加して補助的に用いてもよい。顧客プロファイルデータは、例えば記憶装置(図示せず)に登録され、検索を実行する際に文書検索部6に供給される。
【0022】
次に、文書検索部6において、顧客プロファイルデータに設定された検索条件に従って、定期的にWeb上の文書検索が実行される(ステップST302)。検索の結果、結果文書URLおよび更新日時などを含む文書情報が取得される。文書情報には、文書検索部6で用いる検索エンジンが検索結果として出力する各文書のタイトル、URL、更新日時、概要などの各種情報が含まれている。
【0023】
次に、新規URL抽出部7においてURL管理テーブル8が参照され、ステップST302で取得された文書URLのうち、URL管理テーブル8に未登録(新規)の文書URL、または登録済みの文書URLで文書情報が更新されているものが新規URLとして抽出される(ステップST303)。
URL管理テーブル8には、検索結果文書の文書URLおよび更新日時などを含む文書情報が記憶されている。新規URL抽出部7は、新規URLの文書URLおよび文書情報をURL管理テーブル8に更新する。
【0024】
次に、ダウンロード部9において、ステップST303で抽出された新規URLにアクセスし、文書をダウンロードすることにより取得する(ステップST304)。
【0025】
次に、第2の風評度算出部10において、ステップST304で取得された各文書についての風評抽出結果が出力される(ステップST305)。なお、第2の風評度算出部10における風評度算出処理は、後述する第1の風評度算出部2における処理と同様に行われる。
【0026】
次に、第2のサイト抽出部11において、ステップST304で取得した各文書の内容を解析し、文書が属するサイトURLを抽出する(ステップST306)。第2のサイト抽出部11における処理は、ステップST203での第1のサイト抽出部3における処理と同様なので説明を省略する。
【0027】
次に、第2のサイト特徴算出部12において、ステップST304で取得した各文書のうち同一サイトに属する文書の内容を総合的に判断し、その判断結果をサイト特徴(サイト特徴A)としてサイト毎に出力する(ステップST307)。第2のサイト特徴算出部12におけるサイト特徴算出処理は、ステップST204での第1のサイト特徴算出部4における処理と同様であるので説明を省略する。
【0028】
次に、類似サイト抽出部14において、図2のステップST206でサイト選択部13において出力された指定サイト特徴リストから指定サイトのサイト特徴(サイト特徴B)を取得し、サイト特徴Aとの類似度を算出する(ステップST308)。類似度としては、例えばサイト特徴Aおよびサイト特徴Bそれぞれの特徴ベクトルの内積値を利用することができる。他にも、サイト特徴Aとサイト特徴Bの類似度を表すものであれば利用することができる。
【0029】
算出された類似度が一定値以上である場合は、サイト特徴Aとサイト特徴Bとの類似度が高いので、類似サイト抽出部14においてサイト特徴Aに対応するサイトURLが出力される。このようにして、システム利用者は入力した検索条件を満たし、かつ予め指定しておいたサイトまたはそれに類似したサイトのサイトURLを取得することができる。出力されたサイトURLの文書情報は、サイト管理テーブル5に登録・更新される(ステップST309)。
【0030】
次に、図6〜図9を用いて、第1の風評度算出部2および第2の風評度算出部10における風評度算出処理について説明する。なお、第1の風評度算出部2および第2の風評度算出部10の構成および風評度算出処理の動作は同一であるため、ここでは第1の風評度算出部2についてのみ説明する。
【0031】
図6は、第1の風評度算出部2の構成を示すブロック図である。図に示すように、第1の風評度算出部2は、風評抽出部15と風評抽出規則テーブル16を備える。風評抽出規則テーブル16は、インターネット情報監視装置100内部の記憶部に保持されているか、あるいは外部の記憶装置等に格納されている。風評抽出規則テーブル16は、文書中から風評表現に該当する記述を抽出するための予め決められた規則(風評抽出規則)を保持するデータレコードの集合である。なお、風評抽出規則テーブル16は、サイト管理テーブル5およびURL管理テーブル8と同一の記憶装置に格納されていてもよい。
【0032】
図7は、第1の風評度算出部2における風評度算出処理のフローチャートである。
まず、第1の風評度算出部2に、図2のステップST201で取得された文書の文書URLおよび文書情報のリストが入力される(ステップST601)。文書情報リストには、各文書のテキスト、タイトル、URL、更新日時、概要などの情報が含まれている。なお、文書情報リストは別途データベースに記憶しておいてもよい。この場合には、風評抽出部15へは該当データベース名を入力し、風評抽出部15がデータベースを参照して文書情報を取得する。
【0033】
次に、風評抽出部15において、ステップST601で取得した文書情報リストが空であるか否かを判定する(ステップST602)。文書情報リストが空でないと判定されれば、ステップST603へ進み、空であると判定されれば、ステップST611へ進む。
【0034】
ステップST602で、文書情報リストが空でないと判定された場合には、風評抽出部15は、文書情報リストから一文書分のテキスト内容を読み込む(ステップST603)。
【0035】
次に、ステップST604では、文書から記述単位Uが取得可能か否かを風評抽出部15において判定する。記述単位Uは、文書中のテキストの一部、あるいは全てのテキストであってもよい。例えば、風評抽出部15は、句点、疑問符、改行などの字句情報から一文単位を切り出して記述単位Uとする。あるいは、記述単位Uは、文書中の単語の位置情報を参照し、一定範囲の位置に存在する記述を切り出すことにより取得してもよい。あるいは、HTML文書のような構造を持った文書であれば、タグ情報により区切ってもよい。また、インターネットの掲示板であれば個別の記事ごとに入力文書を分割してサブ文書としてもよい。この場合、タグ情報を参照して、テキスト情報が含まれている記述のみを選択して記述単位Uとする。上記のようにして切り出された記述単位Uは一時的なバッファTに格納しておく。
【0036】
上記の判定の結果、記述単位Uが取得可能であれば、ステップST605に進んで該記述単位Uに対する形態素解析を行う。記述単位Uが取得可能でなければステップST602へ戻り、文書情報リストに未処理の文書URLが残っていればステップST603に進んでその文書を読み込み、ステップST604の処理を繰り返す。
【0037】
続いて、ステップST605では、風評抽出部15は、一時的なバッファTに格納された記述単位Uに対して形態素解析を実行する。
ステップST605で行われる形態素解析は、テキストを構成する単語の見出しや品詞などの言語情報を解析する手法であり、広く知られた公知の技術であるため説明を省略する。形態素解析の結果、記述単位Uの単語見出しと品詞の情報が取得される。
【0038】
次に、風評抽出部15は、ステップST605で得られた、記述単位Uに含まれる単語およびその品詞情報と、風評抽出規則テーブル16の内容を照合する(ステップST606)。
図8は、風評抽出規則テーブル16の内容の例を示す図である。図中、抽出意図は、文書の書き手の意図を分類したものである。抽出意図に対しては、品詞情報付き単語見出しの組である意図抽出表現が関連付けられている。重みは、意図抽出表現が文書中で照合されて合致した場合に、文書に与えられるスコア(意図スコア)に加算される値であり、各風評抽出規則の重要度に従って予め決めておく値である。
例えば、図に示すように「対応(サ変)/悪(形容詞)」を含む表現、具体的には「対応が悪い」等は、何らかのクレームに関する情報として抽出され、スコアに1.0が加算される。
【0039】
風評抽出部15は、バッファTに格納された記述単位Uに、意図抽出表現に該当する品詞情報付き単語が含まれるかどうか判定する(ステップST607)。
意図抽出表現が含まれていると判断された場合にはステップST608へ進み、含まれていないと判断された場合にはステップST604へ戻る。
【0040】
次に、風評抽出部15において、記述単位Uに含まれていた意図抽出表現を特徴表現として抽出する。また、該意図抽出表現に対応する抽出意図を風評抽出規則テーブル16より取得し、抽出した特徴表現に対応付ける(ステップST608)。
【0041】
次に、風評抽出部15において、ステップST608で取得された特徴表現を特徴表現リストに追加する(ステップST609)。
特徴表現リストは、例えば図9に示すような情報を持つリストである。図に示すように、特徴表現、対応する抽出意図(ラベル)、文書中での該特徴表現の抽出位置、抽出意図に対応する重みが格納されている。
【0042】
次に、ステップST610へ進み、特徴表現にマッチした風評抽出規則の重みを、文書の意図スコアに加算する。文書の意図スコアは、例えば、文書内で抽出された特徴表現の重みの総和であり、抽出意図別に管理される。ステップST610までの処理が終了すると、ステップST604へ戻る。
【0043】
ステップST610までの処理が終了すると、再びステップST604へ戻り、記述単位Uが取得できなくなるまで処理を繰り返す。
【0044】
ステップST602で、文書情報リストが空であると判定されたら、風評抽出部15は各文書のスコアの集計値および特徴表現リストを、風評抽出結果として文書内容とともに、第1のサイト抽出部3へ出力する。
第2の風評度算出部10においても、同様にステップST601〜ステップST611の処理を行い、第2のサイト抽出部11へダウンロード部9においてダウンロードした文書のスコアの集計値および特徴表現リストを出力する。
【0045】
以上のように、この実施の形態1によれば、サイト登録処理時に、クローラ部1によってWeb文書を大量に収集し、第1の風評度算出部2、第1のサイト抽出部3、および第1のサイト特徴算出部4によって、収集したWeb文書の特徴を表す情報をサイトの単位で取得し、サイト管理テーブル5に記録する。このようにして得られたサイト管理テーブル5の情報を基に、サイト選択部13は、システム利用者が予め指定した監視したいサイトの特徴リストを作成し、指定サイト特徴リストとして出力する。
サイト情報抽出時には、システム利用者が指定したキーワードに従って文書検索部6がWeb上の文書の検索を行い、その中から、新規URL抽出部7において新規のURLを抽出し、ダウンロード部9により文書を取得する。第2の風評度算出部10、第2のサイト抽出部11、および第2のサイト特徴算出部12は、ダウンロードしたWeb文書の特徴を表す情報をサイトの単位で取得し、登録処理時に作成された指定サイト特徴リストに含まれるサイトの特徴を表す情報と比較することにより、同一または類似するサイトを抽出する。これにより、システム利用者は大量のWeb文書から、依頼者の調査目的の内容に合致した新規の風評サイトを発見して提供できるようになる。
【0046】
また、風評抽出規則テーブル16は、複数の抽出意図に対する風評抽出規則を記憶し、風評抽出部15は、各文書について風評抽出規則に基づいて文書に含まれる特徴表現のスコアを抽出意図毎に算出し、特徴表現リストとして出力するようにしたので、利用者は文書に含まれる風評の内容をより詳しく知ることができる。
【0047】
さらに、この実施の形態1によれば、第1のサイト特徴算出部4および第2のサイト特徴算出部12は、サイトURLに属する文書における各単語の出現傾向の特徴を算出してベクトル情報とし、サイトURLのサイト特徴とするようにしたので、文書中の単語の出現傾向に基づいて調査目的に合致した新規サイトを容易に取得できるという効果がある。
【0048】
実施の形態2.
実施の形態1では、サイト選択部13において、システムの利用者が指定したサイトURLの指定サイト特徴リストが出力される。実施の形態2では、サイト選択部に対して直接サイトURLを指定しなくても、サイトの検索条件を指定することにより条件に合致したサイトURLの指定サイト特徴リストが出力される。
【0049】
図10は、実施の形態2によるサイト選択部17の構成を示すブロック図である。サイト選択部17は、図1のサイト選択部13に代替される構成要素である。なお、サイト選択部17以外の構成要素は、図1と同様である。
サイト選択部17は、サイト検索部18、索引記憶部19、サイト特徴取得部20を有する。索引記憶部19は、インターネット情報監視装置100内部の記憶部に保持されているか、または外部の記憶装置に格納されている。索引記憶部19は、サイトURLとサイトURLに含まれる文書の内容を表すキーワードとの対応を索引化して保持するデータベースである。なお、索引記憶部19は、サイト管理テーブル5およびURL管理テーブル8と同一の記憶装置に格納されていてもよい。
【0050】
サイト選択部17の動作について説明する。
サイト検索部18は、図示されていない入力手段によってシステム利用者が入力した検索キーワードに基づいて索引記憶部19を検索し、検索キーワードと索引記憶部19中のキーワードとが合致するサイトURLを取得する。
サイト特徴取得部20は、サイト管理テーブル5の中から、サイト検索部18が取得したサイトURLに対応するサイト特徴を取得し、サイト特徴リストを出力する。
なお、索引記憶部19の検索方法は、キーワードを用いた検索に限らず、索引を検索する手段であればどのようなものでもよい。例えば、入力する検索条件および索引記憶部19に格納するキーワードをテキストとし、それぞれその中に含まれる単語の出現傾向の特徴を表す重みのベクトルを作成する。検索条件のベクトルと索引記憶部19の中のベクトルとの類似度を算定し、類似度の高いサイトURLを出力するという方法でもよい。
【0051】
以上のように、この実施の形態2によれば、サイト選択部17において、索引記憶部19の中からサイト検索部18で入力された検索条件に合致するサイトURLを取得し、サイト特徴取得部20は、取得したサイトURLのサイト特徴をサイト管理テーブル5から抽出することにより指定サイト特徴リストを作成するようにした。これにより、システム利用者はサイトを直接指定しなくても、調査目的に合致したサイトURLの指定サイト特徴リストを効率的に取得できる。
【0052】
実施の形態3.
実施の形態3では、サイト特徴や風評度に加え、さらにサイトの内容を特徴付ける情報(属性情報)をサイト管理テーブルに登録する。ここでは、そのような情報の例として、文書中に現れる具体的な製品名や企業名、あるいは掲示板とのリンクの有無を登録する。
【0053】
図11は、この発明の実施の形態3によるインターネット情報監視装置101の構成を示すブロック図である。図に示すように、インターネット情報監視装置101は属性情報抽出部21を有する。また、属性情報抽出知識記憶部22は、インターネット情報監視装置100外部の記憶装置に格納されている。属性情報抽出知識記憶部22は、サイト管理テーブル5およびURL管理テーブル8と同一の記憶装置に格納されていてもよい。その他の構成は実施の形態2と同様である。
【0054】
属性情報抽出部21は、図12に示すように対象名抽出部23と掲示板有無抽出部24を有する。また、属性情報抽出知識記憶部22には、対象名テーブル(風評対象テーブル)25と掲示板抽出知識テーブル26が含まれる。対象名テーブル25には、具体的な製品名や企業名のリストが格納されている。また、掲示板抽出知識テーブル26には、掲示板を表す特徴語のリストが格納されている。なお、属性情報抽出部21は対象名抽出部23または掲示板有無抽出部24のどちらか一方のみを備えていてもよい。また、属性情報抽出知識記憶部22についても、属性情報抽出部21が対象名抽出部23のみを備えている場合には対象名テーブル25のみを有していればよく、属性情報抽出部21が掲示板有無抽出部24のみを備えている場合には掲示板抽出知識テーブル26のみを有していればよい。
【0055】
次に、属性情報抽出部21の動作について説明する。
対象名抽出部23は、第1の風評度算出部2によって抽出された各文書の特徴表現の中から、対象名テーブル25に登録されている製品名や企業名と一致する企業名や製品名を抽出する。
【0056】
対象名テーブル25にはシステムの利用者が予め指定した企業名や製品名が記憶されており、これにより、システム利用者は、風評の対象となっている製品や企業名を知ることができる。対象名抽出部23は、得られた企業名や製品名を属性種類「風評対象」の属性値として出力する。
【0057】
次に、掲示板有無抽出部24は、クローラ部1で収集された各文書中に、掲示板抽出知識テーブル26に登録されている掲示板を表わす特徴語と一致する語が含まれているかどうか検索する。掲示板抽出知識テーブル26には、「掲示板」、「BBS」等の掲示板を表す語や、システム利用者が予め指定した掲示板のサイトURLが登録されている。
掲示板有無抽出部24は、文書がHTMLのような形式言語で記述されている場合には、HTML文書を読み込み、ハイパーリンクを表すアンカータグがあるか否かを解析する。アンカータグがある場合には、そのタグ中に、掲示板抽出知識テーブル26に登録された掲示板を表わす特徴語が含まれているかどうか解析する。特徴語が含まれていた場合には、属性種類「掲示板」の属性値として「関連あり」を出力し、特徴後が含まれていなかった場合には、属性種類「掲示板」の属性値として「関連なし」を出力する。
【0058】
属性情報抽出部21で得られた属性種類「風評対象」の属性値については、第1のサイト抽出部3において、サイト毎に各製品名および企業名の出現頻度が算出され、第1のサイト特徴算出部4において、該当サイトURLに対応して製品名および企業名とそれらの出現頻度がサイト管理テーブル5に記憶される。
【0059】
また、得られた属性種類「掲示板」の属性値については、第1のサイト抽出部3において、各サイトの掲示板へのリンクの有無が出力され、第1のサイト特徴算出部4において、当該サイトURLに対応して掲示板へのリンクの有無がサイト管理テーブル5に記憶される。
【0060】
このように、属性情報抽出部21を設け、風評の対象となっている製品名や企業名、および掲示板とのリンクの有無などのサイトの属性情報をサイト管理テーブル5に登録するようにした。これにより、サイト選択部17においてサイト特徴リストを作成する際に、サイトの指定条件としてそれらの属性情報も利用することができるという効果がある。
なお、サイト管理テーブル5に登録する属性情報は、上記の製品名や企業名あるいは掲示板との関連有無に限らず、サイトの特徴を表すものであればよい。その場合には、属性情報抽出知識記憶部22には、対象名テーブル25および掲示板抽出知識テーブル26以外に、他の属性情報を抽出する目的で使用されるテーブルを格納する。
【0061】
実施の形態4.
実施の形態4では、サイト情報抽出処理において、類似サイト抽出部14が抽出した新規サイトの情報をレポートにして提供する。
【0062】
図13は、実施の形態4によるインターネット情報監視装置102の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、インターネット情報監視装置102はレポート作成部27を有する。その他の構成は実施の形態1と同様である。
【0063】
レポート作成部27によるレポート作成処理について説明する。
レポート作成部27は、類似サイト抽出部14が出力するサイトURLおよびサイトURLに関する文書情報に基づいてレポートを作成して出力する。
【0064】
出力されるレポートは調査を依頼した顧客ごとに作成され、例えば図14に示すように、依頼者が登録した検索キーワード、調査対象として設定された指定サイト、および今回抽出された新規サイトのURLとその概要が報告される。また、抽出された新規サイト内の風評度の高い文書URLを併せて提示してもよい。
【0065】
このように、レポート作成部27を設けたことにより、新規サイトの抽出結果をレポートにすることができるので、調査依頼者は、レポートを利用して調査目的に合致したサイトの情報を継続して監視することができる。
【0066】
【発明の効果】
以上のように、この発明によれば、調査目的に合致した情報を多く含むサイトを抽出する情報監視装置を得られるという効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1によるインターネット情報監視装置の構成を示すブロック図である。
【図2】この発明の実施の形態1によるサイト登録処理のフローチャートである。
【図3】この発明の実施の形態1によるサイト情報抽出処理のフローチャートである。
【図4】この発明の実施の形態1によるサイト特徴ベクトルを説明するための図である。
【図5】この発明の実施の形態1によるサイト管理テーブルの例を示す図である。
【図6】この発明の実施の形態1による第1の風評度算出部の構成を示すブロック図である。
【図7】この発明の実施の形態1による第1の風評度算出部における風評度算出処理のフローチャートである。
【図8】この発明の実施の形態1による風評抽出規則テーブルの例を示す図である。
【図9】この発明の実施の形態1による特徴表現リストの例を示す図である。
【図10】この発明の実施の形態2によるサイト選択部の構成を示すブロック図である。
【図11】この発明の実施の形態3によるインターネット情報監視装置の構成を示すブロック図である。
【図12】この発明の実施の形態3による属性情報抽出部および属性情報抽出知識記憶部の構成を示すブロック図である。
【図13】この発明の実施の形態4によるインターネット情報監視装置の構成を示すブロック図である。
【図14】この発明の実施の形態4によるレポートの内容の例を示す図である。
【符号の説明】
1 クローラ部、2 第1の風評度算出部、3 第1のサイト抽出部、4 第1のサイト特徴算出部、5 サイト管理テーブル、6 文書検索部、7 新規URL抽出部、8 URL管理テーブル、9 ダウンロード部、10 第2の風評度算出部、11 第2のサイト抽出部、12 第2のサイト特徴算出部、13 サイト選択部、14 類似サイト抽出部、15 風評抽出部、16 風評抽出規則テーブル、17 サイト選択部、18 サイト検索部、19 索引記憶部、20 サイト特徴取得部、21 属性情報抽出部、22 属性情報抽出知識記憶部、23 対象名抽出部、24 掲示板有無抽出部、25 対象名テーブル(風評対象テーブル)、26 掲示板抽出知識テーブル、27 レポート作成部、100,101,102 インターネット情報監視装置。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information monitoring device for collecting documents on the Internet, extracting desired information, and delivering the desired information.
[0002]
[Prior art]
Many companies intend to extract information useful for business analysis from Web documents existing in large quantities on the Internet and use it for risk management of companies, identification of customer needs, sales promotion, and the like. However, information providing sites such as bulletin boards and e-mail magazines published on the Internet are increasing very rapidly, and the information provided on those sites is constantly updated, so it is impossible to investigate manually. It is.
[0003]
Demand for an information clipping service that receives a survey request from a company, extracts desired information such as product complaints and corporate reputation from the information provided on the Internet, creates a survey report, and distributes it to the requester Are also growing rapidly.
The information clipping service (1) collects web documents related to the contents of the survey, (2) extracts necessary information such as complaints and reputation from the collected web documents, and (3) organizes the extracted information. It is divided into three stages of processing, that is, distribution to the requesting company. Conventionally, there is no substitute system for performing all of the processes (1) to (3) automatically. Web documents are collected using a full-text search engine and other search software that are open to the public and used manually. Usually, the whole work is performed through the work.
[0004]
As a conventional information clipping service support technology, for example, in a Web page search report apparatus disclosed in Patent Document 1, a Web page search is performed by a plurality of search engines using search conditions specified by a research client. The URL (Uniform Resource Locator) of the Web page obtained as a result of the search is stored in the database together with the update date and time of the Web page. A newly obtained Web page or an updated Web page is downloaded as a report target. Further, the sentence before and after including the search keyword is extracted from the downloaded Web page, a search result report is created and provided to the survey client.
[0005]
[Patent Document 1]
JP 2001-325275 A
[0006]
[Problems to be solved by the invention]
As described above, in the conventional information clipping service, a Web page on which a search keyword is posted can be extracted. However, with regard to the information clipping service, it is desired not only to search on a Web page basis but also to find an information providing site itself that includes a lot of contents matching the purpose of the survey and to continuously monitor the information of the entire site. High demand.
The term “site” as used herein refers to a collection of Web pages related to the topic of information provision built on a certain Web server, and generally has a structure including a top page and lower layers below the top page. Have.
With the conventional method, the URL of each Web page can be extracted, but the URL (site URL) of the top page of the site to which the Web page belongs cannot be extracted. Furthermore, since there is no management function for judging the contents of each Web page included in the site, there is a problem that there is no means for finding a site that meets the purpose of the survey.
[0007]
SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problems, and has as its object to obtain an information monitoring device that extracts a site that includes a large amount of information that meets a purpose of investigation.
[0008]
[Means for Solving the Problems]
An information monitoring device according to the present invention circulates and collects Web documents from documents on the Internet, outputs a collected document and a document URL, and a preset crawler unit from each document collected by the crawler unit. A first reputation calculating unit that extracts a reputation expression, calculates and outputs a reputation of each document based on an evaluation value corresponding to the extracted reputation expression, and a document URL output by a crawler unit. A first site extraction unit for extracting a site URL to which a document belongs, and a site feature representing the content feature of the site specified by the site URL are output, and the site URL and the site feature are stored in a site management table in association with each other. A first site feature calculation unit, a site selection unit that extracts a site feature B of a site URL specified by the system user from the site management table, A document search unit that searches for documents on the Internet based on search conditions and outputs document information including a document URL and an update date and time as a search result, and a URL management table that stores document information for each document URL. Among the document URLs output by the search unit, a document URL that is not registered in the URL management table and a document URL whose document information is updated are output as a new URL, and the document information of the new URL is registered in the URL management table. A new URL extraction unit, a download unit that obtains a document of the new URL from the Internet, and a pre-set reputation expression extracted from each document obtained by the download unit, and an evaluation value corresponding to the extracted reputation expression A second reputation calculating unit that calculates and outputs the reputation of each document based on the URL, and the attribute of each document from the new URL. A second site extraction unit for extracting a new site URL, a second site feature calculation unit for outputting a site feature A representing the content feature of the site specified by the new site URL, a site feature A and a site feature A similar site extraction unit that calculates the similarity of B, outputs a new site URL having a similarity of a certain value or more, and records the document information of the new site URL in a site management table.
[0009]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, various embodiments of the present invention will be described.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a configuration of an Internet information monitoring device (information monitoring device) 100 according to Embodiment 1 of the present invention.
As shown in the figure, the Internet information monitoring device 100 includes a crawler unit 1, a first reputation calculating unit 2, a first site extracting unit 3, a first site feature calculating unit 4, a site management table 5, a document searching unit. 6, new URL extraction unit 7, URL management table 8, download unit 9, second reputation calculation unit 10, second site extraction unit 11, second site feature calculation unit 12, site selection unit 13, and the like A site extraction unit 14 is provided.
[0010]
The Internet information monitoring apparatus 100 is a computer having an Internet connection function, a Web page browsing function, and the like. Also, a crawler unit 1, a first reputation calculation unit 2, a first site extraction unit 3, a first site feature calculation unit 4, a document search unit 6, a new URL extraction unit 7, a download unit 9, a second The reputation calculation unit 10, the second site extraction unit 11, the second site feature calculation unit 12, the site selection unit 13, and the similar site extraction unit 14 control the operation of the central processing unit of the Internet information monitoring device 100. The central processing unit is conveniently divided according to the module of the program to be executed.
[0011]
The site management table 5 and the URL management table 8 are sets of data records managed by a relational database or the like, and are stored in a storage device or the like outside the Internet information monitoring device 100. Note that the site management table 5 and the URL management table 8 may be stored in the same storage device.
[0012]
Next, information monitoring processing by the Internet information monitoring apparatus 100 will be described.
The information monitoring process can be divided into a two-stage process of a site registration process and a site information extraction process. First, the site registration process will be described with reference to the flowchart of FIG.
[0013]
First, in the crawler unit 1, documents on the Web are cyclically collected in order to collect candidates for monitoring target sites (step ST201). The crawler unit 1 is provided with a seed URL list that is a preset starting point of the cyclic collection. The crawler unit 1 sequentially retrieves the URL from the top of the seed URL list and accesses the corresponding URL. The crawler unit 1 analyzes the document content of the URL, and sequentially collects the linked document by sequentially following the URL specified as the link destination. At this time, document information such as a document title, a URL, and an update date and time is also acquired. The cyclic collection ends under a predetermined end condition such as the link depth and the number of accesses.
[0014]
Next, the first reputation calculating unit 2 analyzes each document collected in step ST201 and extracts a reputation expression included in each document. The reputation expression is, for example, information such as a reputation or a complaint about a company or a product. The first reputation calculation unit 2 quantifies the degree of reputation included in each document (reputation) by a later-described reputation calculation process and outputs the result as a reputation extraction result (step ST202).
[0015]
Next, the first site extraction unit 3 analyzes the contents of each document acquired in step ST201 and extracts the URL of the site to which each document belongs (step ST203).
For example, if a document is described in HTML (Hyper Text Markup Language), the HTML document is analyzed, and if there is an anchor tag corresponding to a hyperlink to the top page, the URL of the site to which each document belongs is found therefrom. Is extracted. More specifically, the link destination URL (href attribute value) of the anchor tag including the characteristic words (“top”, “TOP”, “HOME”, “home”, etc.) representing the top page is extracted.
Alternatively, the URL of a representative site may be held in advance, and the site URL may be determined by collation with the URL.
[0016]
Next, in the first site feature calculation unit 4, a result of comprehensively determining the contents of the documents belonging to the same site among the documents acquired in step ST201 is output as a site feature for each site (step ST204). .
A method for generating a site feature will be specifically described with reference to FIG. In the figure, W i (I is a natural number from 1 to n) represents a certain word, and S j (J is a natural number from 1 to m) represents a site URL identification number. The site URL identification number is a number assigned to one site URL.
[0017]
w ij Is the word W i Site URL identification number S j Is a value indicating a weight indicating the feature of the appearance tendency in the site indicated by the symbol, and is calculated based on a predetermined calculation criterion.
w ij An example of the calculation method of the will be described. First, the site URL identification number S j A plurality of documents having a high reputation value obtained in step ST202 are selected from a plurality of documents belonging to the site indicated by. Merge the text information of those documents to create site text information. Next, using the site text information, the word W i Statistic information on the appearance frequency of ij And As the statistical information, for example, a TF-IDF value, χ 2 Values can be used. In addition, any other method may be used as long as it represents the feature of the appearance tendency of a word.
In the first embodiment, a portion surrounded by a dotted frame in the drawing, that is, a site URL identification number S j W of each word on the site ij Is a site feature of the site.
[0018]
Next, the first site feature calculation unit 4 records the information acquired in steps ST202 to ST204 in the site management table 5 in association with the site URL (step ST205).
FIG. 5 is a diagram showing an example of a record in the site management table 5. The site management table 5 holds a site URL identification number for each site URL, and manages a site feature corresponding to the URL identification number. Also, document information such as the update date and time and title related to the site URL, and a representative URL corresponding to a document having a high reputation value calculated in step ST202 and the reputation thereof among a plurality of documents in the site URL are stored. . Further, it manages various attribute information related to the site URL.
[0019]
Next, in the site selecting unit 13, the site features corresponding to the site URL specified in advance by the system user are acquired from the site management table 5, and the designated site feature list is output (step ST206).
The designated site is a site URL that the user of the system wants to monitor, and can be designated by input means (not shown).
The site feature list is created for each user and stored in a table (not shown). Alternatively, it may be stored as a file.
[0020]
Next, the site information extraction processing will be described with reference to the flowchart of FIG.
In the following processing, a Web document is automatically acquired using a search condition set in advance by the system user, and the same or the same contents as the sites included in the designated site feature list created during the site registration processing are obtained from the Web documents. Extract information of similar sites. As a result, the system user can efficiently obtain, from a large number of search result documents, those that include a large amount of information that matches the purpose of the search.
[0021]
The user previously sets a search keyword related to the content to be investigated as a search condition (query) (step ST301). Here, the search condition is a condition in which a set of keywords relating to the content of a document to be collected is registered in advance as customer profile data in order for the client of the information clipping service to specify the content of information monitoring. For example, the requester can freely set a word related to the content of the survey to be monitored as a search keyword used for document collection. Key words include, for example, company names and personal names, product category names such as "TV", "mobile phone", and "car", specific product names, and other fields to be surveyed such as "brand", "stock price", and "management" Words about names etc. can be considered. Further, conditions relating to document information such as update date and time, language, domain name, etc. may be added to the search conditions and used as an auxiliary. The customer profile data is registered in, for example, a storage device (not shown) and supplied to the document search unit 6 when performing a search.
[0022]
Next, in the document search unit 6, a document search on the Web is periodically executed according to the search conditions set in the customer profile data (step ST302). As a result of the search, document information including the result document URL and the update date and time is obtained. The document information includes various information such as the title, URL, update date, and summary of each document output as a search result by the search engine used in the document search unit 6.
[0023]
Next, the URL management table 8 is referred to in the new URL extraction unit 7, and among the document URLs acquired in step ST302, the document URL that is not registered (new) or registered in the URL management table 8 is the document URL. The updated information is extracted as a new URL (step ST303).
The URL management table 8 stores document information including the document URL of the search result document and the update date and time. The new URL extracting unit 7 updates the document URL and document information of the new URL in the URL management table 8.
[0024]
Next, the download unit 9 accesses the new URL extracted in step ST303 and obtains the document by downloading the document (step ST304).
[0025]
Next, the second reputation calculating section 10 outputs the reputation extraction result for each document obtained in step ST304 (step ST305). The reputation calculation process in the second reputation calculation unit 10 is performed in the same manner as the process in the first reputation calculation unit 2 described later.
[0026]
Next, the second site extraction unit 11 analyzes the contents of each document acquired in step ST304 and extracts the site URL to which the document belongs (step ST306). The processing in the second site extraction unit 11 is the same as the processing in the first site extraction unit 3 in step ST203, and a description thereof will be omitted.
[0027]
Next, the second site feature calculation unit 12 comprehensively determines the contents of the documents belonging to the same site among the documents acquired in step ST304, and uses the determination result as a site feature (site feature A) for each site. (Step ST307). The site feature calculation process in the second site feature calculation unit 12 is the same as the process in the first site feature calculation unit 4 in step ST204, and a description thereof will be omitted.
[0028]
Next, the similar site extraction unit 14 acquires the site feature (site feature B) of the designated site from the designated site feature list output by the site selection unit 13 in step ST206 of FIG. Is calculated (step ST308). As the similarity, for example, the inner product value of the feature vectors of the site feature A and the site feature B can be used. In addition, any other information that indicates the similarity between the site features A and B can be used.
[0029]
If the calculated similarity is equal to or more than a certain value, the similarity between the site feature A and the site feature B is high, and the similar site extraction unit 14 outputs the site URL corresponding to the site feature A. In this way, the system user can acquire the site URL of the site that satisfies the input search condition and is specified in advance or a site similar thereto. The output document information of the site URL is registered and updated in the site management table 5 (step ST309).
[0030]
Next, the reputation calculation processing in the first reputation calculation unit 2 and the second reputation calculation unit 10 will be described with reference to FIGS. Since the configuration and the operation of the reputation calculation process of the first reputation calculation unit 2 and the second reputation calculation unit 10 are the same, only the first reputation calculation unit 2 will be described here.
[0031]
FIG. 6 is a block diagram illustrating a configuration of the first rumbling rating calculation unit 2. As shown in the figure, the first reputation calculating section 2 includes a reputation extracting section 15 and a reputation extracting rule table 16. The reputation extraction rule table 16 is stored in a storage unit inside the Internet information monitoring apparatus 100, or is stored in an external storage device or the like. The reputation extraction rule table 16 is a set of data records holding predetermined rules (reputation extraction rules) for extracting descriptions corresponding to reputation expressions from a document. The reputation extraction rule table 16 may be stored in the same storage device as the site management table 5 and the URL management table 8.
[0032]
FIG. 7 is a flowchart of the reputation calculating process in the first reputation calculating unit 2.
First, the document URL and the list of document information of the document obtained in step ST201 of FIG. 2 are input to the first rumbling calculator 2 (step ST601). The document information list includes information such as the text, title, URL, update date, and summary of each document. The document information list may be separately stored in a database. In this case, the relevant database name is input to the reputation extraction unit 15, and the reputation extraction unit 15 acquires document information by referring to the database.
[0033]
Next, reputation extraction section 15 determines whether or not the document information list acquired in step ST601 is empty (step ST602). If it is determined that the document information list is not empty, the process proceeds to step ST603, and if it is determined that the document information list is empty, the process proceeds to step ST611.
[0034]
If it is determined in step ST602 that the document information list is not empty, the reputation extraction unit 15 reads the text content of one document from the document information list (step ST603).
[0035]
Next, in step ST604, the reputation extraction unit 15 determines whether the description unit U can be obtained from the document. The description unit U may be a part of the text in the document or all the text. For example, the reputation extraction unit 15 cuts out a sentence unit from lexical information such as a period, a question mark, and a line feed, and sets it as a description unit U. Alternatively, the description unit U may be obtained by referring to the position information of a word in a document and extracting a description existing in a certain range of positions. Alternatively, a document having a structure such as an HTML document may be separated by tag information. In the case of an Internet bulletin board, the input document may be divided into individual articles and used as sub-documents. In this case, referring to the tag information, only the description including the text information is selected to be the description unit U. The description unit U cut out as described above is stored in the temporary buffer T.
[0036]
As a result of the above determination, if the description unit U can be acquired, the process proceeds to step ST605 to perform morphological analysis on the description unit U. If the description unit U cannot be obtained, the process returns to step ST602, and if an unprocessed document URL remains in the document information list, the process proceeds to step ST603 to read the document and repeat the process of step ST604.
[0037]
Subsequently, in step ST605, the reputation extraction unit 15 performs a morphological analysis on the description unit U stored in the temporary buffer T.
The morphological analysis performed in step ST605 is a method of analyzing linguistic information such as a headline and a part of speech of a word constituting a text, and is a well-known technique, and thus description thereof is omitted. As a result of the morphological analysis, information on the word heading and the part of speech of the description unit U is obtained.
[0038]
Next, the reputation extraction unit 15 collates the word contained in the description unit U and its part of speech information obtained in step ST605 with the contents of the reputation extraction rule table 16 (step ST606).
FIG. 8 is a diagram illustrating an example of the contents of the reputation extraction rule table 16. In the figure, the extraction intention is a classification of the intention of the writer of the document. An intention extraction expression, which is a set of word headings with part of speech information, is associated with the extraction intention. The weight is a value that is added to a score (intention score) given to the document when the intention extraction expression is collated and matched in the document, and is a value determined in advance according to the importance of each rumor extraction rule. .
For example, as shown in the figure, an expression including "correspondence (sa-modification) / evil (adjective)", specifically, "correspondence is poor" is extracted as information relating to some claim, and 1.0 is added to the score. You.
[0039]
The reputation extraction unit 15 determines whether or not the description unit U stored in the buffer T includes a word with part-of-speech information corresponding to the intention extraction expression (step ST607).
When it is determined that the intention extraction expression is included, the process proceeds to step ST608, and when it is determined that the intention extraction expression is not included, the process returns to step ST604.
[0040]
Next, the reputation extraction unit 15 extracts the intention extraction expression included in the description unit U as a characteristic expression. Further, an extraction intention corresponding to the intention extraction expression is acquired from the reputation extraction rule table 16 and is associated with the extracted characteristic expression (step ST608).
[0041]
Next, the reputation extraction unit 15 adds the feature expression acquired in step ST608 to the feature expression list (step ST609).
The feature expression list is a list having information as shown in FIG. 9, for example. As shown in the figure, a characteristic expression, a corresponding extraction intention (label), an extraction position of the characteristic expression in a document, and a weight corresponding to the extraction intention are stored.
[0042]
Next, the process proceeds to step ST610, where the weight of the rumor extraction rule that matches the characteristic expression is added to the intention score of the document. The intention score of a document is, for example, the sum of the weights of the feature expressions extracted in the document, and is managed for each extraction intention. Upon completion of the processing up to step ST610, the process returns to step ST604.
[0043]
When the process up to step ST610 is completed, the process returns to step ST604, and repeats the process until the description unit U cannot be obtained.
[0044]
If it is determined in step ST602 that the document information list is empty, the reputation extracting unit 15 sends the total value of the score of each document and the characteristic expression list to the first site extracting unit 3 together with the document content as the reputation extraction result. Output.
Similarly, the second reputation calculation unit 10 performs the processing of steps ST601 to ST611, and outputs the total score of the document downloaded by the download unit 9 and the feature expression list to the second site extraction unit 11. .
[0045]
As described above, according to the first embodiment, a large amount of Web documents are collected by the crawler unit 1 during the site registration process, and the first reputation calculation unit 2, the first site extraction unit 3, and the first The site characteristic calculation unit 4 acquires information representing the characteristics of the collected Web documents in units of sites, and records the acquired information in the site management table 5. Based on the information in the site management table 5 obtained as described above, the site selection unit 13 creates a feature list of the site that the system user wants to monitor and designates in advance, and outputs it as a designated site feature list.
At the time of site information extraction, the document search unit 6 searches for documents on the Web in accordance with the keyword specified by the system user, and a new URL is extracted by the new URL extraction unit 7 from the search results. get. The second reputation calculation unit 10, the second site extraction unit 11, and the second site feature calculation unit 12 acquire information representing features of the downloaded Web document in units of sites, and are created during the registration process. The same or similar sites are extracted by comparing with information indicating the features of the sites included in the specified site feature list. As a result, the system user can find and provide a new reputation site that matches the content of the client's investigation purpose from a large number of Web documents.
[0046]
The reputation extraction rule table 16 stores reputation extraction rules for a plurality of extraction intentions, and the reputation extraction unit 15 calculates a score of a feature expression included in the document for each extraction intention based on the reputation extraction rule for each document. Then, since it is output as a feature expression list, the user can know the contents of the reputation included in the document in more detail.
[0047]
Furthermore, according to the first embodiment, the first site feature calculation unit 4 and the second site feature calculation unit 12 calculate the feature of the appearance tendency of each word in the document belonging to the site URL to obtain vector information. Since the site feature of the site URL is adopted, there is an effect that a new site that matches the purpose of the search can be easily acquired based on the appearance tendency of the word in the document.
[0048]
Embodiment 2 FIG.
In the first embodiment, the site selection unit 13 outputs a specified site feature list of a site URL specified by a user of the system. In the second embodiment, a designated site feature list of a site URL that matches a condition is output by designating a site search condition without directly designating a site URL to the site selection unit.
[0049]
FIG. 10 is a block diagram illustrating a configuration of the site selection unit 17 according to the second embodiment. The site selection unit 17 is a component that is substituted for the site selection unit 13 in FIG. The components other than the site selection unit 17 are the same as those in FIG.
The site selection unit 17 includes a site search unit 18, an index storage unit 19, and a site feature acquisition unit 20. The index storage unit 19 is held in a storage unit inside the Internet information monitoring device 100 or is stored in an external storage device. The index storage unit 19 is a database that stores the correspondence between site URLs and keywords representing the contents of documents included in the site URLs in an indexed form. The index storage unit 19 may be stored in the same storage device as the site management table 5 and the URL management table 8.
[0050]
The operation of the site selection unit 17 will be described.
The site search unit 18 searches the index storage unit 19 based on a search keyword input by a system user using an input unit (not shown), and obtains a site URL where the search keyword matches a keyword in the index storage unit 19. I do.
The site feature acquiring unit 20 acquires a site feature corresponding to the site URL acquired by the site searching unit 18 from the site management table 5, and outputs a site feature list.
Note that the search method of the index storage unit 19 is not limited to the search using the keyword, but may be any method for searching the index. For example, the search condition to be input and the keyword stored in the index storage unit 19 are text, and a weight vector representing the characteristic of the tendency of appearance of the word included therein is created. A method of calculating the similarity between the search condition vector and the vector in the index storage unit 19 and outputting a site URL having a high similarity may be used.
[0051]
As described above, according to the second embodiment, the site selection unit 17 acquires the site URL that matches the search condition input by the site search unit 18 from the index storage unit 19, and acquires the site feature acquisition unit No. 20 creates a designated site feature list by extracting the site features of the acquired site URL from the site management table 5. As a result, the system user can efficiently obtain the specified site feature list of the site URL that matches the purpose of the survey without directly specifying the site.
[0052]
Embodiment 3 FIG.
In the third embodiment, information (attribute information) that further characterizes the content of a site is registered in the site management table, in addition to the site characteristics and the reputation. Here, as an example of such information, a specific product name or company name appearing in a document, or the presence or absence of a link to a bulletin board is registered.
[0053]
FIG. 11 is a block diagram showing a configuration of the Internet information monitoring apparatus 101 according to Embodiment 3 of the present invention. As shown in the figure, the Internet information monitoring apparatus 101 has an attribute information extracting unit 21. The attribute information extraction knowledge storage unit 22 is stored in a storage device outside the Internet information monitoring device 100. The attribute information extraction knowledge storage unit 22 may be stored in the same storage device as the site management table 5 and the URL management table 8. Other configurations are the same as those of the second embodiment.
[0054]
The attribute information extraction unit 21 includes a target name extraction unit 23 and a bulletin board presence / absence extraction unit 24 as shown in FIG. Further, the attribute information extraction knowledge storage unit 22 includes a target name table (reflection evaluation target table) 25 and a bulletin board extraction knowledge table 26. The target name table 25 stores a list of specific product names and company names. The bulletin board extraction knowledge table 26 stores a list of characteristic words representing bulletin boards. Note that the attribute information extraction unit 21 may include only one of the target name extraction unit 23 and the bulletin board presence / absence extraction unit 24. Also, if the attribute information extraction unit 21 has only the target name extraction unit 23, the attribute information extraction knowledge storage unit 22 only needs to have only the target name table 25. When only the bulletin board presence / absence extraction unit 24 is provided, it is sufficient to have only the bulletin board extraction knowledge table 26.
[0055]
Next, the operation of the attribute information extracting unit 21 will be described.
The target name extracting unit 23 is configured to select a company name or a product name that matches the product name or the company name registered in the target name table 25 from among the characteristic expressions of the respective documents extracted by the first reputation calculating unit 2. Is extracted.
[0056]
The target name table 25 stores a company name and a product name designated in advance by the system user, so that the system user can know the name of the product or the company that is the subject of the reputation. The target name extracting unit 23 outputs the obtained company name or product name as an attribute value of the attribute type “reputation target”.
[0057]
Next, the bulletin board presence / absence extracting unit 24 searches whether or not each document collected by the crawler unit 1 includes a word that matches a characteristic word representing a bulletin board registered in the bulletin board extracted knowledge table 26. In the bulletin board extraction knowledge table 26, words representing bulletin boards such as "bulletin board" and "BBS" and a site URL of a bulletin board designated in advance by a system user are registered.
When the document is described in a format language such as HTML, the bulletin board presence / absence extracting unit 24 reads the HTML document and analyzes whether or not there is an anchor tag indicating a hyperlink. If there is an anchor tag, it is analyzed whether or not the tag includes a characteristic word representing a bulletin board registered in the bulletin board extraction knowledge table 26. If the characteristic word is included, “related” is output as the attribute value of the attribute type “bulletin board”, and if the characteristic word is not included, the attribute value of the attribute type “bulletin board” is “ Not relevant "is output.
[0058]
With respect to the attribute value of the attribute type “reputation target” obtained by the attribute information extraction unit 21, the first site extraction unit 3 calculates the appearance frequency of each product name and company name for each site, and In the feature calculation unit 4, the product name and the company name and their appearance frequency are stored in the site management table 5 corresponding to the corresponding site URL.
[0059]
As for the obtained attribute value of the attribute type “bulletin board”, the first site extraction unit 3 outputs the presence or absence of a link to the bulletin board of each site, and the first site feature calculation unit 4 outputs the site information. The presence or absence of a link to the bulletin board is stored in the site management table 5 in correspondence with the URL.
[0060]
As described above, the attribute information extracting unit 21 is provided, and the attribute information of the site, such as the name of the product or company that is the subject of the reputation and the presence or absence of a link to the bulletin board, is registered in the site management table 5. Thus, when the site selection unit 17 creates the site feature list, there is an effect that such attribute information can be used as a site designation condition.
Note that the attribute information registered in the site management table 5 is not limited to the above-mentioned product name, company name, or presence / absence of association with the bulletin board, but may be any information that indicates the characteristics of the site. In this case, the attribute information extraction knowledge storage unit 22 stores a table used for the purpose of extracting other attribute information, in addition to the target name table 25 and the bulletin board extraction knowledge table 26.
[0061]
Embodiment 4 FIG.
In the fourth embodiment, in the site information extraction processing, information on the new site extracted by the similar site extraction unit 14 is provided as a report.
[0062]
FIG. 13 is a block diagram illustrating a configuration of the Internet information monitoring apparatus 102 according to the fourth embodiment. 1 denote the same components. As shown in the figure, the Internet information monitoring apparatus 102 has a report creation unit 27. Other configurations are the same as those of the first embodiment.
[0063]
The report creation processing by the report creation unit 27 will be described.
The report creation unit 27 creates and outputs a report based on the site URL output by the similar site extraction unit 14 and the document information on the site URL.
[0064]
The output report is created for each customer who has requested the survey. For example, as shown in FIG. 14, the search keyword registered by the client, the designated site set as the survey target, and the URL of the new site extracted this time are displayed. The summary is reported. Further, a document URL with a high reputation in the extracted new site may be presented together.
[0065]
As described above, since the report creation unit 27 is provided, the extraction result of the new site can be made into a report, so that the survey requester can continuously use the report to obtain information on the site that matches the purpose of the survey. Can be monitored.
[0066]
【The invention's effect】
As described above, according to the present invention, it is possible to obtain an information monitoring device that extracts a site that includes a large amount of information that matches the purpose of a survey.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an Internet information monitoring device according to a first embodiment of the present invention.
FIG. 2 is a flowchart of a site registration process according to the first embodiment of the present invention.
FIG. 3 is a flowchart of a site information extracting process according to the first embodiment of the present invention.
FIG. 4 is a diagram for explaining a site feature vector according to the first embodiment of the present invention.
FIG. 5 is a diagram showing an example of a site management table according to the first embodiment of the present invention.
FIG. 6 is a block diagram showing a configuration of a first valuation calculating unit according to the first embodiment of the present invention.
FIG. 7 is a flowchart of a reputation calculating process in a first reputation calculating unit according to the first embodiment of the present invention.
FIG. 8 is a diagram showing an example of a reputation extraction rule table according to the first embodiment of the present invention.
FIG. 9 is a diagram showing an example of a feature expression list according to the first embodiment of the present invention.
FIG. 10 is a block diagram showing a configuration of a site selection unit according to Embodiment 2 of the present invention.
FIG. 11 is a block diagram showing a configuration of an Internet information monitoring device according to a third embodiment of the present invention.
FIG. 12 is a block diagram showing a configuration of an attribute information extraction unit and an attribute information extraction knowledge storage unit according to Embodiment 3 of the present invention.
FIG. 13 is a block diagram showing a configuration of an Internet information monitoring device according to a fourth embodiment of the present invention.
FIG. 14 is a diagram showing an example of the contents of a report according to Embodiment 4 of the present invention.
[Explanation of symbols]
Reference Signs List 1 crawler section, 2 first reputation calculation section, 3 first site extraction section, 4 first site feature calculation section, 5 site management table, 6 document search section, 7 new URL extraction section, 8 URL management table , 9 download unit, 10 second reputation calculation unit, 11 second site extraction unit, 12 second site feature calculation unit, 13 site selection unit, 14 similar site extraction unit, 15 reputation extraction unit, 16 reputation extraction Rule table, 17 site selection section, 18 site search section, 19 index storage section, 20 site feature acquisition section, 21 attribute information extraction section, 22 attribute information extraction knowledge storage section, 23 target name extraction section, 24 bulletin board presence / absence extraction section, 25 Subject name table (reputation target table), 26 Bulletin board extraction knowledge table, 27 Report creation unit, 100, 101, 102 Internet information monitoring device.

Claims (10)

インターネット上の文書から、Web文書を巡回収集し、収集された文書と文書URLを出力するクローラ部と、
上記クローラ部で収集された各文書から、予め設定された風評表現を抽出し、抽出された風評表現に対応する評価値に基づいて各文書の風評度を算出して出力する第1の風評度算出部と、
上記クローラ部で出力された文書URLから、各文書の属するサイトURLを抽出する第1のサイト抽出部と、
上記サイトURLで指定されるサイトの内容的特徴を表すサイト特徴を出力し、サイトURLとサイト特徴を対応付けてサイト管理テーブルに記憶する第1のサイト特徴算出部と、
上記サイト管理テーブルから、システム利用者により指定されたサイトURLのサイト特徴Bを抽出するサイト選択部と、
入力された検索条件を基にインターネット上の文書を検索し、検索結果として文書URLおよび更新日時を含む文書情報を出力する文書検索部と、
文書URL毎の文書情報を記憶するURL管理テーブルを参照し、上記文書検索部により出力された文書URLのうち、上記URL管理テーブルに登録されていない文書URLおよび文書情報が更新されている文書URLを新規URLとして出力し、上記URL管理テーブルに該新規URLの文書情報を登録する新規URL抽出部と、
上記新規URLの文書をインターネット上から取得するダウンロード部と、
上記ダウンロード部で取得された各文書から、予め設定された風評表現を抽出し、抽出された風評表現に対応する評価値に基づいて各文書の風評度を算出して出力する第2の風評度算出部と、
上記新規URLから、各文書の属する新規サイトURLを抽出する第2のサイト抽出部と、
上記新規サイトURLで指定されるサイトの内容的特徴を表すサイト特徴Aを出力する第2のサイト特徴算出部と、
上記サイト特徴Aと上記サイト特徴Bの類似度を算出し、類似度が一定値以上の新規サイトURLを出力すると共に、当該新規サイトURLの文書情報をサイト管理テーブルに記録する類似サイト抽出部とを備えた情報監視装置。
A crawler unit that circulates and collects Web documents from documents on the Internet, and outputs the collected documents and document URLs;
A first reputation for extracting a preset reputation from each document collected by the crawler unit, calculating and outputting a reputation for each document based on an evaluation value corresponding to the extracted reputation; A calculating unit;
A first site extraction unit that extracts a site URL to which each document belongs from the document URL output by the crawler unit;
A first site feature calculation unit that outputs a site feature representing the content feature of the site specified by the site URL, stores the site URL in association with the site feature in a site management table,
A site selection unit for extracting a site feature B of a site URL specified by the system user from the site management table;
A document search unit for searching a document on the Internet based on the input search condition and outputting document information including a document URL and an update date and time as a search result;
With reference to a URL management table that stores document information for each document URL, a document URL that is not registered in the URL management table and a document URL whose document information is updated among the document URLs output by the document search unit. As a new URL, and registering the document information of the new URL in the URL management table;
A download unit for obtaining the document of the new URL from the Internet;
A second reputation for extracting a preset reputation from each document obtained by the download unit, calculating and outputting a reputation for each document based on an evaluation value corresponding to the extracted reputation; A calculating unit;
A second site extraction unit for extracting a new site URL to which each document belongs from the new URL;
A second site feature calculation unit that outputs a site feature A representing the content feature of the site specified by the new site URL;
A similar site extraction unit that calculates a similarity between the site feature A and the site feature B, outputs a new site URL having a similarity equal to or more than a certain value, and records document information of the new site URL in a site management table; Information monitoring device equipped with.
第1の風評度算出部および第2の風評度算出部は、
予め登録した抽出意図と、該抽出意図に関連付けられた意図抽出表現を記憶する風評抽出規則テーブルを参照し、クローラ部で収集された各文書から上記意図抽出表現に合致する語を抽出し、上記意図抽出表現に対して予め設定されたスコアを上記抽出意図毎に集計し、各文書の風評度として出力する風評抽出部を備えたことを特徴とする請求項1記載の情報監視装置。
The first reputation calculator and the second reputation calculator are:
With reference to a pre-registered extraction intention and a reputation extraction rule table that stores an intention extraction expression associated with the extraction intention, a word that matches the intention extraction expression is extracted from each document collected by the crawler unit. 2. The information monitoring apparatus according to claim 1, further comprising: a reputation extraction unit that totals scores preset for the intention extraction expression for each extraction intention and outputs the score as the reputation of each document.
第1のサイト特徴算出部および第2のサイト特徴算出部は、各サイトに属する文書に含まれる複数の単語の出現傾向を数値化し、該サイトのサイト特徴とすることを特徴とする請求項1または請求項2記載の情報監視装置。The first site feature calculation unit and the second site feature calculation unit quantify the appearance tendency of a plurality of words included in a document belonging to each site, and use the numbers as site features of the site. Or the information monitoring device according to claim 2. サイト選択部は、
サイトURLとサイトURLに含まれる文書の内容を表すキーワードとの対応を索引化して保持する索引記憶部に登録された上記キーワードが、システム利用者により指定された検索条件キーワードに合致するサイトURLを抽出し、指定サイトURLとして出力するサイト検索部と、
サイト管理テーブルから、上記指定サイトURLのサイト特徴を取得し、指定サイト特徴リストを生成して出力するサイト特徴取得部とを備えたことを特徴とする請求項1から請求項3のうちのいずれか1項記載の情報監視装置。
The site selection section
The keyword registered in the index storage unit that indexes and holds the correspondence between the site URL and the keyword representing the content of the document included in the site URL matches the site URL that matches the search condition keyword specified by the system user. A site search unit for extracting and outputting as a designated site URL;
4. A site feature acquiring unit for acquiring a site feature of the designated site URL from a site management table, and generating and outputting a designated site feature list. 9. The information monitoring device according to claim 1.
サイト選択部は、
サイトURLとサイトURLに含まれる文書中における複数の単語の出現傾向の特徴を表すベクトル情報との対応を索引化して保持する索引記憶部に記憶された上記ベクトル情報が、システム利用者により指定された検索条件における複数の単語の出現傾向を表すベクトル情報と類似度の高いサイトURLを抽出し、指定サイトURLとして出力するサイト検索部と、
サイト管理テーブルから、上記指定サイトURLのサイト特徴を取得し、指定サイト特徴リストを生成して出力するサイト特徴取得部とを備えたことを特徴とする請求項1から請求項3のうちのいずれか1項記載の情報監視装置。
The site selection section
The vector information stored in an index storage unit that indexes and holds the correspondence between the site URL and the vector information representing the characteristics of the appearance tendency of a plurality of words in the document included in the site URL is specified by the system user. A site search unit that extracts a site URL having a high degree of similarity with vector information indicating a tendency of appearance of a plurality of words in the search condition, and outputs the extracted site URL as a designated site URL;
4. A site feature acquiring unit for acquiring a site feature of the designated site URL from a site management table, and generating and outputting a designated site feature list. 9. The information monitoring device according to claim 1.
クローラ部により収集された文書の内容を解析し、サイトの内容を特徴付けるサイト属性情報を抽出する属性情報抽出部を備え、
第1のサイト特徴算出部は、サイト管理テーブルに上記サイト属性情報を記憶することを特徴とする請求項1から請求項5のうちのいずれか1項記載の情報監視装置。
An attribute information extraction unit that analyzes the content of the document collected by the crawler unit and extracts site attribute information characterizing the content of the site,
The information monitoring apparatus according to claim 1, wherein the first site feature calculation unit stores the site attribute information in a site management table.
属性情報抽出部は、クローラ部により収集された文書中から、予め登録された属性を表す語句を記憶する複数のテーブルより構成された属性情報抽出知識記憶部に登録された上記テーブル中の語句を抽出することを特徴とする請求項6記載の情報監視装置。The attribute information extraction unit, from the documents collected by the crawler unit, the words in the table registered in the attribute information extraction knowledge storage unit composed of a plurality of tables that store words representing the attributes registered in advance 7. The information monitoring device according to claim 6, wherein the information is extracted. 属性情報抽出部は、クローラ部により収集された文書中から、具体的な製品名や企業名を記憶した風評対象テーブルに登録された上記製品名や企業名を抽出し、
第1のサイト抽出部は、サイト毎に、抽出された上記製品名や企業名と、それらの出現頻度とを出力し、
第1のサイト特徴算出部は、サイト管理テーブルに上記製品名や企業名とそれらの出現頻度を、文書中での風評の対象となる具体的な製品や企業の情報として記憶することを特徴とする請求項7記載の情報監視装置。
The attribute information extraction unit extracts, from the documents collected by the crawler unit, the product names and company names registered in the reputation target table storing the specific product names and company names,
The first site extraction unit outputs, for each site, the extracted product name or company name and their appearance frequency,
The first site feature calculation unit stores the product name and the company name and their appearance frequency in a site management table as information on a specific product or company to be reputed in a document. The information monitoring device according to claim 7, wherein
属性情報抽出部は、クローラ部により収集された文書中から、掲示板を表す特徴語を記憶した掲示板抽出知識テーブルに登録された上記掲示板を表す特徴語を抽出し、
第1のサイト抽出部は、サイト毎に、上記掲示板を表す特徴語の存在有無を出力し、
第1のサイト特徴算出部は、サイト管理テーブルに上記掲示板を表す特徴語の存在有無を、当該サイトの掲示板との関連の有無に関する情報として記憶することを特徴とする請求項7記載の情報監視装置。
The attribute information extracting unit extracts, from the documents collected by the crawler unit, the characteristic word representing the bulletin board registered in the bulletin board extraction knowledge table storing the characteristic word representing the bulletin board,
The first site extraction unit outputs, for each site, the presence or absence of the characteristic word representing the bulletin board,
8. The information monitoring system according to claim 7, wherein the first site feature calculation unit stores the presence / absence of the characteristic word representing the bulletin board in the site management table as information on the presence / absence of the site with the bulletin board. apparatus.
類似サイト抽出部が出力する新規サイトURLおよび当該新規サイトURLの文書情報を提示するレポートを作成するレポート作成部を備えることを特徴とする請求項1から請求項9のうちのいずれか1項記載の情報監視装置。10. The system according to claim 1, further comprising a report creation unit that creates a report that presents a new site URL output by the similar site extraction unit and document information of the new site URL. Information monitoring device.
JP2003072311A 2003-03-17 2003-03-17 Information monitoring device Pending JP2004280569A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003072311A JP2004280569A (en) 2003-03-17 2003-03-17 Information monitoring device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003072311A JP2004280569A (en) 2003-03-17 2003-03-17 Information monitoring device

Publications (1)

Publication Number Publication Date
JP2004280569A true JP2004280569A (en) 2004-10-07

Family

ID=33288543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003072311A Pending JP2004280569A (en) 2003-03-17 2003-03-17 Information monitoring device

Country Status (1)

Country Link
JP (1) JP2004280569A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165598A (en) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology Reputation information extraction device and reputation information extraction method
JP2008165599A (en) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology Reputation information extraction device and reputation information extraction method
JP2008165284A (en) * 2006-12-27 2008-07-17 Nec Corp System and method for monitoring rumor and program
JP2008234090A (en) * 2007-03-19 2008-10-02 Fujitsu Ltd Latest reputation information notification program, recording medium, apparatus and method
JP2008299842A (en) * 2007-05-29 2008-12-11 Nhn Corp Reaction information providing method by advertisement execution, computer readable recording medium, and reaction information providing system by advertisement execution
JP2009245369A (en) * 2008-03-31 2009-10-22 Nomura Research Institute Ltd Risk-in-business-partner management device
WO2010024184A1 (en) * 2008-08-26 2010-03-04 日本電気株式会社 Rumor information detecting system, rumor information detecting method, and program
JP2010140087A (en) * 2008-12-09 2010-06-24 Nec Corp Information collection apparatus, information collection method, and program
US7979454B2 (en) 2007-07-02 2011-07-12 Sony Corporation Information processing apparatus, and method and system for searching for reputation of content
US8041721B2 (en) 2007-12-26 2011-10-18 Fujitsu Limited Attribute extraction processing method and apparatus
JP2012238296A (en) * 2011-04-28 2012-12-06 Ird:Kk Database construction device, trademark infringement detection device, database construction method, and program
JP2019020958A (en) * 2017-07-14 2019-02-07 株式会社日立製作所 Information collection support device and information collection support method

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165284A (en) * 2006-12-27 2008-07-17 Nec Corp System and method for monitoring rumor and program
JP2008165598A (en) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology Reputation information extraction device and reputation information extraction method
JP2008165599A (en) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology Reputation information extraction device and reputation information extraction method
JP2008234090A (en) * 2007-03-19 2008-10-02 Fujitsu Ltd Latest reputation information notification program, recording medium, apparatus and method
JP2008299842A (en) * 2007-05-29 2008-12-11 Nhn Corp Reaction information providing method by advertisement execution, computer readable recording medium, and reaction information providing system by advertisement execution
US7979454B2 (en) 2007-07-02 2011-07-12 Sony Corporation Information processing apparatus, and method and system for searching for reputation of content
US8041721B2 (en) 2007-12-26 2011-10-18 Fujitsu Limited Attribute extraction processing method and apparatus
JP2009245369A (en) * 2008-03-31 2009-10-22 Nomura Research Institute Ltd Risk-in-business-partner management device
WO2010024184A1 (en) * 2008-08-26 2010-03-04 日本電気株式会社 Rumor information detecting system, rumor information detecting method, and program
JP2010140087A (en) * 2008-12-09 2010-06-24 Nec Corp Information collection apparatus, information collection method, and program
JP2012238296A (en) * 2011-04-28 2012-12-06 Ird:Kk Database construction device, trademark infringement detection device, database construction method, and program
JP2019020958A (en) * 2017-07-14 2019-02-07 株式会社日立製作所 Information collection support device and information collection support method

Similar Documents

Publication Publication Date Title
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
JP5431727B2 (en) Relevance determination method, information collection method, object organization method, and search system
US9081861B2 (en) Uniform resource locator canonicalization
US8606781B2 (en) Systems and methods for personalized search
JP5084858B2 (en) Summary creation device, summary creation method and program
US20070271255A1 (en) Reverse search-engine
US20070250501A1 (en) Search result delivery engine
US8180751B2 (en) Using an encyclopedia to build user profiles
US20150172299A1 (en) Indexing and retrieval of blogs
JP2004062446A (en) Information collection system, application server, information collection method, and program
JP3501799B2 (en) Information search support device, computer program, and program storage medium
US20070239692A1 (en) Logo or image based search engine for presenting search results
CN101542482A (en) Bookmarks and Ranking
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
KR102256007B1 (en) System and method for searching documents and providing an answer to a natural language question
KR100434902B1 (en) Knowledge base custom made information offer system and service method thereof
JP2004280569A (en) Information monitoring device
JP2006099341A (en) Update history generation device and program
JPH11224256A (en) Information retrieval method and recording medium recording information retrieval program
JP2003173280A (en) Database generation device, database generation method, and database generation program
JP2003271609A (en) Information monitoring device and information monitoring method
KR101120040B1 (en) Apparatus for recommending related query and method thereof
JP2004348607A (en) Content search method, content search system, content search program, and recording medium on which content search program is recorded
KR100671077B1 (en) Server, method and system for providing information retrieval service using page bundle
JP2010282403A (en) Document retrieval method