JP7539201B2 - 階層クラスタリングを使用する希少トピック検出 - Google Patents
階層クラスタリングを使用する希少トピック検出 Download PDFInfo
- Publication number
- JP7539201B2 JP7539201B2 JP2022520298A JP2022520298A JP7539201B2 JP 7539201 B2 JP7539201 B2 JP 7539201B2 JP 2022520298 A JP2022520298 A JP 2022520298A JP 2022520298 A JP2022520298 A JP 2022520298A JP 7539201 B2 JP7539201 B2 JP 7539201B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- clusters
- hierarchical
- topic model
- hierarchical topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
オンデマンドのセルフ・サービス:クラウド消費者が、サービスのプロバイダとの人間対話を必要とすることなしに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
広いネットワーク・アクセス:能力が、ネットワークを介して利用可能であり、かつ異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム(例えば、モバイル電話、ラップトップ、およびPDA)による使用を促進する標準の機構を介してアクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースが、マルチテナント・モデルを使用して多数の消費者に役立てられるようにプールされ、様々な物理リソースおよび仮想リソースが、デマンドに応じて動的に割り当てられ、かつ動的に再割当てされる。消費者が、提供されるリソースの厳密なロケーションを一般に支配することも、知ることもないが、抽象化のより高いレベル(例えば、国、州、またはデータセンタ)でロケーションを指定することができ得るという点でロケーション独立の感覚が存在する。
迅速な弾力性:能力は、急速にスケールアウトすること、および迅速にリリースされて、急速にスケールインすることが行われるように、迅速に、弾力的に、一部の事例においては自動的にプロビジョニングされることが可能である。消費者には、プロビジョニングのために利用可能な能力は、しばしば、無限であるように見え、任意の時点で任意の量で購入されることが可能である。
測定されるサービス:クラウド・システムが、サービスのタイプ(例えば、ストレージ、処理、帯域幅、および活性のユーザ・アカウント)に適切な抽象化の何らかのレベルで計測能力を活用することによってリソース使用を自動的に制御し、最適化する。リソース使用は、監視され、制御され、報告されて、利用されるサービスのプロバイダと消費者の両方に透明性をもたらすことが可能である。
SaaS(Software as a Service):消費者に提供される能力は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。それらのアプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インタフェース(例えば、ウェブ・ベースの電子メール)を介して様々なクライアント・デバイスからアクセス可能である。消費者は、限られたユーザ特有のアプリケーション構成設定を可能な例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション能力さえ含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしない。
PaaS(Platform as a Service):消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびプログラミング・ツールを使用して作成された、消費者が作成した、または消費者が獲得したアプリケーションをクラウド・インフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、展開されたアプリケーション、および、場合により、アプリケーション・ホスティング環境構成を支配する。
IaaS(Infrastructure as a Service):消費者に提供される能力は、消費者が、オペレーティング・システムと、アプリケーションとを含み得る任意のソフトウェアを展開して、実行することができる、処理、ストレージ、ネットワーク、および他の基本的な計算リソースをプロビジョニングすることである。消費者は、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを支配し、場合により、選定されたネットワーキング・コンポーネント(例えば、ホスト・ファイアウォール)の限られた支配を有する。
プライベート・クラウド:クラウド・インフラストラクチャが、専ら組織のために運用される。クラウド・インフラストラクチャは、その組織によって管理されても、第三者によって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。
コミュニティ・クラウド:クラウド・インフラストラクチャが、いくつかの組織によって共有され、共有される関心(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンス配慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、その組織によって管理されても、第三者によって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。
パブリック・クラウド:クラウド・インフラストラクチャが、一般の公衆または大きい業界グループによる利用に供され、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、独自のエンティティであるままであるが、データ移植性およびアプリケーション移植性を可能にする標準化された技術もしくは独自の技術(例えば、クラウド間で負荷分散するためのクラウド・バースティング)によって一緒に結び付けられた2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成である。
Claims (11)
- プロセッサによる階層トピック・モデリングを使用して希少トピック検出を提供するための方法であって、前記方法が、
1つまたは複数のデータ・ソースから階層トピック・モデルを学習することと、
選択されたクラスタ内の1つまたは複数の支配的な語を、前記階層トピック・モデルを使用して反復的に除去することであって、前記支配的な語が、前記クラスタの1つまたは複数の主要なトピックと関係する、前記除去することと、
前記学習された階層トピック・モデルに、前記階層トピック・モデルを発展させるべく、1つもしくは複数の語、1つもしくは複数のN-gram、1つもしくは複数の句、1つもしくは複数のテキスト・スニペット、またはその組合せをシード設定することであって、前記除去された支配的な語が、前記シード設定が完了すると、復帰させられる、前記シード設定することと
を含み、
前記方法が、
前記選択されたクラスタを、反復の各回において複数のクラスタに分割することと、
前記複数のクラスタから代替の選択されたクラスタを、前記代替の選択されたクラスタ内の1つまたは複数の支配的な語を反復的に除去しながら識別することであって、前記代替の選択されたクラスタが、キング・クラスタであり、前記キング・クラスタが、前記複数のクラスタからの最大のクラスタである、前記識別することと
をさらに含む、
前記方法。 - プロセッサによる階層トピック・モデリングを使用して希少トピック検出を提供するための方法であって、前記方法が、
1つまたは複数のデータ・ソースから階層トピック・モデルを学習することと、
選択されたクラスタ内の1つまたは複数の支配的な語を、前記階層トピック・モデルを使用して反復的に除去することであって、前記支配的な語が、前記クラスタの1つまたは複数の主要なトピックと関係する、前記除去することと、
前記学習された階層トピック・モデルに、前記階層トピック・モデルを発展させるべく、1つもしくは複数の語、1つもしくは複数のN-gram、1つもしくは複数の句、1つもしくは複数のテキスト・スニペット、またはその組合せをシード設定することであって、前記除去された支配的な語が、前記シード設定が完了すると、復帰させられる、前記シード設定することと
を含み、
前記方法が、
複数のクラスタの各々の間の1つまたは複数の差を、反復の各回において前記選択されたクラスタ内の1つまたは複数の支配的な語を反復的に除去しながら識別すること
をさらに含む
前記方法。 - 1つまたは複数の語ベクトルを生成することと、前記1つまたは複数の語ベクトルの各々をスコアリングすることとをさらに含む、請求項1又は2に記載の方法。
- 前記1つまたは複数の語ベクトルから複数のクラスタを生成することをさらに含み、前記選択されたクラスタが、前記複数のクラスタから識別され、かつキング・クラスタであり、前記キング・クラスタが、前記複数のクラスタからの最大のクラスタである、請求項1~3のいずれか1項に記載の方法。
- 前記選択されたクラスタを、反復の各回において複数のクラスタに分割することと、
前記複数のクラスタから代替の選択されたクラスタを、前記代替の選択されたクラスタ内の1つまたは複数の支配的な語を反復的に除去しながら識別することであって、前記代替の選択されたクラスタが、キング・クラスタであり、前記キング・クラスタが、前記複数のクラスタからの最大のクラスタである、前記識別することと
をさらに含む、請求項2に記載の方法。 - 前記階層トピック・モデルに既存のトピック・モデルをシード設定することをさらに含む、請求項1又は2に記載の方法。
- 1つまたは複数のクラスタ・モデルにより複数のクラスタの各々にシード設定することをさらに含む、請求項1又は2に記載の方法。
- 前記複数のクラスタの各々の間の1つまたは複数の差を、反復の各回において前記選択されたクラスタ内の1つまたは複数の支配的な語を反復的に除去しながら識別することをさらに含む、請求項1に記載の方法。
- 請求項1ないし8の何れか一項に記載の方法を実行するプロセッサを含むシステム。
- プロセッサに、請求項1ないし8の何れか一項に記載の方法を実行させるためのコンピュータ・プログラム。
- 請求項10に記載のコンピュータ・プログラムを記憶するコンピュータ読取可能記録媒体。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US16/596,399 US12259919B2 (en) | 2019-10-08 | 2019-10-08 | Rare topic detection using hierarchical clustering |
| US16/596,399 | 2019-10-08 | ||
| PCT/IB2020/059112 WO2021070005A1 (en) | 2019-10-08 | 2020-09-29 | Rare topic detection using hierarchical clustering |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2022552140A JP2022552140A (ja) | 2022-12-15 |
| JPWO2021070005A5 JPWO2021070005A5 (ja) | 2022-12-22 |
| JP7539201B2 true JP7539201B2 (ja) | 2024-08-23 |
Family
ID=75273583
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022520298A Active JP7539201B2 (ja) | 2019-10-08 | 2020-09-29 | 階層クラスタリングを使用する希少トピック検出 |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US12259919B2 (ja) |
| JP (1) | JP7539201B2 (ja) |
| KR (1) | KR102862150B1 (ja) |
| CN (1) | CN114424197B (ja) |
| AU (1) | AU2020364386B2 (ja) |
| GB (1) | GB2604276A (ja) |
| WO (1) | WO2021070005A1 (ja) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12259919B2 (en) | 2019-10-08 | 2025-03-25 | International Business Machines Corporation | Rare topic detection using hierarchical clustering |
| US11354345B2 (en) * | 2020-06-22 | 2022-06-07 | Jpmorgan Chase Bank, N.A. | Clustering topics for data visualization |
| US20230050622A1 (en) * | 2021-08-11 | 2023-02-16 | Yanran Wei | Evolution of topics in a messaging system |
| US11941038B2 (en) | 2022-05-19 | 2024-03-26 | International Business Machines Corporation | Transparent and controllable topic modeling |
| GB2641976A (en) * | 2023-02-16 | 2025-12-24 | Jpmorgan Chase Bank Na | Systems and methods for seeded neural topic modeling |
| US20240354375A1 (en) * | 2023-04-21 | 2024-10-24 | Gong.Io Ltd. | Techniques for aggregating insights of textual data using hierarchical clustering |
| CN119046457B (zh) * | 2024-10-30 | 2025-03-21 | 杭州正义先铎网络科技有限公司 | 基于智能文本解析的自动化内容管理方法、系统及介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030212679A1 (en) | 2002-05-10 | 2003-11-13 | Sunil Venkayala | Multi-category support for apply output |
| US20080222140A1 (en) | 2007-02-20 | 2008-09-11 | Wright State University | Comparative web search system and method |
| US20110270830A1 (en) | 2010-04-30 | 2011-11-03 | Palo Alto Research Center Incorporated | System And Method For Providing Multi-Core And Multi-Level Topical Organization In Social Indexes |
| US20130212110A1 (en) | 2012-02-09 | 2013-08-15 | Zofia Stankiewicz | System and Method for Association Extraction for Surf-Shopping |
| US20180032606A1 (en) | 2016-07-26 | 2018-02-01 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3791879B2 (ja) | 1999-07-19 | 2006-06-28 | 富士通株式会社 | 文書要約装置およびその方法 |
| US7644102B2 (en) | 2001-10-19 | 2010-01-05 | Xerox Corporation | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects |
| US7451395B2 (en) | 2002-12-16 | 2008-11-11 | Palo Alto Research Center Incorporated | Systems and methods for interactive topic-based text summarization |
| US20070078889A1 (en) | 2005-10-04 | 2007-04-05 | Hoskinson Ronald A | Method and system for automated knowledge extraction and organization |
| US7809704B2 (en) * | 2006-06-15 | 2010-10-05 | Microsoft Corporation | Combining spectral and probabilistic clustering |
| US7783640B2 (en) * | 2006-11-03 | 2010-08-24 | Oracle International Corp. | Document summarization |
| US20100153318A1 (en) * | 2008-11-19 | 2010-06-17 | Massachusetts Institute Of Technology | Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations |
| US8645298B2 (en) | 2010-10-26 | 2014-02-04 | Microsoft Corporation | Topic models |
| US9430563B2 (en) | 2012-02-02 | 2016-08-30 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
| CN103927176B (zh) | 2014-04-18 | 2017-02-22 | 扬州大学 | 一种基于层次主题模型的程序特征树的生成方法 |
| CN103970865B (zh) | 2014-05-08 | 2017-04-19 | 清华大学 | 基于种子词的微博文本层次主题发现方法及系统 |
| US9959364B2 (en) * | 2014-05-22 | 2018-05-01 | Oath Inc. | Content recommendations |
| US20160034757A1 (en) | 2014-07-31 | 2016-02-04 | Chegg, Inc. | Generating an Academic Topic Graph from Digital Documents |
| US11989662B2 (en) * | 2014-10-10 | 2024-05-21 | San Diego State University Research Foundation | Methods and systems for base map and inference mapping |
| US9575952B2 (en) | 2014-10-21 | 2017-02-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
| US9697245B1 (en) * | 2015-12-30 | 2017-07-04 | International Business Machines Corporation | Data-dependent clustering of geospatial words |
| US10275444B2 (en) * | 2016-07-15 | 2019-04-30 | At&T Intellectual Property I, L.P. | Data analytics system and methods for text data |
| US10997509B2 (en) * | 2017-02-14 | 2021-05-04 | Cognitive Scale, Inc. | Hierarchical topic machine learning operation |
| CN108808322A (zh) | 2017-05-04 | 2018-11-13 | 富士康(昆山)电脑接插件有限公司 | 电连接器 |
| CN109544632B (zh) | 2018-11-05 | 2021-08-03 | 浙江工业大学 | 一种基于层次主题模型的语义slam对象关联方法 |
| US12259919B2 (en) | 2019-10-08 | 2025-03-25 | International Business Machines Corporation | Rare topic detection using hierarchical clustering |
-
2019
- 2019-10-08 US US16/596,399 patent/US12259919B2/en active Active
-
2020
- 2020-09-29 JP JP2022520298A patent/JP7539201B2/ja active Active
- 2020-09-29 GB GB2206094.1A patent/GB2604276A/en not_active Withdrawn
- 2020-09-29 WO PCT/IB2020/059112 patent/WO2021070005A1/en not_active Ceased
- 2020-09-29 CN CN202080066389.3A patent/CN114424197B/zh active Active
- 2020-09-29 KR KR1020227008090A patent/KR102862150B1/ko active Active
- 2020-09-29 AU AU2020364386A patent/AU2020364386B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030212679A1 (en) | 2002-05-10 | 2003-11-13 | Sunil Venkayala | Multi-category support for apply output |
| US20080222140A1 (en) | 2007-02-20 | 2008-09-11 | Wright State University | Comparative web search system and method |
| US20110270830A1 (en) | 2010-04-30 | 2011-11-03 | Palo Alto Research Center Incorporated | System And Method For Providing Multi-Core And Multi-Level Topical Organization In Social Indexes |
| US20130212110A1 (en) | 2012-02-09 | 2013-08-15 | Zofia Stankiewicz | System and Method for Association Extraction for Surf-Shopping |
| US20180032606A1 (en) | 2016-07-26 | 2018-02-01 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
Also Published As
| Publication number | Publication date |
|---|---|
| CN114424197A (zh) | 2022-04-29 |
| CN114424197B (zh) | 2025-05-13 |
| AU2020364386B2 (en) | 2024-01-04 |
| GB2604276A (en) | 2022-08-31 |
| AU2020364386A1 (en) | 2022-03-24 |
| KR102862150B1 (ko) | 2025-09-18 |
| WO2021070005A1 (en) | 2021-04-15 |
| GB202206094D0 (en) | 2022-06-08 |
| KR20220050915A (ko) | 2022-04-25 |
| US12259919B2 (en) | 2025-03-25 |
| US20210103608A1 (en) | 2021-04-08 |
| JP2022552140A (ja) | 2022-12-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7539201B2 (ja) | 階層クラスタリングを使用する希少トピック検出 | |
| US11269965B2 (en) | Extractive query-focused multi-document summarization | |
| US10621284B2 (en) | Training data update | |
| US10956684B2 (en) | Topic kernelization for real-time conversation data | |
| US10191946B2 (en) | Answering natural language table queries through semantic table representation | |
| US10558756B2 (en) | Unsupervised information extraction dictionary creation | |
| JP7481074B2 (ja) | コンテキスト・アウェア・データ・マイニング | |
| US10558747B2 (en) | Unsupervised information extraction dictionary creation | |
| US12242796B2 (en) | Permutation invariance for representing linearized tabular data | |
| JP7595654B2 (ja) | 自然言語表現変形の生成 | |
| US11989513B2 (en) | Quantitative comment summarization | |
| US20170116629A1 (en) | System for searching existing customer experience information through cross-industries from text descriptions on a customer experience | |
| US20220067539A1 (en) | Knowledge induction using corpus expansion |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220518 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221209 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230224 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240416 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240513 |
|
| RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20240513 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240617 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240723 |
|
| RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20240724 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240806 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7539201 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |