KR102432600B1 - 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 - Google Patents
벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 Download PDFInfo
- Publication number
- KR102432600B1 KR102432600B1 KR1020190169132A KR20190169132A KR102432600B1 KR 102432600 B1 KR102432600 B1 KR 102432600B1 KR 1020190169132 A KR1020190169132 A KR 1020190169132A KR 20190169132 A KR20190169132 A KR 20190169132A KR 102432600 B1 KR102432600 B1 KR 102432600B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- documents
- similarity
- vector
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 3은 본 발명의 일실시예에 있어서, 유사도 모델의 학습 과정의 예를 도시한 도면이다.
도 4는 본 발명의 일실시예에 있어서, 문서 중복 탐지 과정의 예를 도시한 도면이다.
도 5는 본 발명의 일실시예에 있어서, 벡터 양자화의 예를 도시한 도면이다.
도 6은 본 발명의 일실시예에 있어서, 손실함수의 조정 예를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 중복 문서 탐지 방법의 예를 도시한 흐름도이다.
Claims (16)
- 적어도 하나의 프로세서를 포함하는 컴퓨터 장치의 중복 문서 탐지 방법에 있어서,
상기 적어도 하나의 프로세서에 의해, 문서들간의 의미적 유사도에 기반하여 문서들에 대한 벡터 표현을 출력하도록 학습된 유사도 모델을 이용하여, 문서 집합에 포함된 문서들 각각에 대한 벡터 표현을 획득하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 벡터 표현을 벡터 양자화하여 이진 문자열로 구현되는 키를 생성하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 키를 통해 상기 문서 집합에 포함된 문서들 중 중복 문서를 탐지하는 단계
를 포함하고,
상기 문서들간의 의미적 유사도는 상기 문서들간에 계산되는 수학적 유사도를 상기 문서들간의 속성에 따라 증가 또는 감소시켜 얻어지는 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 벡터 표현은 N(상기 N은 2 이상의 자연수) 차원 실수 벡터의 형태를 갖는 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 키를 생성하는 단계는,
상기 벡터 표현의 각 성분의 값이 0 이상인 경우에는 해당 성분의 값을 1로, 각 성분의 값이 음수인 경우에는 해당 성분의 값을 0으로 대체하여 상기 벡터 표현을 벡터 양자화하여 이진 문자열을 상기 키로서 생성하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 중복 문서를 탐지하는 단계는,
동일한 키를 갖는 문서들을 중복 문서들로서 탐지하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
상기 벡터 표현을 생성하는 단계는,
상기 유사도 모델이 출력한 값과 실제 값간의 차이에 대해 부여되는 가중치를 통해 조정된 상기 유사도 모델의 손실함수를 이용하여 상기 벡터 표현을 생성하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제5항에 있어서,
상기 벡터 표현을 생성하는 단계는,
상기 가중치의 값을 조절함으로써 상기 벡터 표현간의 평균 거리를 조절하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제1항에 있어서,
문서 데이터베이스로부터 동일한 속성을 갖는 복수의 유사 문서쌍을 포함하는 유사 문서쌍 집합 및 랜덤하게 추출된 복수의 비유사 문서쌍을 포함하는 비유사 문서쌍 집합을 추출하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 복수의 유사 문서쌍 각각 및 상기 복수의 비유사 문서쌍 각각에 대해 수학적 척도를 이용한 수학적 유사도를 계산하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 복수의 유사 문서쌍 각각에 대해 계산된 수학적 유사도를 증가시키고 상기 복수의 비유사 문서쌍 각각에 대해 계산된 수학적 유사도를 감소시켜, 상기 복수의 유사 문서쌍 각각 및 상기 복수의 비유사 문서쌍 각각에 대한 의미적 유사도를 계산하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 복수의 유사 문서쌍, 상기 복수의 비유사 문서쌍 및 상기 의미적 유사도를 이용하여 유사도 모델을 학습시키는 단계
를 더 포함하는 중복 문서 탐지 방법. - 제7항에 있어서,
상기 속성은 문서의 작성자, 문서의 게시 섹션 및 문서의 등록 시간 범위 중 적어도 하나를 포함하는 것을 특징으로 하는 중복 문서 탐지 방법. - 제7항에 있어서,
상기 의미적 유사도를 계산하는 단계는,
상기 복수의 유사 문서쌍 각각에 대해 계산된 수학적 유사도를 제1 비선형 함수에 입력하여 증가시키고, 상기 복수의 비유사 문서쌍 각각에 대해 계산된 수학적 유사도를 제2 비선형 함수에 입력하여 감소시키고,
상기 제1 비선형 함수 및 상기 제2 비선형 함수는 상기 제1 비선형 함수가 동일한 모든 입력 값에 대해 상기 제2 비선형 함수보다 높은 값을 산출하는 조건을 만족하는 두 개의 비선형 함수인 것을 특징으로 하는 중복 문서 탐지 방법. - 컴퓨터 장치와 결합되어 제1항 내지 제9항 중 어느 한 항의 방법을 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
- 제1항 내지 제9항 중 어느 한 항의 방법을 컴퓨터 장치에 실행시키기 위한 컴퓨터 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록매체.
- 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서에 의해,
문서들간의 의미적 유사도에 기반하여 문서들에 대한 벡터 표현을 출력하도록 학습된 유사도 모델을 이용하여, 문서 집합에 포함된 문서들 각각에 대한 벡터 표현을 획득하고,
상기 벡터 표현을 벡터 양자화하여 이진 문자열로 구현되는 키를 생성하고,
상기 키를 통해 상기 문서 집합에 포함된 문서들 중 중복 문서를 탐지하고,
상기 문서들간의 의미적 유사도는 상기 문서들간에 계산되는 수학적 유사도를 상기 문서들간의 속성에 따라 증가 또는 감소시켜 얻어지는 것
을 특징으로 하는 컴퓨터 장치. - 제12항에 있어서,
상기 벡터 표현은 N(상기 N은 2 이상의 자연수) 차원 실수 벡터의 형태를 갖는 것
을 특징으로 하는 컴퓨터 장치. - 제12항에 있어서,
상기 적어도 하나의 프로세서에 의해,
상기 벡터 표현의 각 성분의 값이 0 이상인 경우에는 해당 성분의 값을 1로, 각 성분의 값이 음수인 경우에는 해당 성분의 값을 0으로 대체하여 상기 벡터 표현을 벡터 양자화하여 이진 문자열을 상기 키로서 생성하는 것
을 특징으로 하는 컴퓨터 장치. - 제12항에 있어서,
상기 적어도 하나의 프로세서에 의해,
동일한 키를 갖는 문서들을 중복 문서들로서 탐지하는 것
을 특징으로 하는 컴퓨터 장치. - 제12항에 있어서,
상기 벡터 표현을 생성하는 단계는,
상기 유사도 모델이 출력한 값과 실제 값간의 차이에 대해 부여되는 가중치를 통해 조정된 상기 유사도 모델의 손실함수를 이용하여 상기 벡터 표현을 생성하는 것
을 특징으로 하는 컴퓨터 장치.
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020190169132A KR102432600B1 (ko) | 2019-12-17 | 2019-12-17 | 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 |
| US17/120,693 US11550996B2 (en) | 2019-12-17 | 2020-12-14 | Method and system for detecting duplicate document using vector quantization |
| JP2020208547A JP7112475B2 (ja) | 2019-12-17 | 2020-12-16 | ベクトル量子化を利用した重複文書探知方法およびシステム |
| EP20214492.9A EP3839764A1 (en) | 2019-12-17 | 2020-12-16 | Method and system for detecting duplicate document using vector quantization |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020190169132A KR102432600B1 (ko) | 2019-12-17 | 2019-12-17 | 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20210077464A KR20210077464A (ko) | 2021-06-25 |
| KR102432600B1 true KR102432600B1 (ko) | 2022-08-16 |
Family
ID=73854766
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020190169132A Active KR102432600B1 (ko) | 2019-12-17 | 2019-12-17 | 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US11550996B2 (ko) |
| EP (1) | EP3839764A1 (ko) |
| JP (1) | JP7112475B2 (ko) |
| KR (1) | KR102432600B1 (ko) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11893348B2 (en) * | 2020-06-30 | 2024-02-06 | Royal Bank Of Canada | Training a machine learning system for keyword prediction with neural likelihood |
| US12106051B2 (en) | 2020-07-16 | 2024-10-01 | Optum Technology, Inc. | Unsupervised approach to assignment of pre-defined labels to text documents |
| US20230070715A1 (en) * | 2021-09-09 | 2023-03-09 | Canon Medical Systems Corporation | Text processing method and apparatus |
| CN113836322B (zh) * | 2021-09-27 | 2024-06-28 | 平安科技(深圳)有限公司 | 文章查重方法和装置、电子设备、存储介质 |
| US12112132B2 (en) * | 2022-06-22 | 2024-10-08 | Optum Services (Ireland) Limited | Natural language processing machine learning frameworks trained using multi-task training routines |
| US12367341B2 (en) | 2022-06-22 | 2025-07-22 | Optum Services (Ireland) Limited | Natural language processing machine learning frameworks trained using multi-task training routines |
| CN115048638A (zh) * | 2022-06-24 | 2022-09-13 | 绿盟科技集团股份有限公司 | 一种密码算法识别方法及相关装置 |
| US11989506B2 (en) * | 2022-07-27 | 2024-05-21 | Capital One Services, Llc | Systems for database searching and database schemas management and methods of use thereof |
| SE2350371A1 (en) * | 2023-03-30 | 2024-02-27 | Tomicic Consulting AB | Method and system for referencing data |
| CN116108455B (zh) * | 2023-04-12 | 2023-06-16 | 北京华云安信息技术有限公司 | 漏洞去重方法、装置、设备以及存储介质 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008511081A (ja) | 2004-08-23 | 2008-04-10 | トムソン グローバル リソーシーズ | 重複する文書の検出および表示機能 |
| US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20090265160A1 (en) | 2005-05-13 | 2009-10-22 | Curtin University Of Technology | Comparing text based documents |
| US20060294101A1 (en) | 2005-06-24 | 2006-12-28 | Content Analyst Company, Llc | Multi-strategy document classification system and method |
| KR20100008466A (ko) | 2008-07-16 | 2010-01-26 | 주식회사 케이티 | 중복 웹페이지 제거 장치 및 방법 |
| US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
| US9355171B2 (en) * | 2009-10-09 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | Clustering of near-duplicate documents |
| US9852132B2 (en) | 2014-11-25 | 2017-12-26 | Chegg, Inc. | Building a topical learning model in a content management system |
| US20180068023A1 (en) * | 2016-09-07 | 2018-03-08 | Facebook, Inc. | Similarity Search Using Polysemous Codes |
| US20180075138A1 (en) * | 2016-09-14 | 2018-03-15 | FileFacets Corp. | Electronic document management using classification taxonomy |
| US11023441B2 (en) | 2017-05-11 | 2021-06-01 | Oracle International Corporation | Distributed storage and processing of hierarchical data structures |
| US11233761B1 (en) * | 2019-03-21 | 2022-01-25 | Pinterest, Inc. | Determining topic cohesion between posted and linked content |
-
2019
- 2019-12-17 KR KR1020190169132A patent/KR102432600B1/ko active Active
-
2020
- 2020-12-14 US US17/120,693 patent/US11550996B2/en active Active
- 2020-12-16 JP JP2020208547A patent/JP7112475B2/ja active Active
- 2020-12-16 EP EP20214492.9A patent/EP3839764A1/en not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008511081A (ja) | 2004-08-23 | 2008-04-10 | トムソン グローバル リソーシーズ | 重複する文書の検出および表示機能 |
| JP4919515B2 (ja) * | 2004-08-23 | 2012-04-18 | トムソン ルーターズ グローバル リソーシーズ | 重複する文書の検出および表示機能 |
| US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
Also Published As
| Publication number | Publication date |
|---|---|
| US11550996B2 (en) | 2023-01-10 |
| KR20210077464A (ko) | 2021-06-25 |
| EP3839764A1 (en) | 2021-06-23 |
| JP7112475B2 (ja) | 2022-08-03 |
| JP2021096858A (ja) | 2021-06-24 |
| US20210182479A1 (en) | 2021-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102432600B1 (ko) | 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 | |
| KR102448061B1 (ko) | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 | |
| CN104574192B (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
| CN114780727A (zh) | 基于强化学习的文本分类方法、装置、计算机设备及介质 | |
| CN114730339A (zh) | 检测计算机系统中未知的恶意内容 | |
| Kim | Image-based malware classification using convolutional neural network | |
| US11010664B2 (en) | Augmenting neural networks with hierarchical external memory | |
| WO2020205049A1 (en) | N-ary relation prediction over text spans | |
| CN106469192B (zh) | 一种文本相关性的确定方法及装置 | |
| CN110516210B (zh) | 文本相似度的计算方法和装置 | |
| CN112052451A (zh) | 一种webshell检测方法和装置 | |
| KR102649675B1 (ko) | 그래프 자료 구조 및 벡터 데이터가 통합된 풀 텍스트 인덱스를 이용한 정보 제공 방법 및 시스템 | |
| KR102595384B1 (ko) | 문서 유사도 학습에 기반한 딥러닝 모델의 전이 학습 방법 및 시스템 | |
| CN107924398B (zh) | 用于提供以评论为中心的新闻阅读器的系统和方法 | |
| CN113553386B (zh) | 嵌入表示模型训练方法、基于知识图谱的问答方法及装置 | |
| US20250077871A1 (en) | Privacy-sensitive neural network training | |
| CN115374369A (zh) | 基于图神经网络的新闻多样性推荐方法及装置 | |
| CN107247774A (zh) | 一种面向群智多模态数据的处理方法及系统 | |
| CN115131058B (zh) | 账号识别方法、装置、设备及存储介质 | |
| Wang et al. | SparSamp: Efficient Provably Secure Steganography Based on Sparse Sampling | |
| CN112307738B (zh) | 用于处理文本的方法和装置 | |
| CN113962221A (zh) | 一种文本摘要的提取方法、装置、终端设备和存储介质 | |
| KR20250034834A (ko) | 이미지 이해 향상 방법 및 시스템 | |
| CN114417102B (zh) | 文本去重方法、装置和电子设备 | |
| CN114722389A (zh) | Webshell文件的检测方法、装置、电子设备及可读存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20191217 |
|
| PA0201 | Request for examination | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210611 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20211230 Patent event code: PE09021S01D |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220726 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220810 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20220811 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration | ||
| PR1001 | Payment of annual fee |
Payment date: 20250623 Start annual number: 4 End annual number: 4 |