[go: up one dir, main page]

KR20130021944A - Method and apparatus for descriptive question answering - Google Patents

Method and apparatus for descriptive question answering Download PDF

Info

Publication number
KR20130021944A
KR20130021944A KR1020110084528A KR20110084528A KR20130021944A KR 20130021944 A KR20130021944 A KR 20130021944A KR 1020110084528 A KR1020110084528 A KR 1020110084528A KR 20110084528 A KR20110084528 A KR 20110084528A KR 20130021944 A KR20130021944 A KR 20130021944A
Authority
KR
South Korea
Prior art keywords
question
user
correct answer
search
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
KR1020110084528A
Other languages
Korean (ko)
Inventor
윤여찬
김현기
최미란
류법모
허정
이창기
최윤재
김현진
이충희
조요한
오효정
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110084528A priority Critical patent/KR20130021944A/en
Publication of KR20130021944A publication Critical patent/KR20130021944A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 서술형 질의 응답 기술에 관한 것으로, 사용자의 자연어 질문을 분석하여 핵심 키워드를 추출하고, 핵심 키워드에 검색 성능을 높이기 위한 실마리 단어를 추가한 후, 검색엔진을 이용하여 관련문서를 검색하고, 검색엔진을 통해 검색된 스니펫을 대상으로 서술형 질문에 대한 답이 포함된 문서를 찾고 가중치를 부여하여 높은 가중치의 문서가 높은 순위가 되도록 재순위화한 후, 재순위화된 검색결과 내에서 정답의 주변 정보와 정답을 구분하여 사용자에게 제공하는 것을 특징으로 한다. 본 발명에 의하면, 사용자의 서술형 질문에 대하여 자동으로 정답을 제시하여 사용자가 원하는 정보를 빠르고 간단하게 획득할 수 있다. 그러므로 사용자는 익숙한 자연 어형태로 질문하거나, 기존의 단답형 질의 응답을 통해 사용자가 질의하게 되는 대부분의 가능한 질문들을 모두 처리할 수 있다.The present invention relates to a descriptive question and answer technique, which extracts key keywords by analyzing a user's natural language question, adds clue words to improve search performance, and searches related documents using a search engine. Search for snippets retrieved through search engines, find and weight documents that contain answers to descriptive questions, rerank the documents with higher weights to rank higher, and find the correct answers within the reranked search results. It is characterized by providing the user with the surrounding information and the correct answer. According to the present invention, it is possible to obtain information desired by a user quickly and simply by automatically presenting a correct answer to a user's narrative question. Thus, the user can handle most of the possible questions that the user is asking by using a familiar natural language or by using existing short-answer questions.

Description

서술형 질의 응답 방법 및 장치{METHOD AND APPARATUS FOR DESCRIPTIVE QUESTION ANSWERING}METHOD AND APPARATUS FOR DESCRIPTIVE QUESTION ANSWERING}

본 발명은 질의 응답 시스템을 토대로 한 질의 응답 기술에 관한 것으로서, 특히 사용자로부터 자연어 형태의 서술형 질문을 입력 받아 이에 대해 문장 형태의 정답을 자동으로 추출하여 제공하는데 적합한 서술형 질의 응답 방법 및 장치에 관한 것이다.The present invention relates to a question answering technique based on a question answering system, and more particularly, to a method and an apparatus for describing a question answering method suitable for receiving a descriptive question in a natural language form from a user and automatically extracting and providing a correct answer in a sentence form. .

일반적으로 정보검색 시스템은 대용량의 문서, 미디어 등을 대상으로 원하는 정보가 담겨 있는 데이터를 쉽고 빠르게 검색할 수 있는 시스템을 말한다. 정보검색의 대상이 되는 문서는 일반적으로 웹 문서나, 기업 등에서 사용하는 대용량 문서가 될 수 있다.In general, the information retrieval system refers to a system that can easily and quickly retrieve data containing the desired information for a large amount of documents, media, and the like. Documents to be searched for information may be web documents or large documents used by a company.

여기서 정보검색은 ‘정보’, ‘검색’ 등의 키워드 조합을 질의로 사용자로부터 입력 받아 해당 질의와 가장 관련성이 높은 문서를 시스템에서 찾아 사용자에게 제공하는 서비스를 제공한다. 사용자는 정보검색 시스템을 통해 찾고자 하는 정보가 있을 법한 문서를 검색하고, 검색된 문서를 읽어보는 작업을 통해 원하는 정보를 획득한다. In this case, the information search receives a combination of keywords such as 'information' and 'search' from the user as a query, and provides a service that finds and provides the most relevant document in the system to the user. The user searches for a document that may have information to find through an information retrieval system, and obtains desired information by reading the retrieved document.

사용자의 질의는 보통 사용자의 정보 욕구를 대표할 수 있는 1 ~ 5 개 사이의 단어로 구성된다. 하지만 적은 수의 단어를 사용하여 사용자의 정보 욕구를 완벽하게 표현하기에는 무리가 있고, 따라서 사용자가 만족스러운 결과를 얻기에 어려움이 있다. 또한, 검색된 문서에서 원하는 정보를 사용자가 직접 찾고, 만약 검색된 문서에서 원하는 정보가 없을 경우 재 검색하는 과정을 거쳐야 하기 때문에 정보를 획득하기까지는 상당한 시간이 걸릴 수 있다.The user's query usually consists of one to five words that can represent the user's information needs. However, it is difficult to completely express the user's desire for information using a small number of words, and thus, it is difficult for the user to obtain satisfactory results. In addition, since the user directly finds the desired information in the searched document, and if there is no desired information in the searched document, the user has to go through a re-searching process, it may take a long time to acquire the information.

질의응답 시스템은 이러한 정보검색 시스템의 단점을 보안할 수 있는 시스템이다. 질의응답 시스템에서는 키워드 단위의 질의 대신, 자연어 형태의 질의를 입력으로 받는다. 자연어 형태의 질의는 ‘미국의 14대 대통령은 누구인가요?’와 같이 실제 언어생활에서 사용되는 형태의 질의로서 사용자에게 익숙하고 보다 구체적으로 자신의 정보욕구를 표현할 수 있다는 장점이 있다. The question and answer system is a system that can secure the disadvantages of such information retrieval system. In the Q & A system, instead of a keyword-level query, a natural language query is input. The query in the form of natural language is a form of query used in actual language life such as 'Who is the 14th president of the United States?', Which has the advantage of being familiar to users and expressing their information needs more specifically.

질의응답 시스템은 해당 질의를 분석하여 사용자가 원하는 정보가 무엇인지 파악하고, 웹 문서나 백과사전 등의 문서를 검색하여 ‘프랭클린 피어스’라는 답을 사용자에게 제공한다. The question and answer system analyzes the query to find out what information the user wants, searches for documents such as web documents or encyclopedias, and provides the user with a Franklin Pierce answer.

즉, 정보검색 시스템이 질의와 관련된 문서를 검색하는데 그치는 반면, 질의응답 시스템은 사용자 질문에 대한 답을 곧바로 제공하므로 사용자는 검색된 문서를 읽고 정답을 찾는 과정을 단축할 수 있다는 이점이 있다.That is, while the information retrieval system only searches for documents related to the query, the question and answer system provides an answer to the user's question directly, so that the user can shorten the process of reading the retrieved document and finding the correct answer.

이러한 질의응답과 정보검색의 중간 단계로서 서비스를 제공하는 종래 기술로서, (특허문헌 1)은 질문을 분석하여 주요 키워드를 추출하고 유형을 분석한 후, 추출한 키워드를 이용하여 문서를 검색하고, 문서에서 요약본을 질문 유형에 따라 분석하여 사용자에게 보여주는 방식을 취한다. As a conventional technology that provides a service as an intermediate step between such a question and answer and information retrieval, (Patent Literature 1) analyzes a question, extracts a main keyword, analyzes a type, and then retrieves a document using the extracted keyword, Analyzes the summary by question type and presents it to the user.

또한 질의응답을 위하여 질문을 분석한 후, 키워드를 추출하여 검색하고 검색된 문서에서 정답을 찾는 방식의 종래 기술도 있다. (특허문헌 2)의 경우, 검색된 문서에서 정답후보를 추출하여 사용자에게 제시하는 방법을 사용하였다.There is also a conventional technique of analyzing a question for a question and answer, extracting a keyword, searching for a keyword, and finding a correct answer in the searched document. In the case of (Patent Document 2), a method of extracting correct candidates from the searched documents and presenting them to the user was used.

특허문헌 1: 미국등록특허 제7587420호 (2009.09.08. 공고)Patent Document 1: U.S. Patent No. 7587420 (August 2009. Announcement) 특허문헌 2: 미국공개특허 제2005/0114327호 (2005.05.26. 공개)Patent Document 2: US Patent Publication No. 2005/0114327 (published May 26, 2005)

상기한 바와 같이 동작하는 종래 기술에 의한 (특허문헌 1, 2)의 질의 응답 시스템에 있어서는, 사용자가 입력하는 질문이 단답형 형태(Factoid)인 경우에만 처리가 가능하므로, 예를 들어, ‘지진의 원인은?”과 같은 서술형 질의에 대해서는 처리가 불가능하다는 문제점이 있었다. In the question-answering system of (Patent Documents 1 and 2) according to the prior art operating as described above, since the process can be processed only when the question input by the user is a short answer form (Factoid), for example, There is a problem that cannot be processed for a descriptive query such as?

이에 본 발명의 실시예는, 자연어 형태의 서술형 질문을 사용자로부터 입력 받아 이에 대해 문장 형태의 정답을 자동으로 추출할 수 있는 서술형 질의 응답 방법 및 장치를 제공할 수 있다. Accordingly, an embodiment of the present invention may provide a method and apparatus for descriptive question and answer that may receive a descriptive question in natural language form from a user and automatically extract a correct answer in sentence form.

또한 본 발명의 실시예는, 사용자의 자연어 질문을 분석하여 핵심 키워드를 추출하고, 핵심 키워드에 검색 성능을 높이기 위한 실마리 단어를 추가한 후, 검색엔진을 이용하여 관련문서를 검색하고, 검색엔진을 통해 검색된 스니펫(snippet)을 대상으로 서술형 질문에 대한 답이 포함된 문서를 찾고 가중치를 부여하여 높은 가중치의 문서가 높은 순위가 되도록 재순위화한 후, 재순위화된 검색결과 내에서 정답의 주변 정보와 정답을 구분하여 사용자에게 제공할 수 있는 서술형 질의 응답 방법 및 장치를 제공할 수 있다.In addition, the embodiment of the present invention, after analyzing the user's natural language questions to extract the key keywords, add the clue words for improving the search performance to the key keywords, search for related documents using a search engine, and search engine Find and weight documents that contain answers to descriptive questions for the snippets retrieved through them, rerank the documents with higher weights to rank higher, and then search for the correct answers within the reranked search results. A narrative question answering method and apparatus which can distinguish surrounding information from correct answers and provide them to a user can be provided.

본 발명의 일 실시예에 따른 서술형 질의 응답 방법은, 서술형 질문을 입력 받아 분석을 통해 질문의 핵심 키워드를 추출하고, 질문의 의도에 따라 질문 유형을 분류한 후, 유형별로 실마리 단어를 추가하는 과정과, 상기 추출된 핵심 키워드 및 실마리 단어를 토대로 링크된 웹사이트 문서 혹은 기 수집된 문서 내에서 관련 문서를 검색하는 과정과, 검색된 문서 중 정답이 포함된 문서가 상위 순위에 오도록 재순위화하는 과정을 포함할 수 있다.According to an exemplary embodiment of the present invention, a narrative question answering method receives a narrative question, extracts a key keyword of the question through analysis, classifies the question type according to the intention of the question, and then adds a clue word for each type. Searching related documents in the linked web site document or the previously collected document based on the extracted key keywords and clue words, and reranking the documents including the correct answer among the searched documents so that they are ranked in a higher rank. It may include.

그리고 상기 추가하는 과정은, 정의, 원인, 방법, 목적, 유래 중 적어도 하나의 질문 유형을 판단하고, 형태소 분석을 통해 체언과 용언 이외의 단어는 제거할 수 있다.The adding process may determine at least one question type among definitions, causes, methods, objectives, and origins, and may remove words other than the message and the verb through morphological analysis.

그리고 상기 재순위화하는 과정은, 상기 핵심 키워드가 포함된 문서의 문장을 검색하고, 해당 문장에 포함된 단어를 고려하거나, 상기 해당 문장에 포함된 단어와, 핵심 키워드 사이의 거리를 고려하여 각 문서의 스니펫별로 서술형 정답을 포함할 확률을 기계학습 알고리즘을 토대로 점수화하는 과정과, 각 스니펫별 점수를 토대로 높은 점수를 우선순위로 재순위화하는 과정을 포함할 수 있다.The re-ranking process may be performed by retrieving a sentence of a document including the key keyword, considering a word included in the sentence, or considering a distance between the word included in the sentence and the key keyword. It may include a process of scoring the probability of including the descriptive correct answer for each snippet of the document based on the machine learning algorithm, and the process of reranking the high scores in the order of priority based on the score for each snippet.

그리고 상기 재순위화하는 과정은, 질문 유형별로 패턴을 구축하여 구축된 패턴에 매칭되는 문서에는 할당된 가중치를 부여하고, 부여된 가중치가 높은 순서대로 재순위화할 수 있다.In the re-ranking process, a pattern may be constructed for each question type, and weights assigned to documents matching the constructed pattern may be re-ranked in the order of the weights.

그리고 상기 서술형 질의 응답 방법은, 상기 재순위화된 문서에서 정답 문장을 추출하고, 추출한 상기 정답 문장을 출력하거나, 상기 정답 문장을 상기 정답 문장 이외의 주변 정보와 분류하여 출력하는 과정을 더 포함할 수 있다.The narrative question answering method may further include extracting a correct answer sentence from the reranked document, outputting the extracted correct answer sentence, or classifying the correct answer sentence with surrounding information other than the correct answer sentence. Can be.

본 발명의 일 실시예에 따른 서술형 질의 응답 장치는, 서술형 질문을 입력 받는 입력부와, 상기 서술형 질문의 분석을 통해 질문의 핵심 키워드를 추출하고, 질문의 의도에 따라 질문 유형을 분류한 후, 유형별로 실마리 단어를 추가하는 질문 분석 엔진부와, 상기 추출된 핵심 키워드 및 실마리 단어를 토대로 링크된 웹사이트 문서 혹은 기 수집된 문서 내에서 관련 문서를 검색하는 웹 검색 엔진부와, 검색된 문서 중 정답이 포함된 문서가 상위 순위에 오도록 재순위화하는 재순위화 엔진부를 포함할 수 있다.The narrative question answering apparatus according to an embodiment of the present invention includes an input unit that receives a narrative question, extracts key keywords of the question through analysis of the narrative question, classifies question types according to the intention of the question, and then types A question analysis engine unit for adding a clue word to a web search engine, a web search engine unit for searching a related document in a linked web site document or a previously collected document based on the extracted key keywords and clue words, and a correct answer among the searched documents It may include a re-ranking engine unit for re-ranking the included document to be in a higher rank.

그리고 상기 질문 분석 엔진부는, 정의, 원인, 방법, 목적, 유래 중 적어도 하나의 질문 유형을 판단하고, 형태소 분석을 통해 체언과 용언 이외의 단어는 제거할 수 있다.The question analysis engine unit may determine at least one question type among definition, cause, method, purpose, and origin, and may remove words other than the message and the verb through morpheme analysis.

그리고 상기 재순위화 엔진부는, 상기 핵심 키워드가 포함된 문서의 문장을 검색하고, 해당 문장에 포함된 단어를 고려하거나, 상기 해당 문장에 포함된 단어와, 핵심 키워드 사이의 거리를 고려하여 각 문서의 스니펫별로 서술형 정답을 포함할 확률을 기계학습 알고리즘을 토대로 점수화하고, 각 스니펫별 점수를 토대로 높은 점수를 우선순위로 재순위화할 수 있다.The reranking engine unit searches for a sentence of a document including the key keyword, considers a word included in the sentence, or considers each document in consideration of the distance between the word included in the sentence and the key keyword. The probability of including descriptive correct answers for each snippet of is scored based on the machine learning algorithm, and the high scores can be reranked based on the score for each snippet.

그리고 상기 재순위화 엔진부는, 질문 유형별로 패턴을 구축하여 구축된 패턴에 매칭되는 문서에는 할당된 가중치를 부여하고, 부여된 가중치가 높은 순서대로 재순위화할 수 있다.In addition, the reranking engine unit may construct a pattern for each question type, assign a weight assigned to a document matching the constructed pattern, and rerank the assigned weights in order of high order.

그리고 상기 서술형 질의 응답 방법은, 상기 재순위화된 문서에서 정답 문장을 추출하고, 추출한 상기 정답 문장을 출력하거나, 상기 정답 문장을 상기 정답 문장 이외의 주변 정보와 분류하여 출력하는 정답 추출부를 더 포함할 수 있다.The narrative question answering method further includes a correct answer extracting unit extracting a correct answer sentence from the reranked document, outputting the extracted correct answer sentence, or classifying the correct answer sentence with surrounding information other than the correct answer sentence. can do.

상기와 같은 본 발명의 실시예에 따른 서술형 질의 응답 방법 및 장치에 따르면 다음과 같은 효과가 하나 혹은 그 이상이 있다.According to the method and apparatus for a descriptive query response according to the embodiment of the present invention as described above, there are one or more effects as follows.

본 발명의 실시예에 따른 서술형 질의 응답 방법 및 장치에 의하면, 사용자의 서술형 질문에 대하여 자동으로 정답을 제시하여 사용자가 원하는 정보를 빠르고 간단하게 획득할 수 있다. 그러므로 사용자는 익숙한 자연 어형태로 질문하거나, 기존의 단답형 질의 응답을 통해 사용자가 질의하게 되는 대부분의 가능한 질문들을 모두 처리할 수 있는 효과가 있다.According to the method and apparatus for a narrative question answering method according to an embodiment of the present invention, a correct answer is automatically presented to a user's narrative question so that information desired by a user can be obtained quickly and simply. Therefore, it is effective for the user to process most of the possible questions that the user asks through the familiar natural language or through the existing short answer question and answer.

도 1은 본 발명의 실시예에 따른 서술형 질의 응답 장치의 구조를 도시한 블록도,
도 2는 정보검색 엔진의 결과물로서 스니펫을 순위화하여 제공하는 인터페이스를 도시한 도면,
도 3은 본 발명의 실시예에 따른 서술형 질의 응답 장치의 동작 절차를 도시한 흐름도.
1 is a block diagram showing the structure of a descriptive query response device according to an embodiment of the present invention;
2 illustrates an interface for ranking and providing snippets as a result of an information search engine;
3 is a flowchart illustrating an operation procedure of a narrative query response device according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Advantages and features of the present invention and methods for achieving them will be apparent with reference to the embodiments described below in detail with the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. To fully disclose the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims. Like reference numerals refer to like elements throughout.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. The following terms are defined in consideration of the functions in the embodiments of the present invention, which may vary depending on the intention of the user, the intention or the custom of the operator. Therefore, the definition should be based on the contents throughout this specification.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다. Each block of the accompanying block diagrams and combinations of steps of the flowchart may be performed by computer program instructions. These computer program instructions may be loaded into a processor of a general purpose computer, special purpose computer, or other programmable data processing apparatus so that the instructions, which may be executed by a processor of a computer or other programmable data processing apparatus, And means for performing the functions described in each step are created. These computer program instructions may be stored in a computer usable or computer readable memory that can be directed to a computer or other programmable data processing equipment to implement functionality in a particular manner, and thus the computer usable or computer readable memory. It is also possible for the instructions stored in to produce an article of manufacture containing instruction means for performing the functions described in each block or flowchart of each step of the block diagram. Computer program instructions may also be mounted on a computer or other programmable data processing equipment, such that a series of operating steps may be performed on the computer or other programmable data processing equipment to create a computer-implemented process to create a computer or other programmable data. Instructions that perform processing equipment may also provide steps for performing the functions described in each block of the block diagram and in each step of the flowchart.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.In addition, each block or step may represent a portion of a module, segment or code that includes one or more executable instructions for executing a specified logical function (s). It should also be noted that in some alternative embodiments, the functions noted in the blocks or steps may occur out of order. For example, the two blocks or steps shown in succession may in fact be executed substantially concurrently or the blocks or steps may sometimes be performed in the reverse order, depending on the functionality involved.

본 발명의 실시예는, 자연어 형태의 서술형 질문을 사용자로부터 입력 받아 이에 대해 문장 형태의 정답을 자동으로 추출하는 것으로서, 사용자의 자연어 질문을 분석하여 핵심 키워드를 추출하고, 핵심 키워드에 검색 성능을 높이기 위한 실마리 단어를 추가한 후, 검색엔진을 이용하여 관련문서를 검색하고, 검색엔진을 통해 검색된 스니펫(snippet)을 대상으로 서술형 질문에 대한 답이 포함된 문서를 찾고 가중치를 부여하여 높은 가중치의 문서가 높은 순위가 되도록 재순위화한 후, 재순위화된 검색결과 내에서 정답의 주변 정보와 정답을 구분하여 사용자에게 제공하는 것이다.In an embodiment of the present invention, a descriptive question in a natural language form is input from a user and automatically extracts a correct answer in a sentence form, thereby extracting a key keyword by analyzing a user's natural language question and improving search performance on the core keyword. After adding the clue words for the search, search the relevant documents using the search engine, search for the snippets searched through the search engine containing the answers to the descriptive questions, and weighted by weighting After the document is reranked to a high rank, the surrounding information of the correct answer and the correct answer are provided to the user in the reranked search result.

즉, 서술형 사용자의 질의를 분석하고 핵심 키워드와 실마리 키워드를 추가하여 검색하는 방법을 통해 검색 성능을 높이고, 검색된 스니펫에서 정답을 찾고 주변 정보와 정답을 구분하여 제공함으로써 사용자 만족도를 높일 수 있다. In other words, by analyzing the query of the narrative user and adding the key keyword and the clue keyword, the search performance can be improved, and the user satisfaction can be improved by finding the correct answer in the searched snippet and dividing the surrounding information with the correct answer.

또한 검색 성능을 높이기 위하여 유형별로 실마리 단어를 추가하여 검색하고, 검색된 문서는 바로 사용하지 않고 기계학습 및 패턴 매칭 방법을 이용하여 재순위화할 수 있다. 그리고 재순위화한 문서에서 정답을 추출할 경우에는, 높은 순위에서 나온 정답을 우선적으로 사용자에게 제시함으로써 사용자 만족도를 높일 수 있다.In order to improve search performance, clue words can be added for each type and searched, and the searched documents can be re-ranked using machine learning and pattern matching without using them immediately. And when the correct answer is extracted from the reranked document, the user's satisfaction can be improved by first presenting the correct answer from the high rank to the user.

이러한 본 발명은 ‘지진의 원인은 무엇인가요?’와 같은 서술형 질문에 대한 정답을 추출하여 사용자에게 제공할 수 있다. 본 발명의 실시예에서는 웹문서를 대상으로 한 기존의 정보검색 엔진을 이용하여 관련문서를 검색하고 검색된 문서를 대상으로 정답을 추출함으로써, 도메인에 종속적이지 않은 일반적인 모든 서술형 질문을 처리할 수 있다. 이때, 서술형 질문은 단답형 질문과는 다르게 정답이 문장 형태로 제공된다는 특징이 있다. The present invention may provide the user with the correct answer to the descriptive question, such as 'what is the cause of the earthquake?' In the embodiment of the present invention, by using the existing information retrieval engine for web documents and searching for related documents and extracting the correct answer for the retrieved documents, all general narrative questions that are not domain dependent can be processed. In this case, the narrative question has a feature that the correct answer is provided in a sentence form, unlike the short answer question.

하기 (표 1)은 서술형 질문과 단답형 질문의 예이다.Table 1 below is an example of a descriptive question and a short answer question.

질문Question 질문유형Question Type 정답answer 지진의 원인은 무엇인가요?What is the cause of the earthquake? 서술형
(원인)
Narrative
(cause)
지진의 직접적 원인은 지표면에서 100㎞ 정도 두께의 딱딱한 층인 암석권에 있는 판의 움직임이다.The direct cause of the earthquake is the movement of the plates in the rock zone, a hard layer about 100 km thick from the earth's surface.
앨리스 증후군이란?What is Alice syndrome? 서술형
(정의)
Narrative
(Justice)
앨리스 증후군은 물체가 커 보이거나 작아 보이고 왜곡돼 보이기도 하는 증상으로 주로 편두통을 동반한다.Alice's syndrome is a condition in which objects appear large, small, or distorted, usually accompanied by migraine headaches.
전자여권 발급 받는 방법 알려주세요Please tell me how to get ePassport 서술형
(방법)
Narrative
(Way)
발급방법은 재외공관이 여권 신청서를 접수 및 심사한 후 신청서를 온라인 또는 파우치로 외교부에 송부하면 본부에서 전자 여권을 제작, 파우치로 회송한다.The issuance method is to receive and review the passport application form and send the application form online or in a pouch to the Ministry of Foreign Affairs.
아이유의 본명은?IU's real name? 단답형Short answer 이지은Lee, Ji - Eun 제주도의 대표적인 여행지는?What is the representative destination of Jeju Island? 단답형Short answer 섭지코지Seopjikoji 이명박 대통령의 나이는?How old is Lee? 단답형Short answer 71세71 years old

상기 (표 1)에서와 같이 서술형 질문 유형의 질문을 사용자 입력으로 받아 테이블의 ‘정답’ 열에 있는 정보와 같은 형태로 사용자에게 정답을 제공할 수 있다.As shown in Table 1, a question of a descriptive question type may be received as a user input, and a correct answer may be provided to the user in the same form as the information in the 'correct' column of the table.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 서술형 질의 응답 장치의 구조를 도시한 블록도이다.1 is a block diagram showing the structure of a descriptive query response device according to an embodiment of the present invention.

도 1을 참조하면, 서술형 질의 응답 장치(100)는 사용자의 질문을 입력으로 받아 해당질의에 대한 정답을 최종 결과로 제공하기 위한 것으로서, 입력부(110), 질문 분석 엔진부(120), 웹 검색 엔진부(130), 재순위화 엔진부(140) 및 정답 추출부(150) 등을 포함할 수 있다.Referring to FIG. 1, the narrative question answering apparatus 100 is for receiving a user's question as an input and providing a correct answer to a corresponding query as a final result. The input unit 110, the question analysis engine unit 120, and a web search are provided. The engine unit 130, the reranking engine unit 140, and the correct answer extractor 150 may be included.

이러한 서술형 질의 응답 장치(100)는 웹문서 및 기업 등에서 사용하는 대용량 문서 등을 토대로 서술형 질의 응답을 수행하기 위해, 인터넷망에 연결되어 복수의 웹사이트와 연동하거나, 어느 한 웹사이트 서버 내에 구축되어 웹사이트 내 웹문서 정보를 토대로 서술형 질의 응답을 수행할 수 있다.The narrative question answering apparatus 100 is connected to the Internet network or interworked with a plurality of websites in order to perform a narrative question answer based on a large document used in a web document, a company, or the like. Descriptive query responses can be performed based on web document information on the website.

구체적으로 입력부(110)는 사용자로부터 서술형, 즉 자연어 질문을 입력 받는 것으로서, 사용자의 핸드폰, 스마트폰, 노트북, 개인용 컴퓨터 등과 같은 다양한 클라이언트 단말을 통해 자연어 질문을 입력 받을 수 있으며, 입력부(110)가 키패드 혹은 터치 스크린 방식으로 구현된 경우에는 사용자가 직접 키패드를 누르거나 터치스크린을 터치하는 방식으로 자연어 질문을 입력 받을 수 있다. In detail, the input unit 110 receives a narrative type, that is, a natural language question from a user, and may receive a natural language question through various client terminals such as a user's mobile phone, a smartphone, a notebook computer, a personal computer, and the like. When implemented using a keypad or a touch screen method, a natural language question may be input by a user directly pressing a keypad or touching a touch screen.

그리고 입력부(110)는 입력된 자연어 질문을 사용자 입력 신호로서 질문 분석 엔진부(120)로 전달할 수 있다.The input unit 110 may transmit the input natural language question to the question analysis engine unit 120 as a user input signal.

질문 분석 엔진부(120)는 입력부(110)로부터 전달 받은 자연어 질문 정보에서 검색을 위한 주요 키워드를 추출하고 질문의 유형을 판단하는 기능을 수행할 수 있다. 질문의 유형은, 질문이 묻는 의도에 따라 나뉘며 서술형 질문의 경우 정의, 원인, 방법, 목적, 유래 등을 포함할 수 있으며, 판단 결과에 따라 적어도 하나의 질문 유형이 선택될 수 있다. The question analysis engine unit 120 may perform a function of extracting a key keyword for searching from the natural language question information received from the input unit 110 and determining the type of the question. The question type is divided according to the intention of the question, and in the case of the descriptive question, may include definition, cause, method, purpose, origin, and the like, and at least one question type may be selected according to the determination result.

질문의 유형 판단 이후에는 형태소 분석을 통해 체언과 용언 이외의 단어는 제거한 후, 질문 유형에 따라 적합한 실마리 단어를 추가하여 검색 성능을 높일 수 있다. 즉, 판단된 질문 유형별로 기 설정된 적어도 하나의 실마리 단어를 추가할 수 있다. After determining the question type, stemming analysis can remove words other than words and verbs, and then add clue words appropriate to the question type to improve the search performance. That is, at least one clue word preset for each determined question type may be added.

다만, 질문에 이미 실마리 단어를 하나 이상 포함하고 있는 경우에는 실마리 단어를 추가로 포함하지 않을 수도 있다. 그리고 체언과 용언 이외의 단어를 제거할 때, 너무 자주 출현하여 정보성이 없는 단어는 제거할 수 있다.However, if the question already contains at least one clue word, the clue word may not be additionally included. And when removing words other than spoken and used words, words that appear too often can be removed.

하기 (표 2)는 유형별질문, 키워드 추출 결과를 나타낸 것이다.The following (Table 2) shows the type of question, keyword extraction results.

질문Question 추출키워드Extraction Keyword 실마리단어Clue word 지진의 원인은 무엇인가요?What is the cause of the earthquake? 지진, 원인Earthquake 이유, 원인Reason 페이스북의 급성장원인은?What is the fastest growing cause of Facebook? 페이스북, 급성장, 원인Facebook, booming, causes 이유, 원인Reason 전자 여권 발급받는 방법 알려주세요Please tell me how to get an e-passport 전자여권, 발급, 방법EPassport, issuance, method 방법Way 엘리스 증후군이란 무엇인가요?What is Ellis Syndrome? 엘리스 증후군Ellis syndrome 정의, 뜻, 의미Definition, meaning, meaning 플라시보 효과란 무엇인가요?What is the placebo effect? 플라시보, 효과Placebo effect 정의, 뜻, 의미Definition, meaning, meaning

웹 검색 엔진부(130)는 질문 분석 엔진부(120)의 결과 정보를 전달 받아 추출 키워드와 실마리 단어를 조합하여 질의로 사용하고, 정보 검색엔진(search engine)을 이용하여 관련문서를 검색할 수 있다. 여기서 정보 검색엔진으로는 웹 및 기 수집된 대용량문서를 대상으로 하는 어떠한 검색엔진(예컨대, 네이버 검색, 구글 검색 등)도 사용할 수 있으며, 정보 검색엔진은 도 2와 같이 문서의 요약본인 스니펫을 검색결과로 제공할 수 있다.The web search engine unit 130 receives the result information of the question analysis engine unit 120, uses the extracted keyword and the clue word as a query, and searches related documents using an information search engine. have. The information search engine can be any search engine (eg, Naver search, Google search, etc.) that targets the web and large-capacity collected documents. The information search engine uses a snippet, which is a summary of the document, as shown in FIG. Can be provided as a search result.

재순위화 엔진부(140)는 웹 검색엔진부(130)의 결과물인 검색결과에 대해서, 질문의 정답이 포함된 스니펫이 상위순위에 오도록 재순위화하여 정렬할 수 있다. 재순위화 된 결과는 정답 추출부(150)에서 사용할 수 있으며, 높은 순위에서 추출된 정답을 우선적으로 사용자에게 제공할 수 있다. The reranking engine unit 140 may reorder and sort the search results that are the result of the web search engine unit 130 so that the snippet containing the correct answer of the question is placed in a higher rank. The reranked result may be used by the correct answer extractor 150, and may provide the user with the correct answer extracted from the higher priority.

이러한 재순위화를 위해서는 기계학습을 이용하는 방법과 패턴을 이용하는 방법이 있다. 기계학습을 이용하는 방법은 세가지 자질을 이용하여 스니펫별로 서술형 정답을 포함할 확률을 SVM(Support Vector Machine) 등의 기계학습 알고리즘을 토대로 점수화하여 결과로 내보낸다. 이에 재순위화 엔진부(140)는 해당 점수를 기준으로 재순위화하여 높은 점수의 스니펫이 높은 순위로 나오도록 할 수 있다. For this reranking, there are methods using machine learning and methods using pattern. In the method using the machine learning, the probability of including the descriptive correct answer for each snippet is scored based on the machine learning algorithm such as SVM (Support Vector Machine) using three qualities and exported as a result. The reranking engine unit 140 may rerank based on the corresponding scores so that the high score snippet comes out with a high rank.

사용하는 세가지 자질 중 첫번째는, 질문 분석 엔진부(120)에서 추출한 핵심 키워드와 같은 문장에서 나온 단어들을 뽑는 것이다. 이는 핵심 키워드가 포함된 문장을 기 검색된 문서에서 찾고, 해당 문장들에 출현한 단어들을 추출하여 추출한 단어들에 대한 가중치를 판단할 수 있다. 여기서 추출한 단어들에 대한 가중치는 핵심 키워드 또는 실마리 단어와 유사하거나 파생된 단어, 판단된 질문 유형별로 기 설정된 단어들의 포함 여부를 토대로 판단할 수 있다.The first of the three qualities to be used is to extract words from sentences such as key keywords extracted from the question analysis engine unit 120. This may find a sentence including a key keyword in a previously searched document, and extract the words appearing in the sentences to determine the weight of the extracted words. The weights of the extracted words may be determined based on the inclusion of a word similar to or derived from a key keyword or a clue word, or a preset word for each determined question type.

두번째로는, 첫번째 자질에서 뽑은 단어들과 질문 분석 엔진부(120)에서 추출한 핵심 키워드 간의 거리 정보이다. 이는 핵심 키워드와 첫번째 자질에서 뽑은 단어들 간의 거리가 좁을수록 높은 점수가 부여될 수 있다. Secondly, the distance information between the words extracted from the first qualities and the key keywords extracted from the question analysis engine unit 120 is provided. This means that the narrower the distance between the key keywords and the words selected from the first qualities, the higher the score.

마지막 세번째로는, 해당 스니펫에 대하여 웹 검색 엔진부(130)에서 제공하는 관련도 순위로서, 정보 검색 엔진 별로 기 설정된 관련 순위 형식(대소문자 구별, 신뢰하는 사이트 순위별, 핵심 키워드의 포함 개수별, 위치별 등)으로 재순위화하는 것이다. Lastly, as the relevance ranking provided by the web search engine unit 130 for the snippet, the related ranking format (case sensitive, trusted site ranking, number of key keywords included in each information search engine) Star, location, etc.).

하기 <수학식 1>은 본 발명의 실시예에서 적용한 SVM 기계학습방법에서 가중치를 계산하기 위한 것이다.Equation 1 is for calculating a weight in the SVM machine learning method applied in the embodiment of the present invention.

Figure pat00001
Figure pat00001

여기서, x는 검색된 스니펫을 자질을 사용하여 벡터로 표현한 것이다. U(x)의 값이 클수록, 해당 스니펫이 정답을 포함할 확률이 높다. 기계학습은 t회의 학습을 걸쳐 벡터 별로 적합한 가중치값 w를 학습한다. 이에 재순위화 엔진부(140)에서는 이 같은 스코어링값을 이용하여 값이 높은 문서가 높은 순위에 오도록 재순위화할 수 있다.Where x represents the retrieved snippet as a vector using its features. The larger the value of U (x), the higher the probability that the snippet will contain the correct answer. Machine learning learns the appropriate weight value w for each vector over t lessons. Accordingly, the reranking engine unit 140 may rerank the document having a higher value to rank higher using the scoring value.

한편, 패턴을 이용하는 방법은 서술형 유형별로 패턴을 구축(예컨대, 정의형, 방법형, 이유형 등)하고, 패턴별로 가중치를 할당하여 가중치가 높은 패턴이 출현한 스니펫에 높은 가중치를 부여하고 재순위화하는 방법이다. On the other hand, in the method using a pattern, a pattern is constructed for each descriptive type (for example, a definition type, a method type, a weaning type, etc.), and weights are assigned for each pattern to give a high weight to the snippet in which the high weight pattern appears, How to rank.

하기 (표 3)은 유형별 패턴과 가중치의 예로, 해당 패턴에 만족 즉, 매칭되는 스니펫이 있다면 가중치를 부여하고 여러 패턴에 만족되는 스니펫에 대해서는 가장 높은 가중치를 할당하거나, 각 패턴별로 부여된 가중치를 합산하는 방법을 이용할 수 있다.Table 3 below shows examples of patterns and weights for each type, which are weighted if there is a matching snippet, and assigned the highest weight for snippets satisfying the various patterns, or assigned to each pattern. A method of summing weights may be used.

패턴pattern 유형type 가중치weight [키워드]란 *이다[Keyword] is * 정의형Definition 0.70.7 [키워드]하는 방법은 *[Keyword] how to * 방법형Method type 0.30.3 [키워드]의 원인은 *[Keyword] causes * 이유형Weaning 0.50.5

정답 추출부(150)는 각 스니펫에서 정답을 기술한 문장과 정답 이외의 다른 정보를 기술하는 정보를 분류하여 정답을 기술한 문장만을 사용자에게 보여주거나 혹은 정답이 기술된 문장은 색상을 다르게 하거나 혹은 진하게 표시하고, 그렇지 않은 문장은 흐리게 표시하는 등의 방법을 사용하여 사용자가 보다 직관적이고 빠르게 정답을 알아낼 수 있도록 한다.The correct answer extractor 150 classifies the sentence describing the correct answer and information describing other information other than the correct answer in each snippet, and shows only the sentence describing the correct answer to the user, or the sentence describing the correct answer may have a different color. Or you can use bold and other sentences that are dimmed so that the user can find the answer more intuitively and quickly.

다만, 사용자가 선택하거나, 기 설정한 상태 또는 서술형 질의 응답 장치(100)에 재순위화 엔진부(140)를 통해 검색된 결과를 바로 출력하도록 기 설정해둔 경우에는 재순위화 엔진부(140)의 재순위화된 결과를 정답 추출부(150)로 전달하지 않고, 재순위화 된 결과 자체를 검색결과로서 사용자에게 제공할 수도 있다.However, when the user selects or presets the search result through the reranking engine unit 140 to the predetermined state or the descriptive query response device 100, the reranking engine unit 140 Instead of delivering the reranked result to the correct answer extractor 150, the reranked result itself may be provided to the user as a search result.

도 3은 본 발명의 실시예에 따른 서술형 질의 응답 장치의 동작 절차를 도시한 흐름도이다.3 is a flowchart illustrating an operation procedure of a narrative query response device according to an embodiment of the present invention.

도 3을 참조하면, 300단계에서 서술형 질의 응답 장치(100)는 입력부(110)를 통해 사용자로부터 자연어 질문을 입력 받고, 302단계에서는 질문 분석 엔진부(120)에서 자연어 질문을 분석하여 주요 키워드를 추출하고 질문 유형을 판단하게 된다.Referring to FIG. 3, in operation 300, the narrative question answering apparatus 100 receives a natural language question from a user through the input unit 110, and in step 302, the natural language question is analyzed by the question analysis engine unit 120 to generate a main keyword. Extract and determine the question type.

이에 304단계에서 질문 분석 엔진부(120)는 실마리 단어의 추가 여부를 판단하여 실마리 단어의 추가가 필요한 경우에는 306단계에서 판단된 질문 유형에 해당하는 실마리 단어를 추출 키워드에 추가하게 된다.In step 304, the question analysis engine unit 120 determines whether the clue word is added and adds the clue word to the extraction keyword when the clue word is added in step 306.

그리고 308단계에서 웹 검색 엔진부(130)는 추출 키워드를 토대로 관련 문서를 검색하게 된다. 이때, 실마리 단어가 추가된 경우에는 추출 키워드와 실마리 단어를 토대로 관련 문서를 검색하게 된다. In operation 308, the web search engine unit 130 searches for the relevant document based on the extracted keyword. In this case, when the clue word is added, the related document is searched based on the extracted keyword and the clue word.

검색된 결과는 재순위화 엔진부(140)로 전달되며, 310단계에서 재순위화 엔진부(140)는 검색된 문서에서 정답이 포함된 문서가 상위순위에 오도록 재순위화를 수행하게 된다. 예를 들어, 하이퍼 링크로 연결 가능한 각각의 웹페이지에서 검색된 문서 및 검색된 문서의 요약본인 스니펫을 재순위화하는 것이다.The retrieved result is transmitted to the reranking engine unit 140, and in step 310, the reranking engine unit 140 performs reranking so that the document including the correct answer in the searched document is in a higher rank. For example, re-ranking a snippet that is a searched document and a summary of the searched document on each hyperlinkable web page.

이후, 312단계에서 정답 추출 여부의 수행 여부를 판단하여 사용자의 선택 혹은 서술형 질의 응답 장치 내에 기 설정된 상태가 "재순위화된 결과를 바로 출력"으로 설정된 경우에는 314단계로 진행하여 재순위화된 결과를 사용자에게 바로 제공하게 된다. Thereafter, in step 312, it is determined whether to extract the correct answer. The result is immediately available to the user.

다만, 312단계에서 사용자의 선택 혹은 서술형 질의 응답 장치 내에 기 설정된 상태가 "재순위화된 결과에서 정답 추출을 통해 출력"으로 설정된 경우에는 재순위화 엔진부(140)에서 재순위화된 결과 정보를 정답 추출부(150)로 전달하게 되며, 정답 추출부(150)에서는 316단계에서 재순위화된 문서에서 정답 문장을 추출하고 주변 정보와 분류하여 사용자에게 제공하게 된다.However, when the preset state in the user's selection or descriptive question and answer device is set to "output through extraction of the correct answer from the reranked result" in step 312, the reranking engine information 140 re-ranks the result information. Is transmitted to the correct answer extractor 150, and the correct answer extractor 150 extracts the correct answer sentence from the reranked document in step 316 and classifies it with the surrounding information to provide the user.

이상 설명한 바와 같이, 본 발명의 실시예에 따른 서술형 질의 응답 방법 및 장치는 자연어 형태의 서술형 질문을 사용자로부터 입력 받아 이에 대해 문장 형태의 정답을 자동으로 추출하는 것으로서, 서술형 사용자의 질의를 분석하고 핵심 키워드와 실마리 키워드를 추가하여 검색하는 방법을 통해 검색 성능을 높이고, 검색된 스니펫에서 정답을 찾고 주변 정보와 정답을 구분하여 제공함으로써 사용자 만족도를 높일 수 있다.As described above, the method and apparatus for descriptive query response according to an embodiment of the present invention receives a descriptive question in a natural language form from a user and automatically extracts a sentence-type correct answer. By adding keywords and clue keywords, the search performance can be improved, and the user satisfaction can be improved by finding the correct answer in the searched snippet and distinguishing the surrounding information from the correct answer.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.While the present invention has been described in connection with what is presently considered to be the most practical and preferred embodiment, it is to be understood that the invention is not limited to the disclosed embodiments, but is capable of various modifications within the scope of the invention. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined by the scope of the appended claims, and equivalents thereof.

100: 서술형 질의 응답 장치 110: 입력부
120: 질문 분석 엔진부 130: 웹 검색 엔진부
140: 재순위화 엔진부 150: 정답 추출부
100: descriptive question and answer device 110: input unit
120: question analysis engine unit 130: web search engine unit
140: reranking engine unit 150: correct answer extraction unit

Claims (1)

서술형 질문을 입력 받아 분석을 통해 질문의 핵심 키워드를 추출하고, 질문의 의도에 따라 질문 유형을 분류한 후, 유형별로 실마리 단어를 추가하는 과정과,
상기 추출된 핵심 키워드 및 실마리 단어를 토대로 링크된 웹사이트 문서 혹은 기 수집된 문서 내에서 관련 문서를 검색하는 과정과,
검색된 문서 중 정답이 포함된 문서가 상위 순위에 오도록 재순위화하는 과정
을 포함하는 서술형 질의 응답 방법.
Take the narrative questions, extract the key keywords of the question through analysis, classify the question types according to the intention of the question, and add clue words for each type,
Searching related documents in a linked website document or a previously collected document based on the extracted key keywords and clue words;
The process of reranking the documents that contain the correct answer among the retrieved documents to rank higher.
Descriptive query response method comprising a.
KR1020110084528A 2011-08-24 2011-08-24 Method and apparatus for descriptive question answering Withdrawn KR20130021944A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110084528A KR20130021944A (en) 2011-08-24 2011-08-24 Method and apparatus for descriptive question answering

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110084528A KR20130021944A (en) 2011-08-24 2011-08-24 Method and apparatus for descriptive question answering

Publications (1)

Publication Number Publication Date
KR20130021944A true KR20130021944A (en) 2013-03-06

Family

ID=48174717

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110084528A Withdrawn KR20130021944A (en) 2011-08-24 2011-08-24 Method and apparatus for descriptive question answering

Country Status (1)

Country Link
KR (1) KR20130021944A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140128346A (en) * 2012-02-23 2014-11-05 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코 Non-factoid question answering system and computer program
KR20160026892A (en) * 2013-06-27 2016-03-09 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 Non-factoid question-and-answer system and method
KR101667918B1 (en) * 2015-08-19 2016-10-21 네이버 주식회사 Methodand device of providing query-adaptive smart search service
CN110020009A (en) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 Online answering method, apparatus and system
US10460125B2 (en) 2015-08-27 2019-10-29 Samsung Electronics Co., Ltd. Apparatus and method for automatic query processing
KR20220052581A (en) * 2020-10-21 2022-04-28 네이버 주식회사 Method and system for providing search results incorporating the intent of search query
CN115757726A (en) * 2022-11-16 2023-03-07 四川启睿克科技有限公司 Cold start method and device of intelligent question-answering system for specific field
WO2023063610A1 (en) * 2021-10-13 2023-04-20 주식회사 스켈터랩스 Review analysis system and method using machine reading comprehension
KR102746782B1 (en) * 2023-12-28 2024-12-26 주식회사 피씨엔 How To Provide Information

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140128346A (en) * 2012-02-23 2014-11-05 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코 Non-factoid question answering system and computer program
KR20160026892A (en) * 2013-06-27 2016-03-09 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 Non-factoid question-and-answer system and method
KR101667918B1 (en) * 2015-08-19 2016-10-21 네이버 주식회사 Methodand device of providing query-adaptive smart search service
US10460125B2 (en) 2015-08-27 2019-10-29 Samsung Electronics Co., Ltd. Apparatus and method for automatic query processing
CN110020009A (en) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 Online answering method, apparatus and system
CN110020009B (en) * 2017-09-29 2023-03-21 阿里巴巴集团控股有限公司 Online question and answer method, device and system
KR20220052581A (en) * 2020-10-21 2022-04-28 네이버 주식회사 Method and system for providing search results incorporating the intent of search query
WO2023063610A1 (en) * 2021-10-13 2023-04-20 주식회사 스켈터랩스 Review analysis system and method using machine reading comprehension
CN115757726A (en) * 2022-11-16 2023-03-07 四川启睿克科技有限公司 Cold start method and device of intelligent question-answering system for specific field
KR102746782B1 (en) * 2023-12-28 2024-12-26 주식회사 피씨엔 How To Provide Information

Similar Documents

Publication Publication Date Title
US9218414B2 (en) System, method, and user interface for a search engine based on multi-document summarization
KR20130021944A (en) Method and apparatus for descriptive question answering
JP6414956B2 (en) Question generating device and computer program
JP6095621B2 (en) Mechanism, method, computer program, and apparatus for identifying and displaying relationships between answer candidates
US9740769B2 (en) Interpreting and distinguishing lack of an answer in a question answering system
CN109543102A (en) Information recommendation method, device and storage medium based on video playing
US8285697B1 (en) Feedback enhanced attribute extraction
CN109977291B (en) Retrieval method, device, device and storage medium based on physical knowledge graph
US20120323905A1 (en) Ranking data utilizing attributes associated with semantic sub-keys
KR102256007B1 (en) System and method for searching documents and providing an answer to a natural language question
CN106126589B (en) resume searching method and device
CN102314452A (en) Method for navigation through input method platform and system
US20120317141A1 (en) System and method for ordering of semantic sub-keys
US9875298B2 (en) Automatic generation of a search query
JP4057962B2 (en) Question answering apparatus, question answering method and program
US8117205B2 (en) Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric
JP2017182646A (en) Information processing apparatus, program, and information processing method
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query
JP2009533767A (en) System and method for performing a search within a vertical domain
US20120023119A1 (en) Data searching system
JP4037250B2 (en) Question answering apparatus, question answering program, and recording medium recording the program
US20160004697A1 (en) Bilingual Search Engine for Mobile Devices
KR20110045927A (en) Electronic Book Content Search Service System and Electronic Book Content Search Service Method
JP2010086210A (en) Retrieval method, program, and server for preferentially displaying page corresponding to amount of information
CN109284364B (en) Interactive vocabulary updating method and device for voice microphone-connecting interaction

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20110824

PG1501 Laying open of application
PC1203 Withdrawal of no request for examination
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid