KR20130134901A - Method for predicting biological activity of unknown natural compounds using non-linear quantitative pattern-activity relationships model - Google Patents
Method for predicting biological activity of unknown natural compounds using non-linear quantitative pattern-activity relationships model Download PDFInfo
- Publication number
- KR20130134901A KR20130134901A KR1020120058772A KR20120058772A KR20130134901A KR 20130134901 A KR20130134901 A KR 20130134901A KR 1020120058772 A KR1020120058772 A KR 1020120058772A KR 20120058772 A KR20120058772 A KR 20120058772A KR 20130134901 A KR20130134901 A KR 20130134901A
- Authority
- KR
- South Korea
- Prior art keywords
- biological activity
- sample
- algorithm
- chemical
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
본 발명은 천연물 미지 시료의 비선형적 생물학적 활성 예측 모델을 제작하는 방법 및 천연물 미지 시료의 생물학적 활성을 예측하는 방법에 관한 것이다. 일 구체예에 따른 천연물 미지 시료의 생물학적 활성 예측 모델 및 이를 이용한 천연물 미지 시료의 생물학적 활성을 예측하는 방법에 따르면, 천연물 미지 시료의 생물학적 활성을 효과적으로 평가할 수 있다.The present invention relates to a method for preparing a nonlinear biological activity prediction model of a natural unknown sample and a method for predicting the biological activity of a natural unknown sample. According to the biological activity prediction model of the natural product unknown sample and the method for predicting the biological activity of the natural product unknown sample according to an embodiment, it is possible to effectively evaluate the biological activity of the natural product unknown sample.
Description
본 발명은 천연물 미지 시료의 비선형적 생물학적 활성 예측 모델을 제작하는 방법 및 천연물 미지 시료의 생물학적 활성을 예측하는 방법에 관한 것이다.The present invention relates to a method for preparing a nonlinear biological activity prediction model of a natural unknown sample and a method for predicting the biological activity of a natural unknown sample.
생약을 기원으로 하는 약물은 고대부터 전세계, 특히 한중일의 동양 3국에서 오랫동안 사용되어왔다. 이는 현재에도 다르지 않아, 국내의 경우 한의학적 처방의 형태로 생약 및 그 추출물이 치료 및 예방 약물로서 사용되며, 일정한 공정을 통해 가공된 천연물의약품이나 건강기능식품, 기능성 화장품 등의 원료로서 생약 및 추출물이 널리 사용되고 있다.Drugs of herbal origin have long been used all over the world, especially in the three Asian countries of Japan, China and Japan. This is no different from now, in Korea, herbal medicines and extracts are used as therapeutic and prophylactic drugs in the form of herbal medicine, and herbal medicines and extracts are used as raw materials for natural medicines, health functional foods, and functional cosmetics processed through a certain process. It is widely used.
하지만 이런 광범위한 용도에 비해 이러한 제품들의 원료가 되는 원생약의 품질 관리는 그 방법과 기준에 있어 수준이 매우 부족한 실정이다. 현재 생약과 생약 추출물, 생약제제의 품질 관리는 한 가지 내지 두 가지 정도의 지표성분의 함량 범위를 규정하는 방식으로 이뤄지고 있는 실정이다. 하지만 지표성분의 선정은 생약 내의 고유하거나 다량 존재하는 성분으로서 생약 내 유효성분과는 상이한 경우가 많아 이러한 품질 관리 기준은 의약품 원료로서의 생약에 대한 품질 관리 방법으로는 적절치 않다. 설사 지표성분이 생약의 약효에 직접적인 영향을 미치는 유효성분이라 하더라도, 수많은 물질들이 상승작용과 길항작용을 약효에 더하는 생약의 특성 상 이러한 품질 관리 방법은 생약의 실질적인 효능을 반영하지는 못한다고 볼 수 있다.However, the quality control of the crude drugs that are the raw materials for these products, compared to such a wide range of uses, is very poor in its methods and standards. Currently, quality control of herbal medicines, herbal extracts, and herbal preparations is carried out in a manner to define the content range of one or two indicator components. However, the selection of the index component is a unique or large amount of ingredients present in the herbal medicine, which is different from the active ingredient in the herbal medicine, so this quality control standard is not appropriate as a quality control method for the herbal medicine as a pharmaceutical ingredient. Even if the index component is an active ingredient that directly affects the efficacy of the herbal medicine, the quality control method does not reflect the actual efficacy of the herbal medicine because of the properties of the herbal medicine that adds synergy and antagonism to the drug.
이러한 이유로 생약의 품질 관리 방법을 개선하려는 많은 연구들이 시도되고 있다. 최근 어떠한 생리활성을 갖는 천연물(또는 천연물의약품 및 추출물)이 동등하다고 할 때에는 비교하고자 하는 천연물과 생리활성이 동등하여야 한다는 천연물의약품 동등성(phytoequivalence) 의 개념이 독일에서 주장되었다. 또한, 두 천연물 사이의 화학적 유사도 평가를 통하여 효능 및 안전성을 간접적으로 평가할 수 있으며, 이 때 화학적 유사도는 기존의 지표성분을 통한 비교가 아닌 화학적 핑거프린트(chemical fingerprint) 전체의 패턴 분석을 통하여 이뤄져야 한다는 주장이 제기되고 관련 연구가 활발하게 진행되고 있다.For this reason, many studies have been attempted to improve the quality control method of herbal medicines. Recently, the concept of phytoequivalence has been claimed in Germany that natural substances (or natural drugs and extracts) having certain physiological activities should be equivalent to those of the natural products to be compared. In addition, efficacy and safety can be indirectly assessed by evaluating chemical similarities between two natural products.In this case, chemical similarity should be achieved through pattern analysis of the entire chemical fingerprint rather than comparison with existing indicator components. Claims have been made and relevant research is being actively conducted.
기존의 QPAR(Quantitative Pattern-Activity Relationships) 관련 연구들은 생물학적 프로파일로서 직접적인 항산화 능력을 측정하였으며, 단순한 화학적 결합에 의해 나타나는 항산화 능력의 특성상 PLS 회귀 알고리즘을 이용한 선형 회귀 분석을 통한 예측 모델이 주를 이루었다. 이에 비해 본 발명은 세포 단계에서의 생물학적 활성의 예측을 수행하였으며, 이를 위해 랜덤 포레스트(random forest) 알고리즘을 이용한 비선형적인 회귀 및 예측을 최초로 성공적으로 수행하였다는데 그 의의를 둘 수 있다.Previous studies on Quantitative Pattern-Activity Relationships (QPARs) measured direct antioxidant capacity as a biological profile, and the predictive model through linear regression analysis using the PLS regression algorithm mainly focused on the antioxidant capacity of simple chemical binding. In contrast, the present invention performed the prediction of biological activity at the cellular level, and for this purpose, it can be meaningful that the first successful nonlinear regression and prediction using a random forest algorithm was performed.
본 발명은 천연물 미지 시료의 비선형적 생물학적 활성 예측 모델을 제작하는 방법 및 천연물 미지 시료의 생물학적 활성을 예측하는 방법을 제공하는 것이다.The present invention provides a method for preparing a nonlinear biological activity prediction model of a natural unknown sample and a method for predicting the biological activity of a natural unknown sample.
일 양상은 공지의 생물학적 활성을 갖는 시료로부터 화학적 핑거프린트(chemical finger print)를 수득하는 단계;One aspect includes obtaining a chemical finger print from a sample having known biological activity;
상기 시료의 생물학적 활성을 측정하여 수치화하는 단계; 및Measuring and quantifying the biological activity of the sample; And
상기 화학적 핑거프린트 및 상기 수치화된 생물학적 활성값을 비선형적 회귀분석 및 데이터 마이닝 기법을 이용하여 결과를 얻는 단계를 포함하는 미지 시료의 생물학적 활성 예측 모델을 제작하는 방법을 제공한다.It provides a method for producing a biological activity prediction model of an unknown sample comprising the step of obtaining the results of the chemical fingerprint and the numerical value of the biological activity using nonlinear regression and data mining techniques.
본 발명자들은 공지된 천연물의 화학적 핑거프린트와 그의 생리 활성 데이터의 연관성을 선형적인 부분최소자승회귀법(Partial least square regression) 을 사용하여 천연물의 화학적 핑거프린트로부터 항산화 능력과 같은 단순한 생리 활성을 예측하는 기존에 보고된 기법 대신에 최적 상관관계 이동 알고리즘 및 랜덤 포레스트 회귀 알고리즘을 이용하는 비선형적인 데이터 처리 단계를 도입하여 천연물의 생리 활성을 세포나 동물 실험 단계와 같이 보다 복잡한 단계에서도 정확하게 예측하는 방법을 연구함으로써 본 발명을 완성하였다.The present inventors have used a linear partial least square regression to correlate the known chemical fingerprints of natural products with their physiological activity data to predict simple physiological activities such as antioxidant capacity from natural chemical fingerprints. By introducing nonlinear data processing steps using optimal correlation shifting algorithms and random forest regression algorithms instead of the techniques reported in the previous work, we studied how to accurately predict the physiological activity of natural products even at more complex stages such as cell or animal experiments. The invention was completed.
상기 미지 시료의 생물학적 활성 예측 모델을 제작하는 방법을 각각의 단계별로 상세하게 설명하면 다음과 같다:The method for producing a biological activity prediction model of the unknown sample will be described in detail for each step as follows:
상기 방법은, 먼저, 공지의 생물학적 활성을 갖는 시료로부터 화학적 핑거프린트를 수득하는 단계를 포함할 수 있다.The method may first comprise obtaining a chemical fingerprint from a sample having known biological activity.
일 구체예에 따르면, 상기 시료는 예를 들어, 생약, 한약, 완제 의약품 및 이들의 추출물 또는 분획물로 이루어진 군으로부터 선택될 수 있으나, 이에 한정하지는 않는다.According to one embodiment, the sample may be selected from, for example, herbal, herbal, finished medicines and extracts or fractions thereof, but is not limited thereto.
상기 단계에서는, 기준 지표를 설정하기 위해, 표준 시료들을 준비하는 것이 바람직하며, 이때, 표준 시료들은 서로 다른 화학적 조성을 가진 동일 제품(즉, 동일 기원 식물로서 재배지나 재배자 등의 차이가 있는 생약, 생약 추출물, 또는 서로 다른 로트(lot)의 동일한 완제의약품)으로서 일정 수 이상을 확보하는 것이 바람직하다.In this step, it is preferable to prepare standard samples in order to set reference indicators, wherein the standard samples are of the same product having different chemical compositions (ie, herbal medicines and herbal medicines having the same plant or plant as the same plant of different origin). It is preferable to secure a certain number or more as an extract or the same drug product of different lots).
또한, 상기 추출물은 다양한 추출 용매, 예를 들어, 물, 탄소수 1-4의 무수 또는 함수 저급 알코올 (메탄올, 에탄올, 프로판올, 부탄올 등), 상기 저급 알코올과 물과의 혼합용매, 아세톤, 에틸 아세테이트, 클로로포름 또는 1,3-부틸렌글리콜을 추출 용매로 하여 얻을 수 있다. 또한, 본 발명의 추출물은 상술한 추출 용매에 의한 추출물뿐만 아니라, 통상적인 정제 과정을 거치거나, 상기 추출물을 용매의 농도 등에 따라 분획하여 수득한 분획물도 포함할 수 있다. 예를 들어, 일정한 분자량 컷-오프 값을 갖는 한외여과막을 이용한 분리, 다양한 크로마토그래피 (크기, 전하, 소수성 또는 친화성에 따른 분리를 위해 제작된 것)에 의한 분리 등, 추가적으로 실시된 다양한 정제 방법을 통해 얻어진 분획도 본 발명의 추출물에 포함될 수 있다.In addition, the extract is a variety of extraction solvents, for example, water, anhydrous or hydrous lower alcohol having 1 to 4 carbon atoms (methanol, ethanol, propanol, butanol, etc.), the mixed solvent of the lower alcohol and water, acetone, ethyl acetate , Chloroform or 1,3-butylene glycol can be obtained as an extraction solvent. In addition, the extract of the present invention may include not only the extract by the aforementioned extraction solvent, but also a fraction obtained by performing a conventional purification process or fractionating the extract according to the concentration of the solvent. For example, various purification methods additionally performed, such as separation using an ultrafiltration membrane having a constant molecular weight cut-off value, separation by various chromatography (manufactured for separation according to size, charge, hydrophobicity or affinity), etc. Fractions obtained through may also be included in the extract of the present invention.
한편, 본 명세서에서 용어, "화학적 핑거프린트(chemical fingerprint)"는 시료들의 화학적 조성에 대한 정보를 제공할 수 있는 특이적인 화학적 분석 결과 패턴을 의미하는 것으로 해석된다. 일 구체예에 따르면, 상기 화학적 핑거프린트는 액체 크로마토그래피(liquid chromatography)로부터 수득한 크로마토그램인 것일 수 있으며, 가장 바람직하게는 고성능 액체크로마토그래피(high performance liquid chromatography, HPLC)로부터 수득한 크로마토그램일 수 있다. 이때, 시료의 화학 성분의 특성에 따라 디텍터(detector)를 UV 또는 ELSD, MS, NMR, NIR 등으로 다양하게 변용할 수 있으며, 시료 내 성분의 특성을 최대한 반영할 수 있는 분석 조건을 확립하여, 추후 화학적 핑거프린팅의 기준으로서 결정할 수 있다. On the other hand, the term "chemical fingerprint" is used herein to mean a specific chemical analysis pattern that can provide information about the chemical composition of the samples. According to one embodiment, the chemical fingerprint may be a chromatogram obtained from liquid chromatography, most preferably chromatogram obtained from high performance liquid chromatography (HPLC). Can be. In this case, the detector may be variously changed to UV or ELSD, MS, NMR, NIR, etc. according to the characteristics of the chemical component of the sample, and the analysis conditions are established to reflect the characteristics of the component in the sample to the maximum. It can later be determined as a criterion for chemical fingerprinting.
일 구체예에 따르면, 상기 방법은 상기 수득하는 단계 이후, 상기 수득한 화학적 핑거프린트를 정렬시키는 단계를 더 포함할 수 있으며, 예를 들어, 상기 수득한 화학적 핑거프린트를 최적 상관관계 이동(correlation optimized warping) 알고리즘을 이용하여 정렬시킬 수 있다.According to one embodiment, the method may further comprise the step of aligning the obtained chemical fingerprint after the obtaining step, for example, the correlation optimization (correlation optimized) of the obtained chemical fingerprint can be sorted using a warping algorithm.
상기 화학적 핑거프린팅이 HPLC로부터 수득한 크로마토그램인 경우, 상기 크로마토그램의 분석 중에 발생하는 체류 시간(retention time)의 오차를 해결하고, 동일 시간 선상에 배열하기 위해서, 피크 정렬(peak alignment)을 수행할 수 있다. 일 구체예에 따르면, 상기 피크 정렬은 편향(bias)없는 패턴의 정렬을 위하여, 최적 상관관계 이동 알고리즘을 이용하여 수행할 수 있다. 최적 상관관계 이동(Correlation Optimized Warping, COW)은 상기 화학적 핑거프린트의 정렬을 위해 사용한 알고리즘으로 1998년 Nielson 등에 의해 개발되었다. 상기 HPLC 크로마토그램의 분석에서는 내외부적 다양한 요인들에 의하여 같은 시료 내에서도 약간의 체류 시간의 변화가 일어날 수 있으므로, HPLC 크로마토그램의 패턴 분석을 위해서는 이러한 체류 시간의 변화를 교정하여 각 시료 간 피크들의 위치를 동일하게 정렬해줄 필요가 있다.In the case where the chemical fingerprinting is a chromatogram obtained from HPLC, in order to solve the error of the retention time occurring during the analysis of the chromatogram and to arrange the same time line, a peak alignment is performed. can do. According to one embodiment, the peak alignment may be performed using an optimal correlation shift algorithm for alignment of patterns without bias. Correlation Optimized Warping (COW) was developed by Nielson et al. In 1998 as an algorithm used to align the chemical fingerprint. In the analysis of the HPLC chromatogram, a slight change in the retention time may occur even in the same sample due to various factors, internal and external, and for the pattern analysis of the HPLC chromatogram, the change of the retention time is corrected to position the peaks between the samples. You need to align them equally.
일 구체예에 따르면, 상기 최적 상관관계 이동 알고리즘은 입력 파라미터로서 세그먼트 길이(segment length) 및 슬랙 크기(slack size)를 갖는 것일 수 있다. 최적 상관관계 이동 알고리즘은 시료 크로마토그램을 몇 개의 구간으로 나눈 후 각 구간을 시간축을 따라 평행이동시켜 정렬 대상 크로마토그램과의 유사도가 최대가 되는 경우를 구한다. 최적 상관관계 이동 알고리즘의 입력 변수는 총 3 가지인데, 최적 상관관계 이동 정렬 시 기준이 되는 타겟 크로마토그램이며, 각 구간의 길이인 세그먼트 길이(segment length)와 최대 와핑(warping) 허용거리인 슬랙 크기(slack size)이다. 예를 들어, 정렬을 수행하고자 하는 크로마토그램이 12000개의 데이터 포인트로 구성되어 있다면, 세그먼트 길이를 100으로, 슬랙 크기를 30으로 지정할 수 있으며, 이때, 12000개의 데이터 포인트는 100 데이터의 길이를 갖는 120개의 구간으로 잘려지며, 각 구간은 좌우로 0~30 데이터 포인트만큼의 이동을 행하는 경우들에 대하여 타겟 크로마토그램과의 상관 계수(correlation coefficient)를 계산하여 이를 최대화하는 경우로서 최적화될 수 있다. 각 구간들의 최적화된 와핑(warping)을 구한 후 중간의 빈 구간들을 메움으로써 크로마토그램의 정렬이 완성될 수 있다. 일반적으로, (i) 원래의 크로마토그램에 비하여 지나치게 이동하여 피크가 엇갈린 경우, 슬랙 크기를 줄이고, (ii) 인접한 피크들의 거리가 벌어져야 할 필요가 보일 경우, 세그먼트 길이를 축소하며, (iii) 정렬 전의 피크가 많이 어긋나 정렬 후에도 일치되지 않을 시 세그먼트 길이를 증가시키면서 글랙 크기를 증가시킬 수 있다. 본 단계 수행시 사용할 수 있는 Matlab code의 예시는 다음과 같다.According to one embodiment, the optimal correlation shift algorithm may have a segment length and a slack size as input parameters. The optimal correlation shift algorithm divides the sample chromatogram into several sections and then calculates a case where the similarity with the chromatogram to be aligned is maximized by shifting each section along the time axis. There are three input variables of the optimal correlation shift algorithm, which are the target chromatograms for the optimal correlation shift sorting, and the segment length, which is the length of each interval, and the slack size, which is the maximum warping distance. (slack size). For example, if the chromatogram to be sorted consists of 12000 data points, you can specify a segment length of 100 and a slack size of 30, where 12000 data points are 120 with a length of 100 data. Each section may be optimized as a case in which a correlation coefficient with a target chromatogram is maximized for cases in which 0 to 30 data points are shifted from side to side. After obtaining the optimized warping of each interval, the chromatogram alignment can be completed by filling the intermediate empty intervals. In general, (i) if the peaks are shifted over the original chromatogram and staggered, the slack size is reduced; If the peaks before the alignment are misaligned or misaligned after the alignment, the crack size can be increased while increasing the segment length. An example of Matlab code that can be used when performing this step is as follows.
<Matlab code><Matlab code>
# HPLC data를 import한다. 이 때 raw data는 txt 혹은 xlsx (엑셀) 파일의 형태를 상정한다.# Import HPLC data. The raw data assumes the form of a txt or xlsx (excel) file.
for k = 1:n #(n : 샘플의 개수)for k = 1: n # (n: number of samples)
chr{p} = road([ch- num2str(p) .txt]) #ch1-.txt 식 제목의 text 파일의 경우chr {p} = road ([ch- num2str (p) .txt]) For text files with the title of # ch1-.txt expression
or or
chr{p} = xlsread([ch- num2str(p) .xlsx]) #chr-1.xlsx 식 제목의 엑셀 파일의 경우chr {p} = xlsread ([ch-num2str (p) .xlsx]) For an Excel file with the expression # chr-1.xlsx
endend
timeline = chr{1}(1,:) #크로마토그램의 시간축 수열을 저장한다timeline = chr {1} (1, :) # Store the timebase sequence of the chromatogram
chromatogram = zeros(n,ndata) (ndata : 크로마토그램의 data point 개수)chromatogram = zeros (n, ndata) (ndata: number of data points in the chromatogram)
for p = 1:nfor p = 1: n
chromatogram(p,:) = chr{p}(2,:) #크로마토그램의 raw data를 행렬에 저장한다.chromatogram (p, :) = chr {p} (2, :) # Store the raw data of the chromatogram in a matrix.
endend
cow = zeros(n, ndata)cow = zeros (n, ndata)
for q = 1:nfor q = 1: n
[warping{p} cow(q,:) diagnos{p}] = cow(chromatogram(1,:) chromatogram(q,:) seg slack)[warping {p} cow (q, :) diagnos {p}] = cow (chromatogram (1, :) chromatogram (q, :) seg slack)
# 1번 크로마토그램을 타겟으로, 입력된 segment length와 slacksize로 COW 시행한다 # Perform COW on
endend
다음으로, 상기 방법은 상기 시료의 생물학적 활성을 측정하여 수치화하는 단계를 포함할 수 있다.Next, the method may comprise measuring and quantifying the biological activity of the sample.
일 구체예에 따르면, 생물학적 활성의 측정은 동물 생존 여부, 특정 질환의 예방 또는 치료 여부, 조직 재생 여부, 세포 생존 여부 또는 효소 활성의 존재 여부를 측정하는 것일 수 있으나, 이에 한정하지는 않는다. 상기 측정 방법 중, 평가의 대상이 되는 생약, 생약추출물 또는 완제 의약품의 활성 정도를 충분하게 평가할 수 있는 실험을 지표로 삼을 수 있으며, 이때, 평가의 대상이 생약, 생약추출물 또는 완제 의약품 중 어떤 것이냐에 따라서 처리되는 시료의 농도가 달라질 수 있다. 원생약 또는 추출물을 평가할 경우, 원칙적으로 동일한 농도의 추출물을 처리하는 것이 타당하며, 의약품의 로트(lot)별 평가를 할 경우, 실질적으로 사용되는 의약품의 분량(dose)을 기준으로(예를 들어, 정제의 형태일 경우 각 로트에서 1정 씩을 임의로 선택하여 사용함) 처리되는 시료의 농도를 결정할 수 있다. 또한, 제조된 활성 평가 시료를 이용하여 어세이를 수행하여 각 시료들의 활성을 수치화할 수 있다. 이때, 얻어지는 활성은 통계적으로 정확성과 정밀성을 충분히 확보할 필요가 있다.According to one embodiment, the measurement of biological activity may be to determine whether the survival of the animal, the prevention or treatment of a specific disease, whether tissue regeneration, whether the cell survival or the presence of enzyme activity, but is not limited thereto. Among the measurement methods, an experiment capable of sufficiently evaluating the activity of the herbal medicines, herbal extracts or finished drugs to be evaluated may be used as an index, wherein the evaluation target is any of the herbal medicines, herbal extracts or finished drugs. The concentration of the sample to be treated may vary. When evaluating a crude drug or extract, in principle, it is appropriate to treat extracts of the same concentration, and when performing lot-by-lot evaluation of a drug, based on the dose of the drug actually used (e.g. In the case of tablets, one tablet may be randomly selected from each lot) to determine the concentration of the sample to be treated. In addition, an assay may be performed using the prepared activity evaluation sample to quantify the activity of each sample. At this time, the obtained activity needs to sufficiently secure accuracy and precision statistically.
마지막으로, 상기 방법은 상기 화학적 핑거프린트 및 상기 수치화된 생물학적 활성값을 비선형적 회귀분석 및 데이터 마이닝 기법을 이용하여 결과를 얻는 단계를 포함할 수 있다.Finally, the method may include obtaining the chemical fingerprint and the quantified biological activity value using nonlinear regression and data mining techniques.
일 구체예에 따르면, 상기 비선형적 회귀분석 및 데이터 마이닝 기법은 랜덤 포레스트 회귀(random forest regression) 알고리즘, 인공 신경망(artificial neural network) 알고리즘, 서포트 벡터 머신(support vector machine) 알고리즘 또는 유전 알고리즘(genetic algorithm), 또는 상기 알고리즘의 변형된 형태의 알고리즘일 수 있으나, 이에 한정하지는 않는다.According to one embodiment, the nonlinear regression and data mining technique comprises a random forest regression algorithm, an artificial neural network algorithm, a support vector machine algorithm or a genetic algorithm. ), Or a modified form of the algorithm, but is not limited thereto.
상기 정렬시키는 단계 및 수치화하는 단계에서, 본 발명의 모델 설계에 사용될 시료들의 정렬된 화학적 핑거프린트와 수치화된 생물학적 활성의 값들을 얻을 수 있다. 이를 이용하여 시료의 화학적 핑거프린트로부터 얻을 수 있는 화학적 조성의 데이터와 생물학적 활성 사이의 관련성을 평가하는 모델을 랜덤 포레스트 회귀 알고리즘을 사용하여 설계할 수 있다. In the aligning and quantifying step, values of aligned chemical fingerprints and quantified biological activities of samples to be used in the model design of the present invention can be obtained. Using this, a model can be designed using the Random Forest Regression Algorithm to evaluate the relationship between the biological activity and the data of chemical composition obtained from the chemical fingerprint of the sample.
랜덤 포레스트 회귀 알고리즘은 2001년 Breiman 등에 의하여 개발된 기계 학습(machine learning: 컴퓨터가 문제를 해결한 후, 문제 해결의 추론 과정을 기억하여 그 경험을 이후의 유사한 문제 해결에 적용하는 데이터 처리 알고리즘) 알고리즘의 한 가지이다. 랜덤 포레스트 회귀 알고리즘은 많은 수의 의사 결정 나무(decision tree)의 앙상블로서 이루어진다. M개의 변수를 갖는 시료 N개에 대하여 랜덤 포레스트는 다음과 같은 알고리즘을 통하여 모델을 형성할 수 있다.The random forest regression algorithm is a machine learning algorithm developed by Breiman et al. In 2001. After a computer solves a problem, it remembers the reasoning process of problem solving and applies the experience to subsequent problem solving. Is one thing. The random forest regression algorithm consists of an ensemble of a large number of decision trees. For N samples having M variables, the random forest may form a model through the following algorithm.
(a) N개의 training data 시료로부터 Z* 개의 시료를 부트스트랩(bootstrapping)한다(중복을 허용하여 무작위 추출).(a) Bootstrapping Z * samples from N training data samples (random sampling allowing duplicates).
(b) 상기 부트스트랩 데이터로부터 트리(tree)의 말단 노드(node)에서 다음의 과정을 반복하여 트리를 형성한다.(b) The following process is repeated at the end node of the tree from the bootstrap data to form a tree.
i) M개의 변수로부터 m개의 변수를 무작위로 추출한다.i) Randomly extract m variables from M variables.
ii) m개의 변수로부터 최적의 variable/split-point를 선정한다.ii) Select the optimal variable / split-point from m variables.
iii) 이 노드로부터 두 개의 딸 노드(daughter node)를 생성한다iii) create two daughter nodes from this node
(c) 이를 B번 반복한다.(c) Repeat this B times.
이렇게 생성된 트리들로부터 결과값을 예측한다. 랜덤 포레스트가 회귀분석에 사용될 경우, 예측의 결과값은 각 트리에서 내놓은 결과값들의 산술평균값으로서 도출된다.The result is predicted from the generated trees. When random forest is used in the regression analysis, the prediction result is derived as the arithmetic mean of the results of each tree.
상기 단계에서, 상기 정렬된 화학적 핑거프린트를 입력값으로, 상기 수치화된 생물학적 활성값을 출력값으로 하는 모델을 제작할 수 있으며, 제작된 모델은 각종 파라미터들의 행렬로서 나타내어질 수 있다. In this step, a model may be manufactured that uses the aligned chemical fingerprint as an input value and the quantified biological activity value as an output value, and the manufactured model may be represented as a matrix of various parameters.
일 구체예에 따르면, 상기 방법은 상기 결과를 얻는 단계 이후, 상기 얻어지는 결과로부터 출력되는 활성값 중에서 기준이 되는 지점을 결정하는 단계를 더 포함할 수 있다. 상기 기준이 되는 지점은 상기 모델에 사용된 생물학적 활성 측정 방법에 따라 달라질 수 있다.
According to one embodiment, the method may further comprise the step of determining the point of reference from the activity value output from the obtained result after the step of obtaining the result. The point of reference may vary depending on the biological activity measurement method used in the model.
다른 양상은 상기 미지 시료의 생물학적 활성 예측 모델을 제작하는 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체를 제공한다.Another aspect provides a computer readable recording medium for recording a computer program for executing a method of producing a biological activity prediction model of an unknown sample.
본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
Embodiments according to the present invention may be implemented in the form of program instructions that may be executed by various computer components, and may be recorded in a computer-readable recording medium. The computer-readable recording medium may include program commands, data files, data structures, and the like, alone or in combination. Program instructions recorded on the computer-readable recording medium may be those specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those generated by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules for performing the processing according to the present invention, and vice versa.
또 다른 양상은 미지의 생물학적 활성을 갖는 시료로부터 화학적 핑거프린트를 수득하는 단계; 및Another aspect includes obtaining a chemical fingerprint from a sample having unknown biological activity; And
상기 수득한 화학적 핑거프린트를 상기 방법에 의해 제작된 미지 시료의 생물학적 활성 예측 모델에 적용하여 상기 시료의 생물학적 활성값을 수득하는 단계를 포함하는 미지 시료의 생물학적 활성을 예측하는 방법을 제공한다.The obtained chemical fingerprint is applied to a biological activity prediction model of an unknown sample produced by the method, thereby obtaining a biological activity value of the sample.
상기 미지 시료의 생물학적 활성을 예측하는 방법을 각각의 단계별로 상세하게 설명하면 다음과 같다:The method for predicting the biological activity of the unknown sample in detail for each step is as follows:
상기 방법은, 먼저, 미지의 생물학적 활성을 갖는 시료로부터 화학적 핑거프린트를 수득하는 단계를 포함할 수 있다.The method may first comprise obtaining a chemical fingerprint from a sample having unknown biological activity.
일 구체예에 따르면, 상기 시료는 생약, 한약, 완제 의약품 및 이들의 추출물 또는 분획물로 이루어진 군으로부터 선택될 수 있으나, 이에 한정하지는 않으며, 상기 화학적 핑거프린트는 액체 크로마토그래피로부터 수득한 크로마토그램, 가장 바람직하게는 고성능 액체크로마토그래피로부터 수득한 크로마토그램일 수 있다. 추출물 및 화학적 핑거프린트에 대해서는 상기 미지 시료의 생물학적 활성을 예측하는 방법에서 설명한 바와 같다.According to one embodiment, the sample may be selected from the group consisting of herbal medicines, herbal medicines, finished medicines and extracts or fractions thereof, but the chemical fingerprints are chromatograms obtained from liquid chromatography, Preferably chromatogram obtained from high performance liquid chromatography. Extracts and chemical fingerprints are as described in the method for predicting the biological activity of the unknown sample.
이후, 상기 방법은 상기 수득한 화학적 핑거프린트를 상기 방법에 의해 제작된 미지 시료의 생물학적 활성 예측 모델에 적용하여 상기 시료의 생물학적 활성값을 수득하는 단계를 포함할 수 있다.Thereafter, the method may include applying the obtained chemical fingerprint to a biological activity prediction model of an unknown sample produced by the method to obtain a biological activity value of the sample.
일 구체예에 따르면, 상기 방법은 상기 수득하는 단계 이후, 상기 수득된 생물학적 활성값으로부터 미지의 생물학적 활성을 갖는 시료의 생물학적 활성을 결정하는 단계를 더 포함할 수 있다.According to one embodiment, the method may further comprise determining, after the obtaining step, a biological activity of a sample having an unknown biological activity from the obtained biological activity value.
상기 수득하는 단계에서 수득한 미지의 시료의 화학적 핑거프린트(예를 들면, HPLC 크로마토그램)를 상기 방법에 따라 제작된 미지 시료의 생물학적 활성 예측 모델에 대입하여 미지의 시료의 생물학적 활성값을 얻어낼 수 있므며, 상기 값이 기준치를 만족시키는지 여부를 통하여 미지의 시료의 생물학적 활성을 평가할 수 있다.Chemical fingerprints (eg HPLC chromatograms) of unknown samples obtained in the obtaining step may be substituted into biological activity prediction models of unknown samples prepared according to the above method to obtain biological activity values of unknown samples. The biological activity of the unknown sample can be assessed through whether the value satisfies the reference value.
일 구체예에 따른 천연물 미지 시료의 생물학적 활성 예측 모델 및 이를 이용한 천연물 미지 시료의 생물학적 활성을 예측하는 방법에 따르면, 천연물 미지 시료의 생물학적 활성을 효과적으로 평가할 수 있다.According to the biological activity prediction model of the natural product unknown sample and the method for predicting the biological activity of the natural product unknown sample according to an embodiment, it is possible to effectively evaluate the biological activity of the natural product unknown sample.
도 1은 40종의 애엽 추출물에 대하여 HPLC-DAD-MS를 이용한 일련의 화학적 핑거프린팅 프로파일을 나타낸다.
도 2a 및 도 2b는 애엽 추출물에 대한 화학적 핑거프린팅의 HPLC-DAD 데이터 세트를 COW 알고리즘을 이용하여 정렬한 결과를 나타낸다(도 2a는 정렬 전, 도 2b는 정렬 후의 결과를 나타낸다.).
도 3은 애엽 시료의 위 보호 기능을 수치적으로 나타내기 위하여 아스피린 처리한 AGS 세포의 생존율을 측정한 결과이다.
도 4는 랜덤 포레스트 모델을 이용하여 애엽의 생리 활성의 실제 실험값 및 예측 결과를 나타낸 그래프이다. FIG. 1 shows a series of chemical fingerprinting profiles using HPLC-DAD-MS for 40 seedling extracts.
Figures 2A and 2B show the results of sorting the HPLC-DAD data set of chemical fingerprinting for the leaf extract using the COW algorithm (Figure 2A shows the results before sorting and Figure 2B shows the results after sorting).
Figure 3 is a result of measuring the survival rate of aspirin-treated AGS cells to numerically represent the gastric protective function of the lobar samples.
Figure 4 is a graph showing the actual experimental values and prediction results of the biological activity of the leaf lobe using a random forest model.
이하 하나 이상의 구체예를 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 하나 이상의 구체예를 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
Hereinafter, one or more embodiments will be described in more detail by way of examples. However, these embodiments are intended to illustrate one or more embodiments, and the scope of the present invention is not limited to these embodiments.
실시예 1: 애엽을 이용한 미지 시료의 생물학적 활성 예측 모델 확립 및 이를 이용한 애엽의 생물학적 활성 예측 방법 Example 1: Establishment of biological activity prediction model of unknown sample using leaflets and method for predicting biological activity of leaflet using same
애엽(Artemisia princeps) 40종(국내산 35종, 중국산 5종)의 생약을 가속 용매 추출 방법(pressurized solvent extraction)을 이용, 각각 95% 에탄올 추출물로서 추출하였다. 이들의 화학적 조성을 HPLC-DAD-MS를 이용하여 일련의 화학적 핑거프린팅 프로파일로서 나타내었다(도 1). 이때, HPLC의 특성상 나타나는 체류 시간 변화(retension time shift)를 교정하여 표준 프로파일에 일치시키기 위해서 Correlation Optimized Warping(COW) 알고리즘을 사용하였으며, COW 알고리즘을 이용하여 HPLC-DAD 데이터 세트를 정렬(alignment)한 결과를 도 2b에 나타내었다. 이후, 각 애엽 시료의 위 보호 기능을 수치적으로 나타내기 위해서, 아스피린으로서 독성을 가한 AGS 세포의 생존율을 측정하여 각 시료들의 생물학적 활성(biological activity) 데이터를 얻었으며(도 3), 상기 두 가지 데이터(화학적 핑거프린트 데이터 및 생물학적 활성 데이터)의 연관성을 랜덤 포레스트 알고리즘을 사용하여 모델링하였다. The herbal extracts of 40 species of Artemisia princeps (35 domestic and 5 Chinese) were extracted as 95% ethanol extracts by using a pressurized solvent extraction method. Their chemical composition is shown as a series of chemical fingerprinting profiles using HPLC-DAD-MS (FIG. 1). At this time, the Correlation Optimized Warping (COW) algorithm was used to correct the retention time shift due to the characteristics of HPLC to match the standard profile, and the HPLC-DAD data set was aligned using the COW algorithm. The results are shown in Figure 2b. Then, in order to numerically represent the gastric protective function of each lobe sample, the survival rate of AGS cells toxic as aspirin was measured to obtain biological activity data of each sample (FIG. 3). The association of the data (chemical fingerprint data and biological activity data) was modeled using a random forest algorithm.
애엽 시료 데이터 40종을 30종의 트레이닝 세트(training set)와 10종의 프레딕션 세트(prediction set)로 나누어, 트레이닝 세트의 데이터로 랜덤 포레스트 모델을 설계한 후, 프레딕션 세트의 HPLC 핑거프린트를 상기 모델에 입력하여 생물학적 활성값(본 실시예에서는 AGS 세포의 세포 생존율(cell viability))을 예측하고, 실제 실험값과 비교하였으며, 그 결과를 도 4에 나타내었다.After dividing 40 types of leaf sample data into 30 training sets and 10 prediction sets, a random forest model was designed from the data of the training set, and then the HPLC fingerprint of the prediction set was extracted. The biological activity values (in this example, cell viability of AGS cells) were predicted by comparison with the actual experimental values, and the results are shown in FIG. 4.
도 4에서 보는 바와 같이, 예측된 값과 실제 활성 값 사이에 충분한 비례 관계가 성립함을 확인할 수 있었으며, 이러한 결과로 볼 때, 화학적 프로파일로부터 생물학적 프로파일을 예측할 수 있음을 확인할 수 있었다.As shown in FIG. 4, it was confirmed that a sufficient proportional relationship was established between the predicted value and the actual activity value. From these results, it was confirmed that the biological profile could be predicted from the chemical profile.
Claims (16)
상기 시료의 생물학적 활성을 측정하여 수치화하는 단계; 및
상기 화학적 핑거프린트 및 상기 수치화된 생물학적 활성값을 비선형적 회귀분석 및 데이터 마이닝 기법을 이용하여 결과를 얻는 단계를 포함하는 미지 시료의 생물학적 활성 예측 모델을 제작하는 방법.Obtaining a chemical finger print from a sample having known biological activity;
Measuring and quantifying the biological activity of the sample; And
Obtaining the chemical fingerprint and the quantified biological activity value using nonlinear regression and data mining techniques to produce a biological activity prediction model of an unknown sample.
상기 수득한 화학적 핑거프린트를 제1항 내지 제10항 중 어느 한 항의 방법에 의해 제작된 모델에 적용하여 상기 시료의 생물학적 활성값을 수득하는 단계를 포함하는 미지 시료의 생물학적 활성을 예측하는 방법.Obtaining a chemical fingerprint from a sample having unknown biological activity; And
A method for predicting the biological activity of an unknown sample, comprising applying the obtained chemical fingerprint to a model produced by the method of any one of claims 1 to 10 to obtain a biological activity value of the sample.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020120058772A KR20130134901A (en) | 2012-05-31 | 2012-05-31 | Method for predicting biological activity of unknown natural compounds using non-linear quantitative pattern-activity relationships model |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020120058772A KR20130134901A (en) | 2012-05-31 | 2012-05-31 | Method for predicting biological activity of unknown natural compounds using non-linear quantitative pattern-activity relationships model |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20130134901A true KR20130134901A (en) | 2013-12-10 |
Family
ID=49982453
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020120058772A Ceased KR20130134901A (en) | 2012-05-31 | 2012-05-31 | Method for predicting biological activity of unknown natural compounds using non-linear quantitative pattern-activity relationships model |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20130134901A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106324053A (en) * | 2016-11-08 | 2017-01-11 | 邯郸学院 | Nonlinear finger-print detection method for traditional Chinese medicine fructus forsythiae |
| US11635414B2 (en) | 2015-02-13 | 2023-04-25 | The University Of Liverpool | Method and apparatus for creating a classifier indicative of a presence of a medical condition |
-
2012
- 2012-05-31 KR KR1020120058772A patent/KR20130134901A/en not_active Ceased
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11635414B2 (en) | 2015-02-13 | 2023-04-25 | The University Of Liverpool | Method and apparatus for creating a classifier indicative of a presence of a medical condition |
| CN106324053A (en) * | 2016-11-08 | 2017-01-11 | 邯郸学院 | Nonlinear finger-print detection method for traditional Chinese medicine fructus forsythiae |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Sweeney et al. | Root traits explain rhizosphere fungal community composition among temperate grassland plant species | |
| Martínez‐Sancho et al. | Drought impacts on tree carbon sequestration and water use–evidence from intra‐annual tree‐ring characteristics | |
| Lucio-Gutiérrez et al. | Enhanced chromatographic fingerprinting of herb materials by multi-wavelength selection and chemometrics | |
| Shimamoto et al. | How much carbon is sequestered during the restoration of tropical forests? Estimates from tree species in the Brazilian Atlantic forest | |
| Liu et al. | Chemometrics applied to quality control and metabolomics for traditional Chinese medicines | |
| Wang et al. | Causes for the unimodal pattern of biomass and productivity in alpine grasslands along a large altitudinal gradient in semi‐arid regions | |
| Hiiesalu et al. | Plant species richness belowground: higher richness and new patterns revealed by next‐generation sequencing | |
| Duarte et al. | Assessing spatial and environmental drivers of phylogenetic structure in Brazilian Araucaria forests | |
| Wu et al. | The relationship between species richness and biomass changes from boreal to subtropical forests in China | |
| Gross et al. | Functional equivalence, competitive hierarchy and facilitation determine species coexistence in highly invaded grasslands | |
| Gogniat et al. | Exercise interventions do not impact brain volume change in older adults: a systematic review and meta-analysis | |
| Ahmed et al. | Antioxidant activities of Pistacia atlantica extracts modeled as a function of chromatographic fingerprints in order to identify antioxidant markers | |
| Montesinos‐Navarro et al. | Nurse plants transfer more nitrogen to distantly related species | |
| Mani et al. | Reversal of memory deficits by Coriandrum sativum leaves in mice | |
| Mostafaei Dehnavi et al. | THC and CBD fingerprinting of an elite cannabis collection from Iran: quantifying diversity to underpin future cannabis breeding | |
| Funari et al. | Green chromatographic fingerprinting: A n environmentally friendly approach for the development of separation methods for fingerprinting complex matrices | |
| Rathgeber et al. | Phenology of wood formation: data processing, analysis and visualisation using R (package CAVIAR) | |
| Kadereit et al. | When do different C4 leaf anatomies indicate independent C4 origins? Parallel evolution of C4 leaf types in Camphorosmeae (Chenopodiaceae) | |
| Satdichanh et al. | Using plant functional traits and phylogenies to understand patterns of plant community assembly in a seasonal tropical forest in Lao PDR | |
| Ma et al. | Chemical fingerprint analysis for discovering markers and identifying Saussurea involucrata by HPLC coupled with OPLS‐DA | |
| Trappmann et al. | Visual dating of rockfall scars in Larix decidua trees | |
| Khansaritoreh et al. | Hydraulic traits and tree-ring width in Larix sibirica Ledeb. as affected by summer drought and forest fragmentation in the Mongolian forest steppe | |
| Volf et al. | Contrasting levels of β‐diversity and underlying phylogenetic trends indicate different paths to chemical diversity in highland and lowland willow species | |
| Rimkiene et al. | Variation in flavonoid composition and radical‐scavenging activity in Ginkgo biloba L. due to the growth location and time of harvest | |
| Tistaert et al. | Multivariate data analysis to evaluate the fingerprint peaks responsible for the cytotoxic activity of Mallotus species |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20120531 |
|
| PA0201 | Request for examination | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20130809 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E601 | Decision to refuse application | ||
| PE0601 | Decision on rejection of patent |
Patent event date: 20140624 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20130809 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |