[go: up one dir, main page]

WO2022139465A1 - 인공지능 라만 분석 기법을 이용한 췌장암 조기진단 방법 - Google Patents

인공지능 라만 분석 기법을 이용한 췌장암 조기진단 방법 Download PDF

Info

Publication number
WO2022139465A1
WO2022139465A1 PCT/KR2021/019622 KR2021019622W WO2022139465A1 WO 2022139465 A1 WO2022139465 A1 WO 2022139465A1 KR 2021019622 W KR2021019622 W KR 2021019622W WO 2022139465 A1 WO2022139465 A1 WO 2022139465A1
Authority
WO
WIPO (PCT)
Prior art keywords
pancreatic cancer
information
learning
unit
raman spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2021/019622
Other languages
English (en)
French (fr)
Inventor
남좌민
김송철
이학진
황재호
최용준
김지은
이우형
임경묵
이연희
차승상
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Doai Inc
Original Assignee
Doai Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Doai Inc filed Critical Doai Inc
Publication of WO2022139465A1 publication Critical patent/WO2022139465A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • G01N21/658Raman scattering enhancement Raman, e.g. surface plasmons
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Definitions

  • the present invention relates to a method for early diagnosis of pancreatic cancer using an artificial intelligence Raman analysis technique.
  • Raman scattering is an optical phenomenon generated by the interaction between light and molecular vibrational motion.
  • signal amplification such as surface-enhanced Raman scattering (SERS) using a surface plasmon of a plasmonic nanostructure is essential.
  • the amplified signal contains information about various vibrational movements of molecules, and a specific pattern like a fingerprint appears in the spectrum as Raman shift and intensity. This specific pattern has been proposed to be applied to various fields such as specific molecular detection and quantification, and disease diagnosis through molecular detection.
  • SERS-based Raman spectrum can be used to diagnose diseases of the human body, and in particular, it can be actively used to diagnose pancreatic cancer, which is difficult to diagnose early.
  • pancreatic cancer which is one of the most difficult diseases to diagnose early
  • CT abdominal computed tomography
  • MRI magnetic resonance imaging
  • ERCP endoscopic retrograde cholangiopancreatography
  • EUS endoscopic ultrasound
  • PET proton emission tomography
  • CA19-9 Carbohydrate Antigen 19-9 indicator used for the conventional diagnosis of pancreatic cancer
  • CA19-9 Carbohydrate Antigen 19-9 indicator used for the conventional diagnosis of pancreatic cancer
  • Patent Document 1 Korean Patent Document No. 10-1830314
  • Patent Document 2 Korean Patent Publication No. 10-2021-0100068
  • the present invention has been devised to solve the above problems.
  • the present invention overcomes the limitations of the existing Raman-based molecular detection method through the existing Raman-based molecular detection method that uses limited information by fusion of high-complexity Raman technology by overlapping complex information and artificial intelligence, which is easy to extract information from high-complexity information. aim to do
  • the present invention generates an early diagnosis model of pancreatic cancer through a spectral biomarker obtained through a SERS substrate and a Raman spectrum obtained through a SLISA substrate, and uses this to accurately diagnose whether a patient has pancreatic cancer and other cancers. intended to provide
  • An embodiment of the present invention for solving the above problems is a method of generating a pancreatic cancer diagnostic model, (a) Raman data collected from the patient's blood using a first method preset by the learning data collection unit 100 collecting spectral information; (b) generating, by the training data collection unit 100, training data including the Raman spectrum information; and (c) the model building unit 400 generates a pancreatic cancer diagnosis model using the learning data, wherein the pancreatic cancer diagnosis model learns the learning data and inputs Raman spectrum information collected from the blood of the arbitrary individual.
  • a model for outputting the presence or absence of pancreatic cancer of the arbitrary individual, step provides a method, including.
  • the preset first method collects the blood of a patient located on the nanocube substrate 10 on which the gold nanocube array having the nanogap 11 between the cubes is formed. , it may be a method of acquiring Raman spectrum information through a surface enhanced Raman Spectroscopy (SERS) technique.
  • SERS surface enhanced Raman Spectroscopy
  • the step (a) may further include the step of collecting, by the learning data collection unit 100, biomarker concentration information.
  • the biomarker concentration information is CA19-9 ((Carbohydrate antigen 19-9), CEA (Cacinoembryonic antigen), LRG1 (Leucine-rich alpha-2-glycoprotein 1), CFB (Complement Factor B), It may include concentration information about any one or more of TTL (Tubulin tyrosine ligase) and Thrombosondin-2 (THBS2).
  • step (x) the data preprocessing unit 200 performing preprocessing using Raman spectrum information;
  • the step (x) includes: (x1) removing an outlier from the Raman spectrum information by the data preprocessor 200; and (x2) removing, by the data preprocessor 200, a baseline with respect to the Raman spectrum information from which the outlier has been removed; may include
  • variable selection unit 300 selects a variable from any one or more of the preprocessed learning data, respectively, PCA (Principle components analysis) and deep learning learning Selecting and generating selection training data to include the selected variable in the pre-processed training data; further comprising, in step (c), the model building unit 400 learns the selection training data and , the method may further include generating a pancreatic cancer diagnostic model that outputs whether or not the arbitrary individual has pancreatic cancer, when clinical information of an individual and Raman spectrum information collected from the blood of the arbitrary individual are input .
  • step (z) generating, by the variable selection unit 300, selection learning data to include any one or more of biomarker concentration information and patient clinical information; further comprising; And, in the step (c), the model building unit 400 learns the selection learning data, and the clinical information of an arbitrary individual, the biomarker concentration information of the arbitrary individual, and the blood of the arbitrary individual When inputting the Raman spectrum information collected from It may include any one or more of age, weight, height, and body mass index.
  • the clinical information of the patient further includes a pancreatic cancer progression stage, and after the (x) step, (o) the variable selection unit 300 performs principal component analysis (PCA, PCA, Generating selected learning data to include any one or more of a variable selected from principle components analysis, a variable selected from deep learning learning, the biomarker concentration information, and patient clinical information; further comprising, (c) In step ), the model building unit 400 learns the selection learning data, and collects clinical information of an arbitrary individual, biomarker concentration information of the arbitrary individual, and Raman spectrum collected from the blood of the arbitrary individual.
  • PCA principal component analysis
  • the method further comprises generating a pancreatic cancer diagnostic model outputting whether or not the arbitrary individual has pancreatic cancer, wherein the patient's clinical information is any one of gender, age, weight, height, and body mass index of the patient. It may include more than one.
  • step (d) the step of further learning the pancreatic cancer diagnosis model by the additional learning unit 600; further comprising, wherein the step (d) comprises: (d1) the addition
  • the learning unit 600 generates noise in the original signal of the Raman spectrum information (Jittering), signal scaling (Scaling), signal rotation (Rotation), interval mixing (Permutation), distortion addition (Magnitude warping), linear transformation (Linear transformation) ), generating additional training data using any one or more methods of shifting; may include
  • the step (d) includes: (d2) generating, by the additional learning unit 600, another additional training data by changing the reference line of the Raman spectrum information; and (d3) further learning, by the additional learning unit 600, the pancreatic cancer diagnosis model using the other additional learning data.
  • the model building unit 400 converts the learning data to an artificial neural network (ANN), a support vector machine, a logistic regression ( Logistic regression), gradient boosting (Tree based Gradient boosting), learning using any one or more methods of deep learning learning, generating the pancreatic cancer diagnostic model; may include
  • a method for diagnosing pancreatic cancer using the generated model after step (c), (e) the patient's clinical information and the patient to the diagnostic unit 500 that has received the pancreatic cancer diagnosis model
  • the stage of pancreatic cancer progression is outputted through the output unit.
  • a system for diagnosing pancreatic cancer using a generated model comprising: an input device for receiving clinical information of an arbitrary individual and Raman spectrum information obtained from blood of the arbitrary individual; and a computing device that receives the pancreatic cancer diagnosis model and outputs whether or not the inputted information has pancreatic cancer when the clinical information and Raman spectrum information input from the input device are input to the pancreatic cancer diagnosis model. to provide.
  • a method of collecting Raman spectrum information using a substrate for performing the above method (q) diluting the patient's blood by a predetermined multiple, and diluting the diluted blood to the nanogap (11) being positioned on the nano-cube substrate 10 is formed; And (r) Raman spectroscopy unit generates a Raman signal by surface-enhanced Raman Spectroscopy (SERS) on the nanocube substrate 10, and the SSFA biomarker collection unit 120 collects the Raman spectrum information. collecting; It provides a method comprising:
  • the spectrum itself can be used as a biomarker by including cancer-related information in the spectrum through the overall Raman spectrum pattern identified in blood as well as quantitative information of the biomarker, and the existing liquid biopsy It has the advantage of being able to use material information that could have been missed in the .
  • the present invention can generate an early diagnosis model of pancreatic cancer through the spectral biomarker obtained through the SERS substrate, and use this to accurately diagnose whether a patient has pancreatic cancer and other types of cancer.
  • FIG. 1 is a schematic diagram for explaining a method for generating a pancreatic cancer diagnostic model according to the present invention.
  • Figure 2 shows the spectrum comparison results according to the SERS material and the difference in the Raman spectrum between pancreatic cancer and a normal person.
  • FIG. 3 is a diagram for explaining a method of acquiring a Raman spectrum using SSFA technology.
  • FIG. 5 is a diagram for explaining a method of a data pre-processing unit pre-processing learning data.
  • FIG. 6 is a graph illustrating an original signal of a Raman spectrum and a signal from which a reference line is removed as a result of data preprocessing.
  • FIG. 7 is a view for explaining the accuracy of the pancreatic cancer diagnosis model generated according to the present invention.
  • FIG. 8 is a diagram for explaining that the diagnosis unit according to the present invention outputs the pancreatic cancer progression stage.
  • 9 to 12 are diagrams for explaining that the additional learning unit additionally learns the pancreatic cancer diagnosis model.
  • FIG. 13 is a view for explaining a nanocube substrate.
  • FIG. 14 is a diagram for explaining a process of acquiring a Raman spectrum from a nanocube substrate.
  • 15 is a diagram for explaining a Raman spectrum in the presence and absence of plasma.
  • the present invention is described based on diagnosing pancreatic cancer, but is not limited thereto, and the primary application fields will be hepato-pancreatic biliary surgery and diagnostic laboratory medicine. It can be expanded.
  • an early diagnosis of a pancreatic cancer patient can be easily and quickly confirmed by analyzing a Raman spectrum related to chemical components and components present in the blood of a cancer patient with artificial intelligence.
  • the present invention can perform early diagnosis of pancreatic cancer patients by applying a novel liquid biopsy technology that combines surface enhanced Raman spectroscopy (SERS) technology and artificial intelligence technology.
  • SERS surface enhanced Raman spectroscopy
  • a diagnosis result analyzed by artificial intelligence can be output by collecting plasma from a patient, putting it on a SERS substrate and putting it in a Raman spectrometer.
  • the method according to the present invention includes a learning data collection unit 100 , a data preprocessing unit 200 , a labeling unit 300 , a model building unit 400 , a diagnosis unit 500 , and an additional learning unit 600 . .
  • the learning data collection unit 100 collects data for generating the pancreatic cancer diagnosis model of the present invention, and generates learning data by using it.
  • the learning data collection unit 100 includes an input unit 110 , an SSFA biomarker collection unit 120 , and a biomarker concentration collection unit 130 .
  • Patient clinical information is input to the input unit 110 .
  • Patient clinical information may include any one or more of the patient's gender, age, weight, height, body mass index, and pancreatic cancer progression stage.
  • the present invention is not limited thereto, and may include all information related to a patient's clinical practice, for example, blood pressure.
  • the learning data collection unit 100 collects the patient's clinical information and Raman spectrum information about the patient's blood using a preset first method.
  • biomarker concentration information is further collected.
  • a pancreatic cancer diagnostic model may be generated using any one or more of patient clinical information, Raman spectrum information, and biomarker concentration information.
  • SSFA biomarker collection unit 120 collects Raman spectrum information by surface-enhanced Raman spectroscopy (SERS) of the patient's blood (plasma) on the nano-cube substrate 10.
  • Learning data collection unit 100 may generate a plurality of learning data by repeating the above process.
  • FIG. 3A collecting Raman spectrum information from the nanocube substrate 10 is illustrated
  • FIG. 4 is a diagram illustrating a Raman spectrum obtained from the same sample of the same nanocube substrate 10 .
  • the SSFA biomarker collecting unit 120 may collect a plurality of Raman spectra for the same target by applying Raman spectroscopy to the blood of a patient placed on the same substrate multiple times.
  • the SSFA biomarker collecting unit 120 collects 50 Raman spectra by applying Raman spectroscopy to the blood of a patient placed on the same substrate multiple times.
  • nanocube substrate 10 In the nanocube substrate 10 , a nanogap 11 is formed. A more detailed description of the nanocube substrate 10 will be described later.
  • the spectrum obtained by Raman spectroscopy may be defined as a one-dimensional signal vector having an intensity value of Raman scattering for each wave number within a certain wavelength range.
  • FIG. 2 it shows the spectrum comparison results ( FIGS. 2(a), (b)) and the Raman spectrum difference between pancreatic cancer and normal people ( FIG. 2(c)) according to the substrate design (material/form) to which plasma is injected. do.
  • Fig. 2(a) as a result of comparing spectral changes according to various substrate materials (gold film, nanocube, etc.), it was confirmed that a Raman amplification technique such as the use of a nanocube-plasma mixture is necessary. Glass or gold without such signal amplification In the case of the film, it was confirmed that the Raman signal did not occur.
  • the biomarker concentration collecting unit 130 may check biomarker concentration information for diagnosing pancreatic cancer. This is transmitted to the variable selection unit 300 to be described later, and may be used as one variable for diagnosing pancreatic cancer in the variable selection unit 300 .
  • the method of collecting biomarker concentration information in the biomarker concentration collecting unit 130 is not limited to a specific method.
  • the biomarker concentration information collection unit 130 may collect known biomarker concentration information used for diagnosing pancreatic cancer.
  • the biomarker concentration collection unit 130 may be information collected from the patient's blood using an enzyme-linked immunoassay (ELISA) method, but is not limited to a specific method.
  • ELISA enzyme-linked immunoassay
  • Biomarker concentration information is CA19-9 ((Carbohydrate antigen 19-9), CEA (Cacinoembryonic antigen), LRG1 (Leucine-rich alpha-2-glycoprotein 1), CFB (Complement Factor B), TTL (Tubulin tyrosine ligase), It may include concentration information for any one or more of Thrombosondin-2 (THBS2).
  • the data pre-processing unit 200 receives training data from the training data collection unit 100 and pre-processes the training data.
  • the data preprocessor 200 removes outliers of the Raman spectrum.
  • the data preprocessor 200 removes outliers of the Raman spectrum information.
  • An outlier is a value that is out of the normal range by calculating a normal range for each moving window, and an outlier is an intensity value lower or higher than the normal range.
  • the moving windows may have a length of 100, and an interval between the moving windows is 50, but is not limited thereto.
  • the data preprocessor 200 calculates an average value and a standard deviation value of the signal strength for each moving window in order to calculate the normal range.
  • the normal range was assumed to be the mean value + a * standard deviation from the mean value - a * standard deviation, where a is set to a value of 5, and the normal range can be modified by changing it to a value between 1 and 10.
  • the data preprocessor 200 checks the average value within the range of the moving window excluding outliers for each Raman spectrum as a correction value.
  • the data preprocessor 200 may replace intensity values corresponding to the outliers with the correction values.
  • the diagnostic model according to the present invention is not limited thereto, and an artificial intelligence model capable of ignoring outliers and analyzing spectra can be created without removing outliers from each of a plurality of spectra.
  • the data preprocessor 200 removes a baseline for each spectrum.
  • a baseline may be estimated according to a disadvantage weight-based least squares method.
  • the least squares method assumes that the original spectrum of the Raman spectrum is composed of a baseline, noise, and a filtered spectrum.
  • the baseline refers to a line continuously output regardless of blood when a spectrum for the patient's blood is extracted.
  • the noise refers to various noises generated by the substrate when the spectrum is extracted from the SERS substrate.
  • the filtered spectrum means a spectrum from which a baseline and noise are removed from the original spectrum.
  • the data preprocessor 200 iteratively estimates the noise level in the signal and adjusts the weight accordingly.
  • the data preprocessor 200 gives weight to the original signal only when it is lower than the reference line.
  • the baseline is repeatedly estimated so that the square of the residual between the baseline reflecting these weights and the original signal is minimized.
  • the data preprocessor 200 finally removes the reference line when the residual is the minimum from the original signal.
  • both the original signal and the signal from which the reference line is removed are shown.
  • the original signal is shown as the upper signal, and the signal from which the reference line is removed is shown as the lower signal.
  • a baseline and noise included in the original spectrum may be extracted, and the baseline and noise may be extracted and removed from the original spectrum using a pre-trained artificial intelligence model using the extracted baseline and noise as training data.
  • the variable selection unit 300 receives the data pre-processed by the data pre-processing unit 200 described above.
  • variable selector 300 selects variables from the pre-processed data to generate selective learning data.
  • the variable selection unit 300 transmits selection learning data to the model building unit 400 .
  • the variable selector 300 may select a variable through any one or more of principal component analysis (PCA) and deep learning learning.
  • PCA principal component analysis
  • the corresponding process may be performed in the dimension reduction variable selection unit 320 of the variable selection unit 300 .
  • variable selector 300 may receive biomarker concentration information from the learning data collection unit 100 and use the transferred biomarker concentration information as a variable. Also, the variable selector 300 collects learning data The patient may receive clinical information from the unit 100 and select it as a variable.
  • variable input unit 330 of the variable selection unit 300 may receive the biomarker concentration and patient clinical information from the learning data collection unit 100 .
  • selection learning data may include any one or more of a variable selected from principal component analysis, a variable selected from deep learning learning, the biomarker concentration information, and patient clinical information.
  • the model building unit 400 to be described later may generate a plurality of pancreatic cancer diagnosis models by using the selection learning data.
  • the variable selector 300 may select a variable by performing a principal component analysis (PCA) on the learning data.
  • PCA principal component analysis
  • the principal component w1 of the data set x is defined as follows.
  • x corresponds to Raman spectrum data obtained by analyzing serum with a Raman spectrometer.
  • the kth principal component can be found by subtracting the previous k-1 principal components:
  • principal component analysis is equivalent to finding a singular value decomposition of a data matrix X and then mapping X into a subspace defined by L singular vectors, WL, to find a partial data set Y.
  • the eigenvector with the largest eigenvalue corresponds to the dimension with the strongest correlation in the data set.
  • the variable selector 300 may select the eigenvector as a variable through the above process.
  • the variable selection unit 300 may select a variable by deep learning the learning data. In this case, the corresponding process may be performed in the deep learning variable selection unit 310 of the variable selection unit 300 .
  • Deep learning learning is an artificial neural network composed of numerous hidden layers between input and output.
  • One-dimensional convolutional neural networks (1-D CNNs) are specialized in reflecting local characteristics of one-dimensional data.
  • long-term memory (LSTM) networks a type of recursive neural network (RNN), excel at analyzing continuous data such as speech and character strings.
  • RNN recursive neural network
  • the deep learning model that combines these two models has shown good performance in classification or regression problems of ECG signals and motion detection signals, so it can be used.
  • Deep learning learning used in the present invention may include Deep Neural Network (DNN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Generative Adversarial Network (GAN), Reinforcement Learning (RL), but is limited thereto It is not, and various deep learning learning can be applied.
  • DNN Deep Neural Network
  • CNN Convolutional Neural Network
  • RNN Recurrent Neural Network
  • GAN Generative Adversarial Network
  • RL Reinforcement Learning
  • the model building unit 400 generates a pancreatic cancer diagnosis model by using the learning data.
  • the model building unit 400 may generate a pancreatic cancer diagnosis model using the selection learning data.
  • the model building unit 400 is an artificial neural network (ANN), a support vector machine (Support vector machine), logistic regression (Logistic regression), gradient boosting (Tree based Gradient boosting), any one or more methods of deep learning learning It is possible to create a pancreatic cancer diagnostic model by learning using
  • ANN artificial neural network
  • Support vector machine Small vector machine
  • Logistic regression logistic regression
  • gradient boosting Trae based Gradient boosting
  • the method for the model building unit 400 to learn the learning data is not limited to the above, and of course, various types of machine learning and deep learning learning may be applied.
  • the deep learning learning used in the present invention may include a Deep Neural Network (DNN), a Convolutional Neural Network (CNN), a Recurrent Neural Network (RNN), a Generative Adversarial Network (GAN), and Reinforcement Learning (RL). It is not limited thereto, and various deep learning learning may be applied.
  • DNN Deep Neural Network
  • CNN Convolutional Neural Network
  • RNN Recurrent Neural Network
  • GAN Generative Adversarial Network
  • RL Reinforcement Learning
  • the model building unit 400 generates a pancreatic cancer diagnostic model using the learning data as an artificial neural network model, but the method of generating a pancreatic cancer diagnostic model in the present invention is not limited to a specific method.
  • the artificial neural network mimics the operation of a biological neuron, and has a framework that receives data as input, multiplies the weight by the input, and sends the result of the activation function f to the next neuron.
  • the activation function (Activation Function) is a function that multiplies the weight and the input (Node). When the hidden layer components are obtained, it is expressed as an activation function.
  • the output function is a function that multiplies the weight and the input, and when an output layer result is obtained, it is expressed as an output function.
  • the loss function refers to a function that measures the error between the result of the output function and the predicted (y) value for weight learning.
  • the artificial neural network-based early diagnosis system of the present invention includes an input layer, which is a layer that receives selective learning data, a hidden layer consisting of data obtained by multiplying weights and obtaining the result of an activation function, and weights in the final hidden layer/input layer It is composed of an output layer that multiplies by and generates the result of the output function.
  • the artificial neural network model may be implemented by the operation of the following [Equation 6].
  • model building unit 400 may generate a pancreatic cancer diagnosis model by performing deep learning learning using the selection learning data.
  • model building unit 400 trains two or more deep neural networks and then integrates them to output a final diagnosis result.
  • the collected result values are set as input data of the final merge model, and the diagnostic result corresponding to the previous input spectrum can be set as a target variable.
  • Ensemble learning learns weights for each output of each deep neural network so that the final integrated model produces integrated diagnostic results with high performance.
  • the learned integrated model receives spectral data, collects the diagnosis result values of each of the included deep neural networks according to weights, and outputs the final diagnosis result.
  • two or more results may be derived by using each of two or more deep neural networks, and a result indicated by more than half of the derived results may be collected as a final result (hard voting).
  • two or more results may be derived using two or more deep neural networks, respectively, and an average of two or more derived results may be calculated, and the calculated average may be determined as a final result (soft voting) ),
  • results can be derived using any one of a multi-path one-dimensional convolutional neural network, a two-dimensional convolutional neural network, and a model combining a convolutional neural network and a recurrent neural network, but in some cases, two or more neural network models are combined results can be derived.
  • the control unit determines the performance of each neural network, and when the performance of each neural network is less than or equal to the standard, the control unit may derive a result using an ensemble model using two or more neural networks among a plurality of neural networks, When the performance is above the standard, a result may be derived by using any one of a plurality of neural networks.
  • the diagnosis unit 500 receives the pancreatic cancer diagnosis model and inputs at least one of clinical information of the patient and Raman spectrum information of the patient to the diagnosis unit 500 , the presence or absence of pancreatic cancer may be output through the output unit.
  • pancreatic cancer diagnosis model may also learn the pancreatic cancer progression stage among the patient's clinical information and output the pancreatic cancer progression stage.
  • Figure 8 shows the results of Raman spectrum measurement (pancreatic ductal adenocarcinoma 40 patients, cholelithiasis 40 patients) of a total of 80 samples, 9 patients in stage 1, 10 patients in stage 2, 21 patients in late stage 2, surgery delivered at Asan Hospital The overall CA19-9 and CEA levels were compared with the pancreatic cancer diagnostic performance.
  • AUROC 0.969
  • Accuracy 0.900
  • Sensitivity 0.825
  • Specificity It is shown as 0.975.
  • ANN artificial neural
  • AUROC is 0.944
  • Accuracy is 0.938
  • Sensitivity is 0.900
  • Specificity is 0.975 do.
  • AUROC of CA19-19 measured by conventional ELISA is 0.762
  • Accuracy is 0.762
  • Sensitivity is 0.575
  • Specificity is 0.950. Accordingly, it can be seen that the diagnostic model according to the present invention has high accuracy in diagnosing pancreatic cancer.
  • pancreatic cancer diagnosis model according to the present invention may be additionally learned by the additional learning unit 600 .
  • the additional learning unit 600 additionally trains the pancreatic cancer diagnosis model using the additional learning data with reference to FIGS. 9 to 12 .
  • the additional learning unit 600 generates noise in the original signal of each Raman spectrum (Jittering), signal scaling (Scaling), signal rotation (Rotation), interval mixing (Permutation), distortion addition (Magnitude warping), linear transformation (Linear) Transformation) and shifting may be applied to generate additional training data.
  • “Jittering” means adding a noise signal based on a Gaussian distribution to an original signal.
  • Scaling means multiplying an original signal by a random real value.
  • “Signal rotation” refers to rotating a randomly selected point in a Raman spectrum by a preset angle.
  • the preset angle may be -10 to 10 degrees.
  • Rotation transformation matrix to original data Use the result of multiplying by , where X means the value in radians to rotate.
  • Period refers to dividing the original signal into a random number of pieces, then mixing them and combining them again.
  • Magnetic warping means adding a random line segment to a signal.
  • “Shifting” means randomly shifting the spectrum from -2 to 2 on the x-axis, in which case data out of the data range is deleted, and the missing part is filled using the closest data.
  • the pancreatic cancer diagnostic model can Analysis can be performed ignoring noise on the input original signal, and through this, more accurate diagnostic results can be derived without a process of controlling noise.
  • the additional learning unit 600 may change and apply the reference line of the Raman spectrum information to generate other additional training data.
  • the additional learning unit 600 generates a virtual Raman spectrum by using the reference line estimated from the Raman spectrum, and additionally learns using the generated virtual Raman spectrum.
  • the additional learning unit 600 collects the reference line obtained by the above-described method for estimating the reference line from the original spectrum of the Raman spectrum and the filtered signal from which the reference line is removed.
  • the additional learning unit 600 randomly shuffles the reference lines and adds a reference line obtained from another Raman spectrum to the filtered signal.
  • FIG. 12(a) the original spectrum is shown, and the baseline is shown.
  • Figure 12 (b) is the filtered signal of Figure 12 (a).
  • the reference lines of the left and right spectra in the upper part of FIGS. 12(a) and 12(b) are replaced, two spectra are newly generated, and the reference lines are replaced in the newly created lower parts of FIGS. 12(c) and 12(d).
  • the spectrum is shown.
  • the additional learning unit 600 may artificially create a new virtual Raman spectrum.
  • the later pancreatic cancer diagnosis model receives the original spectrum from which the baseline has not been removed. Analysis can be performed by ignoring the baseline in the spectrum, which can lead to more accurate diagnostic results without the process of removing the baseline
  • the nanocube substrate 10 used to collect learning data from the SSFA biomarker collecting unit 120 will be described in more detail.
  • the optical properties of the nanocube substrate 10 were confirmed through rhodamine molecules (rhodamine 6G).
  • nanocube substrate 10 which has been confirmed to be useful as a SERS substrate, proceeds with a clinical sample as described below.
  • blood plasma was diluted 10 times, 5 ⁇ L of each was sampled on the nanocube substrate 10, and after waiting for adsorption of biomolecules for 30 minutes, it was dried in a vacuum state. Thereafter, the Raman spectrum of the clinical sample to which the molecules in the sample were adsorbed was measured.
  • a Raman spectrum may be obtained through the nanocube substrate 10 on which the nanogap 11 is formed.
  • FIG. 13 shows a nanocube substrate 10 .
  • FIG. 13( a ) shows the nanocube substrate 10 in which nanogaps 11 with predetermined intervals are formed.
  • the nanocube substrate 10 formed a nanogap 11 by forming a gold nanocube array structure. Since it is known that Raman enhancement occurs in the nanogap 11 , such a structure was selected as the SERS substrate.
  • FIG. 13( b ) shows a scanning electron microscope (SEM) image of the nanocube substrate 10 .
  • 13( c ) shows an image projected onto an optical microscope image by displaying the Raman intensity in green at a position of 1509.46 cm ⁇ 1 as a result of 0.1 mM rhodamine molecular mapping to confirm the effectiveness of the nanocube substrate 10 .
  • a region (yellow) and a region (black) in which a hot spot was formed were both present, and the SERS substrate was subjected to point mapping to confirm that a Raman signal was emitted only from the region in which the hot spot was formed.
  • the size of the area in the vicinity of 1509.4 cm -1 in the spectrum for each location where the mapping was performed is shown in green, and the image as shown in FIG. 13(c) was created by projecting it to an optical microscope image. As shown in FIG. 13(c) , a green color appeared in the shape of the region where the hotspot was formed, and it was confirmed that the Raman signal of the rhodamine molecule was generated only in the region where the hotspot was formed.
  • 13( d ) is a graph located on the lower side before hotspot exposure, in red, and after exposure, in blue, located on the upper side, and shows the average intensity (solid line) and standard deviation (shaded) of the graph do.
  • 13 (d) shows the Raman spectrum obtained through Raman mapping to confirm the change in the Raman intensity of the rhodamine molecule before and after exposure to the hotspot.
  • Representative peaks of rhodamine molecules 1311.74, 1363.91, 1509.46, 1651.76 cm-1) increased from a minimum of 13 times to a maximum of 28 times after hotspot exposure, and the mean relative standard deviation was 38.3%.
  • the nanocube substrate 10 according to the present invention is It was confirmed that it can function as a SERS substrate for diagnosing pancreatic cancer.
  • plasma If plasma is used immediately, it is coagulated before wetting on the substrate and Raman signal does not occur on the substrate, so the plasma is diluted before use.
  • the plasma was diluted 10 times, but it is not limited to the corresponding value.
  • the imsal sample on the substrate After sampling the imsal sample on the substrate, it is dried for a predetermined time, and waits for biomolecule adsorption to occur.
  • the clinical sample is sampled on the substrate and dried for 30 minutes, but it is not limited to the corresponding value, but it is known that the longer the plasma storage time at room temperature, the more metabolic reaction proceeds and the concentration of molecules such as hypoxanthine increases, The molecule can be observed as spectral information and may cause distortion of plasma information. For this reason, the sampling time may not exceed one hour.
  • Raman spectra of the plasma sampled substrate and non-plasma substrate are measured.
  • the plasma spectrum is measured under certain conditions, and it is used as learning data to generate the aforementioned artificial intelligence model, and is used as input data to be input to the artificial intelligence model, so that it can be used for pancreatic cancer diagnosis. .
  • the world's first diagnostic technology combining surface-enhanced Raman spectroscopy and artificial intelligence was developed to supplement the low accuracy that was a problem with the existing liquid biopsy.
  • Information on the unique chemical composition in blood can be acquired at once by using the degree of light scattering, and information invisible to the human eye can be automatically extracted from complex Raman signals using artificial intelligence.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

본 발명은 인공지능 라만 분석 기법을 이용한 췌장암 조기 진단 방법에 관한 것으로, 상기 방법은(a) 학습 데이터 수집부(100)가 미리 설정된 제1 방법을 이용하여 환자의 혈액으로부터 라만 스펙트럼 정보를 수집하는 단계; (b) 상기 학습 데이터 수집부(100)가 상기 라만 스펙트럼 정보를 포함하는 학습 데이터를 구축하는 단계; 및 (c) 모델 구축부(400)가 상기 학습 데이터를 이용하여 췌장암 진단 모델을 생성하되, 상기 췌장암 진단 모델은 임의의 개체의 혈액으로부터 수집한 라만 스펙트럼 정보를 입력하는 경우, 상기 임의의 개체의 췌장암 보유 유무를 출력하는 모델인, 단계를 포함한다.

Description

인공지능 라만 분석 기법을 이용한 췌장암 조기진단 방법
본 발명은 인공지능 라만 분석 기법을 이용한 췌장암 조기진단 방법에 관한 것이다.
라만 산란(Raman scattering)이란 빛과 분자 진동 운동 간의 상호작용으로 발생되는 광학적 현상이다. 그러나 라만 산란은 발생 빈도가 매우 낮기 때문에 플라즈모닉 나노구조체(plasmonic nanostructure)의 표면 플라즈몬(surface plasmon)을 이용한 표면-증강 라만 산란(SERS, surface-enhanced Raman scattering)와 같은 신호의 증폭이 필수적이다.
증폭된 신호는 분자의 다양한 진동 운동들에 대한 정보가 포함되어있고, 마치 지문과 같이 특이적인 패턴이 라만 이동(Raman shift)와 세기로서 스펙트럼 안에 나타난다. 이와 같은 특이적인 패턴은 특정 분자 검지 및 정량, 분자 검지를 통한 질병 진단과 같은 다양한 분야에 대한 응용이 제안되었다.
다양한 분야에 대한 응용 중, SERS 기반 라만 스펙트럼을 이용하여 인체의 질병을 진단하는데 이용될 수 있으며, 특히 조기 진단이 어려운 췌장암을 진단하는데 적극 이용될 수 있다.
가령, 조기 진단이 어려운 질병으로 손꼽히는 췌장암의 경우에는, 현재까지 증상이 나타나기 전에 췌장암을 조기에 발견할 수 있는 공인된 선별검사 방법이 없는 실정이다. 췌장암 진단을 위하여, 복부 초음파, 복부 전산화 단층촬영(CT), 자기공명영상(MRI), 내시경적 역행성 담췌관 조영술(ERCP), 내시경 초음파(EUS), 양성자방출 단층촬영(PET), 혈청종양 표지자(CA19-9) 검사에 대한 연구가 활발히 이루어지고 있다. 그러나, 종래의 췌장암 진단에 사용되는 CA19-9(Carbohydrate antigen 19-9) 지표의 경우 진단 성능이 민감도 78%, 특이도 82% 정도에 그친다는 문제가 있다. 이러한, 췌장암의 진단에도 SERS 기반 라만 스펙트럼을 이용하여 췌장암을 진단할 수 있다.
그러나 SERS 기반 분자 검지를 통한 췌장암 진단에 있어서 구조적 불안정성 및 낮은 재현성에서 오는 신호의 편차와 이에 따른 성능 저하, 높은 난해성에 따른 정보의 제한적 이용이 기술적 한계로 지적되고 있으며, 기존 SERS를 이용한 진단 기술은 사람이 인지할 수 없는 라만 스펙트럼(spectrum) 내 많은 정보를 생략하고 선명한 특정 피크의 세기 비교로만 진단하여 정확성이 낮은 문제가 있었으며, 특정 바이오마커의 기준 스펙트럼이 존재하지 않으면 혼합물에서 분석이 불가능한 한계가 있었다.
(특허문헌 1) 한국등록특허문헌 제10-1830314호
(특허문헌 2) 한국공개특허문헌 제10-2021-0100068호
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것이다.
구체적으로, 본 발명은 난해성 높은 정보들에서 정보 추출이 용이한 인공지능과 복잡한 정보들의 중첩으로 난해성이 높은 라만 기술을 융합하여 정보를 제한적으로 사용한 기존 라만 기반 분자 검지를 통한 췌장암 진단법의 한계를 극복하는 것을 목적으로 한다.
또한, 많은 정보를 내포한 혈액 자체를 스펙트럼으로서 활용하여 특정한 분자 바이오마커가 없는 췌장암의 진단이 가능하도록 하며, 정상인과 췌장암 환자 사이의 스펙트럼 간 유의미한 차이를 확인하여 스펙트럴 바이오마커로서 이용하여 진단하는 것을 목적으로 한다.
또한, 본 발명은 SERS 기판을 통해 획득된 스펙트럴 바이오마커 및 SLISA 기판을 통해 획득된 라만 스펙트럼을통해 췌장암 조기 진단 모델을 생성하고, 이를 이용하여 환자의 췌장암 및 타종 암 여부를 정확하게 진단하는 방법을 제공하는 것을 목적으로 한다.
상기와 같은 과제를 해결하기 위한 본 발명의 일 실시예는, 췌장암 진단 모델을 생성하는 방법으로서, (a) 학습 데이터 수집부(100)가 미리 설정된 제1 방법을 이용하여 환자의 혈액으로부터 대한 라만 스펙트럼 정보를수집하는 단계; (b) 상기 학습 데이터 수집부(100)가 상기 라만 스펙트럼 정보를 포함하는학습 데이터를 생성하는 단계; 및 (c) 모델 구축부(400)가 상기 학습 데이터를 이용하여 췌장암 진단 모델을 생성하되, 상기 췌장암 진단 모델은 상기 학습 데이터를 학습하여 상기 임의의 개체의 혈액으로부터 수집한 라만 스펙트럼 정보를 입력하는 경우, 상기 임의의 개체의 췌장암 보유 유무를 출력하는 모델인, 단계;를 포함하는, 방법을 제공한다.
일 실시예에 있어서, 상기 (a)단계에서, 상기 미리 설정된 제1 방법은 큐브들 사이에 나노 갭(11)을 갖는 금 나노 큐브 어레이가 형성된 나노 큐브 기판(10)에 위치되는 환자의 혈액을, 표면증강 라만 분광분석(Surface enhanced Raman Spectroscopy, SERS) 기법을 통해 라만 스펙트럼 정보를 획득하는방법일 수 있다.
일 실시예에 있어서, 상기 (a)단계는, 상기 학습 데이터 수집부(100)가 바이오마커농도 정보를 수집하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 바이오마커 농도 정보는 CA19-9((Carbohydrate antigen 19-9), CEA (Cacinoembryonic antigen), LRG1(Leucine-rich alpha-2-glycoprotein 1), CFB (Complement Factor B), TTL (Tubulin tyrosine ligase) 및Thrombosondin-2 (THBS2) 중 어느 하나 이상에 대한 농도 정보를 포함할 수 있다.
일 실시예에 있어서, 상기 (b)단계 이후 상기 (c)단계 이전에, (x) 데이터 전처리부(200)가 라만 스펙트럼 정보를 이용하여 전처리를 수행하는 단계; 상기 (x)단계는, (x1) 상기 데이터 전처리부(200)가 상기 라만 스펙트럼 정보에 대하여 특이치(outlier)를 제거하는 단계; 및 (x2) 상기 데이터 전처리부(200)가 상기 특이치가 제거된 상기 라만 스펙트럼 정보에 대하여 기준선 (baseline)을 제거하는 단계; 를 포함할 수 있다.
일 실시예에 있어서, 상기 (x)단계 이후, (y) 변수 선별부(300)가 상기 전처리된 학습 데이터를 각각 주성분 분석 (PCA, Principle components analysis) 및 딥러닝 학습 중 어느 하나 이상으로부터 변수를 선별하고, 상기 전처리된 학습데이터에서 선별된 변수가 포함하도록 선별 학습데이터를 생성하는 단계;를 더 포함하고, 상기 (c)단계에서, 상기 모델 구축부(400)는 상기 선별 학습데이터를 학습하여, 임의의 개체의 임상 정보와, 상기 임의의 개체의 혈액으로부터 수집한 라만 스펙트럼 정보를 입력하는 경우, 상기 임의의 개체의 췌장암 보유 유무를 출력하는 췌장암 진단 모델을 생성하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (x)단계 이후, (z) 변수 선별부(300)가 바이오마커 농도 정보와, 환자 임상 정보 중 어느 하나 이상이 포함되도록 선별 학습데이터를 생성하는 단계;를 더 포함하고, 상기 (c)단계에서, 상기 모델 구축부(400)는 상기 선별 학습데이터를 학습하여, 임의의 개체의 임상 정보와, 상기 임의의 개체의 바이오마커 농도 정보와, 상기 임의의 개체의 혈액으로부터 수집한 라만 스펙트럼 정보를 입력하는 경우, 상기 임의의 개체의 췌장암 보유 유무와 췌장암 진행 단계를 함께 출력하는 췌장암 진단 모델을 생성하는 단계를 더 포함하고, 상기 환자의 임상 정보는, 환자의 성별, 연령, 체중, 키 및 체질량 지수 중 어느 하나 이상을 포함할 수 있다.
일 실시예에 있어서, 상기 환자의 임상 정보는, 췌장암 진행 단계를 더 포함하고, 상기 (x)단계 이후, (o) 변수 선별부(300)가 상기 전처리된 학습 데이터를 각각 주성분 분석 (PCA, Principle components analysis)으로부터 선별된 변수, 딥러닝 학습으로부터 선별된 변수, 상기 바이오마커농도 정보와, 환자 임상 정보 중 어느 하나 이상이 포함되도록 선별 학습데이터를 생성하는 단계;를 더 포함하고, 상기 (c)단계에서, 상기 모델 구축부(400)는 상기 선별 학습데이터를 학습하여, 임의의 개체의 임상 정보와, 상기 임의의 개체의 바이오마커 농도 정보와, 상기 임의의 개체의 혈액으로부터 수집한 라만 스펙트럼 정보를 입력하는 경우, 상기 임의의 개체의 췌장암 보유 유무를 출력하는 췌장암 진단 모델을 생성하는 단계를 더 포함하고, 상기 환자의 임상 정보는, 환자의 성별, 연령, 체중, 키 및 체질량 지수 중 어느 하나 이상을 포함할 수 있다.
일 실시예에 있어서, 상기 (c)단계 이후, (d) 추가 학습부(600)가 상기 췌장암 진단 모델을 추가 학습시키는 단계;를 더 포함하고, 상기 (d)단계는, (d1) 상기 추가 학습부(600)가 라만 스펙트럼 정보의 원본 신호에 잡음 생성(Jittering), 신호 크기 조정(Scaling), 신호 회전(Rotation), 구간 섞기(Permutation), 뒤틀림 추가(Magnitude warping), 선형 변환(Linear transformation), 시프팅(Shifting) 중 어느 하나 이상의 방법을 이용하여 추가 학습 데이터를 생성하는 단계; 를 포함할 수 있다.
일 실시예에 있어서, 상기 (d)단계는, (d2) 상기 추가 학습부(600)가 상기 라만 스펙트럼 정보의 기준선을 변경하여 다른 추가 학습 데이터를 생성하는 단계; 및 (d3) 상기 추가 학습부(600)가 상기 다른 추가 학습 데이터를 이용하여 상기 췌장암 진단 모델을 더 추가 학습 시키는 단계;를 더 포함할 수 있다.
일 실시예에 있어서, 상기 (c)단계는, (c1) 상기 모델 구축부(400)가 상기 학습 데이터를 인공신경망(ANN, Artificial neural network), 서포트 벡터 머신(Support vector machine), 로지스틱 회귀(Logistic regression), 경사 부스팅(Tree based Gradient boosting), 딥러닝 학습 중 어느 하나 이상의 방법을 이용하여 학습하여, 상기 췌장암 진단 모델을 생성하는 단계; 를 포함할 수 있다.
본 발명의 다른 실시예에서, 생성된 모델을 이용하여 췌장암을 진단하는 방법으로서, 상기 (c)단계 이후, (e) 상기 췌장암 진단 모델을 전달받은 진단부(500)에 환자의 임상 정보와 환자의 라만 스펙트럼 정보 중 하나 이상을 입력하면, 출력부를 통해 췌장암 진행 단계가 출력되는 단계;를 더 포함하는 방법을 제공한다.
본 발명의 다른 실시예에서, 생성된 모델을 이용하여 췌장암을 진단하는 시스템으로서, 임의의 개체의 임상 정보와, 상기 임의의 개체의 혈액으로부터 획득된 라만 스펙트럼 정보를 입력받는 입력 장치; 및 상기 췌장암 진단 모델을 전달받아, 상기 입력 장치로부터 입력된 임상 정보와 라만 스펙트럼 정보가 상기 췌장암 진단 모델에 입력되는 경우, 입력된 정보에 대한 췌장암 보유 유무를 출력하는 연산 장치;를 포함하는 시스템을 제공한다.
본 발명의 다른 실시예에서, 상기의 방법을 실행하도록 컴퓨터 판독 가능한 기록 매체에 저장된, 컴퓨터 프로그램을 제공한다.
본 발명의 다른 실시예에서, 상기의 방법을 수행하기 위한 기판을 이용하여 라만 스펙트럼 정보를 수집하는 방법으로서, (q) 상기 환자의 혈액을 기설정된 배수만큼 희석시키고, 희석된 혈액이 상기 나노 갭(11)이 형성되는 상기 나노 큐브 기판(10)에 위치되는 단계; 및 (r) 라만분광부가 상기 나노 큐브 기판(10)에 표면증강 라만 분광분석(Surface enhanced Raman Spectroscopy, SERS)하여 라만 신호를 발생시키고, 상기 SSFA 바이오마커 수집부(120)가 상기 라만 스펙트럼 정보를 수집하는 단계; 를 포함하는, 방법을 제공한다.
본 발명에 따라, 다음과 같은 효과가 달성된다.
본 발명에서는, 바이오마커의 정량적 정보뿐만 아니라 혈액 내에서 확인되는 전체적인 라만 스펙트럼의 패턴(pattern)을 통해 암과 관련된 정보를 스펙트럼 내에 포함시켜 스펙트럼 자체를 바이오마커로서 사용이 가능하고, 기존의 액체 생검에서 놓칠 수 있는 물질 정보들까지 사용할 수 있다는 장점이 있으며, 높은 진단 정확도, 단순하고 빠른 검사 방법, 저렴한 검사비용을 제공할 수 있다.
또한, 본 발명은 SERS 기판을 통해 획득된 스펙트럴 바이오마커를 통해 췌장암 조기 진단 모델을 생성하고, 이를 이용하여 환자의 췌장암 및 타종 암 여부를 정확하게 진단할 수 있다.
도 1은 본 발명에 따른 췌장암 진단 모델 생성 방법을 설명하기 위한 모식도이다.
도 2는 SERS 소재에 따른 스펙트럼 비교 결과와 췌장암과 정상인의 라만 스펙트럼 차이를 도시한다.
도 3은 SSFA 기술을 이용하여, 라만스펙트럼을 획득하는 방법을 설명하기 위한 도면이다.
도 4는 동일한 SERS기판의 동일 샘플에서 획득된 50개의 라만 스펙트럼를 도시한 도면이다.
도 5는 데이터 전처리부가 학습 데이터를 전처리하는 방법을 설명하기 위한 도면이다.
도 6은 데이터 전처리 결과, 라만 스펙트럼의 원본 신호와 기준선이 제거된 신호를 도시한 그래프이다.
도 7은 본 발명에 따라 생성된 췌장암 진단 모델의 정확도를 설명하기 위한 도면이다.
도 8은 본 발명에 따른 진단부에서 췌장암 진행 단계를 출력하는 것을 설명하기 위한 도면이다.
도 9 내지 도 12는 추가 학습부가 췌장암 진단 모델을 추가 학습하는 것을 설명하기 위한 도면이다.
도 13은 나노 큐브 기판을 설명하기 위한 도면이다.
도 14는 나노 큐브 기판에서 라만 스펙트럼 획득하는 과정을 설명하기 위한 도면이다.
도 15는 혈장이 있을 때와 없을 때의 라만 스펙트럼을 설명하기 위한 도면이다.
몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.
또한, 본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하, 본 발명에서는 췌장암을 진단하는 것을 기준으로 설명하고 있으나, 이에 한정되지 않고, 1차 적용 분야는 간췌담도 외과, 진단검사의학 분야가 될 것이며 다른 종류의 암을 비롯한 질병을 진단하는 기술로 확장이 가능하다.
한편, 본 발명에서 개시된 각각의 설명 및 실시형태는 각각의 다른 설명 및 실시 형태에도 적용될 수 있다. 즉, 본 발명에서 개시된 다양한 요소들의 모든 조합이 본 발명의 범주에 속한다. 또한, 하 기 기술된 구체적인 서술에 의하여 본 발명의 범주가 제한된다고 볼 수 없다.
본 발명은 암 환자의 혈액 내에 존재하는 화학 성분들과 구성요소들에 관련된 라만 스펙트럼(Raman spectrum)을 인공지능으로 분석하여 췌장암 환자의 조기진단을 쉽고 빠르게 확인할 수 있도록 할 수 있다. 본 발명은 표면증강 라만 분광분석(surface enhanced Ramanspectroscopy; SERS) 기술과 인공지능 기술을 융합한 신규 액체 생검 기술을 적용하여 췌장암 환자의 조기진단을 수행할 수 있다.
기존의 진단 검사를 받기 위해서는 대형장비와 전문인력을 보유한 대형 병원에 방문해야 했으나, 본 발명의 다양한 실시예에 따르면 보건소나 의원 같은 1차 의료기관에도 보급 가능하다는 이점이 있다.
본 발명에 따른 방법에서, 환자의 혈장을 채취하여 SERS기판에 담아 라만 분광기에 넣으면 인공지능이 분석한 진단 결과가 출력될 수 있다.
도 1 내지 도 15를 참조하여, 본 발명에 따른 방법을 설명한다.
본 발명에 따른 방법은, 학습 데이터 수집부(100), 데이터 전처리부(200), 라벨링부(300), 모델 구축부(400), 진단부(500) 및 추가 학습부(600)를 포함한다.
1. 췌장암 진단 모델 생성
(1)학습 데이터 수집부(100)
학습 데이터 수집부(100)는 본 발명의 췌장암 진단 모델을 생성하기 위한 데이터를 수집하고, 이를 이용하여 학습 데이터를 생성한다.
학습 데이터 수집부(100)는 입력부(110), SSFA 바이오마커 수집부(120) 및 바이오마커 농도 수집부(130)를 포함한다.
입력부(110)에 환자 임상 정보가 입력된다.
환자 임상 정보는 환자의 성별, 연령, 체중, 키, 체질량지수 및 췌장암 진행 단계 중 어느 하나 이상을 포함할 수 있다. 하지만 이에 제한되지 않고, 환자 임상과 관련된 모든 정보, 예를 들어 혈압 등이 여기에 포함될 수 있다.
학습 데이터 수집부(100)가 환자 임상 정보와, 미리 설정된 제1 방법을 이용하여 환자의 혈액으로부터 대한 라만 스펙트럼 정보를수집한다. 또한, 후술하는 바와 같이 바이오마커 농도 정보를 더 수집한다. 본 발명에서는 환자 임상 정보, 라만 스펙트럼 정보, 바이오마커 농도 정보 중 어느 하나 이상을 이용하여 췌장암 진단 모델을 생성할 수 있다.
SSFA 바이오마커 수집부(120)가 환자의 혈액(혈장)을 나노 큐브 기판(10)에서 표면증강 라만 분광분석(Surface enhanced Raman Spectroscopy, SERS)하여 라만 스펙트럼 정보를 수집한다.학습 데이터 수집부(100)는 상기의 과정을 반복 수행하여 다수의 학습 데이터를 생성할 수 있다.
도 3(a)에서는 나노 큐브 기판(10)으로부터 라만 스펙트럼 정보를 수집하는 것이 도시되며, 도 4는 동일한 나노 큐브 기판(10)의 동일 샘플에서 획득된 라만 스펙트럼을 도시한 도면이다.
SSFA 바이오마커 수집부(120)는 동일한 기판에 놓인 환자의 혈액에 라만 분광분석법을 다수 회 적용하여 동일한 대상에 대한 복수의 라만 스펙트럼을 수집할 수 있다. 도 4에서는 SSFA 바이오마커 수집부(120)는 동일한 기판에 놓인 환자의 혈액에 라만 분광분석법을 다수 회 적용하여 50개의 라만 스펙트럼을 수집한 것을 도시한다.
나노 큐브 기판(10)은 나노 갭(11)이 형성된다. 나노 큐브 기판(10)에 대한 보다 구체적인 설명에 대해서는 후술하기로 한다.
이 때, 라만 분광분석법으로 얻어진 스펙트럼은 일정한 파장 범위 내에서 각각의 파수(wave number) 별로 라만 산란의 세기 값을 갖는 일차원 신호 벡터(vector)로 정의될 수 있다.
도 2를 참조하면, 혈장이 투입되는 기판 디자인(소재/형태)에 따른 스펙트럼 비교 결과(도 2(a), (b))와 췌장암과 정상인의 라만 스펙트럼 차이(도 2(c))를 도시한다. 도 2(a)에서, 여러 기판 소재(금 필름, 나노 큐브 등)에 따른 스펙트럼 변화를 비교해본 결과 나노 큐브-혈장 혼합물 사용과 같은 라만 증폭 기술이 필요함을 확인하였다, 이러한 신호 증폭이 없는 유리나 금필름의 경우 라만 신호가 발생하지 않은 것을 확인할 수 있었다.
다만, 도 2(b)에서, 나노큐브-혈장 혼합물에서 랜덤 스팟의 스펙트럼 각각 측정하였을 때, 스팟 별로 큰 변화가 발생하며, 재현성 낮은 것이 도시된다. 이에 따라, 조절성이 좋은 패터닝을 통한 기판이 필요한 것을 알 수 있다.
또한, 바이오마커 농도 수집부(130)는 췌장암 진단을 위한 바이오마커 농도 정보를 확인할 수 있다. 이는, 후술하는 변수 선별부(300)로 전송되고, 변수 선별부(300)에서 췌장암을 진단하기 위한 하나의 변수로 사용될 수 있다.
바이오마커 농도 수집부(130)에서 바이오마커 농도 정보를 수집하는 방법은 특정한 방법에 제한되는 것은 아니다. 가령, 바이오마커 농도 정보 수집부(130)는 기존에 공지된 췌장암 진단에 이용되는 바이오마커 농도 정보를 수집할 수 있다. 또한, 바이오마커 농도 수집부(130)는 환자의 혈액으로부터 ELISA(enzyme-linked immunoassay)의 방법을 이용하여 수집된 정보일 수 있으나, 특정한 방법에 제한되지 않는다.
바이오마커 농도 정보는 CA19-9((Carbohydrate antigen 19-9), CEA (Cacinoembryonic antigen), LRG1(Leucine-rich alpha-2-glycoprotein 1), CFB (Complement Factor B), TTL (Tubulin tyrosine ligase), Thrombosondin-2 (THBS2) 중 어느 하나 이상에 대한 농도 정보를 포함할 수 있다.
(2) 데이터 전처리부(200)
데이터 전처리부(200)는 학습 데이터 수집부(100)로부터 학습 데이터를 전송받고, 학습 데이터를 전처리한다.
데이터 전처리부(200)는 라만 스펙트럼의 특이치(outlier)를 제거한다.
데이터 전처리부(200)는 라만 스펙트럼 정보의 특이치(outlier)를 제거한다.
특이치(outlier)는 이동창 (moving window) 마다 정상 범위를 계산하고, 정상 범위를 벗어나는 값으로, 특이치는 정상범위보다 낮거나 높은 세기 값이다.
이 때, 도 5를 참조하면, 이동창은 100개 길이일 수 있고, 이동창 사이의 간격은 50개이나, 이에 한정되는 것은 아니다.
데이터 전처리부(200)는 정상 범위 계산을 위해 이동창 별로 신호 세기의 평균 값과 표준 편차 값을 연산한다.
이 때, 정상 범위는 평균값 - a * 표준 편차부터 평균값 + a * 표준편차로 가정하였으며, 여기서는 a는 5의 값으로 설정되었으며 1부터 10 사이의 값으로 변경하여 정상 범위를 수정할 수 있다.
데이터 전처리부(200)는 라만 스펙트럼 별로 특이치들을 제외한 이동창 범위 내 평균값을 수정값으로 확인한다.
데이터 전처리부(200)는 특이치에 해당하는 세기 값들은 이 수정값으로 대체할 수 있다.
그러나, 본 발명에 따른 진단 모델은 이에 한정 되지 않고, 다수의 스펙트럼 각각의 특이치를 제거하지 않고, 특이치를 무시하고 스펙트럼에 대한 분석을 수행할 수 있는 인공지능 모델을 생성할 수 있다
이후, 데이터 전처리부(200)는 각각의 스펙트럼에 대해 기준선(baseline)을 제거한다.
기준선(baseline)은 불이익 가중치 기반 최소 자승법에 따라서 추정될 수 있다. 최소 자승법은 라만 스펙트럼의 원본 스펙트럼이 기준선(baseline), 잡음(noise), 여과된 스펙트럼(filtered spectrum)으로 구성된다고 가정한다.
이 때, 기준선(baseline)은 환자의 혈액에 대한 스펙트럼을 추출할 시, 혈액과 관계없이 지속적으로 출력되는 선을 의미한다.
이 때, 잡음(noise)은 SERS 기판에서 스펙트럼을 추출 시, 기판에 의해 발생되는 각종 노이즈를 의미한다.
이 때, 여과된 스펙트럼(filtered spectrum)은 원본 스펙트럼에서 기준선(baseline)과 잡음(noise)이 제거된 스펙트럼을 의미한다.
데이터 전처리부(200)는 반복적으로 신호 내 잡음 정도를 추정하고 이에 따라서 가중치를 조정한다.
데이터 전처리부(200)는 원본신호에 대해서는 기준선보다 낮은 경우에 한하여 가중치를 부여한다. 이러한 가중치를 반영한 기준선과 원본 신호 사이의 잔차(residual)의 제곱이 최소가 되도록 반복해서 기준선을 추정한다.
데이터 전처리부(200)는 최종적으로 잔차가 최소일 때의 기준선을 원본 신호에서 제거한다.
도 6을 참조하면, 원본 신호와 기준선이 제거된 신호를 모두 도시한다. 원본 신호는 상측의 신호로 도시되고, 기준선이 제거된 신호는 하측의 신호로 도시된다.
다양한 실시예에서, 원본 스펙트럼에 포함된 기준선 및 잡음을 추출하고, 추출된 기준선과 잡음을 학습 데이터로 하여 기 학습된 인공 지능 모델을 이용해 원본 스펙트럼으로부터 기준선과 잡음을 추출 및 제거할 수 있다.
(3) 변수 선별부(300)
변수 선별부(300)는 전술한 데이터 전처리부(200)에서 전처리된 데이터를 전송받는다.
변수 선별부(300)는 전처리된 데이터에서 변수를 선별하여, 선별 학습 데이터를 생성한다. 변수 선별부(300)는 선별 학습 데이터를 모델 구축부(400)로 전송한다.
변수 선별부(300)는 주성분 분석 (PCA, Principle components analysis) 및 딥러닝 학습 중 어느 하나 이상으로 변수를 선별할 수 있다.
이 때, 변수 선별부(300)의 차원 축소 변수 선별부(320)에서 해당 과정이 이루어질 수 있다.
또한, 변수 선별부(300)는 학습데이터 수집부(100)로부터 바이오마커 농도 정보를 전달받고, 전달된 바이오마커 농도 정보를 변수로 이용할 수 있다.또한, 변수 선별부(300)는 학습데이터 수집부(100)로부터 환자 임상 정보를 전달받아 이를 변수로 선별할 수 있다.
이 때, 변수 선별부(300)의 변수 입력부(330)가 학습데이터 수집부(100)로부터 바이오마커 농도와 환자 임상 정보를 입력받을 수 있다.
본 발명에서는 주성분 분석으로부터 선별된 변수, 딥러닝 학습으로부터 선별된 변수, 상기 바이오 마커 농도 정보와, 환자 임상 정보중 어느 하나 이상이 포함되도록 선별 학습데이터를 생성할 수 있다. 후술하는 모델 구축부(400)는 선별 학습데이터를 이용하여 복수의 췌장암 진단 모델을 생성할 수도 있다.
변수 선별부(300)는 학습 데이터를 주성분 분석 (PCA, Principle components analysis)하여 변수를 선별할 수 있다.
주성분 분석은 하기의 [식 1] 내지 [식 5]의 연산으로 구현되는 것을 특징으로 할 수 있다.
데이터 집합의 전체 평균이 0이라고 가정하면, (아닐 경우 평균을 데이터 집합에서 뺀다) 데이터 집합 x의 주성분 w1은 다음과 같이 정의된다.
여기서 x는 혈청을 라만분광기에서 분석하여 획득한 라만 스펙트럼 데이터에 해당한다.
[식 1]
Figure PCTKR2021019622-appb-img-000001
(arg max는 함수 f(x)의 값을 최대로 만드는 x를 가리킨다.)
k-1개의 주성분이 이미 주어져 있을 때 k번째 주성분은 앞의 k-1개 주성분을 뺌으로써 찾을 수 있다:
[식 2]
Figure PCTKR2021019622-appb-img-000002
그리고 이 값을 데이터 집합에서 뺀 다음 주성분을 새로 찾는다.
[식 3]
Figure PCTKR2021019622-appb-img-000003
따라서 주성분 분석은 데이터 행렬 X의 특잇값 분해를 찾은 다음, X를 L개의 특이 벡터, WL로 정의된 부분공간으로 사상시켜 부분 데이터 집합 Y를 찾는 것과 같다.
[식 4]
Figure PCTKR2021019622-appb-img-000004
X의 특잇값 벡터 행렬 W는 공분산 C=XXT의 고유 벡터 행렬 W와 동일하다.
[식 5]
Figure PCTKR2021019622-appb-img-000005
가장 큰 고윳값을 갖는 고유 벡터는 데이터 집합에서 가장 강한 상관성을 갖는 차원에 대응된다.
변수 선별부(300)는 상기의 과정을 통해 고유 벡터를 변수로 선별할 수 있다.
변수 선별부(300)는 학습 데이터를 딥러닝 학습하여 변수를 선별할 수 있다. 이 때, 변수 선별부(300)의 딥러닝 변수 선별부(310)에서 해당 과정이 이루어질 수 있다.
딥러닝 학습은 입력과 출력 사이의 수많은 은닉층 (hidden layer)으로 이뤄진 인공 신경망으로, 각각의 은닉층이 일종의 자질추출을 담당하기 때문에 전처리 학습 데이터를 이용하여 딥러닝 분류 모델을 바로 학습시킬 수 있다. 일차원 합성곱 신경망(1-D CNN)은 일차원 데이터의 국소적(local) 특성을 반영하는데 특화되어 있다.
또한, 재귀 신경망 (RNN)의 일종인 장단기메모리(LSTM) 네트워크는 음성 및 문자열과 같은 연속적인 데이터를 분석하는 데 탁월하다. 아울러 이 두 가지 모델을 결합한 딥러닝 모델은 심전도 신호, 동작감지 신호등의 분류 혹은 회귀 문제에서 좋은 성능을 보인 바 있어 이를 활용할 수 있다.
본 발명에서 사용되는 딥러닝 학습은 DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), GAN(Generative Adversarial Network), RL(Reinforcement Learning)을 포함할 수 있으나, 이에 제한되는 것은 아니고, 다양한 딥러닝 학습이 적용될 수 있다.
(4) 모델 구축부(400)
모델 구축부(400)는 학습 데이터를 이용하여 췌장암 진단 모델을 생성한다.
이 때, 모델 구축부(400)는 선별 학습 데이터를 이용하여 췌장암 진단 모델을 생성할 수 있다.
모델 구축부(400)는 인공신경망(ANN, Artificial neural network), 서포트 벡터 머신(Support vector machine), 로지스틱 회귀(Logistic regression), 경사 부스팅(Tree based Gradient boosting), 딥러닝 학습 중 어느 하나 이상의 방법을 이용하여 학습하여, 췌장암 진단 모델을 생성할 수 있다.
이 때, 모델 구축부(400)는 학습 데이터를 학습하는 방법은 전술한 바에 제한되는 것은 아니고, 다양한 방식의 머신러닝과 딥러닝 학습이 적용될 수 있음은 물론이다.
가령, 본 발명에서 사용되는 딥러닝 학습은 DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), GAN(Generative Adversarial Network), RL(Reinforcement Learning)을 포함할 수 있으나, 이에 제한되는 것은 아니고, 다양한 딥러닝 학습이 적용될 수 있다.
이하, 모델 구축부(400)가 학습 데이터를 인공신경망 모델을 이용하여 췌장암 진단 모델을 생성하는 것으로 설명하나, 본 발명에서 췌장암 진단 모델을 생성하는 방법은 특정한 방법에 제한되는 것은 아니다.
인공 신경망은 생물학적 뉴런의 작동과정을 흉내낸 것으로 데이터를 입력으로 받아, 가중치와 입력을 곱한 후 활성화 함수(Activation) f 의 결과를 다음 뉴런으로 보내는 프레임워크를 갖는다.
활성함수는 (Activation Function)는 가중치와 입력(Node)을 곱하는 함수로 은닉층 구성요소를 얻을 경우 활성함수로 표현한다.
출력함수 (Output Function)는 가중치와 입력을 곱하는 함수로 출력층 결과를 얻을 경우 출력함수로 표현한다.
손실함수 (Loss Function)는 가중치의 학습을 위해 출력함수의 결과와 예측(y)값 간의 오차를 측정하는 함수를 의미한다.
본 발명의 인공 신경망 기반 조기진단 시스템은, 선별 학습 데이터를 받아들이는 층인 입력층(Input Layer), 가중치를 곱하고 활성함수의 결과를 얻은 데이터로 구성된 은닉층(Hidden Layer), 최종 은닉층/입력층에 가중치를 곱하고, 출력함수의 결과를 생성하는 출력층(Output Layer)로 구성된다.
본 발명의 일 실시 예에 따른 조기진단 시스템에서, 인공 신경망 모델은 하기의 [식 6]의 연산으로 구현되는 것을 특징으로 할 수 있다.
[식 6]
Figure PCTKR2021019622-appb-img-000006
Figure PCTKR2021019622-appb-img-000007
또한, 모델 구축부(400)는 선별 학습 데이터를 이용하여 딥러닝 학습을 수행하여 췌장암 진단 모델을 생성할 수 있다.
또한, 모델 구축부(400)는 심층 신경망을 둘 이상 학습시킨 뒤 이를 통합하여 최종적인 진단 결과를 출력하도록 앙상블 학습(Ensemble learning)이 가능하다.
구체적인 실시예로 다중 경로 일차원 합성곱 신경망, 이차원 합성곱 신경 망, 합성곱 신경망과 순환 신경망을 결합한 모델 등을 개별적으로 학습시킨 후 출 력되는 진단 결과를 수집할 수 있다. 수집된 결과 값들은 최종 병합 모델의 입력 데이터로서 설정되고 이전 입력 스펙트럼에 대응하는 진단 결과를 목적 변수로 설 정할 수 있다.
앙상블 학습은 각 심층 신경망의 출력 별로 가중치를 학습시켜 최종 통합 모델이 높은 성능으로 통합된 진단 결과를 만들어 내도록 한다. 학습된 통합 모델은 스펙트럼 데이터를 입력 받아 포함된 심층신경망들 각각의 진단 결과 값을 가중치에 따라 수집한 뒤 최종적인 진단결과를 출력한다.
다양한 실시예에서, 둘 이상의 심층 신경망을 각각을 이용하여 둘 이상의 결과를 도출할 수 있고, 도출된 결과를 취합하여 과반수 이상이 가리키는 결과를 최종 결과로 결정할 수 있다(hard voting).
다양한 실시예에서, 둘 이상의 심층 신경망을 각각 이용하여 둘 이 상의 결과(확률 값)를 도출할 수 있고, 도출된 둘 이상의 결과의 평균을 산출하여 산출된 평균을 최종 결과로 결정할 수 있다(soft voting),
즉, 본 발명은 다중 경로 일차원 합성곱 신경망, 이차원 합성곱 신경망, 합성곱 신경망과 순환 신경망을 결합한 모델 중 어느 하나의 신경망을 이용하여 결과를 도출할 수 있으나, 경우에 따라 둘 이상의 신경망 모델을 조합하여 결과를 도출할 수 있다. 예를 들어, 제어부는 각각의 신경망의 성능을 판단하여, 각각의 신경망의 성능이 기준 이하일 경우, 복수의 신경망 중 둘 이상의 신경망을 이용하는 앙상블 모델을 이용하여 결과를 도출할 수 있고, 각각의 신경망의 성능이 기준 이상일 경우, 복수의 신경망 중 어느 하나의 신경망을 이용하여 결과를 도출할 수 있다.
2. 췌장암 진단 모델 생성 및 실험예
진단부(500)는 췌장암 진단 모델을 전달받아, 진단부(500)에 환자의 임상 정보와 환자의 라만 스펙트럼 정보 중 하나 이상을 입력하면, 출력부를 통해 췌장암 유무가출력될 수 있다.
또한, 췌장암 진단 모델은 환자 임상 정보 중 췌장암 진행 단계를 함께 학습하여, 췌장암 진행 단계를 출력할 수도 있다.
도 8을 참조하여, 본 발명에 따라 생성된 췌장암 진단 모델의 정확도를 설명한다.
도 8은 총 80 샘플의 라만 스펙트럼 측정(췌관선암 40명, 담석증40명)한 결과를 도시하며, 1기 9명, 2기 초반 10명, 2기 후반 21명이고, 아산병원에서 전달 받은 수술 전 CA19-9와 CEA 수치의 췌장암 진단 성능과 비교하였다.
본 발명에 따라 나노 큐브 기판(10)로 측정한 라만스펙트럼을 PCA로 차원감소 후 ANN (artificial neural network)을 이용하여 학습된 모델에 따르면, AUROC가 0.969, Accuracy가 0.900, Sensitivity가 0.825, Specificity가 0.975로 도시된다.
또한, 본 발명에 따라 나노 큐브 기판(10)로 측정한 라만스펙트럼을 PCA로 차원감소 후 획득된 변수와, ELISA로 측정한 CA19-9, CEA정보를 변수로 추가하여 췌장암 진단하는 ANN (artificial neural network)을 이용하여 학습된 모델에 따르면, AUROC가 0.957, Accuracy가 0.913, Sensitivity가 0.85, Specificity가 0.975로 도시된다.
또한, 본 발명에 따라 나노 큐브 기판(10)로 측정한 라만스펙트럼을 DNN(deep neural network)를 이용하여 학습된 모델에 따르면, AUROC가 0.944, Accuracy가 0.938, Sensitivity가 0.900, Specificity가 0.975로 도시된다.
이는, 종래의 ELISA로 측정한 CEA에 따른 AUROC가 0.600, Accuracy가 0.600, Sensitivity가 0.250, Specificity가 0.950와,
또한, 종래의 ELISA로 측정한 CA19-19의 AUROC가 0.762, Accuracy가 0. 762, Sensitivity가 0.575, Specificity가 0.950 보다 AUROC가, Accuracy, Sensitivity, Specificity 측면에서 모두 높은 값을 보이는 것으로 도시되며, 이에 따라 본 발명에 따른 진단모델의 췌장암 진단의 정확도가 높음을 알 수 있다.
3, 췌장암 진단 모델 추가 학습
또한, 본 발명에 따른 췌장암 진단 모델은 추가 학습부(600)에 의해 추가 학습될 수 있다.
도 9 내지 도 12를 참조하여, 추가 학습부(600)가 추가 학습 데이터를 이용하여 췌장암 진단 모델을 추가 학습시키는 것을 설명한다.
추가 학습부(600)가 라만 스펙트럼 각각의 원본 신호에 잡음 생성(Jittering), 신호 크기 조정(Scaling), 신호 회전(Rotation), 구간 섞기(Permutation), 뒤틀림 추가(Magnitude warping), 선형 변환(Linear transformation), 시프팅(Shifting) 중 적어도 하나의 방법을 적용하여 추가 학습 데이터를 생성할 수 있다.
"잡음 생성(Jittering)"이란, 원본 신호에 가우시안 분포(Gaussian distribution)를 기반으로 한 잡음 신호를 추가하는 것을 의미한다.
"신호 크기 조정(Scaling)"이란, 원본 신호에 무작위한 실수 값을 곱해주는 것을 의미한다.
"신호 회전(Rotation)"이란, 라만 스펙트럼 내 무작위로 선택된 한 점을 기준으로 기설정된 각도만큼 회전시킨다. 가령, 기설정된 각도는 -10~10도일 수 있다. 원본 데이터에 회전변환행렬
Figure PCTKR2021019622-appb-img-000008
을 곱한 결과를 사용하고, 이때 X는 회전할 라디안 값을 의미한다.
"구간 섞기(Permutation)"란 원본 신호를 무작위한 개수의 조각으로 분할한 뒤 섞어서 다시 조합하는 것을 의미한다.
"뒤틀림 추가(Magnitude warping)"란, 무작위한 선분을 신호에 더해주는 것을 의미한다.
"선형 변환(Linear transformation)"이란, 원본 수식은 y=a*x+b 형태로 변환하나 범위 설정을 위해 y= a*n+b 형태의 선분을 원본 스펙트럼에 더하는 것을 의미한다 (이때 n은 wave number).
"시프팅(Shifting)"이란, 스펙트럼을 -2칸에서 2칸 사이로 랜덤하게 x축 이동시키는 것을 의미하고, 이때 데이터 범위를 벗어나는 데이터는 삭제되며, 부족한 부분은 가장 가까운 데이터를 이용하여 채워진다.
이와 같이, 원본 신호를 다양한 방법으로 변화시켜 복수의 가상 라만 스펙트럼를 생성하고, 이를 추가 학습 데이터로 포함 하여 췌장암 진단 모델을 지속적으로 학습시킴으로써, 췌장암 진단 모델은 잡음이 제거되지 않은 원본의 신호를 입력받더라도 입력된 원본 신호에서 잡음을 무시하고 분석을 수행할 수 있고, 이를 통해, 잡음을 제어하는 과정 없이도 보다 정확한 진단 결과를 도출할 수 있다.
도 12를 참조하여, 추가 학습부(600)가 라만 스펙트럼 정보의 기준선을 변경하여 적용하여 다른 추가 학습 데이터를 생성할 수 있다.
추가 학습부(600)는 라만 스펙트럼에서 추측된 기준선을 활용하여, 가상의 라만 스펙트럼을 생성하고 이를 이용하여 추가 학습한다.
추가 학습부(600)는 라만 스펙트럼의 원본 스펙트럼에서 전술한 기준선 추정방법으로 얻어진 기준선과, 이러한 기준선을 제거한 여과 신호를 수집한다.
이후, 추가 학습부(600)는 기준선을 무작위로 뒤섞어 다른 라만 스펙트럼에서 얻어진 기준선을 여과 신호에 더해준다.
도 12(a)에서 원본 스펙트럼이 도시되며, 기준선이 도시된다. 도 12(b)는 도 12(a)의 여과 신호이다. 도 12(a)와 도 12(b)의 상단의 좌우 스펙트럼들의 기준선을 교체할 경우 두 개 스펙트럼이 새롭게 생성되고, 새롭게 생성된 하단의 도 12(c), 도 12(d)에서 기준선이 교체된 스펙트럼이 도시된다.
이에 따라, 추가 학습부(600)는 새로운 가상의 라만 스펙트럼을 인공적으로 만들 수 있다.
이와 같이 여과 신호에 기준선을 더해줌으로써 생성된 가상의 라만 스펙트럼을 인공지능 모델의 학습 데이터로 하여 지속적으로 학습시킴으로써, 추후 췌장암 진단 모델은 기준선이 제거되지 않은 원본의 스펙트럼을 입력받더라도, 입력된 원본의 스펙트럼에서 기준선을 무시하고 분석을 수행할 수 있고, 이를 통해 기준선을 제거하는 과정 없이도 보다 정확한 진단 결과를 도출할 수 있다
4, 나노 큐브 기판(10)의 구조/ 검증 실험/ 임상 샘플 측정
본 발명의 제1 실시예에 따라, SSFA 바이오마커 수집부(120)에서 학습 데이터를 수집하기 위해 사용되는 나노 큐브 기판(10)에 대해 보다 구체적으로 설명한다.
혈액 검체의 경우 다양한 핵산(nucleotide), 단백질, 저분자(small molecule)등 수많은 생체분자들이 섞여 있다. 검체의 스펙트럼 자체를 바이오마커로 사용하기 위해서는 검체 내의 기계학습 검지의 특이도(specificity)와 민감도 (sensitivity)와 관계되어 있는 분자들을 라만 활성 부위에 흡착시키는 것이 중요하다.
혈액 검체 안에 존재하는 분자들의 라만 스펙트럼(spectrum)을 얻기 위해서는 신호대잡음비(signal-to-noise ratio, S/N ratio)를 높이는 과정과 재현성을 위해 강하고 일정한 세기의 전기장이 필수적이며, 이를 위해 혈액 검체에 최적화된 새로운 금속 라만 기판이 요구된다.
본 발명에서는 임상샘플을 측정하기 전 나노 큐브 기판(10)의 광학적 특성을 로다민 분자(rhodamine 6G)를 통해 확인하였다.
일 실시예에서는 0.1 mM 로다민 용액 0.5 μL를 스팟팅(spotting)한 뒤, 건조하고 포인트 매핑(point mapping)을 통해 라만 신호가 발생되는 위치와 그 세기 차이에 대해서 확인하였다. SERS 기판으로서 효용성이 확인된 나노 큐브 기판(10)은 후술하는 바와 같이 임상샘플을 진행한다.
일 실시예에서는 혈장(blood plasma)을 10배 묽히고, 나노 큐브 기판(10)에 5μL씩 샘플링한 뒤 30분간 생분자(biomolecules)들의 흡착을 기다린 뒤 진공 상태에서 건조시켰다. 이후 시료 내 분자들이 흡착된 임상샘플의 라만 스펙트럼을 측정하였다.
나노 큐브 기판(10)의 구조와 나노 큐브 기판(10) 검증실험
먼저, 췌장암 진단의 목적을 위하여 나노 큐브 기판(10)이 혈장 스펙트럼 획득에 사용될 수 있는지 확인하였다. 다만, 혈장 내의 분자들은 라만세기가 크지 않으므로, 라만 관측을 용이하게 하기 위하여 신호가 큰 로다민(rhodamine 6g) 분자를 먼저 사용하여 증강된 라만신호가 얻어졌음을 확인한 후, 임상샘플의 스펙트럼을 획득하였다.
본 발명에서는 나노 갭(11)이 형성되는 나노 큐브 기판(10)을 통해 라만 스펙트럼을 획득할 수 있다.
도 13에서는 나노 큐브 기판(10)을 도시한다.
도 13(a)에서는 기설정된 간격의 나노 갭(11)이 형성된 나노 큐브 기판(10)을 도시한다.
나노 큐브 기판(10)은 금 나노큐브 어레이 구조체를 형성시켜 나노 갭(11)을 만들었다. 나노 갭(11)에서 라만 증강이 발생한다고 알려져 있기 때문에 이와 같은 구조체를 SERS 기판으로 선정하였다.
나노입자에는 표면안정제 외에 다양한 화학물질들이 흡착되어 있다. 이러한 화학물질들은 분석물의 흡착 방해, 불필요한 신호 중첩 등의 이유로 핫스팟을 막고 라만 신호를 방해한다. 이러한 물질들은 산소 플라즈마를 통해서 제거하였고, 라만 활성 분자를 통해 SERS 기판으로서 분광학적 효용성 확인을 하였다.
도 13(b)는 나노 큐브 기판(10)의 주사 전자현미경(SEM) 이미지를 도시한다.
도 13(c)는 나노 큐브 기판(10)의 효용성 확인을 위해 0.1 mM 로다민 분자 매핑 결과 1509.46 cm-1 위치에서 라만 세기를 초록색으로 표시하여 광학 현미경 이미지에 투사한 이미지를 도시한다.
핫스팟 노출 전후의 로다민(rhodamine 6g) 분자의 라만 세기를 비교하여 화학물질 제거 여부와 췌장암 진단용 SERS 기판으로서의 효용성을 확인하였다.
나노 큐브 기판(10)에는 핫스팟이 형성되어있는 영역(노란색)과 그렇지 않은 영역(검정색)이 함께 존재하였고, 핫스팟이 형성된 영역에서만 라만 신호가 나오는 것을 확인하기 위해 SERS 기판을 포인트 매핑(point mapping)을 하였다.
매핑이 진행된 각 위치별 스펙트럼 내 1509.4cm-1 부근의 면적의 크기를 초록색으로 나타내었고, 광학 현미경 이미지에 투사하여 도 13 (c)와 같은 이미지를 만들었다. 도 13(c)에서 나타나있는 바와 같이 핫스팟이 형성된 영역의 모양으로 초록색이 생겼고 이를 통해서 핫스팟이 형성된 영역에서만 로다민 분자의 라만 신호가 발생하였음을 알 수 있었다.
도 13(d)는 핫스팟(hotspot) 노출 전을 하측에 위치되는 그래프인 빨간 색으로, 노출 후를 상측에 위치되는 파란색으로 도시되며, 그래프의 평균 세기(실선)과 표준편차(음영)를 도시한다.
핫스팟의 노출 전후에 따른 로다민 분자의 라만 세기 변화를 확인하기 위해 라만 매핑을 통해 획득한 라만 스펙트럼을 도 13 (d)에 나타내었다. 로다민 분자의 대표적인 피크들(1311.74, 1363.91, 1509.46, 1651.76 cm-1)에서 핫스팟 노출 후 최소 13배에서 최대 28배까지 증가하였고, 평균 상대표준편차(relative standard deviation)은 38.3 %였다.
기판 내에 나노구조체가 존재하지 않고 폴리머만 존재하는 마이크로 크랙(micro crack)에 의한 영향을 고려한다면 라만증강이 일어나는 곳에서의 신호는 더욱 균일하게 나올 것이고, 본 발명에 따른 나노 큐브 기판(10)이 췌장암 진단용 SERS 기판으로서 기능이 가능하다는 것을 확인하였다.
나노 큐브 기판(10)을 이용한 임상샘플 측정
나노 큐브 기판(10)을 통해 혈장 임상샘플의 스펙트럼을 획득할 수 있는지 알아보기 위한 연구를 진행하였다.
혈장을 바로 사용할 경우 기판에 습윤(wetting)되기 전 응고가 되어 기판에서 라만 신호가 발생하지 않아, 혈장을 희석시켜 사용한다.
이 때, 혈장을 10배 묽혀서 사용하였으나, 해당 수치에 제한되는 것은 아니다.
임살샘플을 기판에 샘플링한 뒤 기설정된 시간 동안 건조시켜, 생분자 흡착이 발생하도록 기다린다.
이 때, 임상샘플을 기판에 샘플링한 뒤 30분간 건조시키나, 해당 수치에 제한되는 것은 아니나, 혈장은 상온 보관의 시간이 길어질수록 대사반응이 진행되어 hypoxanthine와 같은 분자의 농도가 증가한다고 알려져있고, 해당 분자는 스펙트럼 정보로서 관측이 가능하고 혈장 정보의 왜곡을 가져올 수 있다. 이와 같은 이유로 샘플링의 시간은 한시간을 넘기지 않을 수 있다.
혈장 내 분자들이 흡착이 잘 되는지 확인하기 위해 혈장을 샘플링한 기판과 그렇지 않은 기판의 라만 스펙트럼을 측정한다.
혈장이 샘플링되지 않은 경우 도 15의 검정색 실선(하측 실선)과 같은 스펙트럼을 얻었고, 혈장이 샘플링된 기판에서는 도 15의 붉은색 실선(상측 실선) 및 음영과 같은 스펙트럼을 얻었다.
두 스펙트럼 간에는 다양한 위치에서 차이를 보였다. 혈장 내 분자를 특정할 수는 없지만, 대략 800-900 cm-1, 1400-1500 cm-1은 DNA, lipids, proteins, 1000 cm-1은 phenylalanine, 1100-1200cm-1, 1550-1650 cm-1은 proteins, 1300-1400cm-1은 lipid 및 protein, 1500 cm-1은 DNA에 해당되는 정보로 알려져 있다. 이에 해당하지 않는 영역에서 발생한 신호는 대사체, 잔류 세포, 소낭과 같은 분자에서 발생했을 것으로 추측된다.
따라서, 나노 큐브 기판(10)을 이용하면 특정 조건 하에서 혈장 스펙트럼이 측정됨을 보였고 전술한 인공지능모델을 생성하는 학습 데이터로 사용되고, 인공지능 모델에 입력되는 입력 데이터로 사용되어 췌장암 진단에 사용될 수 있다.
본 발명에서는, 생체 신호로부터 사람 눈에는 보이지 않는 정보를 추출할 수 있다는 점을 고려하여, 세계 최 초로 표면증강 라만 분광법과 인공지능을 결합한 진단 기술을 개발하여 기존 액체 생검의 문제였던 낮은 정확도를 보완할 수 있다
빛의 산란정도를 이용해 혈액 내 고유한 화학성분 정보를 한번에 획득할 수 있고, 인공지능을 이용하여 복잡한 라만신호로부터 사람 눈에 보이지 않는 정보를 자동으로 추출할 수 있다
이상, 본 명세서에는 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 도면에 도시한 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 당업자라면 본 발명의 실시예로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 보호범위는 특허청구범위에 의해서 정해져야 할 것이다.
(부호의 설명)
10: 나노 큐브 기판
11: 나노 갭
100: 학습 데이터 수집부
110: 입력부
120: SSFA 바이오마커 수집부
130: 바이오마커 농도 수집부
200: 데이터 전처리부
300: 변수 선별부
400: 모델 구축부
500: 진단부
600:추가학습부

Claims (15)

  1. 췌장암 진단 모델을 생성하는 방법으로서,
    (a) 학습 데이터 수집부(100)가 미리 설정된 제1 방법을 이용하여 환자의 혈액으로부터 라만 스펙트럼 정보를 수집하는 단계;
    (b) 상기 학습 데이터 수집부(100)가 상기 라만 스펙트럼 정보를 포함하는 학습 데이터를 생성하는 단계; 및
    (c) 모델 구축부(400)가 상기 학습 데이터를 이용하여 췌장암 진단 모델을 생성하되, 상기 췌장암 진단 모델은 상기 임의의 개체의 혈액으로부터 수집한 라만 스펙트럼 정보를 입력하는 경우, 상기 임의의 개체의 췌장암 보유 유무를 출력하는 모델인, 단계;를 포함하는,
    방법.
  2. 제1항에 있어서,
    상기 (a)단계에서,
    상기 미리 설정된 제1 방법은 큐브들 사이에 나노 갭(11)을 갖는 금 나노 큐브 어레이가 형성된 나노 큐브 기판(10)에 위치되는 환자의 혈액을, 표면증강 라만 분광분석(Surface enhanced Raman Spectroscopy, SERS) 기법을 통해 라만 스펙트럼 정보를 획득하는 방법인,
    방법.
  3. 제2항에 있어서,
    상기 (a)단계는,
    상기 학습 데이터 수집부(100)가 바이오마커 농도 정보를 수집하는 단계를 더 포함하는,
    방법.
  4. 제3항에 있어서,
    상기 바이오마커 농도 정보는 CA19-9((Carbohydrate antigen 19-9), CEA (Cacinoembryonic antigen), LRG1(Leucine-rich alpha-2-glycoprotein 1), CFB (Complement Factor B), TTL (Tubulin tyrosine ligase), Thrombosondin-2 (THBS2) 중 어느 하나 이상에 대한 농도 정보를 포함하는,
    방법.
  5. 제4항에 있어서,
    상기 (b)단계 이후 상기 (c)단계 이전에,
    (x) 데이터 전처리부(200)가 라만 스펙트럼 정보를이용하여 전처리를 수행하는 단계;를 더 포함하고,
    상기 (x)단계는,
    (x1) 상기 데이터 전처리부(200)가 상기 라만 스펙트럼 정보에 대하여 특이치(outlier)를 제거하는 단계; 및
    (x2) 상기 데이터 전처리부(200)가 상기 특이치가 제거된 상기 라만 스펙트럼 정보에 대하여 기준선 (baseline)을 제거하는 단계; 를 포함하는,
    방법.
  6. 제5항에 있어서,
    상기 (x)단계 이후,
    (y) 변수 선별부(300)가 상기 전처리된 학습 데이터를 각각 주성분 분석 (PCA, Principle components analysis) 및 딥러닝 학습 중 어느 하나 이상을 이용하여 변수를 선별하고, 상기 전처리된 학습 데이터에서 선별된 변수가 포함되도록 선별 학습 데이터를 생성하는 단계;를 더 포함하고,
    상기 (c)단계에서,
    상기 모델 구축부(400)는 상기 선별 학습 데이터를 학습하여, 상기 임의의 개체의 혈액으로부터 수집한 라만 스펙트럼 정보를 입력하는 경우, 상기 임의의 개체의 췌장암 보유 유무를 출력하는 췌장암 진단 모델을 생성하는 단계를 더 포함하는,
    방법.
  7. 제5항에 있어서,
    상기 (x)단계 이후,
    (z) 변수 선별부(300)가 상기 바이오마커 농도 정보와, 환자 임상 정보 중 어느 하나 이상이 포함되도록 선별 학습데이터를 생성하는 단계;를 더 포함하고,
    상기 (c)단계에서,
    상기 모델 구축부(400)는 상기 선별 학습데이터를 추가 학습하여, 임의의 개체의 임상 정보, 상기 임의의 개체의 바이오마커 농도 정보와, 상기 임의의 개체의 혈액으로부터 수집한 라만 스펙트럼 정보 중 하나 이상을 입력하는 경우, 상기 임의의 개체의 췌장암 보유 유무를 출력하는 췌장암 진단 모델을 생성하는 단계를 더 포함하고,
    상기 환자의 임상 정보는, 환자의 성별, 연령, 체중, 키 및 체질량 지수 중 어느 하나 이상을 포함하는,
    방법.
  8. 제5항에 있어서,
    상기 (x)단계 이후,
    (o) 변수 선별부(300)가 상기 전처리된 학습 데이터를 각각 주성분 분석 (PCA, Principle components analysis)으로부터 선별된 변수, 딥러닝 학습으로부터 선별된 변수, 상기 바이오 마커 농도 정보와, 환자 임상 정보 중 어느 하나 이상이 포함되도록 선별 학습데이터를 생성하는 단계;를 더 포함하고,
    상기 (c)단계에서,
    상기 모델 구축부(400)는 상기 선별 학습데이터를 학습하여, 임의의 개체의 임상 정보, 상기 임의의 개체의 바이오마커 농도 정보와, 상기 임의의 개체의 혈액으로부터 수집한 라만 스펙트럼을입력하는 경우, 상기 임의의 개체의 췌장암 보유 유무를 출력하는 췌장암 진단 모델을 생성하는 단계를 더 포함하고,
    상기 환자의 임상 정보는, 환자의 성별, 연령, 체중, 키 및 체질량 지수 중 어느 하나 이상을 포함하는,
    방법.
  9. 제1항에 있어서,
    상기 (c)단계 이후,
    (d) 추가 학습부(600)가 상기 췌장암 진단 모델을 추가 학습시키는 단계;를 더 포함하고,
    상기 (d)단계는,
    (d1) 상기 추가 학습부(600)가 상기 라만 스펙트럼 정보의 원본 신호에 잡음 생성(Jittering), 신호 크기 조정(Scaling), 신호 회전(Rotation), 구간 섞기(Permutation), 뒤틀림 추가(Magnitude warping), 선형 변환(Linear transformation), 시프팅(Shifting) 중 어느 하나 이상의 방법을 이용하여 추가 학습 데이터를 생성하는 단계; 를 포함하는,
    방법.
  10. 제9항에 있어서,
    상기 (d)단계는,
    (d2) 상기 추가 학습부(600)가 상기 라만 스펙트럼 정보의 기준선을 변경하여 다른 추가 학습 데이터를 생성하는 단계; 및
    (d3) 상기 추가 학습부(600)가 상기 다른 추가 학습 데이터를 이용하여 상기 췌장암 진단 모델을 더 추가 학습 시키는 단계;를 더 포함하는,
    방법.
  11. 제1항, 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 (c)단계는,
    (c1) 상기 모델 구축부(400)가 상기 학습 데이터를 인공신경망(ANN, Artificial neural network), 서포트 벡터 머신(Support vector machine), 로지스틱 회귀(Logistic regression), 경사 부스팅(Tree based Gradient boosting), 딥러닝 학습(Deep Learning) 중 어느 하나 이상의 방법을 이용하여 학습하여, 상기 췌장암 진단 모델을 생성하는 단계; 를 포함하는,
    방법.
  12. 제1항에 따라 생성된 모델을 이용하여 췌장암을 진단하는 방법으로서,
    상기 (c)단계 이후,
    (e) 상기 췌장암 진단 모델을 전달받은 진단부(500)에 환자의 임상 정보와 환자의 라만 스펙트럼 정보를입력하면, 출력부를 통해 췌장암 진행 유무가 출력되는 단계;를 더 포함하는,
    방법.
  13. 제1항에 따라 생성된 모델을 이용하여 췌장암을 진단하는 시스템으로서,
    임의의 개체의 임상 정보와, 상기 임의의 개체의 혈액으로부터 획득된 라만 스펙트럼 정보를 입력받는 입력 장치; 및
    상기 췌장암 진단 모델을 전달받아, 상기 입력 장치로부터 입력된 임상 정보와 라만 스펙트럼 정보가 상기 췌장암 진단 모델에 입력되는 경우, 입력된 정보에 대한 췌장암 보유 유무를 출력하는 연산 장치;를 포함하는,
    시스템.
  14. 제1항 내지 제10항 및 제12항 중 어느 한 항에 따른 방법을 실행하도록 컴퓨터 판독 가능한 기록 매체에 저장된, 컴퓨터 프로그램.
  15. 제2항에 따른 방법을 수행하기 위한 기판을 이용하여 라만 스펙트럼 정보를 수집하는 방법으로서,
    (q) 상기 환자의 혈액을 기설정된 배수만큼 희석시키고, 희석된 혈액이 상기 나노 갭(11)이 형성되는 상기 나노 큐브 기판(10)에 위치되는 단계; 및
    (r) 라만분광부가 상기 나노 큐브 기판(10)에 표면증강 라만 분광분석(Surface enhanced Raman Spectroscopy, SERS)하여 라만 신호를 발생시키고, 상기 SSFA 바이오마커 수집부(120)가 상기 라만 스펙트럼 정보를 수집하는 단계; 를 포함하는,
    방법.
PCT/KR2021/019622 2020-12-22 2021-12-22 인공지능 라만 분석 기법을 이용한 췌장암 조기진단 방법 Ceased WO2022139465A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20200181367 2020-12-22
KR10-2020-0181367 2020-12-22
KR20200181368 2020-12-22
KR10-2020-0181368 2020-12-22

Publications (1)

Publication Number Publication Date
WO2022139465A1 true WO2022139465A1 (ko) 2022-06-30

Family

ID=82158483

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/019622 Ceased WO2022139465A1 (ko) 2020-12-22 2021-12-22 인공지능 라만 분석 기법을 이용한 췌장암 조기진단 방법

Country Status (2)

Country Link
KR (1) KR20220091408A (ko)
WO (1) WO2022139465A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024248436A1 (ko) * 2023-05-26 2024-12-05 주식회사 이모코그 인공지능 모델을 이용하여 질병을 진단하는 방법 및 장치
CN117783088B (zh) * 2024-02-23 2024-05-14 广州贝拓科学技术有限公司 激光显微拉曼光谱仪的控制模型训练方法及装置、设备
WO2025249837A1 (ko) * 2024-05-27 2025-12-04 주식회사 이모코그 인공지능 모델을 이용하여 질병을 진단하는 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130100096A (ko) * 2010-08-13 2013-09-09 소마로직, 인크. 췌장암 바이오마커 및 그것의 용도
KR20170007774A (ko) * 2014-05-08 2017-01-20 유겐가이샤 마이테크 플라즈모닉 칩 및 이를 이용한 형광 화상 및 라만 분광에 의한 암 질환의 진단 방법
KR20170039168A (ko) * 2014-07-02 2017-04-10 싱가포르국립대학교 비정상적 성장하는 표본 또는 조직의 유형 또는 특성을 분석하는 라만 분광 시스템, 장치 및 방법
KR101830314B1 (ko) * 2017-07-26 2018-02-20 재단법인 구미전자정보기술원 인공지능 기반 베이지안 네트워크를 이용한 췌장암 진단에 필요한 정보제공 방법, 컴퓨터 프로그램 및 컴퓨터 판독 가능한 기록 매체
WO2019213133A1 (en) * 2018-04-30 2019-11-07 City Of Hope Cancer detection and ablation system and method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102289278B1 (ko) 2019-07-09 2021-08-13 주식회사 베르티스 췌장암 진단용 바이오마커 패널 및 그 용도

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130100096A (ko) * 2010-08-13 2013-09-09 소마로직, 인크. 췌장암 바이오마커 및 그것의 용도
KR20170007774A (ko) * 2014-05-08 2017-01-20 유겐가이샤 마이테크 플라즈모닉 칩 및 이를 이용한 형광 화상 및 라만 분광에 의한 암 질환의 진단 방법
KR20170039168A (ko) * 2014-07-02 2017-04-10 싱가포르국립대학교 비정상적 성장하는 표본 또는 조직의 유형 또는 특성을 분석하는 라만 분광 시스템, 장치 및 방법
KR101830314B1 (ko) * 2017-07-26 2018-02-20 재단법인 구미전자정보기술원 인공지능 기반 베이지안 네트워크를 이용한 췌장암 진단에 필요한 정보제공 방법, 컴퓨터 프로그램 및 컴퓨터 판독 가능한 기록 매체
WO2019213133A1 (en) * 2018-04-30 2019-11-07 City Of Hope Cancer detection and ablation system and method

Also Published As

Publication number Publication date
KR20220091408A (ko) 2022-06-30

Similar Documents

Publication Publication Date Title
WO2022139465A1 (ko) 인공지능 라만 분석 기법을 이용한 췌장암 조기진단 방법
WO2015076607A1 (en) Apparatus and method for processing a medical image of a body lumen
WO2019083227A1 (en) MEDICAL IMAGE PROCESSING METHOD, AND MEDICAL IMAGE PROCESSING APPARATUS IMPLEMENTING THE METHOD
WO2019074339A1 (ko) 신호 변환 시스템 및 신호 변환 방법
WO2024112121A1 (ko) 위암 병리조직 이미지 판독 인공지능 소프트웨어
WO2020209566A1 (ko) 인공신경망 기반 핵자기공명 및 자기공명분광 데이터 처리 방법 및 그 장치
WO2022146103A1 (ko) 기계학습을 통한 라만 산란 스펙트럼 데이터베이스 구축 및 검색법
WO2021006649A1 (ko) 췌장암 진단용 바이오마커 패널 및 그 용도
Bird et al. A protocol for rapid, label-free histochemical imaging of fibrotic liver
WO2023033329A1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
WO2021054518A1 (ko) 인공지능 기반 기술의 의료영상분석을 이용한 자궁경부암 진단방법, 장치 및 소프트웨어 프로그램
Breshike et al. Rapid detection of infrared backscatter for standoff detection of trace explosives
WO2022270770A1 (ko) 탐색물질의 분포 내지 탐색물질의 생리활성과 관련이 있는 조직 내 분자적 마커 또는 생리활성 정보를 탐색하기 위한 탐색장치, 시스템, 및 컴퓨터 프로그램
WO2021091282A1 (ko) 3차원 진단 시스템
WO2022019616A1 (ko) 담낭 용종의 진단에 대한 정보 제공 방법 및 이를 이용한 담낭 용종의 진단에 대한 정보 제공용 디바이스
WO2022220649A1 (ko) 심전도 이미지에 기반한 환자 평가 시스템 및 방법
WO2021206363A1 (ko) 캐스케이드 회귀 포레스트의 단순화를 기반으로 한 에너지 효율적인 눈동자 추적 방법 및 장치
WO2023063528A1 (ko) 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법
WO2022145999A1 (ko) 인공지능 기반의 자궁경부암 검진 서비스 시스템
JP2020144012A (ja) 染色画像推定器学習装置、画像処理装置、染色画像推定器学習方法、画像処理方法、染色画像推定器学習プログラム、及び、画像処理プログラム
WO2024147568A1 (ko) 분자진단 분석 결과의 획득 방법, 분자진단 분석 결과를 추정하는 모델의 획득 방법 및 이를 수행하는 컴퓨터 장치
Chechekina et al. Machine learning assisted rapid approach for quantitative prediction of biochemical parameters of blood serum with FTIR spectroscopy
WO2020101333A1 (ko) 다채널 배열전극 프로브를 이용한 스크리닝 장치 및 그 동작 방법
Karagiannis High resolution, in situ, multispectral, spectroscopic mapping imaging system applied in heritage science
Tian et al. Label-free diagnosis of lung cancer by Fourier transform infrared microspectroscopy coupled with domain adversarial learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21911532

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 03/11/2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21911532

Country of ref document: EP

Kind code of ref document: A1