WO2025204577A1 - 装置、方法及びプログラム - Google Patents
装置、方法及びプログラムInfo
- Publication number
- WO2025204577A1 WO2025204577A1 PCT/JP2025/007722 JP2025007722W WO2025204577A1 WO 2025204577 A1 WO2025204577 A1 WO 2025204577A1 JP 2025007722 W JP2025007722 W JP 2025007722W WO 2025204577 A1 WO2025204577 A1 WO 2025204577A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- prediction
- image
- learning
- microorganisms
- microorganism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12M—APPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
- C12M1/00—Apparatus for enzymology or microbiology
- C12M1/34—Measuring or testing with condition measuring or sensing means, e.g. colony counters
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/27—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands using photo-electric detection ; circuits for computing concentration
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Definitions
- This disclosure relates to an apparatus, a method, and a program.
- One known method for investigating the intestinal bacteria of livestock is to collect the ileal contents or feces of livestock and analyze the bacterial flora.
- bacterial flora analysis is performed using culture methods or 16S rRNA analysis.
- the above method using reflectance spectra analyzes the reflection intensity at each wavelength of light reflected from the object, and the analysis results depend on the reflection characteristics of the various microorganisms. For this reason, for example, in the case of a microbial flora in which microorganisms with different reflection characteristics coexist within the object, it is difficult to accurately analyze the state of the various microorganisms (e.g., content ratio, etc.) using the above method.
- the purpose of this disclosure is to improve the analytical accuracy when analyzing the state of various microorganisms in the microbiome.
- an apparatus includes: an acquisition unit that acquires a spectral image generated by dispersing an image signal obtained by capturing an image of an object; a feature amount calculation unit that calculates a feature amount representing a texture based on the spectral image; The system has a prediction unit that predicts data representing the state of microorganisms contained in an object for prediction by inputting the feature values calculated for the object for prediction into a trained model that has been trained using training data including the feature values calculated for the object for learning and data representing the state of microorganisms contained in the object for learning.
- This disclosure makes it possible to improve the accuracy of analysis when analyzing the state of various microorganisms in a microbiome.
- FIG. 1 is a diagram illustrating an example of a system configuration of a microbiome analysis system in a learning phase.
- FIG. 1 is a diagram illustrating an example of the hardware configuration of a microbiome analyzer.
- FIG. 1 is a diagram illustrating an example of a hyperspectral image.
- FIG. 10 is a diagram showing an example of microbiota data.
- FIG. 1 is a diagram illustrating an example of the functional configuration of a microbiome analyzer in the learning phase.
- FIG. 10 is a diagram illustrating an example of processing by an image feature amount calculation unit.
- FIG. 10 is a diagram illustrating an example of processing by a learning data generation unit.
- FIG. 10 is a diagram illustrating an example of processing by a learning unit.
- FIG. 1 is an example of a flowchart showing the flow of a learning process performed by the microbiome analysis system.
- FIG. 1 is a diagram illustrating an example of the system configuration of the microbiome analysis system in the prediction phase.
- FIG. 10 is a diagram illustrating an example of the functional configuration of the microbiome analyzer in the prediction phase.
- FIG. 10 is a diagram illustrating an example of processing by a prediction unit.
- FIG. 10 is a diagram illustrating an example of processing by an output unit.
- 1 is an example of a flowchart showing the flow of prediction processing by the microbiome analysis system.
- FIG. 10 is a diagram showing an example of verification of the prediction accuracy of a trained model that predicts the content ratio of various microorganisms.
- FIG. 10 is a diagram showing an example of verification of the prediction accuracy of a trained model that predicts the type of microorganism with the highest content ratio.
- the microbiota analyzed by the microbiota analysis system is the bacterial flora contained in the ileal contents or feces of livestock. Therefore, in the first embodiment, the "object” refers to livestock, and the “target sample” (target object) refers to the ileal contents or feces.
- the "object” is not limited to livestock, but may be other living organisms.
- the "object” may be a non-living object such as soil.
- the "target sample” is not limited to ileal contents or feces, but may be other intestinal contents or excrement, and if the object is soil, it may be a portion of the soil collected from the soil.
- the "target sample” is a biologically or environmentally derived sample containing a single or multiple types of microorganisms.
- Figure 1 shows an example of the system configuration of a microbiome analysis system in the learning phase.
- the microbiome analysis system 100 in the learning phase comprises a near-infrared light output device 110, a hyperspectral camera 120, a next-generation sequencer 130, and a microbiome analysis device 140, which is the "device" according to the first embodiment.
- the near-infrared light output device 110 is a device that emits near-infrared light (light with a wavelength of 800 nm to 2500 nm).
- the near-infrared light emitted from the near-infrared light output device 110 is irradiated onto a learning target sample 102 collected from an object 101.
- the hyperspectral camera 120 captures the light reflected from the learning target sample 102 and disperses the captured signal into individual wavelengths to generate spectral images (hereinafter referred to as "hyperspectral images") that are captured for each wavelength.
- the hyperspectral camera 120 transmits the hyperspectral images for each wavelength to the microbiome analyzer 140.
- the next-generation sequencer 130 is an instrument that amplifies the 16S rRNA genes of microorganisms by PCR (Polymerase Chain Reaction) and then analyzes them to identify the type and distribution of the microorganisms. By analyzing the learning target sample 102 collected from the object 101, the next-generation sequencer 130 generates microbiota data for the learning target sample 102.
- the microbiota data generated by the next-generation sequencer 130 is data that represents the state of the microorganisms contained in the learning target sample 102.
- the data that represents the state of the microorganisms contained in the learning target sample 102 includes, for example, The type of microorganisms contained in the learning target sample 102, A content ratio representing the ratio of the amount of each type of microorganism contained in the learning target sample 102 to the total amount of all types of microorganisms; The type of microorganism with the highest content ratio among the microorganisms contained in the learning target sample 102 (i.e., the type of microorganism most abundant in the learning target sample 102), The next-generation sequencer 130 transmits the generated microbiota data to the microbiota analyzer 140.
- the microbiome analysis device 140 acquires hyperspectral images of the learning target sample 102 from the hyperspectral camera 120. The microbiome analysis device 140 also acquires microbiome data about the learning target sample 102 from the next-generation sequencer 130.
- FIG. 2 is a diagram showing an example of the hardware configuration of a microbiome analyzer.
- the microbiome analyzer 140 has a processor 201, memory 202, an auxiliary storage device 203, a connection device 204, a communication device 205, and a drive device 206.
- the pieces of hardware included in the microbiome analyzer 140 are connected to each other via a bus 207.
- Memory 202 has a main storage device such as ROM (Read Only Memory) and RAM (Random Access Memory).
- the processor 201 and memory 202 form what is known as a computer, and the computer realizes various functions by the processor 201 executing various programs read onto memory 202.
- the auxiliary storage device 203 stores various programs and various information used when the programs are executed by the processor 201.
- the image storage unit 511, data storage unit 512, learning data storage unit 513, and learned model storage unit 514, which will be described later, are realized in the auxiliary storage device 203.
- connection device 204 is a connection device that connects to external devices (such as an operation device 211 and a display device 212).
- the communication device 205 is a communication device for sending and receiving various information between the hyperspectral camera 120 and the next-generation sequencer 130.
- the drive device 206 is a device for loading the recording medium 213.
- the recording medium 213 here includes media that record information optically, electrically, or magnetically, such as CD-ROMs, flexible disks, and magneto-optical disks.
- the recording medium 213 may also include semiconductor memory that records information electrically, such as ROM and flash memory.
- the various programs installed in the auxiliary storage device 203 are installed, for example, by setting the distributed recording medium 213 in the drive device 206 and reading the various programs recorded on the recording medium 213 using the drive device 206.
- the various programs installed in the auxiliary storage device 203 may be installed by downloading them from a network (not shown) via the communication device 205.
- Fig. 3 is a diagram showing an example of a hyperspectral image.
- reference numerals 300_1, 300_2, 300_3, ..., 300_81, etc. represent hyperspectral images of each wavelength generated by the hyperspectral camera 120.
- reference numeral 300_1 represents a hyperspectral image with a wavelength of 900 [nm]
- reference numeral 300_2 represents a hyperspectral image with a wavelength of 910 [nm]
- reference numeral 300_3 represents a hyperspectral image with a wavelength of 920 [nm].
- reference numeral 300_81 represents a hyperspectral image with a wavelength of 1700 [nm].
- the hyperspectral image generated by the hyperspectral camera 120 is ⁇ Wavelength range: 900 "nm" to 1700 [nm], Wavelength step size: 10 [nm] ⁇ Number of images: 81,
- the hyperspectral image generated by the hyperspectral camera 120 is not limited to the above wavelength range, and may be in a different wavelength range.
- the hyperspectral image generated by the hyperspectral camera 120 is not limited to the above wavelength interval, and may be in a different interval.
- the pixel values of the hyperspectral images for each wavelength correlate with the reflection intensity of light of each wavelength at each position on the target sample 102.
- the hyperspectral image of that specific wavelength will be a textured image.
- the hyperspectral image of that specific wavelength will be a textured image in which light and shade appear at positions within the image that correspond to the positions of the microorganisms within the target sample 102.
- Texture refers to a pattern expressed by some kind of regular, fine variation in density within the image.
- microorganisms referred to here may be the microorganisms themselves, or may be metabolic products (substances related to the microorganisms) produced by decomposition by the microorganisms.
- data representing the state of the microorganisms contained in the target sample 102 includes data representing the state of the microorganisms and substances related to the microorganisms.
- Fig. 4 is a diagram showing an example of the microbiome data.
- the microbiome data 400 includes information items such as "target sample,” “microbial species,” “content ratio,” and “high-content microbial species.”
- Target sample stores an identifier ("sample 1" in the example of Figure 4) for identifying the learning target sample (e.g., target sample 102) used to generate the microbiome data 400.
- Microorganism species stores the type of microorganism (in the example of Figure 4, "Microorganism A,” “Microorganism B,” “Microorganism C,” etc.) contained in the learning target sample (e.g., target sample 102) used to generate the microbiome data 400.
- “Highly abundant microbial species” stores the type of microorganism with the highest abundance (“microorganism F” in the example of Figure 4) among the microorganisms contained in the learning target sample (e.g., target sample 102) used to generate the microbiome data 400.
- FIG. 5 is a diagram showing an example of the functional configuration of the microbiome analyzer in the learning phase.
- a microbiome analysis program is installed in the microbiome analyzer 140, and by executing this microbiome analysis program in the learning phase, the microbiome analyzer 140: Hyperspectral image acquisition unit 501, Image feature amount calculation unit 502, - Microbiota data acquisition unit 503, A learning data generation unit 504, Learning unit 505, It functions as:
- the hyperspectral image acquisition unit 501 acquires hyperspectral images of each wavelength from the hyperspectral camera 120 and stores them in the image storage unit 511.
- the image feature calculation unit 502 reads out the hyperspectral images for each wavelength stored in the image storage unit 511, calculates the image feature for each wavelength, and notifies the learning data generation unit 504.
- the image features calculated by the image feature calculation unit 502 are features that represent the texture in the hyperspectral image for each wavelength.
- Features that represent the texture refer to quantitative representations of the properties of the texture.
- the image feature calculation unit 502 can capture the distribution of microorganisms contained in the target sample for each wavelength. Therefore, compared to conventional methods that simply analyze the reflection intensity at each wavelength (methods that use the reflection spectrum), the image feature calculation unit 502 can calculate features that accurately represent the amount of microorganisms contained in the target sample.
- features representing texture include any feature, such as a feature (statistic) based on a histogram representing the frequency distribution of pixel values for each pixel, a difference statistic, a density co-occurrence matrix, or a Fourier feature.
- a feature statistic
- a histogram representing the frequency distribution of pixel values for each pixel
- a difference statistic a statistic for pixel
- a density co-occurrence matrix a feature that represents texture
- a Fourier feature a feature based on a histogram.
- the microbiome data acquisition unit 503 acquires the microbiome data 400 from the next-generation sequencer 130 and stores it in the data storage unit 512.
- the learning data generation unit 504 Learning data in which the content ratios of various microorganisms contained in the learning target sample 102 are used as correct answer data; Learning data in which the type of microorganism with the highest content ratio among the microorganisms contained in the learning target sample 102 is used as the correct answer data; At least two types of learning data are generated.
- the learning unit 505 uses the learning data stored in the learning data storage unit 513 to train the model, thereby generating a trained model that predicts data representing the state of microorganisms contained in the target sample for prediction, and stores this in the trained model storage unit 514.
- the trained model generated by the training unit 505 includes: A trained model trained using training data in which the content ratios of various microorganisms contained in the training target sample 102 are used as correct answer data (a trained model that predicts the content ratios of various microorganisms in a prediction target sample), A trained model trained using training data in which the type of microorganism with the highest content ratio among the microorganisms contained in the training target sample 102 is used as the correct answer data (a trained model that predicts the type of microorganism with the highest content ratio in the prediction target sample), The number of trained models that predict the content ratio of each type of microorganism is generated according to the number of types of microorganisms.
- the normalization unit 610 performs normalization processing on the hyperspectral images (reference numerals 300_1, 300_2, ..., and 300_81) of each wavelength read out from the image storage unit 511. Specifically, the normalization unit 610 performs normalization processing on the hyperspectral images (reference numerals 300_1, 300_2, ..., and 300_81) of each wavelength read out from the image storage unit 511.
- the pixel value of each pixel included in the hyperspectral image of each wavelength (hyperspectral image excluding the hyperspectral image of a specific wavelength) is - The pixel value of a specific pixel contained in a hyperspectral image of a specific wavelength, Normalization is performed by division.
- the hyperspectral images for each wavelength normalized by the normalization unit 610 are notified to the histogram generation unit 620.
- the histogram generation unit 620 In order to calculate features representing the texture, the histogram generation unit 620 generates histograms (frequency distribution of pixel values for each pixel) of the normalized hyperspectral image for each wavelength and notifies the feature calculation unit 630.
- reference numeral 600_1 represents the histogram of the normalized hyperspectral image (reference numeral 300_1)
- reference numeral 600_2 represents the histogram of the normalized hyperspectral image (reference numeral 300_2)
- reference numeral 600_81 represents the histogram of the normalized hyperspectral image (reference numeral 300_81).
- the feature calculation unit 630 calculates feature amounts based on histograms for each hyperspectral image after normalization for each wavelength. Therefore, if the number of images (number of wavelengths) in the hyperspectral image is 81 and the number of feature amounts based on each histogram is 11, the image feature amount group 602 notified to the training data generation unit 504 by the feature amount calculation unit 630 will include 891 image feature amounts.
- Fig. 7 is a diagram showing an example of processing by the training data generation unit. As shown in Fig. 7, the training data generation unit 504 further includes an image feature narrowing unit 710 and a combining unit 720.
- the image feature narrowing unit 710 When the image feature narrowing unit 710 is notified of the image feature group 602 by the feature calculation unit 630, it selects a predetermined image feature from the multiple image features included in the notified image feature group 602 and notifies the combination unit 720.
- the image feature selected by the image feature narrowing unit 710 is an image feature that is useful for predicting data representing the state of microorganisms contained in the learning target sample 102, and is assumed to have been determined in advance.
- the image features selected by the image feature narrowing unit 710 are determined in advance based on the best verification results obtained by repeating learning and verification using various combinations of image features.
- the selected image features may be different for each piece of training data generated by the combining unit 720, or may be common regardless of the training data.
- the image features selected when generating training data for predicting the content ratio of various microorganisms may be the same as or different from the image features selected when generating training data for predicting the type of microorganism with the highest content ratio.
- the image features selected when generating training data for predicting the content ratio of various microorganisms may be the same or different for each type of microorganism.
- the combining unit 720 When the combining unit 720 is notified of the refined image features by the image feature refinement unit 710, it reads the corresponding microbiome data 400 from the data storage unit 512 and generates learning data.
- Reference numeral 730_1 denotes training data generated for the training target sample 102 identified by “sample 1,”
- the image feature amounts ( ⁇ 1 ) to ( ⁇ 80 ), which are the image feature amounts after narrowing down notified by the image feature amount narrowing unit 710, are used as input data.
- the training data shown is:
- Trained model A1201 is a trained model that predicts the content ratio of "microorganism A.”
- Trained model ⁇ 1221 is a trained model that predicts the type of microorganism with the highest content ratio.
- the prediction result 1300 includes the information items "target sample,” “microorganism species,” “content ratio,” and “high-content microorganism species.”
- Microorganism species stores the type of microorganism (in the example of Figure 13, "Microorganism A,” “Microorganism B,” “Microorganism C,” etc.) contained in the target sample for prediction (e.g., target sample 1002).
- step S1402 the microbiome analysis system 1000 irradiates the target sample 1002 with near-infrared light and captures the reflected light using the hyperspectral camera 120, thereby generating hyperspectral images for each wavelength.
- step S1403 the microbiome analysis system 1000 performs normalization processing on the acquired hyperspectral images for each wavelength.
- step S1404 the microbiome analysis system 1000 calculates image features for the normalized hyperspectral images at each wavelength.
- step S1408 the microbiome analysis system 1000 outputs the prediction results.
- step S1409 the microbiome analysis system 1000 determines whether there are other target samples for prediction. If it is determined in step S1409 that there are other target samples for prediction (YES in step S1409), the process returns to step S1401.
- step S1409 determines whether there are no other target samples for prediction (NO in step S1409). If it is determined in step S1409 that there are no other target samples for prediction (NO in step S1409), the prediction process ends.
- Graph 1520 shows an example of verification of the prediction accuracy of a trained model that predicts the content ratio of streptococcus (Streptococcus).
- the horizontal axis shows the content ratio of streptococcus (actual measured value %) obtained by analyzing each target sample under verification using the next-generation sequencer 130.
- the vertical axis shows the content ratio of streptococcus (predicted value %) predicted for each target sample under verification using the trained model that predicts the content ratio of streptococcus.
- Row 1601 in Table 1600 shows that 18 test samples were analyzed to have the highest content of Lactobacillus as an actual measurement.
- the trained model which predicts the type of microorganism with the highest content, was able to predict that Lactobacillus was the microorganism with the highest content in 17 of these test samples.
- the microbiome analyzer 140 performs the following in the learning phase: A hyperspectral image is obtained by dispersing signals (photographed signals) obtained by photographing the target sample 102 for learning. ⁇ Calculate features that represent texture based on hyperspectral images. - A trained model is generated by training using training data including image features calculated for the training target sample 102 and data representing the state of microorganisms contained in the training target sample 102.
- the microbiome analysis device 140 calculates feature quantities that represent texture based on hyperspectral images, thereby capturing the distribution of microorganisms contained in a target sample for each wavelength. Therefore, according to the first embodiment, it is possible to calculate feature quantities that accurately represent the amount of microorganisms contained in a target sample, compared to conventional methods that simply analyze the reflection intensity at each wavelength (methods that use the reflection spectrum).
- the first embodiment even if microorganisms with different reflection characteristics are mixed within the target sample for prediction, it is possible to accurately predict data representing the state of various microorganisms.
- the microbiome analysis device 140 can improve the accuracy of analysis when analyzing the state of various microorganisms in a microbiome.
- the near-infrared light emitted from the near-infrared light output device 110 is irradiated onto a target sample, and the hyperspectral camera 120 captures the light reflected from the target sample.
- the light captured by the hyperspectral camera 120 is not limited to the light reflected from the target sample.
- the hyperspectral camera 120 may capture the light transmitted through the target sample.
- the microbiome analysis system is equipped with a near-infrared light output device and is configured to irradiate the target sample with near-infrared light.
- the light irradiated onto the target sample is not limited to near-infrared light, and light in other wavelength ranges may also be irradiated.
- the microbiome analysis system is configured to include a hyperspectral camera 120 and generate hyperspectral images.
- the configuration of the microbiome analysis system is not limited to this, and instead of the hyperspectral camera 120, for example, a near-infrared camera and a spectral filter may be provided, and a spectral image may be generated by spectrally dispersing the captured signal.
- the pixel value of a pixel in the water region included in the hyperspectral image with a wavelength of 1440 nm was used as the pixel value of the specific pixel when the normalization unit 610 normalized.
- the pixel value of the specific pixel used by the normalization unit 610 when normalizing is not limited to this, and the pixel value of another pixel included in a hyperspectral image with another wavelength may also be used.
- the features representing texture include arbitrary features, and specific examples include features (statistics) based on a histogram representing the frequency distribution of pixel values for each pixel, difference statistics, a density co-occurrence matrix, and Fourier features.
- the arbitrary features referred to here are not limited to features calculated using classical image processing techniques, and may also include, for example, variables calculated using deep learning techniques such as CNN and Vision Transformer.
- the image feature amount calculation unit 502 performs processing in the order of normalization, histogram generation, and feature amount calculation.
- the order of processing performed by the image feature amount calculation unit 502 is not limited to this, and the image feature amount calculation unit 502 may perform processing in the order of histogram generation, feature amount calculation, and normalization, for example.
- the image feature amount calculation unit 502 calculates image feature amounts that have been normalized.
- the normalization processing in the image feature amount calculation unit 502 is - The pixel value of a specific pixel contained in a hyperspectral image of a specific wavelength.
- the normalization method is not limited to this. For example, normalization may be performed by subtraction instead of division, or by performing other operations. Note that the normalization process in the image feature amount calculation unit 502 is not an essential component, and the image feature amount calculation unit 502 does not necessarily have to include the normalization unit 610.
- Microbiota analysis system 110 Near-infrared light output device 120: Hyperspectral camera 130: Next-generation sequencer 140: Microbiota analysis device 400: Microbiota data 501: Hyperspectral image acquisition unit 502: Image feature calculation unit 503: Microbiota data acquisition unit 504: Learning data generation unit 505: Learning unit 610: Normalization unit 620: Histogram generation unit 630: Feature calculation unit 710: Image feature narrowing unit 720: Combination unit 1101: Prediction unit 1102: Output unit
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Microbiology (AREA)
- Sustainable Development (AREA)
- Mathematical Physics (AREA)
- Pathology (AREA)
- Medicinal Chemistry (AREA)
- Genetics & Genomics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Image Analysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
装置は、対象物を撮影した撮影信号を分光することで生成される分光画像を取得する取得部と、前記分光画像に基づいてテクスチャを表す特徴量を算出する特徴量算出部と、学習用の対象物について算出された前記特徴量と、前記学習用の対象物に含まれる微生物の状態を表すデータと、を含む学習用データを用いて学習された学習済みモデルに、予測用の対象物について算出された前記特徴量を入力することで、前記予測用の対象物に含まれる微生物の状態を表すデータを予測する予測部とを有する。
Description
本開示は、装置、方法及びプログラムに関する。
家畜の腸内細菌等を調べる方法として、例えば、家畜の回腸内容物や糞便等を採取し、細菌叢を解析する方法が知られている。一般に、細菌叢の解析には、培養法による解析や16SrRNA解析等が用いられる。
一方で、細菌叢を含む微生物叢を解析する方法として、対象物に所定の波長の光を照射することで得られる反射スペクトルを用いる方法が提案されている。当該解析方法によれば、対象物に含まれる微生物の種類を、低コストで解析することができる。
しかしながら、反射スペクトルを用いる上記方法は、対象物から反射する光の各波長での反射強度を解析するものであり、解析結果は、各種微生物の反射特性に依存する。このため、例えば、反射特性の異なる微生物が対象物内に混在する微生物叢の場合、上記方法では、各種微生物の状態(例えば、含有比率等)を精度よく解析することが難しい。
本開示は、微生物叢について、各種微生物の状態を解析する際の解析精度を向上させることを目的としている。
一態様によれば、装置は、
対象物を撮影した撮影信号を分光することで生成される分光画像を取得する取得部と、
前記分光画像に基づいてテクスチャを表す特徴量を算出する特徴量算出部と、
学習用の対象物について算出された前記特徴量と、前記学習用の対象物に含まれる微生物の状態を表すデータと、を含む学習用データを用いて学習された学習済みモデルに、予測用の対象物について算出された前記特徴量を入力することで、前記予測用の対象物に含まれる微生物の状態を表すデータを予測する予測部とを有する。
対象物を撮影した撮影信号を分光することで生成される分光画像を取得する取得部と、
前記分光画像に基づいてテクスチャを表す特徴量を算出する特徴量算出部と、
学習用の対象物について算出された前記特徴量と、前記学習用の対象物に含まれる微生物の状態を表すデータと、を含む学習用データを用いて学習された学習済みモデルに、予測用の対象物について算出された前記特徴量を入力することで、前記予測用の対象物に含まれる微生物の状態を表すデータを予測する予測部とを有する。
本開示によれば、微生物叢について、各種微生物の状態を解析する際の解析精度を向上させることができる。
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
[第1の実施形態]
<微生物叢解析システムの学習フェーズにおけるシステム構成>
はじめに、微生物叢を解析する微生物叢解析システムのシステム構成について説明する。第1の実施形態において、微生物叢解析システムは、学習処理を行う学習フェーズと、予測処理を行う予測フェーズとで異なるシステム構成を有する。ここでは、微生物叢解析システムの学習フェーズにおけるシステム構成について説明する。
<微生物叢解析システムの学習フェーズにおけるシステム構成>
はじめに、微生物叢を解析する微生物叢解析システムのシステム構成について説明する。第1の実施形態において、微生物叢解析システムは、学習処理を行う学習フェーズと、予測処理を行う予測フェーズとで異なるシステム構成を有する。ここでは、微生物叢解析システムの学習フェーズにおけるシステム構成について説明する。
また、第1の実施形態において、微生物叢解析システムが解析する微生物叢は、家畜の回腸内容物や糞便に含まれる細菌叢であるとする。したがって、第1の実施形態において、「物体」は家畜を有し、「対象サンプル」(対象物)は回腸内容物または糞便を指すものとする。
ただし、「物体」は家畜に限定されず、他の生物であってもよい。あるいは、土壌に含まれる微生物叢を解析するシーンにおいては、「物体」は土壌等の非生物であってもよい。また、「対象サンプル」は、回腸内容物や糞便に限定されず、他の腸内容物や排泄物であってもよく、また、物体が土壌の場合にあっては、土壌から採取した土壌の一部であってもよい。つまり、「対象サンプル」は、単一種又は複数種類の微生物を含む生体由来または環境由来のサンプルである。
図1は、微生物叢解析システムの学習フェーズにおけるシステム構成の一例を示す図である。図1に示すように、学習フェーズにおける微生物叢解析システム100は、近赤外光出力機器110と、ハイパースペクトルカメラ120と、次世代シーケンサ130と、第1の実施形態に係る「装置」である微生物叢解析装置140とを備える。
近赤外光出力機器110は、近赤外光(波長=800[nm]~2500nmの光)を出射する機器である。近赤外光出力機器110から出射された近赤外光は、物体101から採取された学習用の対象サンプル102に照射される。
ハイパースペクトルカメラ120は、学習用の対象サンプル102から反射した反射光を撮影し、撮影信号を各波長に分光することで、波長ごとの撮影画像である分光画像(以下では、「ハイパースペクトル画像」と称す)を生成する。ハイパースペクトルカメラ120は、各波長のハイパースペクトル画像を、微生物叢解析装置140に送信する。
次世代シーケンサ130は、微生物が有する16SrRNA遺伝子をPCR(Polymerase Chain Reaction)にて増幅したうえで解析し、微生物の種類及び分布を特定する機器である。物体101から採取された学習用の対象サンプル102について解析することで、次世代シーケンサ130は、学習用の対象サンプル102についての微生物叢データを生成する。次世代シーケンサ130により生成される微生物叢データは、学習用の対象サンプル102に含まれる微生物の状態を表すデータである。第1の実施形態において、学習用の対象サンプル102に含まれる微生物の状態を表すデータには、例えば、
・学習用の対象サンプル102に含まれる微生物の種類、
・学習用の対象サンプル102に含まれる各種微生物の量の、全ての種類の微生物の総量に占める比率を表す含有比率、
・学習用の対象サンプル102に含まれる微生物のうち最も含有比率の高い微生物(つまり、学習用の対象サンプル102に最も多く含まれる微生物)の種類、
等の情報が含まれる。次世代シーケンサ130は、生成した微生物叢データを、微生物叢解析装置140に送信する。
・学習用の対象サンプル102に含まれる微生物の種類、
・学習用の対象サンプル102に含まれる各種微生物の量の、全ての種類の微生物の総量に占める比率を表す含有比率、
・学習用の対象サンプル102に含まれる微生物のうち最も含有比率の高い微生物(つまり、学習用の対象サンプル102に最も多く含まれる微生物)の種類、
等の情報が含まれる。次世代シーケンサ130は、生成した微生物叢データを、微生物叢解析装置140に送信する。
微生物叢解析装置140は、学習フェーズにおいて、ハイパースペクトルカメラ120から、学習用の対象サンプル102についてのハイパースペクトル画像を取得する。また、微生物叢解析装置140は、次世代シーケンサ130から、学習用の対象サンプル102についての微生物叢データを取得する。
微生物叢解析装置140は、取得したハイパースペクトル画像と微生物叢データとに基づいて、学習用データを生成し、生成した学習用データを用いて、機械学習モデル(以下、単に「モデル」と称す)の学習を行い、学習済みモデルを生成する。微生物叢解析装置140により生成される学習済みモデルは、予測用の対象サンプルに含まれる微生物の状態を表すデータを予測する学習済みモデルである。第1の実施形態において、予測用の対象サンプルに含まれる微生物の状態を表すデータを予測する学習済みモデルには、
・予測用の対象サンプルに含まれる各種微生物の含有比率を予測する学習済みモデル、
・予測用の対象サンプルに含まれる微生物のうち、最も含有比率の高い微生物の種類を予測する学習済みモデル、
が含まれる。
・予測用の対象サンプルに含まれる各種微生物の含有比率を予測する学習済みモデル、
・予測用の対象サンプルに含まれる微生物のうち、最も含有比率の高い微生物の種類を予測する学習済みモデル、
が含まれる。
<微生物叢解析装置のハードウェア構成>
次に、微生物叢解析装置140のハードウェア構成について説明する。図2は、微生物叢解析装置のハードウェア構成の一例を示す図である。図2に示すように、微生物叢解析装置140は、プロセッサ201、メモリ202、補助記憶デバイス203、接続デバイス204、通信デバイス205、ドライブ機器206を有する。なお、微生物叢解析装置140に含まれる各ハードウェアは、バス207を介して相互に接続されている。
次に、微生物叢解析装置140のハードウェア構成について説明する。図2は、微生物叢解析装置のハードウェア構成の一例を示す図である。図2に示すように、微生物叢解析装置140は、プロセッサ201、メモリ202、補助記憶デバイス203、接続デバイス204、通信デバイス205、ドライブ機器206を有する。なお、微生物叢解析装置140に含まれる各ハードウェアは、バス207を介して相互に接続されている。
プロセッサ201は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の各種演算デバイスを有する。プロセッサ201は、各種プログラム(例えば、第1の実施形態に係る「プログラム」である微生物叢解析プログラム等)をメモリ202上に読み出して実行する。
メモリ202は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ201とメモリ202とは、いわゆるコンピュータを形成し、プロセッサ201が、メモリ202上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
補助記憶デバイス203は、各種プログラムや、各種プログラムがプロセッサ201によって実行される際に用いられる各種情報を格納する。後述する画像格納部511、データ格納部512、学習用データ格納部513、学習済みモデル格納部514は、補助記憶デバイス203において実現される。
接続デバイス204は、外部機器(操作機器211、表示機器212等)と接続する接続デバイスである。
通信デバイス205は、ハイパースペクトルカメラ120、次世代シーケンサ130との間で各種情報を送受信するための通信デバイスである。
ドライブ機器206は記録媒体213をセットするための機器である。ここでいう記録媒体213には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体213には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
なお、補助記憶デバイス203にインストールされる各種プログラムは、例えば、配布された記録媒体213がドライブ機器206にセットされ、該記録媒体213に記録された各種プログラムがドライブ機器206により読み出されることでインストールされる。あるいは、補助記憶デバイス203にインストールされる各種プログラムは、通信デバイス205を介して不図示のネットワークからダウンロードされることで、インストールされてもよい。
<ハイパースペクトル画像の具体例>
次に、ハイパースペクトルカメラ120により生成されるハイパースペクトル画像の具体例について説明する。図3は、ハイパースペクトル画像の一例を示す図である。
次に、ハイパースペクトルカメラ120により生成されるハイパースペクトル画像の具体例について説明する。図3は、ハイパースペクトル画像の一例を示す図である。
図3において、横軸は波長を表す。また、図3において、符号300_1、符号300_2、符号300_3、・・・符号300_81等は、ハイパースペクトルカメラ120により生成された、各波長のハイパースペクトル画像である。
図3の例は、符号300_1が波長=900[nm]のハイパースペクトル画像を、符号300_2が波長=910[nm]のハイパースペクトル画像を、符号300_3が波長=920[nm]のハイパースペクトル画像をそれぞれ表している。また、図3の例は、符号300_81が波長=1700[nm]のハイパースペクトル画像を表している。
このように、ハイパースペクトルカメラ120により生成されるハイパースペクトル画像は、
・波長範囲:900「nm」~1700[nm]、
・波長の刻み幅:10[nm]、
・画像枚数:81、
であるとする。ただし、ハイパースペクトルカメラ120により生成されるハイパースペクトル画像は、上記波長範囲に限定されず、異なる波長範囲であってもよい。また、ハイパースペクトルカメラ120により生成されるハイパースペクトル画像は、上記波長の刻み幅に限定されず、異なる刻み幅であってもよい。
・波長範囲:900「nm」~1700[nm]、
・波長の刻み幅:10[nm]、
・画像枚数:81、
であるとする。ただし、ハイパースペクトルカメラ120により生成されるハイパースペクトル画像は、上記波長範囲に限定されず、異なる波長範囲であってもよい。また、ハイパースペクトルカメラ120により生成されるハイパースペクトル画像は、上記波長の刻み幅に限定されず、異なる刻み幅であってもよい。
図3において、符号300_1、符号300_2、符号300_3、・・・符号300_81等として示した、各波長のハイパースペクトル画像の各画素値は、対象サンプル102の各位置での、各波長の光の反射強度に相関する。
したがって、対象サンプル102内に、例えば、特定の波長の光を反射する所定の反射特性を有する微生物が分布していた場合、当該特定の波長のハイパースペクトル画像は、テクスチャ状の画像となる。具体的には、当該特定の波長のハイパースペクトル画像は、当該微生物の対象サンプル102内での各位置に対応する画像内の各位置に、濃淡が現れるテクスチャ状の画像となる。テクスチャとは、画像内の何らかの規則的な細かな濃度変化が表す模様を指す。
なお、ここでいう微生物とは、微生物そのものであってもよいし、微生物によって分解されることで生成された代謝産物等(微生物の関連物質)であってもよい。つまり、対象サンプル102に含まれる微生物の状態を表すデータには、微生物及び微生物の関連物質の状態を表すデータが含まれる。
<微生物叢データの具体例>
次に、次世代シーケンサ130により生成される微生物叢データの具体例について説明する。図4は、微生物叢データの一例を示す図である。
次に、次世代シーケンサ130により生成される微生物叢データの具体例について説明する。図4は、微生物叢データの一例を示す図である。
図4に示すように、微生物叢データ400は、情報の項目として、“対象サンプル”、“微生物種”、“含有比率”、“高含有微生物種”を含む。
“対象サンプル”には、微生物叢データ400の生成に用いられた学習用の対象サンプル(例えば、対象サンプル102)を識別するための識別子(図4の例では、「サンプル1」)が格納される。
“微生物種”には、微生物叢データ400の生成に用いられた学習用の対象サンプル(例えば、対象サンプル102)に含まれる微生物の種類(図4の例では、「微生物A」、「微生物B」、「微生物C」・・・等)が格納される。
“含有比率”には、微生物叢データ400の生成に用いられた学習用の対象サンプル(例えば、対象サンプル102)に含まれる各種微生物の含有比率(図4の例では、「a%」、「b%」、「c%」、・・・等)が格納される。
“高含有微生物種”には、微生物叢データ400の生成に用いられた学習用の対象サンプル(例えば、対象サンプル102)に含まれる微生物のうち、最も含有比率が高い微生物の種類(図4の例では、「微生物F」)が格納される。
<微生物叢解析装置の機能構成>
次に、微生物叢解析装置の学習フェーズにおける機能構成について説明する。図5は、微生物叢解析装置の学習フェーズにおける機能構成の一例を示す図である。上述したように、微生物叢解析装置140には、微生物叢解析プログラムがインストールされており、当該微生物叢解析プログラムが学習フェーズにおいて実行されることで、微生物叢解析装置140は、
・ハイパースペクトル画像取得部501、
・画像特徴量算出部502、
・微生物叢データ取得部503、
・学習用データ生成部504、
・学習部505、
として機能する。
次に、微生物叢解析装置の学習フェーズにおける機能構成について説明する。図5は、微生物叢解析装置の学習フェーズにおける機能構成の一例を示す図である。上述したように、微生物叢解析装置140には、微生物叢解析プログラムがインストールされており、当該微生物叢解析プログラムが学習フェーズにおいて実行されることで、微生物叢解析装置140は、
・ハイパースペクトル画像取得部501、
・画像特徴量算出部502、
・微生物叢データ取得部503、
・学習用データ生成部504、
・学習部505、
として機能する。
ハイパースペクトル画像取得部501は、ハイパースペクトルカメラ120から各波長のハイパースペクトル画像を取得し、画像格納部511に格納する。
画像特徴量算出部502は、画像格納部511に格納された各波長のハイパースペクトル画像を読み出し、波長ごとに、画像特徴量を算出し、学習用データ生成部504に通知する。
画像特徴量算出部502により算出される画像特徴量は、各波長のハイパースペクトル画像におけるテクスチャを表す特徴量である。テクスチャを表す特徴量とは、テクスチャの性質を定量的に表したものを指す。
このように、テクスチャを表す特徴量を算出することで、画像特徴量算出部502は、対象サンプルに含まれる微生物の分布を、波長ごとに捉えることができる。このため、従来のように、単に各波長での反射強度を解析する方法(反射スペクトルを用いる方法)と比較して、画像特徴量算出部502によれば、対象サンプルに含まれる微生物の量を適確に表す特徴量を算出することが可能になる。
この結果、当該テクスチャを表す特徴量を用いることで、反射特性の異なる微生物が対象サンプル内に混在する場合であっても、各種微生物の状態(例えば、含有比率等)を精度よく解析することが可能になる。
なお、テクスチャを表す特徴量には、各画素の画素値の度数分布を表すヒストグラムに基づく特徴量(統計量)、差分統計量、濃度共起行列、フーリエ特徴量等、任意の特徴量が含まれるが、第1の実施形態では、このうち、ヒストグラムに基づく特徴量を用いる。
微生物叢データ取得部503は、次世代シーケンサ130から微生物叢データ400を取得し、データ格納部512に格納する。
学習用データ生成部504は、画像特徴量算出部502から画像特徴量が通知されると、データ格納部512から、対応する微生物叢データ400を読み出し、学習用データを生成する。学習用データ生成部504により生成される学習用データは、
・画像特徴量算出部502から通知された、学習用の対象サンプル102についての画像特徴量の全部または一部を入力データとする。
・データ格納部512から読み出された微生物叢データ400のうち、学習用の対象サンプル102に含まれる微生物の状態を表すデータを正解データとする。
・画像特徴量算出部502から通知された、学習用の対象サンプル102についての画像特徴量の全部または一部を入力データとする。
・データ格納部512から読み出された微生物叢データ400のうち、学習用の対象サンプル102に含まれる微生物の状態を表すデータを正解データとする。
具体的には、第1の実施形態において、学習用データ生成部504は、
・学習用の対象サンプル102に含まれる各種微生物の含有比率を正解データとする学習用データ、
・学習用の対象サンプル102に含まれる微生物のうち最も含有比率の高い微生物の種類を正解データとする学習用データ、
の少なくとも2種類の学習用データを生成する。
・学習用の対象サンプル102に含まれる各種微生物の含有比率を正解データとする学習用データ、
・学習用の対象サンプル102に含まれる微生物のうち最も含有比率の高い微生物の種類を正解データとする学習用データ、
の少なくとも2種類の学習用データを生成する。
学習用データ生成部504は、生成した2種類の学習用データを、学習用データ格納部513に格納する。学習用データ格納部513には、学習用の複数の対象サンプルについて学習用データ生成部504により生成された学習用データが格納される。
学習部505は、学習用データ格納部513に格納された学習用データを用いてモデルの学習を行うことで、予測用の対象サンプルに含まれる微生物の状態を表すデータを予測する学習済みモデルを生成し、学習済みモデル格納部514に格納する。
学習部505により生成される学習済みモデルには、
・学習用の対象サンプル102に含まれる各種微生物の含有比率を正解データとする学習用データを用いて学習された学習済みモデル(予測用の対象サンプルにおいて、各種微生物の含有比率を予測する学習済みモデル)、
・学習用の対象サンプル102に含まれる微生物のうち最も含有比率の高い微生物の種類を正解データとする学習用データを用いて学習された学習済みモデル(予測用の対象サンプルにおいて、最も含有比率の高い微生物の種類を予測する学習済みモデル)、
が含まれる。なお、各種微生物の含有比率を予測する学習済みモデルは、微生物の種類の数に応じた数だけ生成される。
・学習用の対象サンプル102に含まれる各種微生物の含有比率を正解データとする学習用データを用いて学習された学習済みモデル(予測用の対象サンプルにおいて、各種微生物の含有比率を予測する学習済みモデル)、
・学習用の対象サンプル102に含まれる微生物のうち最も含有比率の高い微生物の種類を正解データとする学習用データを用いて学習された学習済みモデル(予測用の対象サンプルにおいて、最も含有比率の高い微生物の種類を予測する学習済みモデル)、
が含まれる。なお、各種微生物の含有比率を予測する学習済みモデルは、微生物の種類の数に応じた数だけ生成される。
<微生物叢解析装置の各機能部による処理の具体例>
次に、微生物叢解析装置140の学習フェーズにおける各機能部(ここでは、画像特徴量算出部502、学習用データ生成部504、学習部505)による処理の具体例について説明する。
次に、微生物叢解析装置140の学習フェーズにおける各機能部(ここでは、画像特徴量算出部502、学習用データ生成部504、学習部505)による処理の具体例について説明する。
(1)画像特徴量算出部502による処理の具体例
はじめに、画像特徴量算出部502による処理の具体例について説明する。図6は、画像特徴量算出部による処理の一例を示す図である。図6に示すように、画像特徴量算出部502は、更に、正規化部610、ヒストグラム生成部620、特徴量算出部630を有する。
はじめに、画像特徴量算出部502による処理の具体例について説明する。図6は、画像特徴量算出部による処理の一例を示す図である。図6に示すように、画像特徴量算出部502は、更に、正規化部610、ヒストグラム生成部620、特徴量算出部630を有する。
正規化部610は、画像格納部511から読み出した、各波長のハイパースペクトル画像(符号300_1、符号300_2、・・・符号300_81)に対して、正規化処理を行う。具体的には、正規化部610は、
・各波長のハイパースペクトル画像(特定波長のハイパースペクトル画像を除くハイパースペクトル画像)に含まれる各画素の画素値を、
・特定波長のハイパースペクトル画像に含まれる特定画素の画素値で、
除算することで、正規化処理を行う。
・各波長のハイパースペクトル画像(特定波長のハイパースペクトル画像を除くハイパースペクトル画像)に含まれる各画素の画素値を、
・特定波長のハイパースペクトル画像に含まれる特定画素の画素値で、
除算することで、正規化処理を行う。
特定波長のハイパースペクトル画像に含まれる特定画素の画素値とは、例えば、波長=1440[nm]のハイパースペクトル画像に含まれる、水領域の画素の画素値である。このように、正規化処理を行うことで、各波長のハイパースペクトル画像間の、反射強度のばらつきの影響を低減させることができる。
正規化部610により正規化処理された、正規化後の各波長のハイパースペクトル画像は、ヒストグラム生成部620に通知される。
ヒストグラム生成部620は、テクスチャを表す特徴量を算出するために、正規化後の各波長のハイパースペクトル画像のヒストグラム(各画素の画素値の度数分布)を生成し、特徴量算出部630に通知する。図6において、符号600_1は、正規化後のハイパースペクトル画像(符号300_1)のヒストグラムを表し、符号600_2は、正規化後のハイパースペクトル画像(符号300_2)のヒストグラムを表す。また、符号600_81は、正規化後のハイパースペクトル画像(符号300_81)のヒストグラムを表す。
特徴量算出部630は、ヒストグラム生成部620よりヒストグラムが通知されると、テクスチャを表す特徴量として、当該ヒストグラムに基づく特徴量を算出する。具体的には、特徴量算出部630は、ヒストグラムに基づく特徴量として、例えば、
・平均値、
・標準偏差、
・分散値、
・最小値、
・最大値、
・中央値、
・第1四分位数、
・第3四分位数、
・最頻値、
・尖度、
・歪度、
を算出する。
・平均値、
・標準偏差、
・分散値、
・最小値、
・最大値、
・中央値、
・第1四分位数、
・第3四分位数、
・最頻値、
・尖度、
・歪度、
を算出する。
特徴量算出部630は、ヒストグラムに基づく特徴量を、各波長の正規化後のハイパースペクトル画像それぞれについて算出する。このため、ハイパースペクトル画像の画像枚数(波長の数)が81で、各ヒストグラムに基づく特徴量の数が11個であるとすると、特徴量算出部630により学習用データ生成部504に通知される画像特徴量群602には、891個の画像特徴量が含まれる。
(2)学習用データ生成部504による処理の具体例
次に、学習用データ生成部504による処理の具体例について説明する。図7は、学習用データ生成部による処理の一例を示す図である。図7に示すように、学習用データ生成部504は、更に、画像特徴量絞り込み部710、結合部720を有する。
次に、学習用データ生成部504による処理の具体例について説明する。図7は、学習用データ生成部による処理の一例を示す図である。図7に示すように、学習用データ生成部504は、更に、画像特徴量絞り込み部710、結合部720を有する。
画像特徴量絞り込み部710は、特徴量算出部630から画像特徴量群602が通知されると、通知された画像特徴量群602に含まれる複数の画像特徴量から、所定の画像特徴量を選択し、結合部720に通知する。画像特徴量絞り込み部710により選択される画像特徴量は、学習用の対象サンプル102に含まれる微生物の状態を表すデータを予測するのに有益な画像特徴量であり、予め決定されているものとする。
なお、画像特徴量絞り込み部710が選択する画像特徴量は、画像特徴量の様々な組み合わせのもとで、学習と検証とを繰り返し、最良の検証結果に基づいて予め決定されるものとする。選択する画像特徴量は、結合部720により生成される学習用データごとに異なっていてもよいし、学習用データに関わらず共通であってもよい。例えば、各種微生物の含有比率を予測するための学習用データを生成する場合に選択される画像特徴量と、最も含有比率の高い微生物の種類を予測するための学習用データを生成する場合に選択される画像特徴量とは、同じであっても、異なっていてもよい。また、各種微生物の含有比率を予測するための学習用データを生成する場合に選択される画像特徴量は、微生物の種類ごとに異なっていてもよいし、同じであってもよい。
結合部720は、画像特徴量絞り込み部710から、絞り込み後の画像特徴量が通知されると、データ格納部512から、対応する微生物叢データ400を読み出し、学習用データを生成する。
図7において、符号730_1は、“微生物A”の含有比率を予測する学習済みモデルを生成する際に用いられる学習用データである。同様に、符号730_2、符号730_3は、“微生物B”、“微生物C”の含有比率をそれぞれ予測する学習済みモデルを生成する際に用いられる学習用データである。
符号730_1は、「サンプル1」により識別される学習用の対象サンプル102について生成された学習用データであって、
・画像特徴量絞り込み部710から通知された、絞り込み後の画像特徴量である、画像特徴量(λ1)~画像特徴量(λ80)を入力データ、
・データ格納部512から読み出した微生物叢データ400に含まれる、微生物種=“微生物A”、含有比率=“a%”を正解データ、
とする学習用データを示している。
・画像特徴量絞り込み部710から通知された、絞り込み後の画像特徴量である、画像特徴量(λ1)~画像特徴量(λ80)を入力データ、
・データ格納部512から読み出した微生物叢データ400に含まれる、微生物種=“微生物A”、含有比率=“a%”を正解データ、
とする学習用データを示している。
なお、符号730_1において、入力データ=画像特徴量(λ1)~画像特徴量(λ80)は、画像特徴量絞り込み部710によって、5種類の波長が選択されたことを示している。上述したように、各波長は、11個の画像特徴量を含むため、符号730_1の例の場合、入力データには、55個の画像特徴量が含まれることになる。
図7において、符号740は、最も含有比率の高い微生物の種類を予測する学習済みモデルを生成する際に用いられる学習用データである。符号740は、「サンプル1」により識別される学習用の対象サンプル102について生成された学習用データであって、
・画像特徴量絞り込み部710から通知された、絞り込み後の画像特徴量である、画像特徴量(λ1)~画像特徴量(λ80)を入力データ、
・データ格納部512から読み出した微生物叢データ400に含まれる、高含有微生物種=“微生物F”を正解データ、
とする学習用データを示している。
・画像特徴量絞り込み部710から通知された、絞り込み後の画像特徴量である、画像特徴量(λ1)~画像特徴量(λ80)を入力データ、
・データ格納部512から読み出した微生物叢データ400に含まれる、高含有微生物種=“微生物F”を正解データ、
とする学習用データを示している。
なお、符号730_1において、入力データ=画像特徴量(λ1)~画像特徴量(λ80)は、画像特徴量絞り込み部710によって、5種類の波長が選択されたことを示している。上述したように、各波長は、11個の画像特徴量を含むため、符号740の例の場合、入力データには55個の画像特徴量が含まれることになる。
(3)学習部505による処理の具体例
次に、学習部505による処理の具体例について説明する。図8は、学習部による処理の一例を示す図である。図8に示すように、学習部505は、更に、モデルA801、モデルB802、モデルC803、・・・モデルα821と、比較変更部811、比較変更部812、比較変更部813、・・・比較変更部831とを有する。
次に、学習部505による処理の具体例について説明する。図8は、学習部による処理の一例を示す図である。図8に示すように、学習部505は、更に、モデルA801、モデルB802、モデルC803、・・・モデルα821と、比較変更部811、比較変更部812、比較変更部813、・・・比較変更部831とを有する。
モデルA801は、“微生物A”の含有比率を予測するためのモデルである。モデルA801は、符号730_1に示す学習用データの“入力データ”が入力されることで、出力データを出力する。
比較変更部811は、モデルA801から出力された出力データと、符号730_1に示す学習用データの“正解データ”とを比較し、誤差に基づいて、モデルA801のモデルパラメータを更新する。このようにして、モデルA801に対する学習が行われ、学習済みモデルAが生成される。
同様に、モデルB802は、“微生物B”の含有比率を予測するためのモデルである。モデルB802は、符号730_2に示す学習用データの“入力データ”が入力されることで、出力データを出力する。
比較変更部812は、モデルB802から出力された出力データと、符号730_2に示す学習用データの“正解データ”とを比較し、誤差に基づいて、モデルB802のモデルパラメータを更新する。このようにして、モデルB802に対する学習が行われ、学習済みモデルBが生成される。
同様に、モデルC803は、“微生物C”の含有比率を予測するためのモデルである。モデルC803は、符号730_3に示す学習用データの“入力データ”が入力されることで、出力データを出力する。
比較変更部813は、モデルC803から出力された出力データと、符号730_3に示す学習用データの“正解データ”とを比較し、誤差に基づいて、モデルC803のモデルパラメータを更新する。このようにして、モデルC803に対する学習が行われ、学習済みモデルCが生成される。
モデルα821は、最も含有比率の高い微生物の種類を予測するためのモデルである。モデルα821は、符号740に示す学習用データの“入力データ”が入力されることで、出力データを出力する。
比較変更部831は、モデルα821から出力された出力データと、符号740に示す学習用データの“正解データ”とを比較し、誤差に基づいて、モデルα821のモデルパラメータを更新する。このようにして、モデルα821に対する学習が行われ、学習済みモデルαが生成される。
上記説明から明らかなように、学習済みモデルA801、学習済みモデルB802、学習済みモデルC803、・・・学習済みモデルα821は、機械学習によって生成される。ここでいう機械学習には、例えば、
線形回帰、ロジスティック回帰、ナイーブベイズ、決定木、ランダムフォレスト、ブースティング、LASSO、Ridge、ElasticNet、ニューラルネットワーク(ディープラーニング、CNN、Transformer)、
等の任意の機械学習が含まれる。
線形回帰、ロジスティック回帰、ナイーブベイズ、決定木、ランダムフォレスト、ブースティング、LASSO、Ridge、ElasticNet、ニューラルネットワーク(ディープラーニング、CNN、Transformer)、
等の任意の機械学習が含まれる。
<学習処理の流れ>
次に、微生物叢解析システム100による学習処理の流れについて説明する。図9は、微生物叢解析システムによる学習処理の流れを示すフローチャートの一例である。
次に、微生物叢解析システム100による学習処理の流れについて説明する。図9は、微生物叢解析システムによる学習処理の流れを示すフローチャートの一例である。
ステップS901において、微生物叢解析システム100は、物体101から採取された学習用の対象サンプル102を取得する。
ステップS902において、微生物叢解析システム100は、近赤外光を対象サンプル102に照射し、ハイパースペクトルカメラ120を用いて、反射光を撮影することで、各波長のハイパースペクトル画像を生成する。
ステップS903において、微生物叢解析システム100は、取得した各波長のハイパースペクトル画像に対して正規化処理を行う。
ステップS904において、微生物叢解析システム100は、正規化後の各波長のハイパースペクトル画像について、画像特徴量を算出する。
ステップS905において、微生物叢解析システム100は、算出した画像特徴量から所定の画像特徴量を選択することで、画像特徴量の絞り込みを行う。
また、ステップS906において、微生物叢解析システム100は、次世代シーケンサ130を用いて、学習用の対象サンプル102について、微生物叢データ400を生成する。
ステップS907において、微生物叢解析システム100は、絞り込み後の画像特徴量を入力データとして取得し、微生物叢データ400に含まれる微生物の状態を表すデータを正解データとして取得する。
ステップS911において、微生物叢解析システム100は、取得した入力データと、取得した正解データ(ここでは、学習用の対象サンプル102に含まれる対象の微生物の含有比率)とに基づいて、学習用データを生成する。
ステップS912において、微生物叢解析システム100は、生成した学習用データを用いて、予測用の対象サンプルに含まれる対象の微生物の含有比率を予測するための学習済みモデルを生成する。
ステップS913において、微生物叢解析システム100は、全ての種類の微生物について、予測用の対象サンプルに含まれる対象の微生物の含有比率を予測するための学習済みモデルを生成したか否かを判定する。
ステップS913において、学習済みモデルを生成していない微生物があると判定した場合には(ステップS913においてNOの場合には)、ステップS911に戻る。
一方、ステップS921において、微生物叢解析システム100は、取得した入力データと、取得した正解データ(ここでは、学習用の対象サンプル102に含まれる微生物のうち最も含有比率の高い微生物の種類)とに基づいて、学習用データを生成する。
ステップS922において、微生物叢解析システム100は、生成した学習用データを用いて、予測用の対象サンプルに含まれる微生物のうち、最も含有比率の高い微生物の種類を予測する学習済みモデルを生成する。
ステップS913において、全ての種類の微生物について、学習済みモデルを生成したと判定し、かつ、ステップS922において学習済みモデルの生成が完了した場合には、微生物叢解析システム100は、学習処理を終了する。
<微生物叢解析システムの予測フェーズにおけるシステム構成>
次に、微生物叢解析システムの予測フェーズにおけるシステム構成について説明する。図10は、微生物叢解析システムの予測フェーズにおけるシステム構成の一例を示す図である。図10に示すように、予測フェーズにおける微生物叢解析システム1000は、近赤外光出力機器110と、ハイパースペクトルカメラ120と、第1の実施形態に係る「装置」である微生物叢解析装置140とを備える。
次に、微生物叢解析システムの予測フェーズにおけるシステム構成について説明する。図10は、微生物叢解析システムの予測フェーズにおけるシステム構成の一例を示す図である。図10に示すように、予測フェーズにおける微生物叢解析システム1000は、近赤外光出力機器110と、ハイパースペクトルカメラ120と、第1の実施形態に係る「装置」である微生物叢解析装置140とを備える。
近赤外光出力機器110は、近赤外光(波長=800[nm]~2500nmの光)を出射する機器である。近赤外光出力機器110から出射された近赤外光は、物体1001から採取された予測用の対象サンプル1002に照射される。
ハイパースペクトルカメラ120は、予測用の対象サンプル1002から反射した反射光を撮影し、撮影することにより得られる信号(撮影信号)を各波長に分光することで、波長ごとの撮影画像であるハイパースペクトル画像を生成する。ハイパースペクトルカメラ120は、各波長のハイパースペクトル画像を、微生物叢解析装置140に送信する。
微生物叢解析装置140は、予測フェーズにおいて、ハイパースペクトルカメラ120から、予測用の対象サンプル1002についてのハイパースペクトル画像を取得する。微生物叢解析装置140は、学習フェーズにおいて生成した学習済みモデルを用いて、取得したハイパースペクトル画像から、予測用の対象サンプルに含まれる微生物の状態を表すデータを予測する。上述したように、学習フェーズにおいて生成した学習済みモデルには、
・予測用の対象サンプル1002に含まれる各種微生物の含有比率を予測する学習済みモデル、
・予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類を予測する学習済みモデル、
が含まれる。このため、微生物叢解析装置140は、予測用の対象サンプル1002に含まれる各種微生物の含有比率と、予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類とを、予測結果として出力する。
・予測用の対象サンプル1002に含まれる各種微生物の含有比率を予測する学習済みモデル、
・予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類を予測する学習済みモデル、
が含まれる。このため、微生物叢解析装置140は、予測用の対象サンプル1002に含まれる各種微生物の含有比率と、予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類とを、予測結果として出力する。
<微生物叢解析装置の機能構成>
次に、微生物叢解析装置の予測フェーズにおける機能構成について説明する。図11は、微生物叢解析装置の予測フェーズにおける機能構成の一例を示す図である。上述したように、微生物叢解析装置140には、微生物叢解析プログラムがインストールされており、当該微生物叢解析プログラムが予測フェーズにおいて実行されることで、微生物叢解析装置140は、
・ハイパースペクトル画像取得部501、
・画像特徴量算出部502、
・画像特徴量絞り込み部701、
・予測部1101、
・出力部1102、
として機能する。
次に、微生物叢解析装置の予測フェーズにおける機能構成について説明する。図11は、微生物叢解析装置の予測フェーズにおける機能構成の一例を示す図である。上述したように、微生物叢解析装置140には、微生物叢解析プログラムがインストールされており、当該微生物叢解析プログラムが予測フェーズにおいて実行されることで、微生物叢解析装置140は、
・ハイパースペクトル画像取得部501、
・画像特徴量算出部502、
・画像特徴量絞り込み部701、
・予測部1101、
・出力部1102、
として機能する。
このうち、ハイパースペクトル画像取得部501及び画像特徴量算出部502は、図5を用いて説明済みであるため、ここでは、説明を省略する。また、画像特徴量絞り込み部701は、図7を用いて説明済みであるため、ここでは、説明を省略する。
予測部1101は、学習済みモデル格納部514に格納された学習済みモデルを読み出し、画像特徴量絞り込み部701により通知された絞り込み後の画像特徴量を入力する。これにより、学習済みモデルは、予測用の対象サンプル1002に含まれる微生物の状態を表すデータを予測する。
上述したように、学習済みモデルには、
・予測用の対象サンプル1002に含まれる各種微生物の含有比率を予測する学習済みモデル、
・予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類を予測する学習済みモデル、
が含まれる。このため、予測部1101は、予測用の対象サンプル1002に含まれる各種微生物の含有比率と、予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類とを出力部1102に通知する。
・予測用の対象サンプル1002に含まれる各種微生物の含有比率を予測する学習済みモデル、
・予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類を予測する学習済みモデル、
が含まれる。このため、予測部1101は、予測用の対象サンプル1002に含まれる各種微生物の含有比率と、予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類とを出力部1102に通知する。
出力部1102は、予測部1101から通知された、予測用の対象サンプル1002に含まれる各種微生物の含有比率と、予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類とを、予測結果として出力する。
<微生物叢解析装置の各機能部による処理の具体例>
次に、微生物叢解析装置140の予測フェーズにおける各機能部(ここでは、予測部1101、出力部1102)による処理の具体例について説明する。
次に、微生物叢解析装置140の予測フェーズにおける各機能部(ここでは、予測部1101、出力部1102)による処理の具体例について説明する。
(1)予測部1101による処理の具体例
はじめに、予測部1101による処理の具体例について説明する。図12は、予測部による処理の一例を示す図である。図12に示すように、予測部1101は、学習済みモデル格納部514から読み出した学習済みモデルを有する。図12の例は、学習済みモデルとして、学習済みモデルA1201、学習済みモデルB1202、学習済みモデルC1203、・・・学習済みモデルα1221が読み出された様子を示している。
はじめに、予測部1101による処理の具体例について説明する。図12は、予測部による処理の一例を示す図である。図12に示すように、予測部1101は、学習済みモデル格納部514から読み出した学習済みモデルを有する。図12の例は、学習済みモデルとして、学習済みモデルA1201、学習済みモデルB1202、学習済みモデルC1203、・・・学習済みモデルα1221が読み出された様子を示している。
なお、図12において、符号1200は、「サンプルX」により識別される予測用の対象サンプル1002について、画像特徴量絞り込み部701より、入力データとして、画像特徴量(λ1)~画像特徴量(λ80)が通知された様子を示している。
学習済みモデルA1201は、“微生物A”の含有比率を予測する学習済みモデルである。符号1200の“入力データ”が入力されることで、学習済みモデルA1201は、「サンプルX」により識別される予測用の対象サンプル1002に含まれる微生物Aの含有比率=“aX%”を予測する。
同様に、学習済みモデルB1202は、“微生物B”の含有比率を予測する学習済みモデルである。符号1200の“入力データ”が入力されることで、学習済みモデルB1202は、「サンプルX」により識別される予測用の対象サンプル1002に含まれる微生物Bの含有比率=“bX%”を予測する。
同様に、学習済みモデルC1203は、“微生物C”の含有比率を予測する学習済みモデルである。符号1200の“入力データ”が入力されることで、学習済みモデルC1203は、「サンプルX」により識別される予測用の対象サンプル1002に含まれる微生物Cの含有比率=“cX%”を予測する。
学習済みモデルα1221は、最も含有比率の高い微生物の種類を予測する学習済みモデルである。符号1200の“入力データ”が入力されることで、学習済みモデルα1221は、「サンプルX」により識別される予測用の対象サンプル1002に含まれる微生物のうち、最も含有比率の高い微生物の種類=“微生物G”を出力する。
(2)出力部1102による処理の具体例
次に、出力部1102による処理の具体例について説明する。図13は、出力部による処理の一例を示す図である。
次に、出力部1102による処理の具体例について説明する。図13は、出力部による処理の一例を示す図である。
図13に示すように、予測結果1300は、情報の項目として、“対象サンプル”、“微生物種”、“含有比率”、“高含有微生物種”を含む。
“対象サンプル”には、予測用の対象サンプル(例えば、対象サンプル1002)を識別するための識別子(図13の例では、「サンプルX」)が格納される。
“微生物種”には、予測用の対象サンプル(例えば、対象サンプル1002)に含まれる微生物の種類(図13の例では、「微生物A」、「微生物B」、「微生物C」・・・等)が格納される。
“含有比率”には、予測用の対象サンプル(例えば、対象サンプル1002)に含まれる各種微生物の含有比率(図13の例では、「aX%」、「bX%」、「cX%」、・・・等)が格納される。
“高含有微生物種”には、予測用の対象サンプル(例えば、対象サンプル1002)に含まれる微生物のうち、最も含有比率が高い微生物の種類(図13の例では、「微生物G」)が格納される。
<予測処理の流れ>
次に、微生物叢解析システム1000による予測処理の流れについて説明する。図14は、微生物叢解析システムによる予測処理の流れを示すフローチャートの一例である。
次に、微生物叢解析システム1000による予測処理の流れについて説明する。図14は、微生物叢解析システムによる予測処理の流れを示すフローチャートの一例である。
ステップS1401において、微生物叢解析システム1000は、物体1001から採取された予測用の対象サンプル1002を取得する。
ステップS1402において、微生物叢解析システム1000は、近赤外光を対象サンプル1002に照射し、ハイパースペクトルカメラ120を用いて、反射光を撮影することで、各波長のハイパースペクトル画像を生成する。
ステップS1403において、微生物叢解析システム1000は、取得した各波長のハイパースペクトル画像に対して正規化処理を行う。
ステップS1404において、微生物叢解析システム1000は、正規化後の各波長のハイパースペクトル画像について、画像特徴量を算出する。
ステップS1405において、微生物叢解析システム1000は、算出した画像特徴量から所定の画像特徴量を選択することで、画像特徴量の絞り込みを行う。
ステップS1406において、微生物叢解析システム1000は、絞り込み後の画像特徴量を、予測用の対象サンプル1002に含まれる各種微生物の含有比率を予測する各学習済みモデルに入力し、各種微生物の含有比率を予測する。
ステップS1407において、微生物叢解析システム1000は、絞り込み後の画像特徴量を、予測用の対象サンプルに含まれる微生物のうち、最も含有比率の高い微生物の種類を予測する学習済みモデルに入力する。これにより、微生物叢解析システム1000は、最も含有比率の高い微生物の種類を予測する。
ステップS1408において、微生物叢解析システム1000は、予測結果を出力する。
ステップS1409において、微生物叢解析システム1000は、予測用の他の対象サンプルがあるか否かを判定する。ステップS1409において、予測用の他の対象サンプルがあると判定した場合には(ステップS1409においてYESの場合には)、ステップS1401に戻る。
一方、ステップS1409において、予測用の他の対象サンプルがないと判定した場合には(ステップS1409においてNOの場合には)、予測処理を終了する。
<学習済みモデルの予測精度の検証例>
次に、微生物叢解析装置140の予測部1101が有する学習済みモデルの予測精度について説明する。
次に、微生物叢解析装置140の予測部1101が有する学習済みモデルの予測精度について説明する。
(1)各種微生物の含有比率を予測する学習済みモデル
図15は、各種微生物の含有比率を予測する学習済みモデルの予測精度の検証例を示す図である。
図15は、各種微生物の含有比率を予測する学習済みモデルの予測精度の検証例を示す図である。
このうち、グラフ1510は、ラクトバチルスの含有比率を予測する学習済みモデルの予測精度の検証例を示している。グラフ1510において横軸は、検証対象の各対象サンプルについて、次世代シーケンサ130を用いて解析することで得られたラクトバチルスの含有比率(実測値%)を示している。また、グラフ1510において縦軸は、検証対象の各対象サンプルについて、ラクトバチルスの含有比率を予測する学習済みモデルを用いて予測されたラクトバチルスの含有比率(予測値%)を示している。
グラフ1510内の各点は、各対象サンプルの実測値と予測値とに対応する位置にプロットされた点である。また、グラフ1510内の直線1511は、実測値を説明変数、予測値を目的変数とする線形回帰式を示している。グラフ1510によれば、決定係数R2=0.7971となり、ラクトバチルスの含有比率を予測する学習済みモデルの予測精度が良好であることが示された。
グラフ1520は、ストレプトコッカス(レンサ球菌)の含有比率を予測する学習済みモデルの予測精度の検証例を示している。グラフ1520において横軸は、検証対象の各対象サンプルについて、次世代シーケンサ130を用いて解析することで得られたストレプトコッカスの含有比率(実測値%)を示している。また、グラフ1520において縦軸は、検証対象の各対象サンプルについて、ストレプトコッカスの含有比率を予測する学習済みモデルを用いて予測されたストレプトコッカスの含有比率(予測値%)を示している。
グラフ1520内の各点は、各対象サンプルの実測値と予測値とに対応する位置にプロットされた点である。また、グラフ1520内の直線1521は、実測値を説明変数、予測値を目的変数とする線形回帰式を示している。グラフ1520によれば、決定係数R2=0.7616となり、ストレプトコッカスの含有比率を予測する学習済みモデルの予測精度が良好であることが示された。
グラフ1530は、クロストリジウムの含有比率を予測する学習済みモデルの予測精度の検証例を示している。グラフ1530において横軸は、検証対象の各対象サンプルについて、次世代シーケンサ130を用いて解析することで得られたクロストリジウムの含有比率(実測値%)を示している。また、グラフ1530において縦軸は、検証対象の各対象サンプルについて、クロストリジウムの含有比率を予測する学習済みモデルを用いて予測されたクロストリジウムの含有比率(予測値%)を示している。
グラフ1530内の各点は、各対象サンプルの実測値と予測値とに対応する位置にプロットされた点である。また、グラフ1530内の直線1531は、実測値を説明変数、予測値を目的変数とする線形回帰式を示している。グラフ1530によれば、決定係数R2=0.7584となり、クロストリジウムの含有比率を予測する学習済みモデルの予測精度が良好であることが示された。
グラフ1540は、エシェリヒア(大腸菌)の含有比率を予測する学習済みモデルの予測精度の検証例を示している。グラフ1540において横軸は、検証対象の各対象サンプルについて、次世代シーケンサ130を用いて解析することで得られたエシェリヒアの含有比率(実測値%)を示している。また、グラフ1540において縦軸は、検証対象の各対象サンプルについて、エシェリヒアの含有比率を予測する学習済みモデルを用いて予測されたエシェリヒアの含有比率(予測値%)を示している。
グラフ1540内の各点は、各対象サンプルの実測値と予測値とに対応する位置にプロットされた点である。また、グラフ1540内の直線1541は、実測値を説明変数、予測値を目的変数とする線形回帰式を示している。グラフ1540によれば、決定係数R2=0.9154となり、エシェリヒアの含有比率を予測する学習済みモデルの予測精度が良好であることが示された。
(2)最も含有比率の高い微生物の種類を予測する学習済みモデル
図16は、最も含有比率の高い微生物の種類を予測する学習済みモデルの予測精度の検証例を示す図である。表1600において、横方向に配列された各細菌種は、検証対象の各対象サンプルについて、最も含有比率の高い微生物の種類を予測する学習済みモデルを用いて予測された、最も含有比率の高い細菌種の種類(予測値)を示している。表1600において、縦方向に配列された各細菌種は、検証対象の各サンプルについて、次世代シーケンサ130を用いて解析することで得られた、最も含有比率の高い微生物の種類(実測値)を示している。
図16は、最も含有比率の高い微生物の種類を予測する学習済みモデルの予測精度の検証例を示す図である。表1600において、横方向に配列された各細菌種は、検証対象の各対象サンプルについて、最も含有比率の高い微生物の種類を予測する学習済みモデルを用いて予測された、最も含有比率の高い細菌種の種類(予測値)を示している。表1600において、縦方向に配列された各細菌種は、検証対象の各サンプルについて、次世代シーケンサ130を用いて解析することで得られた、最も含有比率の高い微生物の種類(実測値)を示している。
表1600内の行1601は、実測値としてラクトバチルスが最も含有比率が高いことが解析された検証対象の対象サンプルが、18個得られたことを示している。最も含有比率の高い微生物の種類を予測する学習済みモデルは、このうち17個の対象サンプルについて、ラクトバチルスが最も含有比率が高い微生物であると予測することができた。
また、表1600内の行1602は、実測値としてストレプトコッカス(レンサ球菌)が最も含有比率が高いことが解析された検証対象の対象サンプルが、17個得られたことを示している。最も含有比率の高い微生物の種類を予測する学習済みモデルは、このうち16個の対象サンプルについて、ストレプトコッカスが最も含有比率が高い微生物であると予測することができた。
また、表1600内の行1603は、実測値としてクロストリジウムが最も含有比率が高いことが解析された検証対象の対象サンプルが、12個得られたことを示している。最も含有比率の高い微生物の種類を予測する学習済みモデルは、このうち11個の対象サンプルについて、クロストリジウムが最も含有比率が高い微生物であると予測することができた。
また、表1600内の行1604は、実測値としてエシェリヒア(大腸菌)が最も含有比率が高いことが解析された検証対象の対象サンプルが、18個得られたことを示している。最も含有比率の高い微生物の種類を予測する学習済みモデルは、このうち18個の対象サンプルについて、エシェリヒアが最も含有比率が高い微生物であると予測することができた。
この結果、最も含有比率の高い微生物の種類を予測する学習済みモデルの正答率は95.4%(=62/65×100)であることが検証された。
<まとめ>
以上の説明から明らかなように、第1の実施形態に係る装置である微生物叢解析装置140は、学習フェーズにおいて、
・学習用の対象サンプル102を撮影した信号(撮影信号)を分光することで生成されるハイパースペクトル画像を取得する。
・ハイパースペクトル画像に基づいてテクスチャを表す特徴量を算出する。
・学習用の対象サンプル102について算出された画像特徴量と、学習用の対象サンプル102に含まれる微生物の状態を表すデータと、を含む学習用データを用いて学習することで学習済みモデルを生成する。
以上の説明から明らかなように、第1の実施形態に係る装置である微生物叢解析装置140は、学習フェーズにおいて、
・学習用の対象サンプル102を撮影した信号(撮影信号)を分光することで生成されるハイパースペクトル画像を取得する。
・ハイパースペクトル画像に基づいてテクスチャを表す特徴量を算出する。
・学習用の対象サンプル102について算出された画像特徴量と、学習用の対象サンプル102に含まれる微生物の状態を表すデータと、を含む学習用データを用いて学習することで学習済みモデルを生成する。
また、第1の実施形態に係る装置である微生物叢解析装置140は、予測フェーズにおいて、
・学習済みモデルに、予測用の対象サンプル1002について算出された、テクスチャを表す特徴量を入力することで、予測用の対象サンプル1002に含まれる微生物の状態を表すデータを予測する。
・学習済みモデルに、予測用の対象サンプル1002について算出された、テクスチャを表す特徴量を入力することで、予測用の対象サンプル1002に含まれる微生物の状態を表すデータを予測する。
このように、第1の実施形態に係る装置である微生物叢解析装置140では、ハイパースペクトル画像に基づきテクスチャを表す特徴量を算出することで、対象サンプルに含まれる微生物の分布を、波長ごとに捉える。このため、第1の実施形態によれば、従来のように、単に各波長での反射強度を解析する方法(反射スペクトルを用いる方法)と比較して、対象サンプルに含まれる微生物の量を適確に表す特徴量を算出することが可能になる。
この結果、第1の実施形態によれば、反射特性の異なる微生物が予測用の対象サンプル内に混在する場合であっても、各種微生物の状態を表すデータを精度よく予測することが可能になる。
つまり、第1の実施形態に係る装置である微生物叢解析装置140によれば、微生物叢について、各種微生物の状態を解析する際の解析精度を向上させることができる。
[第2の実施形態]
上記第1の実施形態では、近赤外光出力機器110から出射された近赤外光を、対象サンプルに照射し、ハイパースペクトルカメラ120が、対象サンプルからの反射光を撮影するように構成した。しかしながら、ハイパースペクトルカメラ120が撮影するのは、対象サンプルからの反射光に限定されない。例えば、ハイパースペクトルカメラ120は、対象サンプルを透過した透過光を撮影してもよい。
上記第1の実施形態では、近赤外光出力機器110から出射された近赤外光を、対象サンプルに照射し、ハイパースペクトルカメラ120が、対象サンプルからの反射光を撮影するように構成した。しかしながら、ハイパースペクトルカメラ120が撮影するのは、対象サンプルからの反射光に限定されない。例えば、ハイパースペクトルカメラ120は、対象サンプルを透過した透過光を撮影してもよい。
また、上記第1の実施形態では、微生物叢解析システムが近赤外光出力機器を備え、対象サンプルに近赤外光を照射する構成とした。しかしながら、対象サンプルに照射する光は、近赤外光に限定されず、他の波長範囲の光を照射してもよい。
また、上記第1の実施形態では、微生物叢解析システムがハイパースペクトルカメラ120を備え、ハイパースペクトル画像を生成する構成とした。しかしながら、微生物叢解析システムの構成はこれに限定されず、ハイパースペクトルカメラ120に代えて、例えば、近赤外線カメラと分光フィルタとを配し、撮影信号を分光することで分光画像を生成する構成としてもよい。
また、上記第1の実施形態では、正規化部610が正規化する際の特定画素の画素値として、波長=1440nmのハイパースペクトル画像に含まれる、水領域の画素の画素値を用いた。しかしながら、正規化部610が正規化する際に用いる特定画素の画素値はこれに限定されず、他の波長のハイパースペクトル画像に含まれる他の画素の画素値を用いてもよい。
また、上記第1の実施形態では、テクスチャを表す特徴量には任意の特徴量が含まれるものとし、具体例として、各画素の画素値の度数分布を表すヒストグラムに基づく特徴量(統計量)、差分統計量、濃度共起行列、フーリエ特徴量等を示した。しかしながら、ここでいう任意の特徴量には、古典的な画像処理技術を用いて算出される特徴量に限定されず、例えば、CNN、Vision Transformer等の深層学習技術を用いて算出される変数等であってもよい。
また、上記第1の実施形態では、画像特徴量算出部502の処理の具体例として、画像特徴量算出部502が、正規化、ヒストグラムの生成、特徴量算出の順で処理を行う場合について説明した。しかしながら、画像特徴量算出部502が行う処理の順序はこれに限定されず、画像特徴量算出部502は、例えば、ヒストグラムの生成、特徴量算出、正規化の順に処理を行ってもよい。ただし、いずれの処理順序であっても、画像特徴量算出部502は、正規化処理した画像特徴量を算出するものとする。
また、上記第1の実施形態では、画像特徴量算出部502における正規化処理の一例として、
・各波長のハイパースペクトル画像(特定波長のハイパースペクトル画像を除くハイパースペクトル画像)に含まれる各画素の画素値を、
・特定波長のハイパースペクトル画像に含まれる特定画素の画素値で、
除算する方法を挙げたが、正規化処理の方法はこれに限定されない。例えば、除算することに代えて、減算することで、あるいは、他の演算を行うことで正規化処理を行ってもよい。なお、画像特徴量算出部502における正規化処理は、必須の構成ではなく、画像特徴量算出部502は、正規化部610を有していなくてもよい。
・各波長のハイパースペクトル画像(特定波長のハイパースペクトル画像を除くハイパースペクトル画像)に含まれる各画素の画素値を、
・特定波長のハイパースペクトル画像に含まれる特定画素の画素値で、
除算する方法を挙げたが、正規化処理の方法はこれに限定されない。例えば、除算することに代えて、減算することで、あるいは、他の演算を行うことで正規化処理を行ってもよい。なお、画像特徴量算出部502における正規化処理は、必須の構成ではなく、画像特徴量算出部502は、正規化部610を有していなくてもよい。
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
100 :微生物叢解析システム
110 :近赤外光出力機器
120 :ハイパースペクトルカメラ
130 :次世代シーケンサ
140 :微生物叢解析装置
400 :微生物叢データ
501 :ハイパースペクトル画像取得部
502 :画像特徴量算出部
503 :微生物叢データ取得部
504 :学習用データ生成部
505 :学習部
610 :正規化部
620 :ヒストグラム生成部
630 :特徴量算出部
710 :画像特徴量絞り込み部
720 :結合部
1101 :予測部
1102 :出力部
110 :近赤外光出力機器
120 :ハイパースペクトルカメラ
130 :次世代シーケンサ
140 :微生物叢解析装置
400 :微生物叢データ
501 :ハイパースペクトル画像取得部
502 :画像特徴量算出部
503 :微生物叢データ取得部
504 :学習用データ生成部
505 :学習部
610 :正規化部
620 :ヒストグラム生成部
630 :特徴量算出部
710 :画像特徴量絞り込み部
720 :結合部
1101 :予測部
1102 :出力部
Claims (12)
- 対象物を撮影した撮影信号を分光することで生成される分光画像を取得する取得部と、
前記分光画像に基づいてテクスチャを表す特徴量を算出する特徴量算出部と、
学習用の対象物について算出された前記特徴量と、前記学習用の対象物に含まれる微生物の状態を表すデータと、を含む学習用データを用いて学習された学習済みモデルに、予測用の対象物について算出された前記特徴量を入力することで、前記予測用の対象物に含まれる微生物の状態を表すデータを予測する予測部と
を有する装置。 - 前記撮影信号は、所定の波長範囲の光を対象物に照射することで得られる信号である、
請求項1に記載の装置。 - 前記特徴量算出部により算出された、複数の前記分光画像それぞれの複数の前記特徴量の中から、一部の前記分光画像の一部の前記特徴量が選択されて、前記学習または前記予測に用いられる、
請求項1に記載の装置。 - 前記特徴量には、前記分光画像に含まれる画素の画素値の統計量が含まれる、
請求項1に記載の装置。 - 前記特徴量算出部は、正規化処理した前記特徴量を算出する、
請求項1に記載の装置。 - 前記正規化処理は、前記取得部により取得された分光画像のうち、特定波長の分光画像の画素値を用いて、前記特定波長の分光画像を除く分光画像の画素値に対して演算する処理である、
請求項5に記載の装置。 - 前記対象物は、単一種又は複数種類の微生物を含む生体由来または環境由来のサンプルである、
請求項1に記載の装置。 - 前記微生物の状態を表すデータには、対象物に含まれる微生物の種類、量、含有比率のいずれかが含まれる、
請求項1に記載の装置。 - 前記微生物の状態を表すデータは、対象物に含まれる各種微生物の量の、全ての種類の微生物の総量に占める比率を表す、各種微生物の含有比率であり、
前記予測部は、微生物の種類の数に応じた数の学習済みモデルを用いて、前記予測用の対象物に含まれる各種類の微生物の含有比率を予測する、
請求項8に記載の装置。 - 前記微生物の状態を表すデータは、対象物に最も多く含まれる微生物の種類を示すデータであり、
前記予測部は、対象物に最も多く含まれる微生物の種類を予測する学習済みモデルを用いて、前記予測用の対象物に最も多く含まれる微生物の種類を予測する、
請求項8に記載の装置。 - 対象物を撮影した撮影信号を分光することで生成される分光画像を取得する工程と、
前記分光画像に基づいてテクスチャを表す特徴量を算出する工程と、
学習用の対象物について算出された前記特徴量と、前記学習用の対象物に含まれる微生物の状態を表すデータと、を含む学習用データを用いて学習された学習済みモデルに、予測用の対象物について算出された前記特徴量を入力することで、前記予測用の対象物に含まれる微生物の状態を表すデータを予測する工程と
をコンピュータが実行する方法。 - 対象物を撮影した撮影信号を分光することで生成される分光画像を取得する工程と、
前記分光画像に基づいてテクスチャを表す特徴量を算出する工程と、
学習用の対象物について算出された前記特徴量と、前記学習用の対象物に含まれる微生物の状態を表すデータと、を含む学習用データを用いて学習された学習済みモデルに、予測用の対象物について算出された前記特徴量を入力することで、前記予測用の対象物に含まれる微生物の状態を表すデータを予測する工程と
をコンピュータに実行させるためのプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024-051947 | 2024-03-27 | ||
| JP2024051947A JP2025150825A (ja) | 2024-03-27 | 2024-03-27 | 装置、方法及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2025204577A1 true WO2025204577A1 (ja) | 2025-10-02 |
Family
ID=97218718
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2025/007722 Pending WO2025204577A1 (ja) | 2024-03-27 | 2025-03-04 | 装置、方法及びプログラム |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2025150825A (ja) |
| WO (1) | WO2025204577A1 (ja) |
Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20140377795A1 (en) * | 2011-12-19 | 2014-12-25 | Opticul Diagnostics Ltd. | Spectroscopic means and methods for identifying microorganisms in culture |
| WO2018117273A1 (ja) * | 2016-12-22 | 2018-06-28 | 国立大学法人筑波大学 | データ作成方法及びデータ使用方法 |
| JP2018525746A (ja) * | 2015-04-23 | 2018-09-06 | ビーデー キーストラ ビー.ヴィー. | コロニーコントラスト収集 |
| JP2019522970A (ja) * | 2016-06-16 | 2019-08-22 | ビオメリューBiomerieux | 細菌のグラムタイプを特定するためのプロセス及びシステム |
| JP2020018249A (ja) * | 2018-08-02 | 2020-02-06 | 国立大学法人山梨大学 | コロニー識別システム、コロニー識別方法およびコロニー識別プログラム |
| JP2021506286A (ja) * | 2017-12-21 | 2021-02-22 | ビオメリューBiomerieux | 酵母または細菌を識別するための方法 |
| JP2021515586A (ja) * | 2018-03-16 | 2021-06-24 | ザ ユナイテッド ステイツ オブ アメリカ, アズ リプレゼンテッド バイ ザ セクレタリー, デパートメント オブ ヘルス アンド ヒューマン サービシーズ | 細胞療法、創薬および診断法における使用のための幹細胞およびその誘導体を検証するために機械学習および/またはニューラルネットワークを使用すること |
| JP2022046265A (ja) * | 2020-09-10 | 2022-03-23 | 合同会社H.U.グループ中央研究所 | 菌種同定支援方法、マルチコロニー学習モデルの生成方法、菌種同定支援装置及びコンピュータプログラム |
| JP2024037531A (ja) * | 2022-09-07 | 2024-03-19 | パナソニックIpマネジメント株式会社 | 細菌分類方法及び細菌分類装置 |
-
2024
- 2024-03-27 JP JP2024051947A patent/JP2025150825A/ja active Pending
-
2025
- 2025-03-04 WO PCT/JP2025/007722 patent/WO2025204577A1/ja active Pending
Patent Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20140377795A1 (en) * | 2011-12-19 | 2014-12-25 | Opticul Diagnostics Ltd. | Spectroscopic means and methods for identifying microorganisms in culture |
| JP2018525746A (ja) * | 2015-04-23 | 2018-09-06 | ビーデー キーストラ ビー.ヴィー. | コロニーコントラスト収集 |
| JP2019522970A (ja) * | 2016-06-16 | 2019-08-22 | ビオメリューBiomerieux | 細菌のグラムタイプを特定するためのプロセス及びシステム |
| WO2018117273A1 (ja) * | 2016-12-22 | 2018-06-28 | 国立大学法人筑波大学 | データ作成方法及びデータ使用方法 |
| JP2021506286A (ja) * | 2017-12-21 | 2021-02-22 | ビオメリューBiomerieux | 酵母または細菌を識別するための方法 |
| JP2021515586A (ja) * | 2018-03-16 | 2021-06-24 | ザ ユナイテッド ステイツ オブ アメリカ, アズ リプレゼンテッド バイ ザ セクレタリー, デパートメント オブ ヘルス アンド ヒューマン サービシーズ | 細胞療法、創薬および診断法における使用のための幹細胞およびその誘導体を検証するために機械学習および/またはニューラルネットワークを使用すること |
| JP2020018249A (ja) * | 2018-08-02 | 2020-02-06 | 国立大学法人山梨大学 | コロニー識別システム、コロニー識別方法およびコロニー識別プログラム |
| JP2022046265A (ja) * | 2020-09-10 | 2022-03-23 | 合同会社H.U.グループ中央研究所 | 菌種同定支援方法、マルチコロニー学習モデルの生成方法、菌種同定支援装置及びコンピュータプログラム |
| JP2024037531A (ja) * | 2022-09-07 | 2024-03-19 | パナソニックIpマネジメント株式会社 | 細菌分類方法及び細菌分類装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2025150825A (ja) | 2025-10-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10733726B2 (en) | Pathology case review, analysis and prediction | |
| Kang et al. | Rapid identification of foodborne bacteria with hyperspectral microscopic imaging and artificial intelligence classification algorithms | |
| US8280140B2 (en) | Classifying image features | |
| Pennekamp et al. | Implementing image analysis in laboratory‐based experimental systems for ecology and evolution: a hands‐on guide | |
| JP7520011B2 (ja) | 体液試料中の検体の濃度を特定するための方法及びシステム、並びにソフトウェア実装モジュールを生成するための方法及びシステム | |
| Zhang et al. | Prediction of TVB-N content in beef with packaging films using visible-near infrared hyperspectral imaging | |
| US20240070537A1 (en) | Microscopy System and Method for Generating a Machine-Learned Model for Processing Microscope Data | |
| CN114184599B (zh) | 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置 | |
| Park et al. | Automated segmentation of foodborne bacteria from chicken rinse with hyperspectral microscope imaging and deep learning methods | |
| US20230419491A1 (en) | Attention-based multiple instance learning for whole slide images | |
| CN120009209B (zh) | 一种基于多波长分光光度的食品污染检测方法及系统 | |
| Zubair Rahman et al. | Enhancing image-based diagnosis of gastrointestinal tract diseases through deep learning with EfficientNet and advanced data augmentation techniques | |
| Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
| Nunes et al. | Action-conditioned benchmarking of robotic video prediction models: a comparative study | |
| Ranzan et al. | Avoiding misleading predictions in fluorescence-based soft sensors using autoencoders | |
| Kheiri et al. | Investigation on potential bias factors in histopathology datasets | |
| Rahman et al. | Visual saliency prediction and evaluation across different perceptual tasks | |
| Nguyen et al. | Rating pome fruit quality traits using deep learning and image processing | |
| WO2025204577A1 (ja) | 装置、方法及びプログラム | |
| Lee et al. | MorphNet predicts cell morphology from single-cell gene expression | |
| Scodellaro et al. | A first explainable-AI-based workflow integrating forward-forward and backpropagation-trained networks of label-free multiphoton microscopy images to assess human biopsies of rare neuromuscular disease | |
| Hsiao et al. | Artificial intelligence-enabled predictive system for Escherichia coli colony counting using patch-based supervised cytometry regression: A technical framework | |
| CN119538069A (zh) | 一种基于食品检测的信息处理方法 | |
| Zou et al. | The comprehensive index for assessing the freshness of salmon using hyperspectral imaging technology combined with multisource data fusion method | |
| CN115482528B (zh) | 基于改进深度森林算法的肉类新鲜度无损检测方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 25777430 Country of ref document: EP Kind code of ref document: A1 |