WO2025142539A1 - Biological particle analysis system, information processing device, and information processing method - Google Patents
Biological particle analysis system, information processing device, and information processing method Download PDFInfo
- Publication number
- WO2025142539A1 WO2025142539A1 PCT/JP2024/044143 JP2024044143W WO2025142539A1 WO 2025142539 A1 WO2025142539 A1 WO 2025142539A1 JP 2024044143 W JP2024044143 W JP 2024044143W WO 2025142539 A1 WO2025142539 A1 WO 2025142539A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- measurement data
- unit
- threshold
- learning
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N15/14—Optical investigation techniques, e.g. flow cytometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/10—Investigating individual particles
- G01N15/14—Optical investigation techniques, e.g. flow cytometry
- G01N15/1429—Signal processing
Definitions
- This disclosure relates to a bioparticle analysis system, an information processing device, and an information processing method.
- a flow cytometer is a device that measures the characteristics of each particle by irradiating flowing particles such as cells or beads with a beam of light and detecting the fluorescence emitted by the particles.
- Patent Document 1 discloses a technique for estimating shape information of a biological object based on the peak position of a pulse waveform detected from the biological object irradiated with a light beam.
- the bioparticle analysis system of the first disclosure includes an acquisition unit that acquires measurement data measured from bioparticles contained in a sample, a compression unit that performs a data compression process on the measurement data acquired by the acquisition unit, a gating unit that gates the measurement data compressed by the compression unit into training measurement data and verification measurement data and adds a label to the training measurement data, a learning unit that constructs a learning model using the training measurement data and the label, an estimation unit that inputs the verification measurement data to the learning model and outputs a confidence level of the verification measurement data, and a threshold setting unit that sets a threshold for separating the sample based on the confidence level.
- FIG. 1 is a block diagram showing an example of the configuration of a biological particle analysis system according to an embodiment.
- FIG. 4 is an explanatory diagram illustrating a filter-type detection mechanism of the measurement unit.
- FIG. 2 is an explanatory diagram illustrating a spectral detection mechanism of the measurement unit.
- 2 is a block diagram showing a configuration example of an information processing device according to the embodiment.
- FIG. FIG. 4 is a table showing an example of information regarding the fluorescence of biogenic particles obtained from the sorting device.
- FIG. 11 is an explanatory diagram showing a result of a clustering process.
- FIG. 11 is an explanatory diagram showing a result of a clustering process.
- FIG. 11 is an explanatory diagram showing a result of a clustering process.
- FIG. 13 is an explanatory diagram showing the results of dimensionality reduction processing of information on the expression level of each fluorescent substance in a biological particle to two dimensions using the t-SNE algorithm.
- FIG. 4 is a diagram showing verification data according to the first embodiment
- FIG. 13 is a diagram showing a screen showing the purity and efficiency of dimensionally reduced measurement data according to the first embodiment.
- FIG. 11 is a diagram showing classes and confidence levels of dimension-reduced measurement data according to the first embodiment;
- FIG. 13 is a diagram showing a screen showing the relationship between the mode and purity and efficiency in the first embodiment.
- 10A and 10B are diagrams for explaining a case where a threshold is set for each measurement data according to the first embodiment; 10 is a diagram for explaining a case where a threshold is set using an ROC curve of verification measurement data in the first embodiment.
- FIG. 11 is a diagram illustrating a display example of dimensionally compressed measurement data according to the first embodiment.
- 11A and 11B are diagrams showing an example of display in which measurement data before fluorescence correction of cells to be measured is displayed in different colors according to similarity in the first embodiment; 11A and 11B are diagrams showing an example of displaying measurement data after fluorescence correction of cells as measurement objects in a manner that changes color according to similarity in the first embodiment; 1 is a functional block diagram illustrating a configuration of an information processing device according to a first embodiment for dividing measurement data in deep learning.
- FIG. 11 is a flowchart for explaining the sorting of measurement data in deep learning of the information processing device according to the first embodiment.
- FIG. 11 is a block diagram showing a configuration example of a biological particle analysis system according to a modified example of the first embodiment.
- FIG. 11 is a functional block diagram of an information processing system according to a modified example of the first embodiment.
- FIG. 11 is a functional block diagram illustrating a modified example of the information processing system according to the first embodiment.
- FIG. 13 is a diagram for explaining the concept of thresholds for clustering sorting according to the second embodiment.
- FIG. 13 is a diagram for explaining the concept of the range when the threshold value is set to 50% in the clustering sorting according to the second embodiment.
- FIG. 11 is a functional block diagram of an information processing device according to a second embodiment for performing clustering sorting;
- FIG. 13 is a diagram illustrating a first example of a circuit of FlowSOM according to a second embodiment.
- FIG. 13 is a diagram illustrating a second example of a circuit of FlowSOM according to the second embodiment.
- FIG. 13 is a diagram illustrating a third example of a circuit of FlowSOM according to the second embodiment. 13 is a flowchart for explaining clustering sorting of an information processing device according to a second embodiment.
- FIG. 13 is a functional block diagram of an information processing system according to a modified example of the second embodiment. 11 is a flowchart for explaining the operation of a first example of a circuit of FlowSOM according to a second embodiment; 13 is a flowchart for explaining the operation of a third example of the circuit of FlowSOM according to the second embodiment.
- FIG. 13 is a functional block diagram showing IFCM fractionation of an information processing device according to a third embodiment.
- FIG. 13 is a flowchart for explaining IFCM sorting in an information processing device according to a third embodiment.
- FIG. 13 is a functional block diagram of an information processing system according to a modified example of the third embodiment.
- FIG. 2 is a hardware configuration diagram illustrating an example of a computer that realizes a calculation unit of the information processing device according to the embodiment.
- FIG. 1 is a block diagram showing an example of the configuration of a bioparticle analysis system 1 according to an embodiment.
- the bioparticle analysis system 1 includes a fractionation device 10 that acquires measurement data from a sample S and fractionates particles to be sorted based on the judgment of an information processing device 20, and an information processing device 20 that analyzes the measurement data acquired by the fractionation device 10 and judges whether the particles are to be sorted.
- the bioparticle analysis system 1 can be used, for example, as a so-called cell sorter.
- the sample S is, for example, a particle of biological origin, such as a cell, a microorganism, or a biologically-related particle, and includes a plurality of groups of biologically-derived particles.
- the sorting device 10 can classify the biologically-derived particles into a plurality of groups that are internally bound and externally separated, and sort a specific group by analyzing the measurement data of the sample S.
- the sample S may be, for example, a cell such as an animal cell (e.g., a blood cell), or a plant cell, a microorganism such as bacteria such as E.
- viruses such as tobacco mosaic virus, or fungi such as yeast
- a biologically-related particle that constitutes a cell such as a chromosome, a liposome, a mitochondria, or various organelles (cell organelles), or a biologically-related macromolecule, such as a nucleic acid, a protein, a lipid, a sugar chain, or a complex of these, which is derived from a biological organism.
- the sample S includes, for example, synthetic particles such as latex particles, gel particles, and industrial particles.
- the industrial particles may be, for example, organic or inorganic polymeric materials, metals, etc.
- Organic polymeric materials include polystyrene, styrene-divinylbenzene, polymethyl methacrylate, etc.
- Inorganic polymeric materials include glass, silica, magnetic materials, etc.
- Metals include gold colloids, aluminum, etc.
- the shape of these microparticles may be spherical, but may also be non-spherical.
- the microparticles may have a cavity and may be configured to capture biological particles in the cavity. The size and mass of these microparticles may be appropriately selected by those skilled in the art and are not particularly limited.
- the sample S is labeled (stained) with one or more fluorescent dyes.
- the labeling of the sample S with the fluorescent dyes can be performed by known methods.
- the cells to be measured can be labeled with the fluorescent dye by mixing a fluorescently labeled antibody that selectively binds to an antigen present on the cell surface with the cells to be measured and binding the fluorescently labeled antibody to the antigen on the cell surface.
- a fluorescently labeled antibody is an antibody to which a fluorescent dye is bound as a label.
- a fluorescently labeled antibody may be an antibody to which avidin-bound fluorescent dye is bound by an avidin-biodin reaction, which is then bound to a biotin-labeled antibody.
- a fluorescently labeled antibody may be an antibody to which a fluorescent dye is directly bound.
- the antibody may be either a polyclonal antibody or a monoclonal antibody.
- the fluorescent dye for labeling cells is not particularly limited, and at least one or more well-known dyes used for staining cells, etc. may be used.
- the fractionation device 10 includes a measurement unit and a fractionation unit.
- the fractionation device 10 may be a so-called flow cell type fractionation device 10, or may be a microchannel chip type fractionation device.
- the measurement unit measures the fluorescence emitted from the sample S by irradiating the sample S with a beam of light such as a laser beam. Specifically, the measurement unit aligns the sample S in one direction by forming a laminar flow in the sheath liquid in which the sample S is dispersed. At this time, the measurement unit irradiates the aligned sample S with a laser beam having a wavelength capable of exciting the fluorescent dye that labels the sample S, and photoelectrically converts the fluorescence generated from the sample S irradiated with the laser beam using a known photoelectric conversion element such as a CCD (Charge Coupled Device), CMOS (Complementary Metal Oxide Semiconductor), photodiode, or PMT (Photo Multiplier Tube). This allows the measurement unit to acquire the fluorescence from the sample S.
- a beam of light such as a laser beam.
- the detection mechanism for the fluorescence from the sample S in the measurement unit may be either a filter type or a spectral type.
- the detection mechanism for the fluorescence from the sample S will be described with reference to Figures 2 and 3.
- Figure 2 is an explanatory diagram for explaining the detection mechanism of the filter type
- Figure 3 is an explanatory diagram for explaining the detection mechanism of the spectral type.
- the filter-type detection mechanism in the filter-type detection mechanism, the sample S flowing through the flow path 13 is irradiated with light from the light source 11, and the resulting fluorescence is separated by dichroic mirrors 15A, 15B, and 15C.
- the filter-type detection mechanism can obtain the intensity of the fluorescence for each predetermined wavelength band using photodetectors 17A, 17B, and 17C.
- dichroic mirrors 15A, 15B, and 15C are mirrors that reflect light in specific wavelength bands and transmit light in other wavelength bands.
- the measurement unit can separate the fluorescence into wavelength bands by providing dichroic mirrors 15A, 15B, and 15C that reflect light in different wavelength bands on the optical path of the fluorescence from sample S.
- the measurement unit can separate the fluorescence from sample S into wavelength bands by providing, in order from the side where the fluorescence from sample S is incident, dichroic mirror 15A that reflects light in the red wavelength band, dichroic mirror 15B that reflects light in the green wavelength band, and dichroic mirror 15C that reflects light in the blue wavelength band.
- the sample S passing through the flow path 13 is irradiated with light from the light source 11, and the resulting fluorescence is dispersed by the prism 16. This allows the spectral detection mechanism to obtain a continuous fluorescence spectrum at the photodetector array 18.
- the prism 16 is an optical element that disperses the incident light.
- the measurement unit disperses the fluorescence from the sample S using the prism 16, and is able to detect a continuous spectrum of the fluorescence using the photodetector array 18, which has multiple photoelectric conversion elements arranged in an array.
- the fractionation unit fractionates a portion of the sample S to be fractionated. Specifically, the fractionation unit first generates droplets of the sample S and charges the droplets of the sample S to be fractionated. Next, the fractionation unit moves the generated droplets into the electric field generated by the polarizing plate. At this time, the charged droplets are attracted to the charged polarizing plate, so the direction of movement of the droplets is changed. This allows the fractionation unit to separate droplets of the sample S to be fractionated from droplets of the sample S that are not to be fractionated, making it possible to fractionate the biological particles to be fractionated.
- the fractionation method of the fractionation unit may be either a jet-in-air method or a cuvette flow cell method.
- the sample S may be fractionated by being ejected outside the flow cell or the microchannel chip, or may be fractionated inside the microchannel chip.
- the decision as to whether or not to collect sample S may be made by a logic circuit (e.g., a field-programmable gate array (FPGA) circuit) provided in the collection device 10, or may be made based on an instruction from the information processing device 20.
- a logic circuit e.g., a field-programmable gate array (FPGA) circuit
- the information processing device 20 analyzes the measurement data of the sample S acquired by the measurement unit and presents the analyzed data to the user. By checking the data analyzed by the information processing device 20, the user can identify the group of biological particles to be separated.
- Fig. 4 is a block diagram showing an example of the configuration of the information processing device 20 according to the present embodiment.
- the information processing device 20 includes an acquisition unit 201, an analysis unit 203, a reference spectrum storage unit 205, a data compression processing unit 207, an interface unit 209, a learning unit 211, a learning model storage unit 213, and a discrimination unit 215.
- the acquisition unit 201 acquires information about the fluorescence of the biological particles from the sorting device 10. Specifically, the sorting device 10 detects the light of the biological particles using a spectral detection mechanism, and the acquisition unit 201 acquires information about the spectrum of the light of the biological particles.
- the light of the biological particles may be either scattered light or fluorescence from the biological particles irradiated with laser light, or it may be both.
- the acquisition unit 201 may acquire information about the light of the biological particles from the sorting device 10 via a network, for example, or may acquire information about the light of the biological particles from the sorting device 10 via a wired or wireless LAN (Local Area Network) or a wired cable.
- the information about the light of the biological particles acquired by the acquisition unit 201 may be information as shown in FIG. 5.
- FIG. 5 is a table showing an example of information about the light of the biological particles acquired from the sorting device 10.
- the information about the light of the biogenic particles may be represented by the gains detected by N photomultiplier tubes (PMTs) arranged in a photodetector array for each identification number of a cell (i.e., a biogenic particle) as "PMT1" to "PMTN".
- PMTs photomultiplier tubes
- These N photomultiplier tubes are arranged in a line in an array in the direction of light dispersion by a prism. Therefore, by continuously arranging the gains of these N photomultiplier tubes as a histogram, the spectrum of the light of the cell can be obtained.
- FIG. 5 shows the measurement results of the gains of N photomultiplier tubes for each of N cells.
- the analysis unit 203 derives information about the characteristics of the biological particles by analyzing information about the light of the biological particles measured by the sorting device 10. Specifically, the analysis unit 203 separates each of the fluorescent light contained in the fluorescent spectrum measured by the sorting device 10, and derives the expression amount in the biological particles of the fluorescent substance corresponding to each of the fluorescent light.
- the biological particles to be measured are labeled with multiple fluorescent substances that emit fluorescence with overlapping wavelength distributions. Therefore, the analysis unit 203 can derive the expression level of each fluorescent substance by weighting and fitting the wavelength distribution of the fluorescence emitted from each fluorescent substance to the fluorescence spectrum measured by the fractionation device 10.
- the analysis unit 203 acquires from the reference spectrum storage unit 205 reference spectra indicating the wavelength distribution of the fluorescence emitted by the fluorescent substances labeling the biological particles.
- the analysis unit 203 superimposes the reference spectra of each fluorescent substance and fits them to the fluorescence spectrum measured by the fractionation device 10 using the weighted least squares method, thereby estimating the expression level of each fluorescent substance.
- the reference spectrum storage unit 205 stores reference spectra that indicate the wavelength distribution of fluorescence emitted by fluorescent substances capable of labeling biological particles.
- the reference spectrum storage unit 205 may be provided in either the information processing device 20 or the fractionation device 10, or may be provided in another information processing device or information processing server that can communicate via a network.
- the data compression processing unit 207 performs data compression processing on the optical information of the biological particles analyzed by the analysis unit 203.
- Data compression processing includes both nonlinear processing and linear processing.
- nonlinear processing may include dimensionality reduction processing, clustering processing, or grouping processing.
- linear processing may include processing for generating fluorescence information for each fluorescent dye from the optical spectrum information of biological particles by performing fluorescence separation.
- any algorithm whether supervised or unsupervised machine learning or weakly supervised machine learning, may be used for the nonlinear processing.
- the machine learning algorithm used for the nonlinear processing is different from the machine learning algorithm used by the learning unit 211 described below.
- the data compression processing unit 207 may perform clustering processing on information related to the expression level of each fluorescent substance in the bioparticles. In this way, the data compression processing unit 207 can classify the bioparticles into a plurality of groups that are externally separated and internally combined.
- the algorithm for the clustering process is not particularly limited, and any known clustering algorithm can be used.
- the data compression processing unit 207 may perform the clustering process using an algorithm that can specify the number of clusters, such as k-means, or may perform the clustering process using an algorithm that automatically determines the number of clusters, such as flowsom.
- the results of the clustering process performed by the data compression processing unit 207 may be presented to the user in a format as shown in Figures 6 and 7.
- Figures 6 and 7 are explanatory diagrams showing the results of the clustering process.
- the clustering results by the data compression processing unit 207 may be presented to the user in a table format.
- a group of 1000 cells i.e., biological particles
- the identification numbers assigned to the clusters and cells indicate which cells belong to which cluster.
- the cells with identification numbers "1", “2", “3”, and “10” belong to the cluster with identification number "1”
- the cells with identification numbers "11", “12”, “22”, and “31” belong to the cluster with identification number "2”
- the cells with identification numbers "4" to "6", "14", and “15” belong to the cluster with identification number "3”
- the cell with identification number "1000” belongs to the cluster with identification number "N”.
- the clustering results by the data compression processing unit 207 may be presented to the user in a minimum spanning tree format.
- radar charts painted in multiple colors are arranged in a tree shape that is connected to each other.
- Each radar chart represents a cell (i.e., a biological particle).
- the distribution and size of each radar chart represents a vector corresponding to the expression level of each fluorescent substance in the cell.
- the areas painted in each color represent the cluster to which each cell belongs. For example, cells shown in radar charts painted in the same color (i.e., the same type of hatching) belong to the same cluster.
- the distance between radar charts corresponds to the similarity between the cells represented by the radar charts.
- Figure 7 shows that cells represented by radar charts that are close to each other are similar to each other, and cells represented by radar charts that are far from each other are dissimilar to each other.
- the data compression processing unit 207 may perform a dimensionality compression process on information relating to the expression levels of each fluorescent substance in the biological particles.
- the data compression processing unit 207 can compress the dimensions of high-dimensional data including the expression levels of multiple fluorescent substances, thereby making it possible to easily visualize the relationships between each piece of high-dimensional data on a low-dimensional map. Therefore, by checking the low-dimensional information after the dimensionality compression process, the user can classify the biological particles into multiple groups more easily than with the high-dimensional information before the dimensionality compression process.
- the data compression processing unit 207 only needs to be able to perform a dimensionality compression process that reduces the number of dimensions by at least one or more, but for example, by compressing the dimensions of the information relating to the expression levels of each fluorescent substance in the biological particles to three dimensions or less, it is possible to more clearly visualize the relationships between each piece of high-dimensional data.
- the algorithm for the dimensionality compression process is not particularly limited, and any known dimensionality compression algorithm can be used.
- the data compression processing unit 207 may perform the dimensionality compression process using an algorithm such as PCA, t-SNE, or Umap.
- FIG. 8 is an explanatory diagram showing the results of dimensionality compression process of information on the expression levels of each fluorescent substance in biological particles to two dimensions using the t-SNE algorithm.
- the Euclidean distance of high-dimensional data such as the expression levels of each fluorescent substance in a cell
- the Euclidean distance of high-dimensional data is converted into a probability using the probability distribution of Student's t-distribution and mapped onto two-dimensional coordinates. This allows the user to more simply compare the similarity of the expression levels of each fluorescent substance in cells without having to compare the expression levels of each fluorescent substance individually.
- cells belonging to the same population are shown in different colors. Referring to Figure 8, it can be seen that the dimensionality reduction process allows cells belonging to the same population to be grouped with appropriate internal connections and external separation.
- the interface unit 209 includes an output device and an input device, and performs input and output of information with the user. Specifically, the interface unit 209 may present the information after nonlinear processing by the data compression processing unit 207 to the user using a CRT (Cathode Ray Tube) display device, a liquid crystal display device, an OLED (Organic Light Emitting Diode) display device, or the like.
- the interface unit 209 may also accept user input specifying the biological particles to be separated, using an input device such as a touch panel, a keyboard, a mouse, a button, a microphone, a switch, or a lever.
- the user can more easily specify the population of biological particles to be separated. For example, by checking the information after clustering processing, the user can identify the cluster of biological particles to be separated. Alternatively, by checking the information after dimensional compression processing, the user can specify the range of the population of biological particles to be separated.
- the constructed learning model may be stored, for example, in a learning model storage unit 213 provided in the information processing device 20.
- the sorting device 10 can sort the biological particles to be sorted by sorting control from the information processing device 20.
- the constructed learning model may be implemented in a logic circuit such as an FPGA circuit provided in the sorting device 10.
- the sorting device 10 is provided with a discrimination unit 215, and the FPGA circuit provided in the sorting device 10 may be implemented with logic designed based on the type of discrimination unit 215 and for executing the constructed learning model.
- the logic for executing the constructed learning model may be designed by the learning unit 211.
- the machine learning algorithm performed by the learning unit 211 is supervised learning that uses information on the fluorescence spectrum of the biological particles identified as the target for sorting as a teacher.
- the learning unit 211 may construct a learning model using a machine learning algorithm such as a random forest, a support vector machine, or deep learning.
- the bioparticle analysis system 1 uses various non-standardized information as training data, and therefore can suitably use a random forest machine learning algorithm that does not require standardization.
- the random forest machine learning algorithm is easy to implement as a learning model in hardware, and therefore can be suitably used in the bioparticle analysis system 1 according to this embodiment, in which it is important to quickly determine whether or not a particle of biological origin is a target for separation.
- the learning unit 211 may determine whether a learning model capable of sufficiently identifying the separation target has been constructed, and notify the user. For example, when the number of pieces of learned information on biological particles, or the proportion of the total, exceeds a threshold, the learning unit 211 may notify the user that a learning model capable of sufficiently identifying the separation target has been constructed.
- the learning unit 211 may notify the user that a learning model capable of sufficiently discriminating between the separation targets has been constructed.
- the accuracy rate of the learning model can be determined, for example, by N-fold-cross validation. Specifically, the entire information to be used as a teacher is divided into N parts, learning is performed using the information contained in the N-1 divided parts to construct a learning model, and then the accuracy rate of the constructed learning model can be determined by discriminating between the information contained in the remaining divided part.
- the learning model storage unit 213 stores the learning model constructed by the learning unit 211.
- the learning model storage unit 213 may store the learning model in the form of hardware using a field-programmable gate array (FPGA) circuit or the like. This makes it possible to more quickly determine whether or not a biological particle is a target for separation.
- FPGA field-programmable gate array
- the discrimination unit 215 discriminates whether or not the fluorescent biogenic particles measured by the fractionation device 10 are to be separated, based on the learning model stored in the learning model storage unit 213. If it is determined that the biogenic particles are to be separated, the discrimination unit 215 instructs the fractionation device 10 to separate the biogenic particles.
- the learning model storage unit 213 and the discrimination unit 215 may be provided in the fraction collection device 10.
- the biological particles are separated according to the discrimination made by the discrimination unit 215.
- the discrimination result with the highest degree of certainty is output, so even if the degree of certainty is low, if it is higher than the other discrimination results, there is a possibility that the target particles will be separated. For this reason, it is not preferable when greater purity of the measurement data (certainty in the correct answer) is required.
- First embodiment 1.1 Fractional collection based on confidence When using machine learning to separate samples, the decision as to whether or not to separate samples is based on past trends (learning data), which necessarily contains ambiguity.
- a threshold is set to separate out only events with a high degree of certainty. Note that this threshold can be set variably and can be adjusted according to the user's intentions.
- the confidence level in deep learning in the first embodiment is used in the following operations.
- the "confidence level” is the probability that the estimation result in deep learning is correct.
- Step 1 First, run some samples to reduce the dimensions.
- Step 2 Specify (gate) the range of the population of bioparticles you want to separate from the dimensionality reduction results.
- Step 3 Divide some of the dimensionally reduced samples into training data and validation data.
- Step 4 After training, vary the threshold using validation data to check for variations in purity and efficiency.
- the training and validation data are dimensionally compressed together and then gated, but if the dimensionality compression algorithm maintains reproducibility for newly added data, it is possible to perform dimensionality compression and gating on just the training data, and then add new validation data to the dimensionality compression result to give it a correct label.
- a "label" indicates which class each piece of data belongs to.
- FIG. 9 is a diagram showing the verification data according to the first embodiment.
- the verification data includes events of cell 1, cell 2, cell 3, cell 4, ..., and each event is associated with a "correct answer,” “estimate,” and “confidence.”
- the “correct answer” data is added in the gating process described below, and the “estimate” and “confidence” data are added in the inference process using the verification data.
- the "correct answer” indicates the class that the cell should actually be included in.
- the “estimate” indicates the class estimated in machine learning.
- the events of "Cell 1" are associated with a "correct answer” class of "1", a “estimate” class of “2”, and a “confidence” of 55%.
- the events of "Cell 2" are associated with a “correct answer” class of "3", a “estimate” class of “3”, and a “confidence” of 80%.
- the events of "Cell 3” are associated with a “correct answer” class of "5", a "estimate” class of "5", and a “confidence” of 98%.
- the classes of "Cell 4" are associated with a "correct answer” class of "2", a “estimate” class of "4", and a “confidence” of 40%.
- FIG. 10 is a diagram showing a screen showing the purity and efficiency (yield) of dimensionally compressed measurement data according to the first embodiment.
- the screen displays purity and efficiency based on a threshold value, and also shows which measurement data has been separated.
- the X-axis shows the value of the dimensionally compressed first-dimensional measurement data
- the Y-axis shows the value of the dimensionally compressed second-dimensional measurement data.
- FIG. 10 shows an example of two-dimensional measurement data, the measurement data may be displayed in three dimensions.
- purity is the percentage of measurement data that is correctly labeled
- efficiency is the percentage of correct measurement data contained in the labeled measurement data.
- black stars, crosses, black squares, black triangles, and black circles indicate dimensionally compressed measurement data, and the solid line-enclosed parts of the squares indicate the areas to which labels are assigned. It is assumed that the correct labels are black stars for label 101, black squares for label 102, black triangles for label 103, and black circles for label 104.
- the threshold is 0% (left diagram in Figure 10)
- the purity is 100% and the efficiency is 100%
- the range of label 102 is separated
- the purity is 70% and the efficiency is 70%
- the range of label 103 is separated
- the purity is 80% and the efficiency is 100%
- the range of label 104 is separated, the purity is 100% and the efficiency is 70%.
- the threshold is 70% (center diagram in Figure 10)
- the purity is 100% and the efficiency is 100%
- the range of label 102 is separated, the purity is 75% and the efficiency is 60%
- the range of label 103 is separated, the purity is 88.9% and the efficiency is 100%
- the range of label 104 is separated, the purity is 100% and the efficiency is 60%.
- the threshold is 90% (the diagram on the right side of Figure 10)
- the purity is 98% and the efficiency is 84%
- the purity is 85.7% and the efficiency is 60%
- the range of label 103 is separated
- the purity is 100% and the efficiency is 87.5%
- the range of label 104 is separated, the purity is 100% and the efficiency is 60%.
- the user can set the threshold while checking the quantitative changes in purity and efficiency according to the threshold, and the qualitative changes in which plots of measurement data are judged to be fractions.
- FIG. 11 shows the classes and confidence levels of dimensionally compressed measurement data in the first embodiment.
- the user clicks on a measurement data item, or a gate or the like selects multiple events. If only one measurement data item is selected, the confidence level of each class of the selected measurement data item is displayed. The user can check the confidence level of each class of the selected measurement data item.
- the confidence level for each class is displayed using the average or median of the selected measurement data. The user can check the confidence level for each class of the selected measurement data.
- a table 105 is shown showing the classes and confidence levels of multiple selected measurement data.
- a table 106 is shown showing the classes and confidence levels of one selected measurement data.
- FIG. 12 is a diagram showing a screen showing the relationship between the mode and purity and efficiency according to the first embodiment.
- FIG. 12 shows the purity and efficiency of the Yield mode, Normal mode, and Purity mode, as well as which measurement data is being collected. The user may refer to the screen shown in FIG. 12 to determine which mode to select.
- an algorithm is provided in which a mode is selected and the threshold is set according to the selected mode. This makes it easier for users who find it difficult to set thresholds to use the threshold setting.
- Threshold setting method 2 The threshold value may be set by the user inputting an arbitrary threshold value on a GUI (Graphical User Interface) (threshold setting method 2).
- the threshold value may be input by direct input of a value, input using a slide bar, or the like.
- Threshold setting method 3 In threshold setting method 1, a threshold is determined in advance for each mode based on past data. In threshold setting method 3, an appropriate threshold is automatically calculated for each mode for each measurement data.
- FIG. 13 is a diagram for explaining a case where a threshold is set for each measurement data in the first embodiment.
- the thick line indicates the purity of the measurement data for verification
- the thick dotted line indicates the three-section average moving line of the purity of the measurement data for verification
- the thin line indicates the efficiency of the measurement data for verification
- the thin dotted line indicates the three-section average moving line of the efficiency of the measurement data for verification.
- the Normal mode may be set at the certainty level where the slope becomes gentle, with the threshold set to 62-63%
- the Purity mode may be set at the purity level where the slope changes from gentle to steep, with the threshold set to 87-88%.
- Whether the slope is gentle or steep may be determined, for example, by determining that the slope is gentle when the difference in slope between the threshold levels before and after the certainty level threshold is less than a predetermined difference, and determining that the slope is steep when the difference in slope between the threshold levels before and after the certainty level threshold is greater than a predetermined difference.
- the Purity mode may be set at the point where the slope becomes gentle again, near 99% of the certainty level threshold.
- the threshold can be set at a point that has some characteristic feature for the slope of the purity, etc.
- the mode and threshold may be set based on the slope of efficiency, the slope of a combination of purity and efficiency, the slope of the moving average line of purity, the slope of the moving average line of efficiency, etc., instead of "purity".
- the threshold may be calculated using a method that does not use the slope.
- a receiver operating characteristic (ROC) curve may be used as a method for automatically determining the threshold.
- Figure 14 is a diagram for explaining a case where a threshold is set using an ROC curve of the measurement data for verification according to the first embodiment.
- the true positive rate is the percentage of all positives that were correctly determined to be positive when they were actually positive.
- the false positive rate is the percentage of all negatives that were actually negative but were mistakenly determined to be positive.
- the threshold that balances purity and efficiency is the threshold that is located closest to the upper left (0, 1) when drawing the ROC curve, so this value can be used as the threshold.
- the analysis method disclosed herein selects a cell group using gating or other methods in dimensionality reduction, calculates the similarity and confidence between the selected cell group and the cells being measured for each measurement data, and displays the calculated similarity and confidence in different colors.
- the measurement data may be visualized by changing the shade of the measurement data based on the similarity, or by changing the color.
- the similarity may be calculated using a distance-based calculation such as Euclidean distance, Manhattan distance, or Chebyshev distance, or a similarity-based calculation such as cosine similarity, Jaccard coefficient, or Dice coefficient, or it may be calculated using other methods.
- a distance-based calculation such as Euclidean distance, Manhattan distance, or Chebyshev distance
- a similarity-based calculation such as cosine similarity, Jaccard coefficient, or Dice coefficient
- This visualization can be done for analytical purposes, or it can be done on measurement data after fractionation.
- FIG. 15 is a diagram showing an example of the display of dimensionally compressed measurement data according to the first embodiment.
- the dimensionally compressed measurement data is displayed according to the similarity to the measurement data 111 of the selected cell group.
- the measurement data is displayed in a darker color the higher the similarity to the measurement data 111 of the selected cell group.
- visualization using similarity and confidence can be performed not only on plots on dimensionality reduction, but also on data before fluorescence correction as shown in Figure 16, or on data after fluorescence correction as shown in Figure 17.
- FIG. 16 shows an example of a display in which the measurement data before fluorescence correction of the cells to be measured in the first embodiment is displayed in a different color according to the similarity. As shown in FIG. 16, the measurement data is displayed in a different color according to the similarity to the measurement data 111 of the selected cell group.
- the channel values of each light receiving system may be displayed for each channel.
- the horizontal axis may represent the fluorescence intensity of each fluorescent dye
- the vertical axis may represent the channel values of each light receiving system.
- Figure 17 shows an example of a display in which measurement data after fluorescence correction of the cells to be measured according to the first embodiment is displayed in different colors according to similarity.
- the X and Y axes in Figure 17 represent the fluorescence intensity after fluorescence correction of each fluorescent dye (Color) included in the measurement data.
- FIG. 18 is a functional block diagram illustrating the sorting of measurement data in deep learning of the information processing device 300 according to the first embodiment.
- a measuring device 311 is connected to the information processing device 300.
- the measuring device 311 measures a sample (e.g., a cell, etc.), adds necessary data (e.g., the color of the cell's fluorescence, the intensity of the fluorescence, etc.) to the measured measurement data, and outputs the data to the information processing device 300.
- necessary data e.g., the color of the cell's fluorescence, the intensity of the fluorescence, etc.
- the information processing device 300 has an acquisition unit 312, a preprocessing unit 313, a dimensional compression unit 314, a gate unit 315, a division unit 316, a learning unit 317, an estimation unit 318, a threshold setting unit 319, a display unit 320, and a fractionation unit 321.
- the acquisition unit 312 acquires multiple pieces of measurement data from a measurement device 311 external to the information processing device 300.
- the preprocessing unit 313 performs downsampling and narrowing down the target population on the measurement data measured by the acquisition unit 312.
- the dimensionality reduction unit 314 performs dimensionality reduction on the measurement data that has been preprocessed by the preprocessing unit 313. "Dimensionality reduction” refers to finding common features in multidimensional data and expressing it in low dimensions while preserving as much as possible the relationships of data distribution in multidimensional space.
- the dimensionality compression unit 314 determines the range to be separated after compressing the dimensions of the measurement data.
- the measurement data compressed by the dimensionality compression unit 314 includes measurement data for verification and measurement data for learning.
- the explanatory variables for the measurement data may be raw values before fluorescence correction, such as spectra, or may be data after fluorescence correction.
- fluorescence correction an inverse matrix calculation is performed, and the Gauss-Jordan method may be used to solve the problem.
- algorithms such as normalization may be used as preprocessing for clustering in order to suppress batch effects.
- the gate unit 315 gates the measurement data (including the measurement data for verification and the measurement data for learning) that has been dimensionally compressed by the dimensional compression unit 314.
- the gate unit 315 also adds a label to the measurement data for learning that has been dimensionally compressed by the dimensional compression unit 314.
- the division unit 316 divides the multiple pieces of dimensionally compressed measurement data gated by the gate unit 315 into multiple pieces of measurement data for learning and multiple pieces of measurement data for verification.
- the learning unit 317 performs machine learning using the learning measurement data (measurement data before or after fluorescence correction) split by the splitting unit 316 and the labels added to the learning measurement data by the gate unit 315 to construct a learning model.
- the learning model estimates the measurement data and estimates the confidence level for determining whether or not the biological particles are to be separated.
- the estimation unit 318 estimates the accuracy of the multiple measurement data for verification among the multiple measurement data acquired by the acquisition unit 312, and estimates the confidence level of the estimate. Specifically, the estimation unit 318 estimates the accuracy of the multiple measurement data for verification using the learning model generated by the learning unit 317.
- the estimation unit 318 has a confidence calculation unit that calculates the confidence of the estimation result based on the multiple measurement data used in the inference by the estimation unit 318 and the information obtained by the data compression process.
- the threshold setting unit 319 sets a threshold for dividing the multiple measurement data acquired by the acquisition unit 312 into measurement data for the confidence level estimated by the estimation unit 318.
- the display unit 320 displays the measurement data for verification, thresholds, classification (class), thresholds, mode, purity of the measurement data for verification, efficiency, etc. on the screen.
- the display unit 320 can display the results of the estimation by the estimation unit 318.
- the sorting unit 321 sorts out the measurement data to be sorted out from the multiple measurement data acquired by the acquisition unit 312 based on the threshold value set by the threshold setting unit 319. Specifically, the sorting unit 321 classifies the remaining measurement data and the verification measurement data whose estimation and confidence level have been estimated by the estimation unit 318 into classes, and sorts out the measurement data included in the classified classes using the set threshold value.
- the remaining measurement data is measurement data for measuring samples other than the learning measurement data samples and the verification measurement data samples.
- This measurement data sample for measurement is sent to the measurement device 311 after an instruction is given from the information processing device 300 to the measurement device 311.
- the measurement device 311 then collects an aliquot of the sample and outputs the measurement data of the collected sample to the acquisition unit 312 of the information processing device 300.
- the instruction from the information processing device 300 to the measurement device 311 is given, for example, after the threshold setting unit 319 has set a threshold.
- FIG. 19 is a flowchart for explaining the sorting of measurement data in deep learning of the information processing device 300 according to the first embodiment.
- a portion of the multiple samples is passed through the measuring device 311 and the portion of the multiple samples is measured (step S1).
- pre-processing such as downsampling of the measurement data of the portion of the multiple samples and narrowing down of the target group is performed (step S2).
- the preprocessed portion of the multiple measurement data is dimensionally compressed (step S3), and the dimensionally compressed portion of the multiple measurement data is gated (step S4).
- the data to be dimensionally compressed and the explanatory variables during learning may be raw values before fluorescence correction, such as spectra, or may be data after fluorescence correction.
- an inverse matrix calculation is performed when performing fluorescence correction, and the Gauss-Jordan method may be used to solve this.
- an algorithm such as normalization may be used as a preprocessing step for dimensionality compression in order to suppress batch effects.
- the multiple measurement data that have been gated by the gate unit 315 and have been dimension-compressed are divided into multiple measurement data for learning and multiple measurement data for validation (step S5).
- the divided multiple measurement data for learning are used to perform learning and generate a learning model (step S6).
- the generated learning model is used to estimate the correct answer for the multiple measurement data for validation and the confidence level for the estimation for the multiple measurement data for validation (step S7).
- a threshold value for the estimated confidence level is set (step S8).
- the threshold value may be set by user instruction or automatically.
- the user checks the purity and efficiency values and the plot of the measurement data displayed on the display unit 320 (step S9), and if the threshold value setting is not appropriate (NG in step S9), the process returns to step S8 and the threshold value is set again.
- step S9 the remaining samples are flushed (step S10), the remaining measurement data measured on the remaining samples is fractionated (step S11), and a decision is made on fractionation of the measurement data to be fractionated based on the confidence level of the measurement data for the fractionated measurement data class (step S12).
- FIG. 20 is a block diagram showing a configuration example of a bioparticle analysis system 1 according to a modified example of the first embodiment. The same parts as those in FIG. 4 are described with the same reference numerals.
- the biological particle analysis system 1 is an example in which the functions of the information processing device 20 shown in FIG. 4 are divided and provided in a fractionation device 10 connected via a network.
- the fractionation device 10 has an analysis unit 203, a reference spectrum storage unit 205, a data compression processing unit 207, and a learning unit 211.
- the fractionation device 10 acquires measurement data from the sample S, and separates particles to be separated based on the discrimination of the information processing device 20.
- the information processing device 20 has an acquisition unit 201, a learning model storage unit 213, and a discrimination unit 215.
- the information processing device 20 and the fractionation device 10 may be connected to each other so as to be able to communicate with each other via a network such as the Internet, a public line network such as a telephone network or a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), or a WAN (Wide Area Network).
- a network such as the Internet, a public line network such as a telephone network or a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), or a WAN (Wide Area Network).
- FIG. 21 is a functional block diagram of an information processing system according to a modified example of the first embodiment. Note that the same parts as those in FIG. 18 are denoted by the same reference numerals. As shown in FIG. 21, the fractionation unit 321 provided in the information processing device 300 may be provided in the measurement device 311.
- the preprocessing unit 313 and the threshold setting unit 319 may be provided in the measurement device 311.
- the threshold set by the threshold setting unit 319 and the remaining measurement data not used for verification and learning by the estimation unit 318 are output from the information processing device 300 to the measurement device 311.
- the fractionation unit 321 of the measurement device 311 receives the threshold and the estimated remaining measurement data output from the information processing device 300, and fractionates the remaining measurement data using the received threshold.
- the sorting section (determination section) of the measuring device 311 which is a biological particle sorting device, inputs optical information measured from the biological particles to be sorted into a learning model created by the learning section 317, infers whether the biological particles to be sorted are to be sorted, and if it is inferred that they are to be sorted, makes a sorting determination based on the threshold set by the threshold setting section 119.
- the biological particle sorting device sorts the particles to be sorted based on the sorting determination by the determination section.
- the biological particles to be sorted are included in the sample.
- functions requiring a large amount of calculation e.g., preprocessing unit 313, dimensional compression unit 314, gate unit 315, division unit 316, learning unit 317, estimation unit 318, threshold setting unit 319) can be assigned to a device with higher computing power (information processing server 301 in the example of FIG. 22).
- the information processing device 300 may be a cloud computer connected to the measurement device 311 via a network.
- the cloud computer may execute some of the functions of the information processing device 300, such as the dimensional compression unit 314, the machine learning learning unit 317, and the threshold setting unit 319.
- the information processing device 300 directly connected to the measurement device 311 may be responsible.
- measurement data can be appropriately classified, similar to the information processing device 300 according to the first embodiment.
- Second embodiment 2.1. Confidence-Based Clustering The second embodiment is to set a threshold value for clustering sorting. When sorting is performed using a clustering algorithm, the cluster is always classified into the cluster with the highest relative similarity among all clusters. However, it is unclear whether the classification results are close in absolute value.
- a threshold is set so that measurement data is only separated when the distance is closer than a certain value.
- FIG. 23 is a diagram for explaining the concept of thresholds for clustering sorting according to the second embodiment.
- the parameters on the horizontal axis indicate, for example, the type of fluorescent dye antibody, antigen marker, or CD classification
- the vertical axis indicates the fluorescence intensity of an event (e.g., a cell).
- the solid line indicates the representative value of the cluster, and the dotted line indicates the target event (the measured value of the remaining measurement data).
- FIG. 24 is a diagram for explaining the concept of the range when the threshold is set to 50% in clustering sorting according to the second embodiment. If the measured value (fluorescence intensity) of the parameter of the leftmost target event shown in FIG. 23 falls within 25% to 75% of the representative value of this cluster, then it is set as the measured value to be sorted. In the case of FIG. 23, the measured value of the parameter of the leftmost event does not fall within the threshold range, so it is not set as the target for sorting.
- a threshold of 50% is set for the representative value of the cluster corresponding to the second parameter from the left, then 25% to 75% of the cluster's representative value will be set as the threshold range, as shown in Figure 24. If the measured value of the parameter of the second target event from the left falls within 25% to 75% of this cluster's representative value, then it will be set as the measured value to be sampled. In the case of Figure 23, the measured value second from the left does not fall within the threshold range, so it is not set as the target for sampled.
- a threshold of 50% is set for the representative value of the cluster corresponding to the third parameter from the left
- 25% to 75% of the cluster's representative value will be set as the threshold range, as shown in Figure 24.
- the third measurement value from the left falls within the range of 25% to 75% of this cluster's representative value, it will be set as the measurement value to be sampled.
- the third measurement value from the left falls within the threshold range, so it will be set as the measurement value to be sampled.
- the threshold for clustering may be determined as follows:
- threshold determination is performed for each parameter> - Enter an absolute threshold value, and if the measured values for all parameters are within the cluster representative value ⁇ the threshold value, the sample is collected. - Enter a percentage threshold, and if the measured values for all parameters are within the cluster representative value ⁇ representative value ⁇ threshold, the sample will be sorted. - For each cluster, if the frequency distribution of each parameter is within the threshold value entered by the user, the parameters are separated.
- threshold is determined by averaging all parameters> Input an absolute threshold value, and if the mean (
- mean means average.
- the number or ratio of the number of decision trees may be set as a threshold when performing majority voting of the decision trees. The threshold may be determined automatically based on the measurement data, or may be determined by the user.
- the threshold value may be determined not only by the average value but also by the median value of multiple measurement data included in a cluster.
- the threshold value may also be determined by using a representative value determined by the learning unit 317.
- FIG. 25 is a functional block diagram of the information processing device 400 according to the second embodiment for performing clustering sorting.
- a measuring device 411 is connected to the information processing device 400.
- the measuring device 411 measures a sample (e.g., a cell, etc.), adds necessary data (e.g., the color of the cell's fluorescence, the intensity of the fluorescence, etc.) to the measured measurement data, and outputs the data to the information processing device 400.
- necessary data e.g., the color of the cell's fluorescence, the intensity of the fluorescence, etc.
- the information processing device 400 has an acquisition unit 412, a preprocessing unit 413, a classification and clustering unit 414, a cluster selection unit 415, a display unit 416, a threshold setting unit 417, and a fractionation unit 418.
- the acquisition unit 412 acquires multiple pieces of measurement data from a measurement device 411 external to the information processing device 400.
- the preprocessing unit 413 performs downsampling and narrowing down the target population on the measurement data measured by the acquisition unit 412.
- the classifying and clustering unit 414 classifies the multiple pieces of measurement data acquired by the acquiring unit 412 into classes.
- the classifying and clustering unit 414 also classifies the multiple pieces of measurement data acquired by the acquiring unit 412 into clusters.
- the cluster selection unit 415 selects a cluster to be collected from the classes classified by the classification and clustering unit 414.
- the display unit 416 displays a screen showing the efficiency of the classified measurement data (e.g., measurement data, class, threshold, mode, purity, efficiency-classified measurement data, cluster of classified measurement data).
- the threshold setting unit 417 sets a threshold for a representative value of the cluster, which is the average of multiple measurement data included in the cluster selected by the cluster selection unit 415.
- the threshold value may be the median value of the multiple measurement data included in the cluster.
- the threshold value may also be determined using a representative value determined by the learning unit 317.
- the fractionation unit 418 fractionates the measurement data to be fractionated from among the measurement data contained in the clusters classified by the classification and clustering unit 414 based on the threshold set by the threshold setting unit 417.
- the sorting unit 418 sorts the sampling data included in the cluster classified by the classifying and clustering unit 414 as the target for sorting.
- the fractionation unit 418 may fractionate the sampling data included in the cluster classified by the clustering and clustering unit 414 as a fractionation target, if all the measurement values of the multiple measurement data included in the cluster classified by the classifying and clustering unit 414 are within the range of a representative value ⁇ representative value ⁇ threshold value.
- FlowSOM circuit> 26 is a diagram showing a first example of a circuit of FlowSOM according to the second embodiment.
- FlowSOM is a known clustering algorithm. As shown in FIG. 26, event data a (d dimension) and data b of node (cluster) 1 containing a representative value of the d dimension are input to a difference calculator 551, and a difference (a-b) is calculated.
- the squarer 552 calculates the square (a ⁇ b) 2 of the difference (a ⁇ b) calculated by the differentiator 551, and outputs it to a summation calculator 553.
- the summation calculator 553 calculates the sum ⁇ (a ⁇ b )2 of the square (a ⁇ b) 2 of the difference (a ⁇ b) calculated by the squarer 552, and outputs it to a comparator 554.
- the comparator 554 compares the minimum distance held in the minimum distance holder 555 with the sum ⁇ (a ⁇ b) 2 output from the summation unit 553 , and holds the smaller distance in the minimum distance holder 555 as the minimum distance.
- the comparator 554 replaces the event data a and data b held in the minimum distance holder 555 with the sum ⁇ (a ⁇ b) 2 , which has the closest Euclidean distance between them. That is, the comparator 554 performs comparison to search for the node with the smallest error. As a result, the data is classified into the node (cluster) with the smallest distance held in the minimum distance holder 555.
- the data b from node 1, node 2, ..., node N are input serially to the difference calculator 551, but the data b from node 1, node 2, ..., node N may be processed in parallel.
- FIG. 27 is a diagram showing a second example of a circuit of FlowSOM according to the second embodiment. As shown in FIG. 27, data of 100 nodes 1 to 100 is input with a parallel number of 10.
- data b containing d-dimensional representative values of node 1, node 2, node 3, ..., node 10 is input in parallel to subtractors 551_1 to 551_10.
- Event data a (d-dimension) is also input to subtractors 551_1 to 551_10.
- the data b of node 1, node 11, node 21, ..., node 91 is input in order.
- the data b of node 2, node 12, node 22, ..., node 92 is input in order
- the data b of node 3 node 13, node 23, ..., node 93 is input in order
- ..., the data b of node 10 node 20, node 30, ..., node 100 is input in order.
- Differentiators 551_1 to 551_10 receive event data a (d dimension) and data b from nodes (clusters) 1, 2, ..., and N that contain the representative value of the d dimension, and calculate the difference (a - b).
- the squarers 552_1 to 552_10 calculate the squares (a-b) 2 of the differences (a-b) calculated by the differencers 551_1 to 551_10, respectively, and output the squares to the summations 553_1 to 553_10.
- the summations 553_1 to 553_10 calculate the sums ⁇ (a-b) 2 of the squares (a-b) 2 of the differences (a-b) calculated by the squarers 552_1 to 552_10, respectively, and output the sums to the comparators 554_1 to 554_10, respectively.
- Comparators 554_1 to 554_10 compare the minimum distances held in minimum distance holders 555_1 to 555_10 with the sums ⁇ (a ⁇ b) 2 output from summaries 553_1 to 553_10, respectively, and hold the smaller distance as the minimum distance in minimum distance holders 555_1 to 555_10, respectively.
- Comparator 556 compares the minimum distances stored in minimum distance holder 555_1 to minimum distance holder 555_10, and stores the smaller distance as the minimum distance in minimum distance holder 257. As a result, minimum distance holder 257 classifies nodes (clusters) with the smallest distance from node 1 to node 100.
- the number of nodes is 100 and the number of parallel connections is 10, but these values may be flexible depending on the circuit resources. Also, in FIG. 27, the case where one comparator 556 is used is shown, but multiple comparators 556 may be used to perform parallel processing.
- FIG. 28 is a diagram showing a third example of a circuit of FlowSOM according to the second embodiment.
- ⁇ indicates a metacluster
- ⁇ indicates a node associated with the metacluster for which the minimum value is selected.
- the number of metaclusters is 8, and the number of nodes linked to the metacluster for which the minimum value was selected is 10, but the number of metaclusters and nodes is not limited to this.
- the case where nodes 1 to 10 linked to the metacluster are calculated in series is shown, but the calculations may be performed in parallel.
- the metacluster with the smallest distance is found among metaclusters 1-8 by the processing of the difference calculator 571 to the minimum distance holder 575. After that, the 10 nodes linked to the metacluster with the smallest distance are classified into the node with the final distance.
- event data a (d dimension) and data b of a node (cluster) linked to a selected meta cluster with the smallest error containing the representative value of the d dimension are input to a subtractor 571, and the difference (a-b) is calculated.
- the squarer 572 calculates the square (a ⁇ b) 2 of the difference (a ⁇ b) calculated by the differentiator 571, and outputs it to a summation calculator 573.
- the summation calculator 573 calculates the sum ⁇ (a ⁇ b )2 of the square (a ⁇ b) 2 of the difference (a ⁇ b) calculated by the squarer 572, and outputs it to a comparator 574.
- the comparator 574 compares the minimum distance held in the minimum distance holder 555 with the sum ⁇ (a ⁇ b) 2 output from the summation unit 573 , and holds the smaller distance in the minimum distance holder 575 as the minimum distance.
- the comparator 574 replaces the event data a and data b held in the minimum distance holder 575 with the sum ⁇ (a ⁇ b) 2 , which has the closest Euclidean distance between them. That is, the comparator 574 performs comparison to search for the node with the smallest error. As a result, the node (cluster) with the smallest distance held in the minimum distance holder 575 is clustered.
- the data b from node 1, node 2, ..., node 10 linked to the meta cluster with the smallest error distance is input in series to the difference calculator 571, but the data b from node 1, node 2, ..., node 10 may be processed in parallel.
- FIG. 29 is a flowchart for explaining the clustering sorting of the information processing device 400 according to the second embodiment.
- a portion of the multiple samples is passed through the measuring device 411 and the portion of the multiple samples is measured (step S21).
- pre-processing such as downsampling of the measurement data of the portion of the multiple samples and narrowing down of the target group is performed (step S22).
- classification is performed to classify the preprocessed part of the measurement data into classes (step S23).
- a cluster to be collected is selected from the classified clusters (step S24).
- a threshold is set for a representative value that is the average of multiple measurement data included in the selected cluster (step S25). Note that the threshold may be set for the median value of multiple measurement data included in the selected cluster.
- the user checks the efficiency value displayed on the display unit 416 (step S26), and if the efficiency is not 100% (NG in step S26), the process returns to step S25, where the threshold is set again. Note that the efficiency value may not be 100% but may be any value determined by the user.
- step S26 the remaining sample is passed through (step S27), and clustering is performed on the remaining measurement data (step S28).
- the measurement data to be collected is classified using the set threshold (step S29).
- the explanatory variables for the data to be clustered may be raw values before fluorescence correction, such as spectra, or may be data after fluorescence correction.
- an inverse matrix calculation is performed when performing fluorescence correction, and the Gauss-Jordan method may be used to solve this.
- algorithms such as normalization may be used as preprocessing for clustering in order to suppress batch effects.
- FIG. 30 is a functional block diagram of an information processing system according to a modified example of the second embodiment. Note that the same parts as those in FIG. 25 are denoted by the same reference numerals. As shown in FIG. 30, the fractionation unit 418 provided in the information processing device 400 may be provided in the measurement device 411.
- the threshold set by the threshold setting unit 417 and the clusters clustered by the classification and clustering unit 414 are output from the information processing device 400 to the measurement device 411.
- the fractionation unit 418 of the measurement device 411 receives the threshold and the clustered clusters output from the information processing device 400, and fractionates the measurement data contained in the clusters using the received threshold.
- the information processing system according to the modified example of the second embodiment can appropriately classify measurement data, similar to the information processing device 400 according to the second embodiment.
- Flowchart for FlowSOM fractionation> Next, a description will be given of the operation of the first example of the circuit of FlowSOM shown in Fig. 26.
- Fig. 31 is a flowchart for explaining the operation of the first example of the circuit of FlowSOM according to the second embodiment.
- i 0 is set (step S31), and it is determined whether i ⁇ d (d: number of dimensions) (step S32). If i ⁇ d in step S32 (Yes in step S32), the difference between the i-th dimension value of the representative vector of each node and the i-th dimension value of the event to be sorted is calculated (step S33).
- step S34 the difference between the i-dimension value of the representative vector of each node calculated in step S33 and the i-dimension value of the event to be sorted is squared (step S34), and the squared difference value is integrated (step S35).
- step S36 the process returns to step S32.
- step S32 If i ⁇ d is not satisfied in step S32 (No in step S32), the node with the smallest integrated value of the squared differences is calculated (step S37), and the process ends. As a result, the node (cluster) with the smallest error distance is clustered.
- FIG. 32 is a flowchart for explaining the operation of the third example of the FlowSOM circuit according to the second embodiment.
- i 0 is set (step S41), and it is determined whether i ⁇ d (d: number of dimensions) (step S42). If i ⁇ d in step S42 (Yes in step S42), the difference between the i-th dimension value of the representative vector of each metacluster and the i-th dimension value of the event to be sorted is calculated (step S43).
- step S44 the difference between the i-dimension value of the representative vector of each metacluster calculated in step S43 and the i-dimension value of the event to be sorted is squared (step S44), and the squared difference value is integrated (step S45).
- step S46 the process returns to step S42.
- step S42 if i ⁇ d is not satisfied (No in step S42), the metacluster with the smallest squared difference is calculated (step S47), and j is set to 0 (step S48).
- step S49 it is determined whether j ⁇ d (d: number of dimensions) (step S49). If j ⁇ d is true in step S49 (Yes in step S49), the difference between the j-dimensional value of the representative vector of each node belonging to the metacluster with the smallest squared difference value and the j-dimensional value of the event to be sorted is calculated (step S50).
- step S51 the difference between the j-dimension value of the representative vector of each node belonging to the meta-cluster calculated in step S50 and the j-dimension value of the event to be sorted is squared (step S51), and the squared difference value is integrated (step S52).
- step S52 the squared difference value is integrated
- step S53 the process returns to step S49.
- step S49 If j ⁇ d is not satisfied in step S49 (No in step S49), the node with the smallest integrated value of the squared differences is calculated (step S54), and the process ends. As a result, the node (cluster) with the smallest error distance is clustered.
- a metacluster with the shortest Euclidean distance is first selected, and then the distance to each node belonging to that metacluster is calculated, which is expected to reduce computing resources and increase processing speed.
- the explanation is given from the viewpoint of a general FCM (Flow Cytometer) that does not use images and focuses mainly on fluorescence intensity.
- the explanation is given for a case where certainty-based sorting is applied to an IFCM (Imaging Flow Cytometer).
- IFCM in addition to being able to measure fluorescence intensity like regular FCM, it is also possible to take images of individual cells.
- the fluorescence intensity or image is used as input to identify the group to be separated using dimensionality reduction, clustering, etc. (objective variable), and then the fluorescence intensity or image is used as the explanatory variable for learning. After that, an appropriate threshold is set and separation is performed.
- the fluorescence intensity data may be either data before or after fluorescence correction
- the image may be either the raw image data or data that has undergone preprocessing such as convolution.
- the method described in ⁇ 1.3. Setting the threshold> may be used to set the threshold.
- FIG. 33 is a functional block diagram showing IFCM fractionation of an information processing device 600 according to the third embodiment.
- a measuring device 611 is connected to the information processing device 600.
- the measuring device 611 measures the sample, adds necessary data to the measured measurement data, and outputs the data to the information processing device 600.
- at least an event of the measurement data e.g., cell 1, etc. is measured.
- the information processing device 600 has an acquisition unit 612, a preprocessing unit 613, a determination unit 614, a dimensionality reduction/clustering unit 615, a population identification unit 616, a division unit 617, a learning unit 618, an estimation unit 619, a display unit 620, a threshold setting unit 621, and a fractionation unit 622.
- the acquisition unit 612 acquires multiple pieces of measurement data from a measurement device 611 external to the information processing device 600.
- the pre-processing unit 613 performs downsampling and narrowing down the target population on the measurement data measured by the acquisition unit 612.
- the determination unit 614 determines whether to input the fluorescence data or image data contained in the measurement data acquired by the acquisition unit 612 from among the multiple measurement data.
- the dimensionality reduction/clustering unit 615 performs dimensionality reduction or classifies the fluorescence data or image data determined by the determination unit into clusters.
- the population identification unit 616 identifies a population to be separated from the dimensionally compressed fluorescent data or image data classified by the dimensionality compression/clustering unit 615, or from the classified clusters.
- the division unit 617 divides the fluorescent data or image data identified by the population identification unit 616 into fluorescent data or image data for learning and the fluorescent data or image data for verification.
- the learning unit 618 performs learning using the multiple pieces of measurement data for learning split by the splitting unit 617, and generates a learning model.
- the estimation unit 619 estimates an estimate for multiple pieces of measurement data for verification among the measurement data included in the population identified by the population identification unit 616, and estimates the confidence level of the estimate. Specifically, the estimation unit 619 estimates the confidence level of the fluorescence data or image data for verification using the learning model generated by the learning unit 618.
- the display unit 620 displays the purity and efficiency of the measurement data for verification, as well as the measurement data for verification, thresholds, classification (class), thresholds, mode, etc., as necessary.
- the threshold setting unit 621 sets a threshold for classifying the multiple measurement data acquired by the acquisition unit 612 based on the confidence level estimated by the estimation unit 619.
- the sorting unit 622 sorts the dimensionally compressed fluorescent data or image data classified by the dimensionality compression/clustering unit 615, or the measurement data included in the classified cluster, as the measurement data to be sorted, based on the threshold set by the threshold setting unit 621.
- the sorting unit 622 sorts out the remaining fluorescence data or image data other than the fluorescence data or image data for verification and the fluorescence data or image data for learning from the multiple measurement data acquired by the acquisition unit 612.
- the sorting unit 622 sorts the sampling data included in the cluster classified by as the target for sorting.
- the fractionation unit 622 may fractionate the sampling data included in the cluster classified by the clustering unit as a fractionation target if all the measurement values of the multiple measurement data included in the cluster classified by fall within the range of the representative value ⁇ the representative value ⁇ the threshold value.
- FIG. 34 is a flowchart for explaining IFCM sorting in information processing device 600 according to the third embodiment.
- a portion of the sample is passed through the measuring device 611 and a portion of the multiple samples is measured (step S131).
- pre-processing such as downsampling of the measurement data of the portion of the multiple samples that have been measured and narrowing down of the target group is performed (step S132).
- step S133 it is determined whether to input the fluorescence or the image of the portion of the multiple measurement data that has been preprocessed. Then, dimensionality reduction and clustering are performed on the fluorescence or image determined in step S33 (step S134). Next, a population to be sorted is identified from the clusters that have been clustered in step S34 (step S135).
- a "population" is an island that has been dimensionally reduced for the fluorescence or image, and the dimensionality reduced fluorescence or image that constitutes this island is gated.
- the input data for dimensionality reduction and clustering, and the explanatory variables during learning may be raw values before fluorescence correction, such as spectra, or may be data after fluorescence correction.
- the raw data may be used, or it may be used after preprocessing such as convolution.
- preprocessing such as convolution.
- an inverse matrix calculation is performed when performing fluorescence correction, and the Gauss-Jordan method may be used to solve this.
- an algorithm such as normalization may be used as preprocessing to suppress batch effects.
- the multiple measurement data included in the population identified in step S135 are divided into multiple measurement data for learning and multiple measurement data for validation (step S136).
- the divided multiple pieces of measurement data for learning are used to perform learning using the fluorescence or images as explanatory variables to generate a learning model (step S137). Then, the generated learning model is used to estimate the correct answer for the multiple pieces of measurement data for validation and the confidence level for the estimate for the multiple pieces of measurement data for validation (step S138).
- step S139 a threshold value for the estimated confidence level is set.
- the user checks the purity and efficiency values and the plot of the measurement data displayed on the display unit 320 (step S140), and if the threshold setting is not appropriate (NG in step S140), the process returns to step S139, and the threshold setting is performed again.
- step S140 the remaining measurement data is sent (step S141), and the remaining samples measured are sorted into clusters (step S142). Next, from the remaining measurement data contained in the classified clusters based on the set threshold, the measurement data to be sorted is sorted based on the confidence level (step S143).
- FIG. 35 is a functional block diagram of an information processing system according to a modified example of the third embodiment. Note that the same parts as those in FIG. 30 are denoted by the same reference numerals. As shown in FIG. 35, the fractionation unit 622 provided in the information processing device 600 may be provided in the measurement device 611.
- the threshold set by the threshold setting unit 621 and the clusters clustered by the dimensionality reduction/clustering unit 615 are output from the information processing device 600 to the measurement device 611.
- the fractionation unit 622 of the measurement device 611 receives the threshold and the clustered clusters output from the information processing device 600, and fractionates the measurement data contained in the clusters using the received threshold.
- the information processing system according to the modified example of the third embodiment allows for proper IFCM fractionation.
- FIG. 36 is a hardware configuration diagram showing an example of a computer that realizes the arithmetic unit of the information processing devices 20, 300, 400, 600 and the measurement devices 311, 411, 611 according to the embodiment.
- Computer 1000 has a CPU 1100, RAM 1200, ROM (READ ONLY MEMORY) 1300, HDD (HARD DISK DRIVE) 1400, communication interface 1500, and input/output interface 1600. Each part of computer 1000 is connected by bus 1050.
- the CPU 1100 operates based on the programs stored in the ROM 1300 or the HDD 1400 and controls each component. For example, the CPU 1100 loads the programs stored in the ROM 1300 or the HDD 1400 into the RAM 1200 and executes processes corresponding to the various programs.
- the ROM 1300 stores boot programs such as the BIOS (BASIC INPUT OUTPUT SYSTEM) that is executed by the CPU 1100 when the computer 1000 starts up, as well as programs that depend on the hardware of the computer 1000.
- BIOS BASIC INPUT OUTPUT SYSTEM
- HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by CPU 1100 and data used by such programs.
- HDD 1400 is a recording medium that records application programs related to the present disclosure, which are an example of program data 1450.
- the communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (e.g., the Internet).
- the CPU 1100 receives data from other devices and transmits data generated by the CPU 1100 to other devices via the communication interface 1500.
- the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000.
- the CPU 1100 receives data from an input device such as a keyboard or a mouse via the input/output interface 1600.
- the CPU 1100 also transmits data to an output device such as a display, a speaker or a printer via the input/output interface 1600.
- the input/output interface 1600 may also function as a media interface that reads programs and the like recorded on a specific recording medium.
- Media include, for example, optical recording media such as DVD (DIGITAL VERSATILE DISC) and PD (PHASE CHANGE REWRITABLE DISK), magneto-optical recording media such as MO (MAGNETO-OPTICAL DISK), tape media, magnetic recording media, or semiconductor memory.
- optical recording media such as DVD (DIGITAL VERSATILE DISC) and PD (PHASE CHANGE REWRITABLE DISK)
- magneto-optical recording media such as MO (MAGNETO-OPTICAL DISK)
- tape media such as magnetic recording media, or semiconductor memory.
- the CPU 1100 reads and executes the program data 1450 from the HDD 1400, but as another example, the CPU 1100 may obtain these programs from other devices via the external network 1550.
- the present technology can also be configured as follows. [1] an acquisition unit that acquires measurement data measured from biogenic particles contained in a sample; a compression unit that performs a data compression process on the measurement data acquired by the acquisition unit; a gate unit that gates the measurement data compressed by the compression unit into training measurement data and verification measurement data and adds a label to the training measurement data; A learning unit that constructs a learning model using the learning measurement data and the labels; an estimation unit that inputs the verification measurement data to the learning model and outputs a confidence level of the verification measurement data; and a threshold setting unit that sets a threshold for separating the sample based on the degree of certainty.
- the biogenic particle sorting device includes a sorting unit that sorts particles to be sorted based on the sorting determination of the determination unit, The bioparticle analysis system according to [4].
- the biological particle analysis system according to [4] wherein the biological particles for separation are contained in the sample.
- the predetermined threshold is determined according to one or more modes.
- the data compression process is a dimensional compression process, The bioparticle analysis system according to any one of [1] to [9], wherein a range to be sorted is determined after the dimensionality reduction.
- a compression unit that performs a data compression process on measurement data obtained by measuring the biogenic particles contained in a sample; a gate unit that gates the measurement data compressed by the compression unit into training measurement data and verification measurement data and adds a label to the training measurement data; a learning unit that uses the learning measurement data and the label to construct a learning model for determining whether the biogenic particles are to be sorted; an inference unit that inputs the verification measurement data into a learning model constructed by the learning unit and infers whether the data is a target for collection; a certainty factor calculation unit that calculates a certainty factor of the verification measurement data used in the inference; a threshold setting unit that sets a threshold for dividing the sample based on the certainty calculated by the certainty calculation unit; An information processing device having the above configuration.
- the constructed learning model is output to a microparticle sorting device.
- the information processing device according to [11].
- a confidence level calculation step of calculating a confidence level of the verification measurement data used in the inference
- a threshold setting step of setting a threshold for dividing the sample based on the certainty calculated by the certainty calculation step
- the information processing method further comprising the steps of: inputting optical information measured from the biological particles for separation in the microparticle analysis device into a learning model constructed by the learning step; inferring whether the biological particles for separation are targets for separation; and, when it is inferred that the biological particles for separation are targets for separation, making a separation determination based on the threshold value set by the threshold setting step.
- the information processing method according to [15] above, further comprising the step of separating particles to be separated based on the separation determination.
- an acquisition unit that acquires a plurality of pieces of measurement data including optical information measured from biogenic particles contained in a sample; a clustering unit that classifies the plurality of pieces of measurement data acquired by the acquisition unit into a plurality of clusters; a cluster selection unit that selects a cluster to be collected from the clusters classified by the clustering unit; a threshold setting unit that sets a threshold based on the plurality of pieces of measurement data included in the cluster selected by the cluster selection unit.
- the clustering unit includes: Classifying the plurality of pieces of measurement data acquired by the acquisition unit into clusters; The information processing device according to [17], further comprising a fractionation unit that fractionates the measurement data to be fractionated from the measurement data included in the clusters classified by the clustering unit based on the threshold value set by the threshold setting unit.
- the threshold setting unit is The information processing device according to any one of claims 17 to 18, further comprising: setting a threshold for a representative value of the cluster or a threshold for a median value of the plurality of pieces of measurement data included in the cluster selected by the cluster selection unit.
Landscapes
- Chemical & Material Sciences (AREA)
- Dispersion Chemistry (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
Description
本開示は、生体粒子分析システム、情報処理装置、及び情報処理方法に関する。 This disclosure relates to a bioparticle analysis system, an information processing device, and an information processing method.
医学又は生化学等の分野では、大量の粒子の特性を迅速に測定するために、フローサイトメータを用いることが一般的になっている。フローサイトメータは、流れる細胞又はビーズ等の粒子に光線を照射し、該粒子から発せられる蛍光等を検出することで、粒子の各々の特性を測定する装置である。 In fields such as medicine and biochemistry, it is common to use flow cytometers to rapidly measure the characteristics of large numbers of particles. A flow cytometer is a device that measures the characteristics of each particle by irradiating flowing particles such as cells or beads with a beam of light and detecting the fluorescence emitted by the particles.
また、フローサイトメータにて検出された蛍光情報に基づいて粒子の移動先を制御することで、測定サンプルの中から特定の蛍光を発する粒子を分取する装置も開発されている。このような分取装置は、セルソータとも称される。 In addition, devices have been developed that separate particles that emit specific fluorescence from a measurement sample by controlling the movement of the particles based on the fluorescence information detected by a flow cytometer. Such separation devices are also called cell sorters.
ここで、近年、フローサイトメータでは、一度に測定可能な蛍光物質の数を増やすことで、粒子のより詳細な解析を可能とすることが検討されている。しかしながら、蛍光物質の数を増やすことは、測定データの次元数を増加させてしまうため、フローサイトメータにおける解析をより複雑化させてしまう。 In recent years, studies have been conducted on flow cytometers to enable more detailed analysis of particles by increasing the number of fluorescent substances that can be measured at one time. However, increasing the number of fluorescent substances increases the number of dimensions of the measurement data, making analysis by the flow cytometer more complicated.
そこで、フローサイトメータにおける測定データの解析方法が種々検討されている。例えば、下記の特許文献1には、光線を照射した生体由来対象から検出されるパルス波形のピーク位置に基づいて、生体由来対象の形状情報を推定する技術が開示されている。
Therefore, various methods for analyzing measurement data in flow cytometers have been investigated. For example, the following
一方で、セルソータなどの分取装置では、流れる粒子について測定及び解析を行い、測定及び解析結果に基づいて該粒子を分取するか否かを判別する処理を粒子が装置内を通流する限られた時間内に行うことが求められる。 On the other hand, in a cell sorter or other sorting device, it is necessary to measure and analyze the flowing particles, and to determine whether or not to sort the particles based on the measurement and analysis results within the limited time that the particles flow through the device.
したがって、セルソータなどの分取装置では、粒子が分取対象であるか否かをより迅速かつリアルタイムで判別することが求められていた。 Therefore, there is a need for cell sorters and other sorting devices to be able to determine more quickly and in real time whether or not a particle is a target for sorting.
第1の開示の生体粒子分析システムは、サンプルに含まれる生体由来粒子から測定された測定データを取得する取得部と、前記取得部により取得された前記測定データにデータ圧縮処理を行う圧縮部と、前記圧縮部により圧縮された測定データを学習用測定データと、検証用測定データとにゲートし、前記学習用測定データにラベルを付加するゲート部と、前記学習用測定データと、前記ラベルとを用いて学習モデルを構築する学習部と、前記学習モデルに前記検証用測定データを入力し、前記検証用測定データの確信度を出力する推定部と、前記確信度に基づいて前記サンプルを分取するための閾値を設定する閾値設定部とを有する。 The bioparticle analysis system of the first disclosure includes an acquisition unit that acquires measurement data measured from bioparticles contained in a sample, a compression unit that performs a data compression process on the measurement data acquired by the acquisition unit, a gating unit that gates the measurement data compressed by the compression unit into training measurement data and verification measurement data and adds a label to the training measurement data, a learning unit that constructs a learning model using the training measurement data and the label, an estimation unit that inputs the verification measurement data to the learning model and outputs a confidence level of the verification measurement data, and a threshold setting unit that sets a threshold for separating the sample based on the confidence level.
以下、添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。説明は以下の順序で行うものとする。 Below, a preferred embodiment of the present disclosure will be described in detail with reference to the attached drawings. In this specification and drawings, components having substantially the same functional configuration will be denoted by the same reference numerals to avoid duplicated explanations. The explanation will be given in the following order.
0.基本概念
0.1.生体粒子分析システムの構成
0.2.情報処理装置の構成
1.第1の実施の形態
1.1.確信度に基づく分取
1.2.確信度の使い方
1.3.閾値の設定
1.3.1.閾値の設定方法1
1.3.2.閾値の設定方法2
1.3.3.閾値の設定方法3
1.4.類似度や確信度を用いた可視化
1.5.情報処理装置300の機能ブロック図
1.6.動作説明
1.7.変形例
2.第2の実施の形態
2.1.確信度に基づく分取(クラスタリング)
2.2.クラスタリング分取の閾値
2.2.1.パラメータ毎に閾値の判定を行う場合
2.2.2.全パラメータ平均で閾値の判定を行う場合
2.3.情報処理装置400の機能ブロック図
2.4.FlowSOMの回路
2.5.動作説明
2.6.変形例
2.7.FlowSOM分取時のフローチャート
3.第3の実施の形態
3.1.確信度に基づく分取(画像フローサイトメータ)
3.2.情報処理装置600の機能ブロック図
3.3.動作説明
3.4.変形例
4.ハードウェア構成
0. Basic Concept 0.1. Configuration of Bioparticle Analysis System 0.2. Configuration of
1.3.2.
1.3.3.
1.4. Visualization using similarity and certainty 1.5. Functional block diagram of
2.2. Threshold for clustering sorting 2.2.1. When threshold judgment is performed for each parameter 2.2.2. When threshold judgment is performed by averaging all parameters 2.3. Functional block diagram of
3.2. Functional block diagram of
<0.基本概念>
近年、機械学習を用いて、細胞などが含まれるサンプルから分取対象細胞を測定データ(例えば、標識された細胞から発せられる蛍光の強さ等を含む)に基づいて分取する機械学習ソートと呼ばれる手法が開発されている。機械学習ソートの基本概念については特許文献2に開示されており、本開示では特許文献2の内容が適宜参照されてよい。
<0. Basic concept>
In recent years, a method called machine learning sorting has been developed that uses machine learning to separate target cells from a sample containing cells, etc., based on measurement data (including, for example, the intensity of fluorescence emitted from labeled cells, etc.) The basic concept of machine learning sorting is disclosed in
<0.1.生体粒子分析システムの構成>
生体粒子分析システムについて説明する。
<0.1. Configuration of bioparticle analysis system>
A bioparticle analysis system is described.
まず、図1を参照して、実施の形態に係る生体粒子分析システム1の構成について説明する。図1は、実施の形態に係る生体粒子分析システム1の構成例を示すブロック図である。
First, the configuration of a
図1に示すように、本実施の形態に係る生体粒子分析システム1は、サンプルSから測定データを取得し、かつ情報処理装置20の判別に基づいて分取対象の粒子を分取する分取装置10と、分取装置10にて取得された測定データを解析し、該粒子が分取対象であるか否かを判別する情報処理装置20と、を備える。生体粒子分析システム1は、例えば、いわゆるセルソータとして用いられ得る。
As shown in FIG. 1, the
サンプルSは、例えば、細胞、微生物又は生体関連粒子などの生体由来粒子であり、複数の生体由来粒子の集団を含む。分取装置10は、サンプルSの測定データを解析することによって、生体由来粒子をそれぞれ内的結合及び外的分離された複数の集団に分類し、分類された特定の集団を分取することができる。サンプルSは、例えば、動物細胞(例えば、血球系細胞など)、若しくは植物細胞などの細胞、大腸菌等の細菌類、タバコモザイクウイルス等のウイルス類、若しくはイースト等の菌類などの微生物、染色体、リポソーム、ミトコンドリア、若しくは各種オルガネラ(細胞小器官)などの細胞を構成する生体関連粒子、又は核酸、タンパク質、脂質、糖鎖、若しくはこれらの複合体などの生体関連高分子などの生体由来の微小粒子であってもよい。
The sample S is, for example, a particle of biological origin, such as a cell, a microorganism, or a biologically-related particle, and includes a plurality of groups of biologically-derived particles. The sorting
サンプルSは、例えば、ラテックス粒子やゲル粒子、工業用粒子等の合成粒子などを含む。工業用粒子は例えば、有機若しくは無機高分子材料、金属等であってもよい。有機高分子材料には、ポリスチレン、スチレン・ジビニルベンゼン、ポリメチルメタクリレート等が含まれる。無機高分子材料には、ガラス、シリカ、磁性体材料等が含まれる。金属には、金コロイド、アルミ等が含まれる。これらの微小粒子の形状は、球形であってよいが、非球形であってもよい。微小粒子は空洞を有し、空洞内に生体由来粒子を捕捉するように構成されていてもよい。これらの微小粒子の大きさ及び質量は、当業者により適宜選択されてよく、特に限定されない。 The sample S includes, for example, synthetic particles such as latex particles, gel particles, and industrial particles. The industrial particles may be, for example, organic or inorganic polymeric materials, metals, etc. Organic polymeric materials include polystyrene, styrene-divinylbenzene, polymethyl methacrylate, etc. Inorganic polymeric materials include glass, silica, magnetic materials, etc. Metals include gold colloids, aluminum, etc. The shape of these microparticles may be spherical, but may also be non-spherical. The microparticles may have a cavity and may be configured to capture biological particles in the cavity. The size and mass of these microparticles may be appropriately selected by those skilled in the art and are not particularly limited.
ここで、サンプルSは、1つ以上の蛍光色素によって標識(染色)されている。蛍光色素によるサンプルSの標識は、公知の手法によって行うことができる。例えば、サンプルSが細胞である場合、細胞表面に存在する抗原に対して選択的に結合する蛍光標識抗体と、測定対象の細胞とを混合し、細胞表面の抗原に蛍光標識抗体を結合させることで、測定対象の細胞を蛍光色素にて標識することができる。 Here, the sample S is labeled (stained) with one or more fluorescent dyes. The labeling of the sample S with the fluorescent dyes can be performed by known methods. For example, if the sample S is a cell, the cells to be measured can be labeled with the fluorescent dye by mixing a fluorescently labeled antibody that selectively binds to an antigen present on the cell surface with the cells to be measured and binding the fluorescently labeled antibody to the antigen on the cell surface.
蛍光標識抗体は、標識として蛍光色素を結合させた抗体である。具体的には、蛍光標識抗体は、ビオチン標識した抗体に、アビジンを結合させた蛍光色素をアビジン-ビオジン反応によって結合させたものであってもよい。または、蛍光標識抗体は、抗体に蛍光色素を直接結合させたものであってもよい。なお、抗体は、ポリクローナル抗体又はモノクローナル抗体のいずれを用いることも可能である。また、細胞を標識するための蛍光色素も特に限定されず、細胞等の染色に使用される公知の色素を少なくとも1つ以上用いることが可能である。 A fluorescently labeled antibody is an antibody to which a fluorescent dye is bound as a label. Specifically, a fluorescently labeled antibody may be an antibody to which avidin-bound fluorescent dye is bound by an avidin-biodin reaction, which is then bound to a biotin-labeled antibody. Alternatively, a fluorescently labeled antibody may be an antibody to which a fluorescent dye is directly bound. The antibody may be either a polyclonal antibody or a monoclonal antibody. Furthermore, the fluorescent dye for labeling cells is not particularly limited, and at least one or more well-known dyes used for staining cells, etc. may be used.
分取装置10は、測定ユニットと、分取ユニットと、を含む。分取装置10は、いわゆるフローセル型の分取装置10であってもよく、マイクロ流路チップ型の分取装置であってもよい。
The
測定ユニットは、サンプルSに対してレーザ光等の光線を照射することで、サンプルSから発せられる蛍光を測定する。具体的には、測定ユニットは、サンプルSを分散させたシース液を層流とすることでサンプルSを一方向に整列させる。このとき、測定ユニットは、整列したサンプルSに、サンプルSを標識する蛍光色素を励起可能な波長を有するレーザ光を照射し、レーザ光が照射されたサンプルSから発生する蛍光をCCD(Charge Coupled Device)、CMOS(Complementary Metal Oxide Semiconductor)又はフォトダイオード、PMT(Photo Multiplier Tube)などの公知の光電変換素子によって光電変換する。これにより、測定ユニットは、サンプルSからの蛍光を取得することができる。 The measurement unit measures the fluorescence emitted from the sample S by irradiating the sample S with a beam of light such as a laser beam. Specifically, the measurement unit aligns the sample S in one direction by forming a laminar flow in the sheath liquid in which the sample S is dispersed. At this time, the measurement unit irradiates the aligned sample S with a laser beam having a wavelength capable of exciting the fluorescent dye that labels the sample S, and photoelectrically converts the fluorescence generated from the sample S irradiated with the laser beam using a known photoelectric conversion element such as a CCD (Charge Coupled Device), CMOS (Complementary Metal Oxide Semiconductor), photodiode, or PMT (Photo Multiplier Tube). This allows the measurement unit to acquire the fluorescence from the sample S.
測定ユニットにおけるサンプルSからの蛍光の検出機構は、フィルタ方式又はスペクトル方式のいずれでもよい。ここで、サンプルSからの蛍光の検出機構について、図2及び図3を参照して説明する。図2は、フィルタ方式の検出機構を説明する説明図であり、図3は、スペクトル方式の検出機構を説明する説明図である。 The detection mechanism for the fluorescence from the sample S in the measurement unit may be either a filter type or a spectral type. Here, the detection mechanism for the fluorescence from the sample S will be described with reference to Figures 2 and 3. Figure 2 is an explanatory diagram for explaining the detection mechanism of the filter type, and Figure 3 is an explanatory diagram for explaining the detection mechanism of the spectral type.
図2に示すように、フィルタ方式の検出機構では、流路13を通流するサンプルSに、光源11からの光線を照射することで得られた蛍光をダイクロイックミラー15A、15B、15Cで分光する。これにより、フィルタ方式の検出機構は、光検出器17A、17B、17Cにて所定の波長帯域ごとに蛍光の強度を取得することができる。
As shown in Figure 2, in the filter-type detection mechanism, the sample S flowing through the
具体的には、ダイクロイックミラー15A、15B、15Cは、特定の波長帯域の光を反射し、その他の波長帯域の光を透過させるミラーである。これにより、測定ユニットは、サンプルSからの蛍光の光路上に、異なる波長帯域の光を反射するダイクロイックミラー15A、15B、15Cを設けることで、蛍光を波長帯域ごとに分光することができる。例えば、測定ユニットは、サンプルSからの蛍光が入射する側から順に、赤色の波長帯域の光を反射するダイクロイックミラー15A、緑色の波長帯域の光を反射するダイクロイックミラー15B、及び青色の波長帯域の光を反射するダイクロイックミラー15Cをそれぞれ設けることで、サンプルSからの蛍光を波長帯域ごとに分光することができる。
Specifically,
図3に示すように、スペクトル方式の検出機構では、流路13を通過するサンプルSに光源11からの光線を照射することで得られた蛍光をプリズム16で分光する。これにより、スペクトル方式の検出機構は、光検出器アレイ18にて連続的な蛍光スペクトルを取得することができる。
As shown in FIG. 3, in the spectral detection mechanism, the sample S passing through the
具体的には、プリズム16は、入射する光を分散させる光学部材である。これにより、測定ユニットは、サンプルSからの蛍光をプリズム16にて分散させることで、複数の光電変換素子をアレイ状に配置した光検出器アレイ18にて蛍光の連続的なスペクトルを検出することができる。
Specifically, the
分取ユニットは、分取対象となったサンプルSの一部を分取する。具体的には、まず、分取ユニットは、サンプルSの液滴を生成し、分取対象となるサンプルSの液滴を荷電させる。次に、分取ユニットは、生成した液滴を偏向板により生成された電場中に移動させる。このとき、荷電した液滴は、帯電した偏光板側に引き寄せられるため、液滴の移動方向が変更される。これにより、分取ユニットは、分取対象となるサンプルSの液滴と、分取対象ではないサンプルSの液滴とを分離することができるため、分取対象となる生体由来粒子を分取することが可能となる。なお、分取ユニットの分取方式は、ジェットインエアー方式又はキュベットフローセル方式のいずれであってもよい。また、サンプルSは、フローセル又はマイクロ流路チップの外部に射出されることで分取されてもよく、マイクロ流路チップの内部にて分取されてもよい。サンプルSを分取するか否かは、分取装置10に備えられたロジック回路(例えば、FPGA(field-programmable gate array)回路)にて判断されてもよく、情報処理装置20からの指示にて判断されてもよい。
The fractionation unit fractionates a portion of the sample S to be fractionated. Specifically, the fractionation unit first generates droplets of the sample S and charges the droplets of the sample S to be fractionated. Next, the fractionation unit moves the generated droplets into the electric field generated by the polarizing plate. At this time, the charged droplets are attracted to the charged polarizing plate, so the direction of movement of the droplets is changed. This allows the fractionation unit to separate droplets of the sample S to be fractionated from droplets of the sample S that are not to be fractionated, making it possible to fractionate the biological particles to be fractionated. The fractionation method of the fractionation unit may be either a jet-in-air method or a cuvette flow cell method. The sample S may be fractionated by being ejected outside the flow cell or the microchannel chip, or may be fractionated inside the microchannel chip. The decision as to whether or not to collect sample S may be made by a logic circuit (e.g., a field-programmable gate array (FPGA) circuit) provided in the
情報処理装置20は、測定ユニットによって取得されたサンプルSの測定データを解析し、解析したデータをユーザに提示する。ユーザは、情報処理装置20にて解析されたデータを確認することで、分取対象となる生体由来粒子の集団を特定することができる。
The
<0.2.情報処理装置の構成>
続いて、図4を参照して、本実施の形態に係る生体粒子分析システム1に含まれる情報処理装置20のより具体的な構成について説明する。図4は、本実施の形態に係る情報処理装置20の構成例を示すブロック図である。
<0.2. Configuration of information processing device>
Next, a more specific configuration of the
図4に示すように、情報処理装置20は、取得部201と、解析部203と、リファレンススペクトル記憶部205と、データ圧縮処理部207と、インターフェース部209と、学習部211と、学習モデル記憶部213と、判別部215と、を備える。
As shown in FIG. 4, the
取得部201は、分取装置10から生体由来粒子の蛍光に関する情報を取得する。具体的には、分取装置10は、スペクトル方式の検出機構によって生体由来粒子の光を検出し、取得部201は、生体由来粒子の光のスペクトルに関する情報を取得する。生体由来粒子の光とは、レーザ光を照射された生体由来粒子からの散乱光又は蛍光のいずれかであってもよく、その両方であってもよい。取得部201は、例えば、ネットワーク等を介して分取装置10から生体由来粒子の光に関する情報を取得してもよく、有線若しくは無線のLAN(Local Area Network)、又は有線ケーブルを介して分取装置10から生体由来粒子の光に関する情報を取得してもよい。
The
例えば、取得部201にて取得された生体由来粒子の光に関する情報は、図5に示すような情報であってもよい。図5は、分取装置10から取得される生体由来粒子の光に関する情報の一例を示す表図である。
For example, the information about the light of the biological particles acquired by the
図5に示すように、生体由来粒子の光に関する情報は、細胞(すなわち、生体由来粒子)の識別番号ごとに、光検出器アレイに配置されたN個の光電子増倍管(Photo Multiplier Tube:PMT)の各々にて検出されたゲインを「PMT1」~「PMTN」として示したものであってもよい。これらのN個の光電子増倍管は、プリズムによる光の分散方向に一列にアレイ状に配置されている。そのため、これらのN個の光電子増倍管のゲインをヒストグラムとして連続的に並べることで、細胞の光のスペクトルを取得することができる。図5では、N個の細胞の各々について、N個の光電子増倍管のゲインの測定結果が示されている。 As shown in FIG. 5, the information about the light of the biogenic particles may be represented by the gains detected by N photomultiplier tubes (PMTs) arranged in a photodetector array for each identification number of a cell (i.e., a biogenic particle) as "PMT1" to "PMTN". These N photomultiplier tubes are arranged in a line in an array in the direction of light dispersion by a prism. Therefore, by continuously arranging the gains of these N photomultiplier tubes as a histogram, the spectrum of the light of the cell can be obtained. FIG. 5 shows the measurement results of the gains of N photomultiplier tubes for each of N cells.
解析部203は、分取装置10にて測定された生体由来粒子の光に関する情報を解析することで、生体由来粒子の特性に関する情報を導出する。具体的には、解析部203は、分取装置10にて測定された蛍光スペクトルに含まれる蛍光の各々を分離することで、蛍光の各々に対応する蛍光物質の生体由来粒子における発現量を導出する。
The
測定対象の生体由来粒子は、互いに重なり合った波長分布の蛍光を発する複数の蛍光物質によって標識されている。そのため、解析部203は、分取装置10にて測定された蛍光スペクトルに対して、各蛍光物質から発せられる蛍光の波長分布を重み付けしてフィッティングすることで、各蛍光物質の発現量を導出することができる。
The biological particles to be measured are labeled with multiple fluorescent substances that emit fluorescence with overlapping wavelength distributions. Therefore, the
より具体的には、まず、解析部203は、リファレンススペクトル記憶部205から生体由来粒子を標識している蛍光物質が発する蛍光の波長分布を示すリファレンススペクトルをそれぞれ取得する。次に、解析部203は、各蛍光物質のリファレンススペクトルを重ね合わせて、重み付け最小二乗法を用いて分取装置10にて測定された蛍光スペクトルにフィッティングすることで、各蛍光物質の発現量を推定することができる。
More specifically, first, the
リファレンススペクトル記憶部205は、生体由来粒子を標識可能な蛍光物質が発する蛍光の波長分布を示すリファレンススペクトルをそれぞれ記憶する。リファレンススペクトル記憶部205は、情報処理装置20又は分取装置10のいずれかに備えられていてもよく、ネットワークを介して通信可能な他の情報処理装置又は情報処理サーバに備えられていてもよい。
The reference
データ圧縮処理部207は、解析部203にて解析した生体由来粒子の光情報に対してデータ圧縮処理を行う。
The data
データ圧縮処理とは、非線形処理、又は線形処理のいずれをも含む。例えば、非線形処理としては、次元圧縮処理、クラスタリング処理、又はグルーピング処理を含んでもよい。例えば、線形処理としては、蛍光分離を行うことで、生体由来粒子の光のスペクトル情報から蛍光色素ごとの蛍光情報を生成する処理を含んでもよい。 Data compression processing includes both nonlinear processing and linear processing. For example, nonlinear processing may include dimensionality reduction processing, clustering processing, or grouping processing. For example, linear processing may include processing for generating fluorescence information for each fluorescent dye from the optical spectrum information of biological particles by performing fluorescence separation.
なお、非線形処理には、教師あり若しくは教師なしの機械学習、又は弱教師ありの機械学習のいずれのアルゴリズムが用いられてもよい。ただし、非線形処理に用いられる機械学習アルゴリズムは、後述する学習部211にて用いられる機械学習アルゴリズムとは異なることが望ましい。
Note that any algorithm, whether supervised or unsupervised machine learning or weakly supervised machine learning, may be used for the nonlinear processing. However, it is preferable that the machine learning algorithm used for the nonlinear processing is different from the machine learning algorithm used by the
具体的には、データ圧縮処理部207は、生体由来粒子の各蛍光物質の発現量に関する情報に対してクラスタリング処理を行ってもよい。これによれば、データ圧縮処理部207は、生体由来粒子を外的分離及び内的結合した複数の集団に分類することができる。
Specifically, the data
クラスタリング処理のアルゴリズムは、特に限定されず、公知のクラスタリングアルゴリズムを用いることが可能である。例えば、データ圧縮処理部207は、k-means等のクラスタ数を指定できるアルゴリズムを用いてクラスタリング処理を行ってもよく、flowsom等の自動的にクラスタ数を決定するようなアルゴリズムを用いてクラスタリング処理を行ってもよい。
The algorithm for the clustering process is not particularly limited, and any known clustering algorithm can be used. For example, the data
データ圧縮処理部207によるクラスタリング処理の結果は、図6及び図7に示すような形式にてユーザに提示されてもよい。図6及び図7は、クラスタリング処理の結果を示す説明図である。
The results of the clustering process performed by the data
例えば、図6に示すように、データ圧縮処理部207によるクラスタリング結果は、表形式にてユーザに提示されてもよい。
For example, as shown in FIG. 6, the clustering results by the data
図6では、1000個の細胞(すなわち、生体由来粒子)の集団がN個のクラスタに分割されており、クラスタ及び細胞の各々に付された識別番号にて、各クラスタへの細胞の所属が示されている。具体的には、図6では、識別番号「1」のクラスタには、識別番号「1」、「2」、「3」及び「10」の細胞が所属しており、識別番号「2」のクラスタには、識別番号「11」、「12」、「22」及び「31」の細胞が所属しており、識別番号「3」のクラスタには、識別番号「4」~「6」、「14」及び「15」の細胞が所属しており、識別番号「N」のクラスタには、識別番号「1000」の細胞が所属している。このような表形式によるユーザへの提示では、細胞の各クラスタへの所属を簡潔に示すことができる。 In FIG. 6, a group of 1000 cells (i.e., biological particles) is divided into N clusters, and the identification numbers assigned to the clusters and cells indicate which cells belong to which cluster. Specifically, in FIG. 6, the cells with identification numbers "1", "2", "3", and "10" belong to the cluster with identification number "1", the cells with identification numbers "11", "12", "22", and "31" belong to the cluster with identification number "2", the cells with identification numbers "4" to "6", "14", and "15" belong to the cluster with identification number "3", and the cell with identification number "1000" belongs to the cluster with identification number "N". By presenting the data to the user in such a tabular format, the cell's belonging to each cluster can be simply shown.
例えば、図7に示すように、データ圧縮処理部207によるクラスタリング結果は、ミニマムスパニングツリー(Minimum Spanning Tree)形式にてユーザに提示されてもよい。
For example, as shown in FIG. 7, the clustering results by the data
図7では、複数の色(図7では色をハッチングの種類で区別する)で塗り分けられたレーダチャートが互いに接続された樹状に配列されている。各レーダチャートは、各細胞(すなわち、生体由来粒子)を表している。具体的には、各レーダチャートの分布及び大きさは、細胞の各蛍光物質の発現量に対応するベクトルを表している。ここで、各色で塗り分けられた領域は、各細胞が所属するクラスタを表す。例えば、同じ色(すなわち、同一種のハッチング)で塗り分けられたレーダチャートで示される細胞は、同じクラスタに所属していることを表す。 In Figure 7, radar charts painted in multiple colors (in Figure 7, colors are distinguished by the type of hatching) are arranged in a tree shape that is connected to each other. Each radar chart represents a cell (i.e., a biological particle). Specifically, the distribution and size of each radar chart represents a vector corresponding to the expression level of each fluorescent substance in the cell. Here, the areas painted in each color represent the cluster to which each cell belongs. For example, cells shown in radar charts painted in the same color (i.e., the same type of hatching) belong to the same cluster.
さらに、図7では、レーダチャート間の距離がレーダチャートで表される細胞同士の類似度に対応している。すなわち、図7では、互いに接近したレーダチャートが表す細胞は互いに類似しており、互いに離れたレーダチャートが表す細胞は互いに類似していないことを示している。このようなミニマムスパニングツリー形式によるユーザへの提示によれば、細胞のクラスタへの所属に加えて、細胞の互いの類似関係を示すことができる。 Furthermore, in Figure 7, the distance between radar charts corresponds to the similarity between the cells represented by the radar charts. In other words, Figure 7 shows that cells represented by radar charts that are close to each other are similar to each other, and cells represented by radar charts that are far from each other are dissimilar to each other. By presenting the data to the user in this minimum spanning tree format, it is possible to show the similarity between the cells in addition to the cluster affiliation of the cells.
または、データ圧縮処理部207は、生体由来粒子の各蛍光物質の発現量に関する情報に対して次元圧縮処理を行ってもよい。これによれば、データ圧縮処理部207は、複数の蛍光物質の発現量を含む高次元データの次元を圧縮することで、高次元データの各々の関係性を低次元のマップ上にわかりやすく可視化することができる。したがって、ユーザは、次元圧縮処理後の低次元の情報を確認することで、次元圧縮処理前の高次元の情報よりも、より容易に生体由来粒子を複数の集団に分類することができる。データ圧縮処理部207は、次元数を少なくとも1以上減少させる次元圧縮処理を行うことができればよいが、例えば、生体由来粒子の各蛍光物質の発現量に関する情報の次元を三次元以下に圧縮することで、高次元データの各々の関係性をより明確に可視化することが可能である。
Alternatively, the data
次元圧縮処理のアルゴリズムは、特に限定されず、公知の次元圧縮アルゴリズムを用いることが可能である。例えば、データ圧縮処理部207は、PCA、t-SNE又はUmap等のアルゴリズムを用いて次元圧縮処理を行ってもよい。
The algorithm for the dimensionality compression process is not particularly limited, and any known dimensionality compression algorithm can be used. For example, the data
データ圧縮処理部207による次元圧縮処理の結果は、図8に示すような形式にてユーザに提示されてもよい。図8は、生体由来粒子の各蛍光物質の発現量に関する情報をt-SNEアルゴリズムを用いて二次元まで次元圧縮処理した結果を示す説明図である。
The results of the dimensionality compression process by the data
例えば、図8では、細胞の各蛍光物質の発現量という高次元データのユークリッド距離をスチューデントのt-分布の確率分布を用いて確率に変換して二次元座標上にマッピングしている。これにより、ユーザは、各蛍光物質の発現量を各々比較せずとも、細胞の各蛍光物質の発現量の類似度をより単純化して比較することができる。例えば、図8では、同じ集団に属する細胞を異なる色で表している。図8を参照すると、次元圧縮処理によって、同じ集団に属する細胞が適切に内的結合及び外的分離されてグルーピングされることがわかる。 For example, in Figure 8, the Euclidean distance of high-dimensional data, such as the expression levels of each fluorescent substance in a cell, is converted into a probability using the probability distribution of Student's t-distribution and mapped onto two-dimensional coordinates. This allows the user to more simply compare the similarity of the expression levels of each fluorescent substance in cells without having to compare the expression levels of each fluorescent substance individually. For example, in Figure 8, cells belonging to the same population are shown in different colors. Referring to Figure 8, it can be seen that the dimensionality reduction process allows cells belonging to the same population to be grouped with appropriate internal connections and external separation.
インターフェース部209は、出力装置及び入力装置を含み、ユーザとの間での情報の入出力を行う。具体的には、インターフェース部209は、CRT(Cathode Ray Tube)表示装置、液晶表示装置又はOLED(Organic Light Emitting Diode)表示装置等を用いて、データ圧縮処理部207による非線形処理後の情報をユーザに提示してもよい。また、インターフェース部209は、タッチパネル、キーボード、マウス、ボタン、マイクロフォン、スイッチ又はレバーなどの入力装置を用いて、分取対象とする生体由来粒子を特定するユーザの入力を受け付けてもよい。
The
ユーザは、インターフェース部209から出力されるデータ圧縮処理後の情報を確認することで、分取対象となる生体由来粒子の集団をより容易に指定することができる。例えば、ユーザは、クラスタリング処理後の情報を確認することで、分取対象となる生体由来粒子のクラスタを特定することができる。または、ユーザは、次元圧縮処理後の情報を確認することで、分取対象となる生体由来粒子の集団を範囲指定することができる。
By checking the information after data compression processing output from the
学習部211で実施される学習モデルの構築に関しては後述する。
The construction of the learning model performed by the
構築された学習モデルは、例えば、情報処理装置20に備えられる学習モデル記憶部213に記憶されてもよい。これによれば、分取装置10は、情報処理装置20からの分取制御によって分取対象となる生体由来粒子を分取することができる。または、構築された学習モデルは、分取装置10に設けられたFPGA回路等のロジック回路に実装されてもよい。例えば、分取装置10には、判別部215が設けられており、分取装置10に設けられたFPGA回路には、判別部215の種類に基づいて設計され、構築された学習モデルを実行するロジックが実装されていてもよい。構築された学習モデルを実行するロジックは、学習部211が設計してもよい。
The constructed learning model may be stored, for example, in a learning
学習部211が行う機械学習のアルゴリズムは、分取対象と特定された生体由来粒子の蛍光スペクトルに関する情報を教師とする教師あり学習である。例えば、学習部211は、ランダムフォレスト、サポートベクターマシン、又はディープラーニングなどの機械学習アルゴリズムを用いて学習モデルを構築してもよい。
The machine learning algorithm performed by the
本実施の形態に係る生体粒子分析システム1では、規格化されていない様々な情報を教師として用いるため、規格化の必要がないランダムフォレストの機械学習アルゴリズムを好適に用いることができる。また、ランダムフォレストの機械学習アルゴリズムは、学習モデルをハードウェア化しやすいため、生体由来粒子が分取対象であるか否かを迅速に判別することが重要な本実施の形態に係る生体粒子分析システム1に好適に用いることができる。
The
なお、学習部211は、分取対象の判別が十分可能な学習モデルが構築されたか否かを判断し、ユーザに通知してもよい。例えば、学習部211は、学習した生体由来粒子の情報の数、又は全体に対する割合が閾値を超えた場合に、分取対象の判別が十分可能な学習モデルが構築されたことをユーザに通知してもよい。
The
また、学習部211は、学習モデルの正答率が閾値を超えた場合に、分取対象の判別が十分可能な学習モデルが構築されたことをユーザに通知してもよい。学習モデルの正答率は、例えば、N-fold-cross validationによって判断することが可能である。具体的には、教師に用いる情報の全体をN分割し、N-1個の分割部分に含まれる情報で学習を行って学習モデルを構築した後、残りの1個の分割部分に含まれる情報の判別を行うことで、構築した学習モデルの正答率を判断することができる。
In addition, when the accuracy rate of the learning model exceeds a threshold, the
学習モデル記憶部213は、学習部211が構築した学習モデルを記憶する。学習モデル記憶部213は、FPGA(Field-Programmable Gate Array)回路などを用いて、学習モデルをハードウェア化して記憶してもよい。これによれば、生体由来粒子が分取対象であるか否かの判別をより高速に行うことができる。
The learning
判別部215は、学習モデル記憶部213に記憶された学習モデルに基づいて、分取装置10にて測定された蛍光を発する生体由来粒子が分取対象であるか否かを判別する。生体由来粒子が分取対象であると判別される場合、判別部215は、分取装置10に該生体由来粒子を分取するように指示を出す。
The
なお、学習モデル記憶部213、及び判別部215は、分取装置10に設けられてもよい。
The learning
また、分取装置10が複数の生体由来粒子の集団を別々に分取することが可能である場合、判別部215は、生体由来粒子が分取対象であるか否かだけでなく、いずれの回収部に生体由来粒子を回収するかを分取装置10に指示してもよい。このような場合、学習部211は、分取後にいずれの回収部に回収するのかをさらに特定した生体由来粒子の蛍光
スペクトルに関する情報を教師データとして機械学習を行う。これによれば、判別部215は、複数の生体由来粒子の集団を別々に分取するように分取装置10に指示を出力することが可能である。
Furthermore, when the
以上のように機械学習ソートでは、判別部215の判別に従って生体由来粒子の分取が行われる。機械学習ソートでは、最も確信度の高い判別結果を出力するため、その確信度が低い場合でも他の判別結果よりも確信度が高ければ、対象粒子の分取を実行してしまう可能性がある。そのため、より測定データの純度(正解に対する確信度)が必要な場合には好ましくない。
As described above, in machine learning sorting, the biological particles are separated according to the discrimination made by the
実施の形態の情報に係る生体粒子分析システムは、機械学習モデルに細胞情報を入力し分取判断後、分取判断になった粒子をさらに閾値に基づいて分取判断するものである。以下、生体粒子分析システムの実施の形態について説明する。 The bioparticle analysis system according to the embodiment inputs cell information into a machine learning model, determines whether or not to separate the particles, and then determines whether or not to separate the particles based on a threshold value. The following describes an embodiment of the bioparticle analysis system.
<1.第1の実施の形態>
<1.1.確信度に基づく分取>
機械学習による分取は、過去の傾向(学習データ)に基づいて分取可否を決定しており、そこには必ず曖昧性を含む。
1. First embodiment
1.1. Fractional collection based on confidence
When using machine learning to separate samples, the decision as to whether or not to separate samples is based on past trends (learning data), which necessarily contains ambiguity.
また、ディープラーニング(Deep Learning:深層学習)で出力層にSoftmax関数を採用する場合、それぞれのClassに分取する場合の確信度が合計して100%となるように算出される。 In addition, when using the Softmax function in the output layer of deep learning, the confidence levels for each class are calculated to sum to 100%.
閾値を設定せずに最も高い確率で判定されたクラス(Class)に分取してしまうと、クラス0=20%、クラス1=40%、クラス2=30%、クラス3=10%と判定されるようなイベント(Event)があった場合でも最も確率の高いクラス1に分取してしまう。だが、純度(確信度)を高くしたいユーザの場合、このようなケースの分取は、クラス1の確率が40%と低いために非分取対象とするべきである。この場合、分取効率は低下する。ここで、「クラス」とは、データのカテゴリやグループを示す。
If the class determined with the highest probability is sorted without setting a threshold, even if there is an event where the probability is determined to be
そこで、実施の形態では、確信度が高いイベントのみ分取するために閾値を設ける。なお、この閾値は可変で設定でき、ユーザの意図に合わせて調整可能としても良い。 Therefore, in the embodiment, a threshold is set to separate out only events with a high degree of certainty. Note that this threshold can be set variably and can be adjusted according to the user's intentions.
<1.2.確信度の使い方>
第1の実施の形態におけるディープラーニングにおける確信度は、以下の動作において使用される。ここで、「確信度」は、ディープラーニングにおける推定結果が正しい確率である。
<1.2. How to use confidence level>
The confidence level in deep learning in the first embodiment is used in the following operations. Here, the "confidence level" is the probability that the estimation result in deep learning is correct.
ステップ1:まず一部のサンプルを流して次元圧縮をする。 Step 1: First, run some samples to reduce the dimensions.
ステップ2:次元圧縮結果から分取したい生体粒子の集団の範囲を指定(ゲーティング)する。 Step 2: Specify (gate) the range of the population of bioparticles you want to separate from the dimensionality reduction results.
ステップ3:次元圧縮した一部のサンプルを学習用データと検証用データに分ける。 Step 3: Divide some of the dimensionally reduced samples into training data and validation data.
ステップ4:学習後、検証用データを使って閾値を変化させ、純度や効率の変動を確認する。 Step 4: After training, vary the threshold using validation data to check for variations in purity and efficiency.
なお、上記動作では、学習用と検証用のデータをまとめて次元圧縮をしてゲーティングをしているが、新規に追加したデータに対しても再現性が保たれる次元圧縮アルゴリズムであれば、学習用のデータだけで次元圧縮をしてゲーティングをした後に、その次元圧縮結果に検証用データを新規で追加することで正解ラベルを付けても良い。「ラベル」とは、個々のデータがどのクラスに属するかを示す。 In the above operation, the training and validation data are dimensionally compressed together and then gated, but if the dimensionality compression algorithm maintains reproducibility for newly added data, it is possible to perform dimensionality compression and gating on just the training data, and then add new validation data to the dimensionality compression result to give it a correct label. A "label" indicates which class each piece of data belongs to.
図9は、第1の実施の形態に係る検証用データを示す図である。図9に示すように、検証データとして、細胞1、細胞2、細胞3、細胞4、・・・のイベントがあり、それぞれのイベントに対して、「正解」、「推定」及び「確信度」が対応付けられている。「正解」のデータは、後述するゲーティング処理において付され、「推定」及び「確信度」のデータは、検証用データを使用した推論処理において付される。ここで、「正解」は、実際にその細胞が含まれるべきクラスを示す。「推定」は、機械学習において推定されたクラスを示す。
FIG. 9 is a diagram showing the verification data according to the first embodiment. As shown in FIG. 9, the verification data includes events of
「細胞1」のイベントには、「正解」が”1”のクラス、「推定」が”2”のクラス、「確信度」が55%であることが対応付けられている。「細胞2」のイベントには、「正解」が”3”のクラス、「推定」が”3”のクラス、「確信度」が80%であることが対応付けられている。「細胞3」のイベントには、「正解」が”5”のクラス、「推定」が”5”のクラス、「確信度」が98%であることが対応付けられている。「細胞4」のクラスには、「正解」が”2”のクラス、「推定」が”4”のクラス、「確信度」が40%であることが対応付けられている。
The events of "
図9において、例えば、閾値=60%とすることで、「細胞1」及び「細胞4」のイベントを分取しないため、純度が高めることができる。しかし、閾値=90%と高く設定しすぎると正しい推定をしているイベントまで非分取対象にしてしまう確率が高まるので、イベントを取得する効率が低下する。
In Figure 9, for example, by setting the threshold to 60%, events of "
図10は、第1の実施の形態に係る次元圧縮された測定データの純度と効率(収率)とを示す画面を示す図である。図10に示すように、画面では、閾値による純度と効率が表示され、また、どの測定データが分取されているが示されている。図10では、X軸は次元圧縮した1次元目の測定データの値を示し、Y軸は、次元圧縮した2次元目の測定データの値を示している。図10では、2次元の測定データの例を示したが、測定データは、3次元で示されてもよい。 FIG. 10 is a diagram showing a screen showing the purity and efficiency (yield) of dimensionally compressed measurement data according to the first embodiment. As shown in FIG. 10, the screen displays purity and efficiency based on a threshold value, and also shows which measurement data has been separated. In FIG. 10, the X-axis shows the value of the dimensionally compressed first-dimensional measurement data, and the Y-axis shows the value of the dimensionally compressed second-dimensional measurement data. Although FIG. 10 shows an example of two-dimensional measurement data, the measurement data may be displayed in three dimensions.
ここで、「純度」は、測定データに正しいラベル付けがされる百分率であり、「効率」は、ラベル付けされた測定データに含まれる正しい測定データの百分率である。 Here, "purity" is the percentage of measurement data that is correctly labeled, and "efficiency" is the percentage of correct measurement data contained in the labeled measurement data.
図10において、黒星、×、黒四角、黒三角、黒丸は、次元圧縮された測定データを示し、四角の実線で囲まれた部分はラベルが付与される領域を示している。ラベル101では黒星、ラベル102では黒四角、ラベル103では黒三角、ラベル104では黒丸がラベル付けされるのが正しいものとする。
In Figure 10, black stars, crosses, black squares, black triangles, and black circles indicate dimensionally compressed measurement data, and the solid line-enclosed parts of the squares indicate the areas to which labels are assigned. It is assumed that the correct labels are black stars for
例えば、閾値が0%の場合(図10の左側の図)、ラベル101の範囲が分取される場合では純度100%、効率100%であり、ラベル102の範囲が分取される場合では純度70%、効率70%であり、ラベル103の範囲が分取される場合では純度80%、効率100%、ラベル104の範囲が分取される場合では純度100%、効率70%を示している。
For example, when the threshold is 0% (left diagram in Figure 10), when the range of
閾値が70%の場合(図10の中央の図)、ラベル101の範囲が分取される場合では純度100%、効率100%であり、ラベル102の範囲が分取される場合では純度75%、効率60%であり、ラベル103の範囲が分取される場合では純度88.9%、効率100%、ラベル104の範囲が分取される場合では純度100%、効率60%を示している。
When the threshold is 70% (center diagram in Figure 10), when the range of
閾値が90%の場合(図10の右側の図)、ラベル101の範囲が分取される場合では純度98%、効率84%であり、ラベル102の範囲が分取される場合では純度85.7%、効率60%であり、ラベル103の範囲が分取される場合では純度100%、効率87.5%、ラベル104の範囲が分取される場合では純度100%、効率60%を示している。
When the threshold is 90% (the diagram on the right side of Figure 10), when the range of
図10のような画面を表示することで、ユーザは、閾値に応じた定量的な純度と効率の変化、どの測定データのプロットが分取判定されているかの定性的な変化を確認しながら閾値を設定することができる。 By displaying a screen like that shown in Figure 10, the user can set the threshold while checking the quantitative changes in purity and efficiency according to the threshold, and the qualitative changes in which plots of measurement data are judged to be fractions.
図11は、第1の実施の形態に係る次元圧縮された測定データのクラスと確信度とを示す図である。 FIG. 11 shows the classes and confidence levels of dimensionally compressed measurement data in the first embodiment.
例えば、図11においてユーザが測定データをクリックし、又は、ゲート等が複数のイベントを選択する。1つの測定データだけが選択された場合、選択された1つの測定データの各クラスの確信度が表示される。ユーザは選択された測定データの各クラスの確信度を確認することができる。 For example, in FIG. 11, the user clicks on a measurement data item, or a gate or the like selects multiple events. If only one measurement data item is selected, the confidence level of each class of the selected measurement data item is displayed. The user can check the confidence level of each class of the selected measurement data item.
複数の測定データが選択された場合、選択された複数の測定データの平均や中央値などを使用した各クラスの確信度が表示される。ユーザは、選択された複数の測定データの各クラスの確信度を確認することができる。 When multiple measurement data are selected, the confidence level for each class is displayed using the average or median of the selected measurement data. The user can check the confidence level for each class of the selected measurement data.
図11の左側には、選択された複数の測定データの各クラスと確信度とを示す表105が示されている。図11の右側には、選択された1つの測定データの各クラスと確信度とを示す表106が示されている。 On the left side of FIG. 11, a table 105 is shown showing the classes and confidence levels of multiple selected measurement data. On the right side of FIG. 11, a table 106 is shown showing the classes and confidence levels of one selected measurement data.
<1.3.閾値の設定>
<1.3.1.閾値の設定方法1>
閾値の設定は、モード毎にあらかじ定められた閾値が設定されていても良い(閾値の設定方法1)。例えば、Purityモード=95%、Normalモード=75%、Yieldモード=0%などのように閾値が設定される。方法1では、ユーザがモードを選択することにより、ユーザの選択を受けて閾値が設定される。
1.3. Setting the Threshold
<1.3.1.
The thresholds may be set in advance for each mode (threshold setting method 1). For example, the thresholds are set as follows: Purity mode = 95%, Normal mode = 75%, Yield mode = 0%, etc. In
図12は、第1の実施の形態に係るモードと、純度及び効率との関係の画面を示す図である。図12では、Yieldモード、Normalモード、Purityモードの純度及び効率、また、どの測定データが分取されているが示されている。ユーザは、図12に示す画面を参照して、どのモードを選択するかを決定しても良い。 FIG. 12 is a diagram showing a screen showing the relationship between the mode and purity and efficiency according to the first embodiment. FIG. 12 shows the purity and efficiency of the Yield mode, Normal mode, and Purity mode, as well as which measurement data is being collected. The user may refer to the screen shown in FIG. 12 to determine which mode to select.
このような閾値の設定方法では、モードを選択し、選択されたモードに応じて閾値が設定されるアルゴリズムを提供する。従って、閾値の設定が難しいというユーザが、閾値の設定を使い易くなる。 In this type of threshold setting method, an algorithm is provided in which a mode is selected and the threshold is set according to the selected mode. This makes it easier for users who find it difficult to set thresholds to use the threshold setting.
<1.3.2.閾値の設定方法2>
閾値の設定は、ユーザがGUI(Graphical User Interface)上で任意の閾値の数値を入力しても良い(閾値の設定方法2)。閾値の入力は、数値の直接入力、スライドバーを使用した入力等でも良い。
<1.3.2.
The threshold value may be set by the user inputting an arbitrary threshold value on a GUI (Graphical User Interface) (threshold setting method 2). The threshold value may be input by direct input of a value, input using a slide bar, or the like.
<1.3.3.閾値の設定方法3>
閾値の設定方法1では、過去のデータをもとにモード毎に閾値があらかじめ決められていた。閾値の設定方法3では、測定データ毎に適切な閾値をモード毎に自動で算出する。
<1.3.3.
In
図13は、第1の実施の形態に係る測定データ毎に閾値を設定する場合を説明するための図である。図13において、太線は検証用の測定データの純度、太線の点線は検証用の測定データの純度の3区間平均移動線、細線は検証用の測定データの効率、細線の点線は検証用の測定データの効率の3区間平均移動線を示す。 FIG. 13 is a diagram for explaining a case where a threshold is set for each measurement data in the first embodiment. In FIG. 13, the thick line indicates the purity of the measurement data for verification, the thick dotted line indicates the three-section average moving line of the purity of the measurement data for verification, the thin line indicates the efficiency of the measurement data for verification, and the thin dotted line indicates the three-section average moving line of the efficiency of the measurement data for verification.
図13の純度に着目して、傾きが緩やかになった確信度のところでNormalモードとし、閾値を62~63%に設定し、傾きが緩やかなところからまた急になった純度のところでPurityモードと設定し、閾値を87~88%に設定しても良い。傾きが穏やか又は傾きが急であるかの判断は、例えば、確信度の閾値の区間において、その前後における閾値の区間の傾きの差が所定の差以下である場合には、傾きが穏やかであると判定し、その前後における閾値の区間の傾きの差が所定の差以上である場合には、傾きが急であると判断してもよい。なお、確信度の閾値の99%付近の再度傾きが緩やかになったところをPurityモードと設定しても良い。つまり、純度などの傾きに対して何らかの特徴を有する箇所に閾値を設定できる。 Focusing on the purity in FIG. 13, the Normal mode may be set at the certainty level where the slope becomes gentle, with the threshold set to 62-63%, and the Purity mode may be set at the purity level where the slope changes from gentle to steep, with the threshold set to 87-88%. Whether the slope is gentle or steep may be determined, for example, by determining that the slope is gentle when the difference in slope between the threshold levels before and after the certainty level threshold is less than a predetermined difference, and determining that the slope is steep when the difference in slope between the threshold levels before and after the certainty level threshold is greater than a predetermined difference. Note that the Purity mode may be set at the point where the slope becomes gentle again, near 99% of the certainty level threshold. In other words, the threshold can be set at a point that has some characteristic feature for the slope of the purity, etc.
なお、「純度」ではなく、効率の傾きや、純度と効率とを組みあせたものの傾き、純度の移動平均線の傾き、効率の移動平均線の傾きなどに基づいて、モードと閾値を設定しても良い。また、閾値は、傾きを使わない閾値の算出方法でも良い。 In addition, the mode and threshold may be set based on the slope of efficiency, the slope of a combination of purity and efficiency, the slope of the moving average line of purity, the slope of the moving average line of efficiency, etc., instead of "purity". Also, the threshold may be calculated using a method that does not use the slope.
閾値を自動で決定する方法としてROC(Receiver Operatorating Charasteristic)曲線を用いても良い。図14は、第1の実施の形態に係る検証用の測定データのROC曲線を使用して閾値を設定する場合を説明するための図である。 As a method for automatically determining the threshold, a receiver operating characteristic (ROC) curve may be used. Figure 14 is a diagram for explaining a case where a threshold is set using an ROC curve of the measurement data for verification according to the first embodiment.
図14において、真陽性率(TPR:True Positive Rate)とは、全てのポジティブのうち、実際にポジティブだったものを正しくポジティブと判定できた割合をいう。偽陽性率(FPR:False Positive Rate)とは、全てのネガティブのうち、実際にはネガティブだったが間違えてポジティブだったと判定した割合をいう。 In Figure 14, the true positive rate (TPR) is the percentage of all positives that were correctly determined to be positive when they were actually positive. The false positive rate (FPR) is the percentage of all negatives that were actually negative but were mistakenly determined to be positive.
純度と効率のバランスが取れた閾値はROC曲線を引いた際に最も左上(0,1)に近いところに位置する閾値であるので、この値を閾値として採用しても良い。 The threshold that balances purity and efficiency is the threshold that is located closest to the upper left (0, 1) when drawing the ROC curve, so this value can be used as the threshold.
最も(0,1)に近い閾値を算出するには、ユークリッド距離などを使って探索しても良いし、それ以外の方法で求めても良い。 To calculate the threshold closest to (0, 1), you can search using the Euclidean distance, or you can use other methods.
<1.4.類似度や確信度を用いた可視化>
次元圧縮では多次元の情報を低次元の情報に圧縮するため、多次元空間での関係性は、低次元空間で完全に表現することは不可能である。
1.4. Visualization using similarity and certainty
Dimensionality reduction compresses multidimensional information into lower dimensional information, so relationships in a multidimensional space cannot be fully represented in a lower dimensional space.
そのため、CD4+T cellとCD8+T cellのような類似している細胞種であっても離れた距離に分布してしまうことがある。従って、このような類似している細胞腫の解析の効率が落ちてしまう。 As a result, even similar cell types, such as CD4+ T cells and CD8+ T cells, can be distributed at large distances. This reduces the efficiency of analyzing such similar cell types.
本開示の解析方法は、次元圧縮上においてゲーティング等で細胞群を選択し、選択した細胞群と測定対象となる細胞との類似度や確信度を各測定データで計算し、計算された類似度や確信度に基づいて色を変えて表示する。 The analysis method disclosed herein selects a cell group using gating or other methods in dimensionality reduction, calculates the similarity and confidence between the selected cell group and the cells being measured for each measurement data, and displays the calculated similarity and confidence in different colors.
可視化の方法の一例として、測定データは類似度に基づいて測定データの濃淡を変えて可視化してもよいし、色を変えて可視化してもよい。 As an example of a visualization method, the measurement data may be visualized by changing the shade of the measurement data based on the similarity, or by changing the color.
類似度の計算はユークリッド距離やマンハッタン距離、チェビシェフ距離などの距離ベースの計算を用いても良いし、コサイン類似度やジャッカード係数、ダイス係数などの類似度ベースの計算を用いても良いし、それ以外でも良い。 The similarity may be calculated using a distance-based calculation such as Euclidean distance, Manhattan distance, or Chebyshev distance, or a similarity-based calculation such as cosine similarity, Jaccard coefficient, or Dice coefficient, or it may be calculated using other methods.
本可視化は、解析目的で行っても良いし、分取後の測定データに対して行っても良い。 This visualization can be done for analytical purposes, or it can be done on measurement data after fractionation.
図15は、第1の実施の形態に係る次元圧縮された測定データの表示例を示す図である。図15において、次元圧縮された測定データは、選択された細胞群の測定データ111に対する類似度に従って示されている。図15では、測定データは、選択された細胞群の測定データ111に対して類似度が高いほど濃い色で示されている。 FIG. 15 is a diagram showing an example of the display of dimensionally compressed measurement data according to the first embodiment. In FIG. 15, the dimensionally compressed measurement data is displayed according to the similarity to the measurement data 111 of the selected cell group. In FIG. 15, the measurement data is displayed in a darker color the higher the similarity to the measurement data 111 of the selected cell group.
また、類似度や確信度を用いた可視化は次元圧縮上のプロットだけではなく、図16に示すように蛍光補正前のデータや、図17に示すように蛍光補正後のデータに対して行ってもよい。 In addition, visualization using similarity and confidence can be performed not only on plots on dimensionality reduction, but also on data before fluorescence correction as shown in Figure 16, or on data after fluorescence correction as shown in Figure 17.
図16は、第1の実施の形態に係る測定対象となる細胞の蛍光補正前の測定データを類似度に従って色を変えて表示する表示例を示す図である。図16に示すように、測定データは、選択された細胞群の測定データ111に対する類似度に従って、色を変えて表示されている。 FIG. 16 shows an example of a display in which the measurement data before fluorescence correction of the cells to be measured in the first embodiment is displayed in a different color according to the similarity. As shown in FIG. 16, the measurement data is displayed in a different color according to the similarity to the measurement data 111 of the selected cell group.
測定対象となる細胞の蛍光補正前の測定データを表示する場合、各受光系のchの値をch毎に表示してもよい。また、横軸を各蛍光色素の蛍光強度、縦軸を各受光系のchの値にしてもよい。図17は、第1の実施の形態に係る測定対象となる細胞の蛍光補正後の測定データを類似度に従って色を変えて表示する表示例を示す図である。ここで、図17のX軸及びY軸は、測定データに含まれる各蛍光色素(Color)の蛍光補正後の蛍光強度を示している。 When displaying the measurement data of the cells to be measured before fluorescence correction, the channel values of each light receiving system may be displayed for each channel. The horizontal axis may represent the fluorescence intensity of each fluorescent dye, and the vertical axis may represent the channel values of each light receiving system. Figure 17 shows an example of a display in which measurement data after fluorescence correction of the cells to be measured according to the first embodiment is displayed in different colors according to similarity. Here, the X and Y axes in Figure 17 represent the fluorescence intensity after fluorescence correction of each fluorescent dye (Color) included in the measurement data.
<1.5.情報処理装置300の機能ブロック図>
図18は、第1の実施の形態に係る情報処理装置300のディープラーニングにおける測定データの分取を行う機能ブロック図である。
<1.5. Functional block diagram of
FIG. 18 is a functional block diagram illustrating the sorting of measurement data in deep learning of the
図18に示すように、情報処理装置300には、測定装置311が接続されている。測定装置311は、サンプル(例えば、細胞など)の測定を行い、測定した測定データに必要なデータ(例えば、細胞の蛍光の色、蛍光の強さ等)を付加し、情報処理装置300に出力する。測定では、少なくとも測定データのイベント(例えば、細胞1など)の測定を行う。
As shown in FIG. 18, a measuring
情報処理装置300は、取得部312、前処理部313、次元圧縮部314、ゲート部315、分割部316、学習部317、推定部318、閾値設定部319、表示部320、分取部321を有する。
The
取得部312は、情報処理装置300の外部の測定装置311から複数の測定データを取得する。前処理部313は、取得部312により測定された測定データに対してダウンサンプリングや目的の集団(population)の絞り込みなどを行う。
The
次元圧縮部314は、前処理部313により前処理が行われた測定データの次元圧縮を行う。「次元圧縮」とは、多次元データにおいて、データに共通する特徴を見つけ、多次元空間でのデータ分布の関係をなるべく保持しながら低次元で表現することをいう。
The
次元圧縮部314は、測定データの次元圧縮後に、分取対象範囲を決定する。次元圧縮部314により次元圧縮された測定データは、検証用の測定データ及び学習用の測定データを含む。
The
測定データの説明変数はスペクトルなど蛍光補正前の生の値を使っても良いし、蛍光補正後のデータであっても良い。また、蛍光補正をする際に逆行列計算を行うが、その際にガウスジョルダン法を用いて解いても良い。また、クラスタリングの前処理としてバッチ効果を抑える目的で正規化などのアルゴリズムを用いても良い。 The explanatory variables for the measurement data may be raw values before fluorescence correction, such as spectra, or may be data after fluorescence correction. In addition, when performing fluorescence correction, an inverse matrix calculation is performed, and the Gauss-Jordan method may be used to solve the problem. Furthermore, algorithms such as normalization may be used as preprocessing for clustering in order to suppress batch effects.
ゲート部315は、次元圧縮部314により次元圧縮された測定データ(検証用の測定データ及び学習用の測定データを含む)をゲートする。また、ゲート部315は、次元圧縮部314により次元圧縮された測定データの学習用の測定データにラベルを付加する。分割部316は、ゲート部315によりゲートされた次元圧縮された複数の測定データを学習用の複数の測定データと、検証用の複数の測定データとに分割する。
The
学習部317は、分割部316により分割された学習用の測定データ(蛍光補正前の測定データ又は蛍光補正後の測定データ)と、ゲート部315で学習用の測定データに付加されたラベルとを用いて機械学習を実施し学習モデルを構築する。学習モデルは、生体由来粒子が分取対象であるかどうかを判別するための測定データの推定及び確信度を推定する。
The learning unit 317 performs machine learning using the learning measurement data (measurement data before or after fluorescence correction) split by the
推定部318は、学習部317によって作成された学習モデルに複数の測定データの少なくとも一部(検証用の測定データ)を入力し、分取対象であるかどうかを推論する。
The
推定部318は、取得部312により取得された複数の測定データのうち、検証用の複数の測定データについて検証用の複数の測定データの正解に対する推定及び推定に対する確信度を推定する。具体的には、推定部318は、学習部317により生成された学習モデルにより検証用の複数の測定データの推定及び確信度を推定する。
The
推定部318は、推定部318による推論に使用された複数の測定データとデータ圧縮処理により得られた情報に基づいて推定結果の確信度を算出する確信度算出部を有する。
The
閾値設定部319は、推定部318により推定された確信度に対する測定データに対して、取得部312により取得された複数の測定データを分取するための閾値を設定する。
The
表示部320は、検証用の測定データ、閾値、分類(クラス)、閾値、モード、検証用の測定データの純度、効率などを画面に表示する。表示部320は、推定部318による推定の結果を表示可能である。
The
分取部321は、閾値設定部319により設定された閾値に基づいて、取得部312により取得された複数の測定データのうち、分取の対象とする測定データを分取する。具体的には、分取部321は、推定部318により推定及び確信度が推定された残りの測定データ及び検証用の測定データをクラスに分類し、分類されたクラスに含まれる測定データを設定された閾値を利用して分取する。
The
残りの測定データは、学習用の測定データのサンプル及び検証用の測定データのサンプル以外のサンプルの測定用の測定データである。この測定用の測定データのサンプルは、情報処理装置300から測定装置311へ指示が行われた後に、測定装置311に流される。そして、測定装置311は、流されたサンプルを分取し、分取したサンプルの測定データを情報処理装置300の取得部312に出力する。情報処理装置300から測定装置311への指示は、例えば、閾値設定部319により閾値の設定が行われた後に行われる。
The remaining measurement data is measurement data for measuring samples other than the learning measurement data samples and the verification measurement data samples. This measurement data sample for measurement is sent to the
<1.6.動作説明>
図19は、第1の実施の形態に係る情報処理装置300のディープラーニングにおける測定データの分取を説明するためのフローチャートである。
<1.6. Operation Description>
FIG. 19 is a flowchart for explaining the sorting of measurement data in deep learning of the
まず、測定装置311に複数のサンプルの一部が流されて、一部の複数のサンプルが測定される(ステップS1)。次に、測定された一部の複数のサンプルの測定データのダウンサンプリングや目的の集団の絞り込みなどの前処理が行われる(ステップS2)。
First, a portion of the multiple samples is passed through the measuring
次に、前処理が行われた一部の複数の測定データの次元圧縮が行われ(ステップS3)、次元圧縮された一部の複数の測定データのゲーティングが行われる(ステップS4)。ここで次元圧縮対象のデータや学習時の説明変数はスペクトルなど蛍光補正前の生の値を使っても良いし、蛍光補正後のデータであっても良い。また、蛍光補正をする際に逆行列計算を行うが、その際にガウスジョルダン法を用いて解いても良い。また、次元圧縮の前処理としてバッチ効果を抑える目的で正規化などのアルゴリズムを用いても良い。 Next, the preprocessed portion of the multiple measurement data is dimensionally compressed (step S3), and the dimensionally compressed portion of the multiple measurement data is gated (step S4). Here, the data to be dimensionally compressed and the explanatory variables during learning may be raw values before fluorescence correction, such as spectra, or may be data after fluorescence correction. In addition, an inverse matrix calculation is performed when performing fluorescence correction, and the Gauss-Jordan method may be used to solve this. Furthermore, an algorithm such as normalization may be used as a preprocessing step for dimensionality compression in order to suppress batch effects.
次に、ゲート部315によりゲートされた次元圧縮された一部の複数の測定データを学習用の複数の測定データと、検証用の複数の測定データとに分割する(ステップS5)。
Next, the multiple measurement data that have been gated by the
次に、分割された学習用の複数の測定データを使用して学習を行い、学習モデルを生成する(ステップS6)。そして、生成された学習モデルを使用して、検証用の複数の測定データについて検証用の複数の測定データの正解に対する推定及び推定に対する確信度を推定する(ステップS7)。 Next, the divided multiple measurement data for learning are used to perform learning and generate a learning model (step S6). Then, the generated learning model is used to estimate the correct answer for the multiple measurement data for validation and the confidence level for the estimation for the multiple measurement data for validation (step S7).
そして、推定された確信度に対する閾値が設定される(ステップS8)。閾値の設定は、ユーザからの指示により設定されるものや、自動で設定されるものでも良い。次に、ユーザは、表示部320に表示された純度、効率の値及び測定データのプロットの様子などを確認し(ステップS9)、閾値の設定が妥当でなければ(ステップS9のNG)、ステップS8の処理に戻り、再度閾値の設定が行われる。 Then, a threshold value for the estimated confidence level is set (step S8). The threshold value may be set by user instruction or automatically. Next, the user checks the purity and efficiency values and the plot of the measurement data displayed on the display unit 320 (step S9), and if the threshold value setting is not appropriate (NG in step S9), the process returns to step S8 and the threshold value is set again.
一方、閾値の設定が妥当の場合(ステップS9のOK)、残りのサンプルが流され(ステップS10)、残りのサンプルについて測定された残りの測定データについて、測定データの分取が行われ(ステップS11)、分取された測定データのクラスの測定データの確信度について、設定された閾値により分取の対象とする測定データの分取の判断が行われる(ステップS12)。 On the other hand, if the threshold setting is appropriate (OK in step S9), the remaining samples are flushed (step S10), the remaining measurement data measured on the remaining samples is fractionated (step S11), and a decision is made on fractionation of the measurement data to be fractionated based on the confidence level of the measurement data for the fractionated measurement data class (step S12).
<1.7.変形例>
第1の実施の形態では、情報処理装置300が残りの測定データについて分取を行う場合について説明したが、残りの測定データについての分取は、処理に時間を要するため、測定装置311側で行っても良い。
1.7. Modifications
In the first embodiment, the case where the
図20は、第1の実施の形態の変形例に係る生体粒子分析システム1の構成例を示すブロック図である。図4と同一部分には同一符号を付して説明する。
FIG. 20 is a block diagram showing a configuration example of a
変形例に係る生体粒子分析システム1は、図4で示す情報処理装置20の機能がネットワークを介して接続された分取装置10に分割されて設けられる例である。
The biological
具体的には、図20に示すように、変形例に係る生体粒子分析システムは、分取装置10が解析部203、リファレンススペクトル記憶部205、データ圧縮処理部207、学習部211を有する。分取装置10は、サンプルSから測定データを取得し、かつ情報処理装置20の判別に基づいて分取対象の粒子を分取する。情報処理装置20は、取得部201、学習モデル記憶部213、判別部215を有する。
Specifically, as shown in FIG. 20, in the modified biological particle analysis system, the
なお、情報処理装置20及び分取装置10は、インターネット、電話回線網若しくは衛星通信網などの公衆回線網、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、又はWAN(Wide Area Network)等のネットワークにて互いに通信可能に接続されてもよい。
The
変形例に係る生体粒子分析システムでは、計算負荷が大きい機能(例えば、解析部203、データ圧縮処理部207、及び学習部211)を分取装置10に担当させることができる。一方、迅速な判別のためにネットワーク等による遅延を避けたいこと、及び計算負荷が大きくないことから、判別部215及び学習モデル記憶部213の機能は、分取装置10と直接接続される情報処理装置20に担当させてもよい。
In the bioparticle analysis system according to the modified example, functions with a large computational load (e.g., the
図21は、第1の実施の形態の変形例に係る情報処理システムの機能ブロック図である。なお、図18と同一部分には同一符号を付して説明する。図21に示すように、情報処理装置300に設けられていた分取部321が測定装置311に設けられても良い。
FIG. 21 is a functional block diagram of an information processing system according to a modified example of the first embodiment. Note that the same parts as those in FIG. 18 are denoted by the same reference numerals. As shown in FIG. 21, the
なお、前処理部313や閾値設定部319が測定装置311に設けられていてもよい。
The
図21に示すように、閾値設定部319により設定された閾値及び推定部318により検証と学習に使用されなかった残りの測定データが情報処理装置300から測定装置311に出力される。
As shown in FIG. 21, the threshold set by the
測定装置311の分取部321は、情報処理装置300から出力された閾値及び推定された残りの測定データを受信し、受信した閾値を利用して残りの測定データを分取する。
The
生体由来粒子分取装置である測定装置311の分取部(判定部)は、分取用生体由来粒子から測定された光情報を学習部317によって作成された学習モデルに入力し、分取用生体由来粒子が分取対象であるかを推論し、分取対象であると推論した場合に閾値設定部119で設定された閾値に基づいて分取判断する。生体由来粒子分取装置は、判定部の分取判断に基づいて、分取対象粒子を分取する。分取用生体由来粒子はサンプルに含まれる。次に、第1の実施の形態に係る情報処理システムの変形例について説明する。図22は、第1の実施の形態に係る情報処理システムの変形例を示す機能ブロック図である。
The sorting section (determination section) of the measuring
第1の実施の形態に係る情報処理システムの変形例では、図22に示すように、計算付加が大きい機能(例えば、前処理部313、次元圧縮部314、ゲート部315、分割部316、学習部317、推定部318、閾値設定部319)をより演算能力が高い装置(図22の例では、情報処理サーバ301)に担当させることができる。
In a modified example of the information processing system according to the first embodiment, as shown in FIG. 22, functions requiring a large amount of calculation (e.g., preprocessing
情報処理装置300は、測定装置311とネットワークを介して接続されたクラウドコンピュータであっても良い。この場合、クラウドコンピュータは、情報処理装置300の次元圧縮部314、機械学習の学習部317、閾値設定部319などの一部の機能を実行しても良い。
The
一方、迅速な判別のためにネットワーク等による遅延を避けたいこと、及び計算負荷がそれほど大きくない機能については、測定装置311と直接接続される情報処理装置300に担当させてもよい。
On the other hand, in order to make rapid judgments and to avoid delays due to networks, etc., and functions that do not impose a large computational load, the
第1の実施の形態の変形例に係る情報処理システムによれば、第1の実施の形態に係る情報処理装置300と同様に、測定データの分類を適切に行うことができる。
According to the information processing system according to the modified example of the first embodiment, measurement data can be appropriately classified, similar to the
<2.第2の実施の形態>
<2.1.確信度に基づく分取(クラスタリング)>
第2の実施の形態は、クラスタリング分取の閾値を設定するものである。クラスタリングアルゴリズムを使って分取する場合、全クラスタのうち相対的に最も類似性が高いクラスタに必ず分類される。しかし、その分類結果が絶対値的に近いかどうかは不明である。
2. Second embodiment
2.1. Confidence-Based Clustering
The second embodiment is to set a threshold value for clustering sorting. When sorting is performed using a clustering algorithm, the cluster is always classified into the cluster with the highest relative similarity among all clusters. However, it is unclear whether the classification results are close in absolute value.
分類されたクラスタの絶対距離が遠かった場合、純度を優先するユーザにとって、分類されたクラスタは、非分取対象にすべきかもしれない。第2の実施の形態では、ある一定の距離より近い場合しか測定データを分取しないなどの閾値を設ける。 If the absolute distance between the classified clusters is far, a user who prioritizes purity may want to exclude the classified cluster from separation. In the second embodiment, a threshold is set so that measurement data is only separated when the distance is closer than a certain value.
<2.2.クラスタリング分取の閾値>
図23は、第2の実施の形態に係るクラスタリング分取の閾値の考え方を説明するための図である。
2.2. Threshold for clustering fractionation
FIG. 23 is a diagram for explaining the concept of thresholds for clustering sorting according to the second embodiment.
図23において、横軸のパラメータは、例えば、蛍光色素抗体や抗原マーカーやCD分類の種類を示し、縦軸は、イベント(例えば、細胞)の蛍光強度を示している。実線は、クラスタの代表値を示し、点線は対象のイベント(残りの測定データの測定値)を示している。 In Figure 23, the parameters on the horizontal axis indicate, for example, the type of fluorescent dye antibody, antigen marker, or CD classification, and the vertical axis indicates the fluorescence intensity of an event (e.g., a cell). The solid line indicates the representative value of the cluster, and the dotted line indicates the target event (the measured value of the remaining measurement data).
図23に示すように、例えば、一番左側のパラメータに対応するクラスタの代表値に50%の閾値が設定された場合、図24に示すように、クラスタの代表値の25%~75%が閾値の範囲とされる。図24は、第2の実施の形態に係るクラスタリング分取における閾値を50%にした場合の範囲の考え方を説明するための図である。そして、このクラスタの代表値の25%~75%に図23に示した一番左側の対象イベントのパラメータの測定値(蛍光強度)が入る場合には、分取の対象となる測定値とされる。図23の場合、一番左側のイベントのパラメータの測定値は、閾値の範囲に入らないので、分取の対象とはされない。 As shown in FIG. 23, for example, if a threshold of 50% is set for the representative value of the cluster corresponding to the leftmost parameter, then 25% to 75% of the cluster's representative value is set as the threshold range, as shown in FIG. 24. FIG. 24 is a diagram for explaining the concept of the range when the threshold is set to 50% in clustering sorting according to the second embodiment. If the measured value (fluorescence intensity) of the parameter of the leftmost target event shown in FIG. 23 falls within 25% to 75% of the representative value of this cluster, then it is set as the measured value to be sorted. In the case of FIG. 23, the measured value of the parameter of the leftmost event does not fall within the threshold range, so it is not set as the target for sorting.
例えば、一番左側から2番目のパラメータに対応するクラスタの代表値に50%の閾値が設定された場合、図24に示すように、クラスタの代表値の25%~75%が閾値の範囲とされる。そして、このクラスタの代表値の25%~75%に一番左側から2番目の対象のイベントのパラメータの測定値が入る場合には、分取の対象となる測定値とされる。図23の場合、一番左側から2番目の測定値は、閾値の範囲に入らないので、分取の対象とはされない。 For example, if a threshold of 50% is set for the representative value of the cluster corresponding to the second parameter from the left, then 25% to 75% of the cluster's representative value will be set as the threshold range, as shown in Figure 24. If the measured value of the parameter of the second target event from the left falls within 25% to 75% of this cluster's representative value, then it will be set as the measured value to be sampled. In the case of Figure 23, the measured value second from the left does not fall within the threshold range, so it is not set as the target for sampled.
例えば、一番左側から3番目のパラメータに対応するクラスタの代表値に50%の閾値が設定された場合、図24に示すように、クラスタの代表値の25%~75%が閾値の範囲とされる。そして、このクラスタの代表値の25%~75%に一番左側から3番目の測定値が入る場合には、分取の対象となる測定値とされる。図24の場合、一番左側から3番目の測定値は、閾値の範囲に入るので、分取の対象とされる。 For example, if a threshold of 50% is set for the representative value of the cluster corresponding to the third parameter from the left, then 25% to 75% of the cluster's representative value will be set as the threshold range, as shown in Figure 24. If the third measurement value from the left falls within the range of 25% to 75% of this cluster's representative value, it will be set as the measurement value to be sampled. In the case of Figure 24, the third measurement value from the left falls within the threshold range, so it will be set as the measurement value to be sampled.
第2の実施の形態では、クラスタリング分取の閾値は、以下のように判定しても良い。 In the second embodiment, the threshold for clustering may be determined as follows:
<2.2.1.パラメータ毎に閾値の判定を行う場合>
・絶対値の閾値を入力し、測定値がクラスタの代表値±閾値以内にすべてのパラメータが収まっていれば分取する。
・割合の閾値を入力し、測定値がクラスタの代表値±代表値×閾値以内にすべてのパラメータが収まっていれば分取する。
・各クラスタでパラメータ毎に度数分布等で、ユーザが入力した閾値以内にすべてのパラメータで収まっていれば分取する。
<2.2.1. When threshold determination is performed for each parameter>
- Enter an absolute threshold value, and if the measured values for all parameters are within the cluster representative value ± the threshold value, the sample is collected.
- Enter a percentage threshold, and if the measured values for all parameters are within the cluster representative value ± representative value × threshold, the sample will be sorted.
- For each cluster, if the frequency distribution of each parameter is within the threshold value entered by the user, the parameters are separated.
<2.2.2.全パラメータ平均で閾値の判定を行う場合>
・絶対値の閾値を入力し、mean(|測定値-代表値|)が閾値以内に収まっていれば分取する。
・割合の閾値を入力し、mean(|測定値-代表値|)が代表値の平均×閾値以内に収まっていれば分取する。
ここで、「mean」は平均を意味する。ランダムフォレストをアルゴリズムとして採用する場合、決定木の多数決を行う際に本数や本数の割合を閾値として設定しても良い。閾値については測定データをもとに自動で決定しても良いし、ユーザが決定しても良い。
<2.2.2. When threshold is determined by averaging all parameters>
Input an absolute threshold value, and if the mean (|measured value-representative value|) falls within the threshold value, the sample is collected.
Enter a percentage threshold, and if the mean (|measured value - representative value|) is within the average of the representative values x the threshold value, the sample is collected.
Here, "mean" means average. When using a random forest as an algorithm, the number or ratio of the number of decision trees may be set as a threshold when performing majority voting of the decision trees. The threshold may be determined automatically based on the measurement data, or may be determined by the user.
閾値の判定は、平均値だけではなく、クラスタに含まれる複数の測定データの中央値を使用しても良い。また、閾値の判定は、学習部317で決定される代表値を使用しても良い。 The threshold value may be determined not only by the average value but also by the median value of multiple measurement data included in a cluster. The threshold value may also be determined by using a representative value determined by the learning unit 317.
<2.3.情報処理装置400の機能ブロック図>
図25は、第2の実施の形態に係る情報処理装置400のクラスタリング分取を行う機能ブロック図である。
<2.3. Functional block diagram of
FIG. 25 is a functional block diagram of the
図25に示すように、情報処理装置400には、測定装置411が接続されている。測定装置411は、サンプル(例えば、細胞など)の測定を行い、測定した測定データに必要なデータ(例えば、細胞の蛍光の色、蛍光の強さ等)を付加し、情報処理装置400に出力する。測定では、少なくとも測定データのイベント(例えば、細胞1など)の測定を行う。
As shown in FIG. 25, a measuring
情報処理装置400は、取得部412、前処理部413、クラスリング及びクラスタリング部414、クラスタ選択部415、表示部416、閾値設定部417、分取部418を有する。
The
取得部412は、情報処理装置400の外部の測定装置411から複数の測定データを取得する。前処理部413は、取得部412により測定された測定データに対してダウンサンプリングや目的の集団(population)の絞り込みなどを行う。
The
クラスリング及びクラスタリング部414は、取得部412により取得された複数の測定データをクラスに分類する。また、クラスリング及びクラスタリング部414は、取得部412により取得された複数の測定データをクラスタに分類する。
The classifying and
クラスタ選択部415は、クラスリング及びクラスタリング部414により分類されたクラスから分取対象となるクラスタを選択する。表示部416は、クラスリングされた測定データの効率等(例えば、測定データ、クラス、閾値、モード、純度、効率分類された測定データ、分類された測定データのクラスタ)の画面を表示する。閾値設定部417は、クラスタ選択部415により選択されたクラスタに含まれる複数の測定データの平均であるクラスタの代表値に対する閾値を設定する。
The
閾値には、クラスタに含まれる複数の測定データの中央値を使用しても良い。また、閾値の判定は、学習部317で決定される代表値を使用しても良い。 The threshold value may be the median value of the multiple measurement data included in the cluster. The threshold value may also be determined using a representative value determined by the learning unit 317.
分取部418は、閾値設定部417により設定された閾値に基づいて、クラスリング及びクラスタリング部414により分類されたクラスタに含まれる測定データのうち、分取の対象とする測定データを分取する。
The
具体的には、分取部418は、クラスリング及びクラスタリング部414により分類されたクラスタに含まれる複数の測定データの全ての測定値が代表値±閾値に収まっていれば、クラスリング及びクラスタリング部414により分類されたクラスタに含まれるサンプリングデータを分取の対象として分取する。
Specifically, if all the measurement values of the multiple measurement data included in the cluster classified by the classifying and
分取部418は、クラスリング及びクラスタリング部414により分類されたクラスタに含まれる複数の測定データの全ての測定値が代表値±代表値×閾値に収まっていれば、クラスタリング部により分類されたクラスタに含まれるサンプリングデータを分取の対象として分取しても良い。
The
<2.4.FlowSOMの回路>
図26は、第2の実施の形態に係るFlowSOMの回路の第1の例を示す図である。FlowSOMは、公知のクラスタリングアルゴリズムである。図26に示すように、差分器551には、イベントデータa(d次元)と、d次元の代表値が入っているノード(クラスタ)1のデータbとが入力され、差分(a-b)が算出される。
<2.4. FlowSOM circuit>
26 is a diagram showing a first example of a circuit of FlowSOM according to the second embodiment. FlowSOM is a known clustering algorithm. As shown in FIG. 26, event data a (d dimension) and data b of node (cluster) 1 containing a representative value of the d dimension are input to a
二乗器552は、差分器551から算出された差分(a-b)の二乗(a-b)2を算出し、総和器553に出力する。総和器553は、二乗器552から算出された差分(a-b)の二乗(a-b)2の総和Σ(a-b)2を算出して比較器554に出力する。
The squarer 552 calculates the square (a−b) 2 of the difference (a−b) calculated by the
比較器554は、最小距離保持器555に保持された最小距離と、総和器553から出力された総和Σ(a-b)2とを比較して、小さいほうの距離を最小距離として最小距離保持器555に保持する。
The
具体的には、比較器554は、最小距離保持器555に保持されるイベントデータaとデータbとのユークリッド距離が近い総和Σ(a-b)2に入れ替える。すなわち、比較器554は、最も誤差の小さいノードを探索するために比較を行う。これにより、最小距離保持器555に保持された最小距離のノード(クラスタ)に分類される。
Specifically, the
差分器551には、ノード1、ノード2、...、ノードNのデータbが直列に順に入力されるが、ノード1、ノード2、...、ノードNのデータbは並列処理されても良い。
The data b from
図27は、第2の実施の形態に係るFlowSOMの回路の第2の例を示す図である。図27に示すように、100個のノード1~ノード100のデータが並列数10で入力される。
FIG. 27 is a diagram showing a second example of a circuit of FlowSOM according to the second embodiment. As shown in FIG. 27, data of 100
具体的には、ノード1、ノード2、ノード3、・・・、ノード10のd次元の代表値が入っているデータbが並列に差分器551_1~差分器551_10にそれぞれ入力される。また、差分器551_1~差分器551_10には、イベントデータa(d次元)が入力される。
Specifically, data b containing d-dimensional representative values of
ノード1、ノード11、ノード21、・・・、ノード91のデータbは、順に入力される。ノード2、ノード12、ノード22、・・・、ノード92のデータbは、順に入力され、ノード3、ノード13、ノード23、・・・、ノード93のデータbは、順に入力され、・・・、ノード10、ノード20、ノード30、・・・、ノード100のデータbは、順に入力される。
The data b of
差分器551_1~差分器551_10には、イベントデータa(d次元)と、d次元の代表値が入っているノード(クラスタ)1、ノード2、...、ノードNのデータbとのデータbとがそれぞれ入力され、差分(a-b)が算出される。 Differentiators 551_1 to 551_10 receive event data a (d dimension) and data b from nodes (clusters) 1, 2, ..., and N that contain the representative value of the d dimension, and calculate the difference (a - b).
二乗器552_1~二乗器552_10は、差分器551_1~差分器551_10から算出された差分(a-b)の二乗(a-b)2をそれぞれ算出し、総和器553_1~総和器553_10にそれぞれ出力する。総和器553_1~総和器553_10は、二乗器552_1~二乗器552_10から算出された差分(a-b)の二乗(a-b)2の総和Σ(a-b)2をそれぞれ算出して比較器554_1~比較器554_10にそれぞれ出力する。 The squarers 552_1 to 552_10 calculate the squares (a-b) 2 of the differences (a-b) calculated by the differencers 551_1 to 551_10, respectively, and output the squares to the summations 553_1 to 553_10. The summations 553_1 to 553_10 calculate the sums Σ(a-b) 2 of the squares (a-b) 2 of the differences (a-b) calculated by the squarers 552_1 to 552_10, respectively, and output the sums to the comparators 554_1 to 554_10, respectively.
比較器554_1~比較器554_10は、最小距離保持器555_1~最小距離保持器555_10に保持された最小距離と、総和器553_1~総和器553_10から出力された総和Σ(a-b)2とをそれぞれ比較して、小さいほうの距離を最小距離として最小距離保持器555_1~最小距離保持器555_10にそれぞれ保持する。 Comparators 554_1 to 554_10 compare the minimum distances held in minimum distance holders 555_1 to 555_10 with the sums Σ(a−b) 2 output from summaries 553_1 to 553_10, respectively, and hold the smaller distance as the minimum distance in minimum distance holders 555_1 to 555_10, respectively.
これにより、最小距離保持器555_1~最小距離保持器555_10には、ノード1、ノード11、ノード21、・・・、ノード91のうちの最小距離のノード(クラスタ)、ノード2、ノード12、ノード22、・・・、ノード92のうちの最小距離のノード(クラスタ)、・・・、ノード10、ノード20、ノード30、・・・、ノード100のうちの最小距離のノード(クラスタ)に分類される。
As a result, the nodes (clusters) that are the shortest distance among
比較器556は、最小距離保持器555_1~最小距離保持器555_10に保持された最小距離を比較し、小さいほうの距離を最小距離として最小距離保持器257に保持する。これにより、最小距離保持器257には、ノード1~ノード100のうちの最小距離のノード(クラスタ)に分類される。
なお、図27では、ノード数を100、並列数を10としているが、回路リソースに応じて柔軟な値をとっても良い。また、図27では、比較器556が1つの場合を示したが、比較器556も複数の比較器556を使用して並列処理を行っても良い。
In FIG. 27, the number of nodes is 100 and the number of parallel connections is 10, but these values may be flexible depending on the circuit resources. Also, in FIG. 27, the case where one
図28は、第2の実施の形態に係るFlowSOMの回路の第3の例を示す図である。図28において、◇はメタクラスタを示しており、□は最小値が選択されたメタクラスタに紐づいたノードを示している。 FIG. 28 is a diagram showing a third example of a circuit of FlowSOM according to the second embodiment. In FIG. 28, ◇ indicates a metacluster, and □ indicates a node associated with the metacluster for which the minimum value is selected.
図28においては、メタクラスタ数を8、最小値が選択されたメタクラスタに紐づくノード数を10としているが、メタクラスタ数やノード数はこれに限られない。図28では、メタクラスタに紐づくノード1~ノード10が直列に計算される場合を示しているが、計算は並列に行われても良い。
In FIG. 28, the number of metaclusters is 8, and the number of nodes linked to the metacluster for which the minimum value was selected is 10, but the number of metaclusters and nodes is not limited to this. In FIG. 28, the case where
図28に示した、FlowSOMの回路の第3の例では、メタクラスタ1-8の中で最小距離となるメタクラスタを差分器571~最小距離保持器575の処理で見つける。その後、最小距離となるメタクラスタに紐づく10個のノードの中から最終距離となるノードに分類される。
In the third example of the FlowSOM circuit shown in Figure 28, the metacluster with the smallest distance is found among metaclusters 1-8 by the processing of the
図28において、差分器571には、イベントデータa(d次元)と、d次元の代表値が入っている誤差が最小の選択されたメタクラスタに紐づくノード(クラスタ)のデータbとが入力され、差分(a-b)が算出される。
In FIG. 28, event data a (d dimension) and data b of a node (cluster) linked to a selected meta cluster with the smallest error containing the representative value of the d dimension are input to a
二乗器572は、差分器571から算出された差分(a-b)の二乗(a-b)2を算出し、総和器573に出力する。総和器573は、二乗器572から算出された差分(a-b)の二乗(a-b)2の総和Σ(a-b)2を算出して比較器574に出力する。
The squarer 572 calculates the square (a−b) 2 of the difference (a−b) calculated by the
比較器574は、最小距離保持器555に保持された最小距離と、総和器573から出力された総和Σ(a-b)2とを比較して、小さいほうの距離を最小距離として最小距離保持器575に保持する。
The
具体的には、比較器574は、最小距離保持器575に保持されるイベントデータaとデータbとのユークリッド距離が近い総和Σ(a-b)2に入れ替える。すなわち、比較器574は、最も誤差の小さいノードを探索するために比較を行う。これにより、最小距離保持器575に保持された最小距離のノード(クラスタ)がクラスタリングされる。
Specifically, the
差分器571には、誤差が最小距離のメタクラスタに紐づけられたノード1、ノード2、...、ノード10のデータbが直列に順に入力されるが、ノード1、ノード2、...、ノード10のデータbは並列処理されても良い。
The data b from
<2.5.動作説明>
図29は、第2の実施の形態に係る情報処理装置400のクラスタリング分取を説明するためのフローチャートである。
<2.5. Operation Description>
FIG. 29 is a flowchart for explaining the clustering sorting of the
まず、測定装置411に複数のサンプルの一部が流されて、一部の複数のサンプルが測定される(ステップS21)。次に、測定された一部の複数のサンプルの測定データのダウンサンプリングや目的の集団の絞り込みなどの前処理が行われる(ステップS22)。
First, a portion of the multiple samples is passed through the measuring
次に、前処理が行われた一部の複数の測定データをクラスに分類するクラスリングが行われる(ステップS23)。クラスリングが行われたクラスタから分取対象となるクラスタが選択される(ステップS24)。 Next, classification is performed to classify the preprocessed part of the measurement data into classes (step S23). A cluster to be collected is selected from the classified clusters (step S24).
次に、選択されたクラスタに含まれる複数の測定データの平均である代表値に対する閾値が設定される(ステップS25)。なお、選択されたクラスタに含まれる複数の測定データの中央値に対する閾値であっても良い。次に、ユーザは、表示部416に表示された効率の値を確認し(ステップS26)、効率が100%でなければ(ステップS26のNG)、ステップS25の処理に戻り、再度閾値の設定が行われる。なお、効率の値は100%ではなくユーザ判断で任意の値でも良い。 Next, a threshold is set for a representative value that is the average of multiple measurement data included in the selected cluster (step S25). Note that the threshold may be set for the median value of multiple measurement data included in the selected cluster. Next, the user checks the efficiency value displayed on the display unit 416 (step S26), and if the efficiency is not 100% (NG in step S26), the process returns to step S25, where the threshold is set again. Note that the efficiency value may not be 100% but may be any value determined by the user.
一方、効率が100%である場合(ステップS26のOK)、残りのサンプルが流され(ステップS27)、残りの測定データについて、クラスタリングが行われる(ステップS28)。次に、設定された閾値に基づいて、分類されたクラスタに含まれる残りの測定データのうち、分取の対象とする測定データを設定された閾値を利用して分類する(ステップS29)。 On the other hand, if the efficiency is 100% (OK in step S26), the remaining sample is passed through (step S27), and clustering is performed on the remaining measurement data (step S28). Next, from the remaining measurement data contained in the clusters classified based on the set threshold, the measurement data to be collected is classified using the set threshold (step S29).
ここで、クラスタリング対象のデータの説明変数はスペクトルなど蛍光補正前の生の値を使っても良いし、蛍光補正後のデータであっても良い。また、蛍光補正をする際に逆行列計算を行うが、その際にガウスジョルダン法を用いて解いても良い。また、クラスタリングの前処理としてバッチ効果を抑える目的で正規化などのアルゴリズムを用いても良い。 Here, the explanatory variables for the data to be clustered may be raw values before fluorescence correction, such as spectra, or may be data after fluorescence correction. In addition, an inverse matrix calculation is performed when performing fluorescence correction, and the Gauss-Jordan method may be used to solve this. Furthermore, algorithms such as normalization may be used as preprocessing for clustering in order to suppress batch effects.
<2.6.変形例>
第2の実施の形態では、情報処理装置400が残りの測定データについて分類を行う場合について説明したが、残りの測定データについての分類は、処理に時間を要するため、測定装置411側で行っても良い。
2.6. Modifications
In the second embodiment, the case where the
図30は、第2の実施の形態の変形例に係る情報処理システムの機能ブロック図である。なお、図25と同一部分には同一符号を付して説明する。図30に示すように、情報処理装置400に設けられていた分取部418が測定装置411に設けられても良い。
FIG. 30 is a functional block diagram of an information processing system according to a modified example of the second embodiment. Note that the same parts as those in FIG. 25 are denoted by the same reference numerals. As shown in FIG. 30, the
図30に示すように、閾値設定部417により設定された閾値及びクラスリング及びクラスタリング部414によりクラスタリングされたクラスタが情報処理装置400から測定装置411に出力される。
As shown in FIG. 30, the threshold set by the threshold setting unit 417 and the clusters clustered by the classification and
測定装置411の分取部418は、情報処理装置400から出力された閾値及びクラスタリングされたクラスタを受信し、受信した閾値を利用してクラスタに含まれる測定データを分取する。
The
第2の実施の形態の変形例に係る情報処理システムによれば、第2の実施の形態に係る情報処理装置400と同様に、測定データの分類を適切に行うことができる。
The information processing system according to the modified example of the second embodiment can appropriately classify measurement data, similar to the
<2.7.FlowSOM分取時のフローチャート>
次に、図26に示したFlowSOMの回路の第1の例の動作について説明する。図31は、第2の実施の形態に係るFlowSOMの回路の第1の例の動作を説明するためのフローチャートである。
<2.7. Flowchart for FlowSOM fractionation>
Next, a description will be given of the operation of the first example of the circuit of FlowSOM shown in Fig. 26. Fig. 31 is a flowchart for explaining the operation of the first example of the circuit of FlowSOM according to the second embodiment.
図31に示すように、i=0が設定され(ステップS31)、i<d(d:次元数)かが判断される(ステップS32)。ステップS32において、i<dである場合(ステップS32のYes)、各ノードの代表ベクトルのi次元の値と分取対象イベントのi次元の値との差分を計算する(ステップS33)。 As shown in FIG. 31, i = 0 is set (step S31), and it is determined whether i < d (d: number of dimensions) (step S32). If i < d in step S32 (Yes in step S32), the difference between the i-th dimension value of the representative vector of each node and the i-th dimension value of the event to be sorted is calculated (step S33).
次に、ステップS33で計算された各ノードの代表ベクトルのi次元の値と分取対象イベントのi次元の値との差分の値を二乗し(ステップS34)、二乗した差分の値を積算する(ステップS35)。次に、i=i+1として(ステップS36)、ステップS32の処理に戻る。 Next, the difference between the i-dimension value of the representative vector of each node calculated in step S33 and the i-dimension value of the event to be sorted is squared (step S34), and the squared difference value is integrated (step S35). Next, i = i + 1 is set (step S36), and the process returns to step S32.
ステップS32において、i<dでない場合(ステップS32のNo)、二乗した差分の積算値が最小値のノードを算出し(ステップS37)、処理を終了する。これにより、誤差が最小距離のノード(クラスタ)がクラスタリングされる。 If i<d is not satisfied in step S32 (No in step S32), the node with the smallest integrated value of the squared differences is calculated (step S37), and the process ends. As a result, the node (cluster) with the smallest error distance is clustered.
次に、図28に示したFlowSOMの回路の第3の例の動作について説明する。図32は、第2の実施の形態に係るFlowSOMの回路の第3の例の動作を説明するためのフローチャートである。 Next, the operation of the third example of the FlowSOM circuit shown in FIG. 28 will be described. FIG. 32 is a flowchart for explaining the operation of the third example of the FlowSOM circuit according to the second embodiment.
図32に示すように、i=0が設定され(ステップS41)、i<d(d:次元数)かが判断される(ステップS42)。ステップS42において、i<dである場合(ステップS42のYes)、各メタクラスタの代表ベクトルのi次元の値と分取対象イベントのi次元の値との差分を計算する(ステップS43)。 As shown in FIG. 32, i = 0 is set (step S41), and it is determined whether i < d (d: number of dimensions) (step S42). If i < d in step S42 (Yes in step S42), the difference between the i-th dimension value of the representative vector of each metacluster and the i-th dimension value of the event to be sorted is calculated (step S43).
次に、ステップS43で計算された各メタクラスタの代表ベクトルのi次元の値と分取対象イベントのi次元の値との差分の値を二乗し(ステップS44)、二乗した差分の値を積算する(ステップS45)。次に、i=i+1として(ステップS46)、ステップS42の処理に戻る。 Next, the difference between the i-dimension value of the representative vector of each metacluster calculated in step S43 and the i-dimension value of the event to be sorted is squared (step S44), and the squared difference value is integrated (step S45). Next, i = i + 1 is set (step S46), and the process returns to step S42.
ステップS42において、i<dでない場合(ステップS42のNo)、二乗した差分の値が最小値のメタクラスタを算出し(ステップS47)、j=0と設定する(ステップS48)。 In step S42, if i<d is not satisfied (No in step S42), the metacluster with the smallest squared difference is calculated (step S47), and j is set to 0 (step S48).
次に、j<d(d:次元数)かが判断される(ステップS49)。ステップS49において、j<dである場合(ステップS49のYes)、二乗した差分の値が最小値のメタクラスタに所属する各ノードの代表ベクトルのj次元の値と分取対象イベントのj次元の値との差分を計算する(ステップS50)。 Next, it is determined whether j<d (d: number of dimensions) (step S49). If j<d is true in step S49 (Yes in step S49), the difference between the j-dimensional value of the representative vector of each node belonging to the metacluster with the smallest squared difference value and the j-dimensional value of the event to be sorted is calculated (step S50).
次に、ステップS50で計算されたメタクラスタに所属する各ノードの代表ベクトルのj次元の値と分取対象イベントのj次元の値との差分の値を二乗し(ステップS51)、二乗した差分の値を積算する(ステップS52)。次に、j=j+1として(ステップS53)、ステップS49の処理に戻る。 Next, the difference between the j-dimension value of the representative vector of each node belonging to the meta-cluster calculated in step S50 and the j-dimension value of the event to be sorted is squared (step S51), and the squared difference value is integrated (step S52). Next, j = j + 1 is set (step S53), and the process returns to step S49.
ステップS49において、j<dでない場合(ステップS49のNo)、二乗した差分の積算値が最小値のノードを算出し(ステップS54)、処理を終了する。これにより、誤差が最小距離のノード(クラスタ)がクラスタリングされる。 If j<d is not satisfied in step S49 (No in step S49), the node with the smallest integrated value of the squared differences is calculated (step S54), and the process ends. As a result, the node (cluster) with the smallest error distance is clustered.
第3の例では、まず最もユークリッド距離が近いメタクラスタを選択してから、そのメタクラスタに所属する1つ1つのノードとの距離を計算することで、計算リソースの削減と処理速度の高速化が期待できる。
<3.第3の実施の形態>
<3.1.確信度に基づく分取>
第2の実施の形態では、画像を使用しない蛍光強度を主とした一般的なFCM(Flow Cytometer)観点で説明した。第3の実施の形態では、IFCM(画像フローサイトメータ:Imaging Flow Cytometer)に確信度に基づく分取を適用する場合について説明する。
In the third example, a metacluster with the shortest Euclidean distance is first selected, and then the distance to each node belonging to that metacluster is calculated, which is expected to reduce computing resources and increase processing speed.
3. Third embodiment
3.1. Fractionation based on confidence
In the second embodiment, the explanation is given from the viewpoint of a general FCM (Flow Cytometer) that does not use images and focuses mainly on fluorescence intensity. In the third embodiment, the explanation is given for a case where certainty-based sorting is applied to an IFCM (Imaging Flow Cytometer).
IFCMでは、通常のFCMと同様に蛍光強度が測定できることに加えて、1つ1つの細胞の画像を撮影することができる。第3の実施の形態では、蛍光強度または画像を入力として次元圧縮やクラスタリング等で分取したい集団を特定した後(目的変数)、蛍光強度または画像を説明変数として学習する。その後、適切な閾値を設定して分取を実行する。 In IFCM, in addition to being able to measure fluorescence intensity like regular FCM, it is also possible to take images of individual cells. In the third embodiment, the fluorescence intensity or image is used as input to identify the group to be separated using dimensionality reduction, clustering, etc. (objective variable), and then the fluorescence intensity or image is used as the explanatory variable for learning. After that, an appropriate threshold is set and separation is performed.
ここで、蛍光強度は蛍光補正前のデータでも蛍光補正後のデータでもどちらでも良く、画像については、そのままの画像データでも畳み込みなどの前処理を加えてもどちらでも良い。また、閾値の設定には、<1.3.閾値の設定>で説明した方法を採用しても良い。 Here, the fluorescence intensity data may be either data before or after fluorescence correction, and the image may be either the raw image data or data that has undergone preprocessing such as convolution. In addition, the method described in <1.3. Setting the threshold> may be used to set the threshold.
<3.2.情報処理装置600の機能ブロック図>
図33は、第3の実施の形態に係る情報処理装置600のIFCM分取を行う機能ブロック図を示す図である。
<3.2. Functional block diagram of
FIG. 33 is a functional block diagram showing IFCM fractionation of an
図33に示すように、情報処理装置600には、測定装置611が接続されている。測定装置311は、サンプルの測定を行い、測定した測定データに必要なデータを付加し、情報処理装置600に出力する。測定では、少なくとも測定データのイベント(例えば、細胞1など)の測定を行う。
As shown in FIG. 33, a measuring
情報処理装置600は、取得部612、前処理部613、決定部614、次元圧縮/クラスタリング部615、集団特定部616、分割部617、学習部618、推定部619、表示部620、閾値設定部621、分取部622を有する。
The
取得部612は、情報処理装置600の外部の測定装置611から複数の測定データを取得する。前処理部613は、取得部612により測定された測定データに対してダウンサンプリングや目的の集団(population)の絞り込みなどを行う。
The acquisition unit 612 acquires multiple pieces of measurement data from a
決定部614は、取得部612により取得された複数の測定データのうち、測定データに含まれる蛍光データ又は画像データを入力とするかを決定する。次元圧縮/クラスタリング部615は、決定部により決定された蛍光データ又は画像データを次元圧縮又はクラスタに分類する。
The
集団特定部616は、次元圧縮/クラスタリング部615により分類された次元圧縮された蛍光データ又は画像データ、又は分類されたクラスタから分取対象となる集団を特定する。分割部617は、集団特定部616により特定された蛍光データ又は画像データを学習用の蛍光データ又は画像データと、検証用の前記蛍光データ又は画像データとに分割する。
The
学習部618は、分割部617により分割された学習用の複数の測定データを使用して学習を行い、学習モデルを生成する。推定部619は、集団特定部616により特定された集団に含まれる測定データのうち、検証用の複数の測定データについて検証用の複数の測定データに対する推定及び推定に対する確信度を推定する。具体的には、推定部619は、学習部618により生成された学習モデルにより検証用の蛍光データ又は画像データの確信度を推定する。
The
表示部620は、検証用の測定データの純度、効率の他、必要に応じて検証用の測定データ、閾値、分類(クラス)、閾値、モード、などを画面に表示する。
The
閾値設定部621は、推定部619により推定された確信度に対して、取得部612により取得された複数の測定データを分類するための閾値を設定する。分取部622は、閾値設定部621により設定された閾値に基づいて、次元圧縮/クラスタリング部615により分類された次元圧縮された蛍光データ又は画像データ、又は分類されたクラスタに含まれる測定データを分取の対象とする測定データとして分取する。
The
分取部622は、取得部612により取得された複数の測定データのうち、検証用の前記蛍光データ又は前記画像データ及び前記学習用の前記蛍光データ又は前記画像データ以外の残りの蛍光データ又は画像データを分取の対象として分取する。
The
具体的には、分取部622は、により分類されたクラスタに含まれる複数の測定データの全ての測定値が代表値±閾値に収まっていれば、により分類されたクラスタに含まれるサンプリングデータを分取の対象として分取する。
Specifically, if all the measurement values of the multiple measurement data included in the cluster classified by are within the representative value ±threshold, the
分取部622は、により分類されたクラスタに含まれる複数の測定データの全ての測定値が代表値±代表値×閾値に収まっていれば、クラスタリング部により分類されたクラスタに含まれるサンプリングデータを分取の対象として分取しても良い。
The
<3.3.動作説明>
図34は、第3の実施の形態に係る情報処理装置600におけるIFCM分取を説明するためのフローチャートである。
<3.3. Operation Description>
FIG. 34 is a flowchart for explaining IFCM sorting in
まず、測定装置611にサンプルの一部が流されて一部の複数のサンプルが測定される(ステップS131)。次に、測定された一部の複数のサンプルの測定データのダウンサンプリングや目的の集団の絞り込みなどの前処理が行われる(ステップS132)。
First, a portion of the sample is passed through the measuring
次に、前処理が行われた一部の複数の測定データの蛍光又は画像のどちらを入力とするかが決定される(ステップS133)。そして、ステップS33において決定された蛍光又は画像について次元圧縮及びクラスタリングが行われる(ステップS134)。次に、ステップS34においてクラスタリングが行われたクラスタのうち、分取対象となる集団が特定される(ステップS135)。ここで、「集団」は蛍光又は画像について次元圧縮された島であり、この島となっている次元圧縮された蛍光又は画像がゲーティングされる。 Next, it is determined whether to input the fluorescence or the image of the portion of the multiple measurement data that has been preprocessed (step S133). Then, dimensionality reduction and clustering are performed on the fluorescence or image determined in step S33 (step S134). Next, a population to be sorted is identified from the clusters that have been clustered in step S34 (step S135). Here, a "population" is an island that has been dimensionally reduced for the fluorescence or image, and the dimensionality reduced fluorescence or image that constitutes this island is gated.
ここで、次元圧縮やクラスタリングの入力データや学習時の説明変数は、スペクトルなど蛍光補正前の生の値を使っても良いし、蛍光補正後のデータであっても良い。画像を使用する場合は生のデータを使ってもいいし、畳み込みなどの前処理をしてから使用しても良い。また、蛍光補正をする際に逆行列計算を行うが、その際にガウスジョルダン法を用いて解いても良い。また、前処理としてバッチ効果を抑える目的で正規化などのアルゴリズムを用いても良い。 Here, the input data for dimensionality reduction and clustering, and the explanatory variables during learning, may be raw values before fluorescence correction, such as spectra, or may be data after fluorescence correction. When using images, the raw data may be used, or it may be used after preprocessing such as convolution. In addition, an inverse matrix calculation is performed when performing fluorescence correction, and the Gauss-Jordan method may be used to solve this. Furthermore, an algorithm such as normalization may be used as preprocessing to suppress batch effects.
次に、ステップS135において特定された集団に含まれる複数の測定データを学習用の複数の測定データと、検証用の複数の測定データとに分割する(ステップS136)。 Next, the multiple measurement data included in the population identified in step S135 are divided into multiple measurement data for learning and multiple measurement data for validation (step S136).
次に、分割された学習用の複数の測定データを使用して、蛍光又は画像を説明変数として学習を行い、学習モデルを生成する(ステップS137)。そして、生成された学習モデルを使用して、検証用の複数の測定データについて検証用の複数の測定データの正解に対する推定及び推定に対する確信度を推定する(ステップS138)。 Next, the divided multiple pieces of measurement data for learning are used to perform learning using the fluorescence or images as explanatory variables to generate a learning model (step S137). Then, the generated learning model is used to estimate the correct answer for the multiple pieces of measurement data for validation and the confidence level for the estimate for the multiple pieces of measurement data for validation (step S138).
そして、推定された確信度に対する閾値が設定される(ステップS139)。次に、ユーザは、表示部320に表示された純度及び効率の値及び測定データのプロットの様子などを確認し(ステップS140)、閾値の設定が妥当でなければ(ステップS140のNG)、ステップS139の処理に戻り、再度閾値の設定が行われる。 Then, a threshold value for the estimated confidence level is set (step S139). Next, the user checks the purity and efficiency values and the plot of the measurement data displayed on the display unit 320 (step S140), and if the threshold setting is not appropriate (NG in step S140), the process returns to step S139, and the threshold setting is performed again.
一方、閾値の設定が妥当の場合(ステップS140のOK)、残りの測定データが流され(ステップS141)、残りのサンプルについて測定された残りのサンプルについて、クラスタへの分取が行われる(ステップS142)。次に、設定された閾値に基づいて、分類されたクラスタに含まれる残りの測定データのうち、分取の対象とする測定データを確信度に基づいて分取する(ステップS143)。 On the other hand, if the threshold setting is appropriate (OK in step S140), the remaining measurement data is sent (step S141), and the remaining samples measured are sorted into clusters (step S142). Next, from the remaining measurement data contained in the classified clusters based on the set threshold, the measurement data to be sorted is sorted based on the confidence level (step S143).
<3.4.変形例>
第3の実施の形態では、情報処理装置600が残りの測定データについて分類を行う場合について説明したが、残りの測定データについての分類は、処理に時間を要するため、測定装置611側で行っても良い。
3.4. Modifications
In the third embodiment, the case where the
図35は、第3の実施の形態の変形例に係る情報処理システムの機能ブロック図である。なお、図30と同一部分には同一符号を付して説明する。図35に示すように、情報処理装置600に設けられていた分取部622が測定装置611に設けられても良い。
FIG. 35 is a functional block diagram of an information processing system according to a modified example of the third embodiment. Note that the same parts as those in FIG. 30 are denoted by the same reference numerals. As shown in FIG. 35, the
図35に示すように、閾値設定部621により設定された閾値、次元圧縮/クラスタリング部615によりクラスタリングされたクラスタが情報処理装置600から測定装置611に出力される。
As shown in FIG. 35, the threshold set by the
測定装置611の分取部622は、情報処理装置600から出力された閾値及びクラスタリングされたクラスタを受信し、受信した閾値を利用してクラスタに含まれる測定データを分取する。
The
第3の実施の形態の変形例に係る情報処理システムによれば、IFCM分取を適切に行うことができる。 The information processing system according to the modified example of the third embodiment allows for proper IFCM fractionation.
<4.ハードウェア構成>
図36は、実施の形態に係る情報処理装置20、300、400、600、測定装置311、411、611の演算装置を実現するコンピュータの一例を示すハードウェア構成図である。
4. Hardware Configuration
FIG. 36 is a hardware configuration diagram showing an example of a computer that realizes the arithmetic unit of the
コンピュータ1000は、CPU1100、RAM1200、ROM(READ ONLY MEMORY)1300、HDD(HARD DISK DRIVE)1400、通信インターフェース1500、及び入出力インターフェース1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
The
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(BASIC INPUT OUTPUT SYSTEM)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
The
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係るアプリケーションプログラムを記録する記録媒体である。
通信インターフェース1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェースである。例えば、CPU1100は、通信インターフェース1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
The
入出力インターフェース1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェースである。例えば、CPU1100は、入出力インターフェース1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェース1600を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェース1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能しても良い。メディアとは、例えばDVD(DIGITAL VERSATILE DISC)、PD(PHASE CHANGE REWRITABLE DISK)等の光学記録媒体、MO(MAGNETO-OPTICAL DISK)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等である。
The input/
なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得しても良い。
Note that the
以上、添付図面を参照しながら本開示の好適な実施の形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。 The above describes in detail preferred embodiments of the present disclosure with reference to the attached drawings, but the technical scope of the present disclosure is not limited to such examples. It is clear that a person with ordinary knowledge in the technical field of the present disclosure can conceive of various modified or revised examples within the scope of the technical ideas described in the claims, and it is understood that these also naturally fall within the technical scope of the present disclosure.
また、本明細書に記載された効果は、あくまで説明的又は例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、又は上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。 Furthermore, the effects described in this specification are merely descriptive or exemplary and are not limiting. In other words, the technology disclosed herein may achieve other effects that are apparent to a person skilled in the art from the description in this specification, in addition to or in place of the above effects.
なお、本技術は以下のような構成も取ることができる。
[1]
サンプルに含まれる生体由来粒子から測定された測定データを取得する取得部と、
前記取得部により取得された前記測定データにデータ圧縮処理を行う圧縮部と、
前記圧縮部により圧縮された測定データを学習用測定データと、検証用測定データとにゲートし、前記学習用測定データにラベルを付加するゲート部と、
前記学習用測定データと、前記ラベルとを用いて学習モデルを構築する学習部と、
前記学習モデルに前記検証用測定データを入力し、前記検証用測定データの確信度を出力する推定部と、
前記確信度に基づいて前記サンプルを分取するための閾値を設定する閾値設定部と
を有する生体粒子分析システム。
[2]
前記出力された確信度及び前記閾値に基づく、前記生体由来粒子の効率および収率を表示する表示部を有する、
[1]に記載の生体粒子分析システム。
[3]
前記測定データに含まれる前記学習用測定データと前記検証用測定データは互いに異なる
前記[1]又は[2]に記載の生体粒子分析システム。
[4]
分取用生体由来粒子から測定された測定データを前記学習モデルに入力し、前記分取用生体由来粒子が分取対象であるかを推論し、分取対象であると推論した場合に前記閾値設定部で設定された閾値に基づいて分取判断する判定部を有する生体由来粒子分取装置を含む、
前記[1]~[3]のいずれか1つに記載の生体粒子分析システム。
[5]
前記生体由来粒子分取装置は、前記判定部の分取判断に基づいて、分取対象粒子を分取する分取部を含む、
前記[4]に記載の生体粒子分析システム。
[6]
前記分取用生体由来粒子は前記サンプルに含まれる
前記[4]に記載の生体粒子分析システム。
[7]
前記閾値は、予め定められた閾値が設定される
前記[1]~[6]のいずれか1つに記載の生体粒子分析システム。
[8]
前記予め定められた閾値は、1以上のモードに応じて決定される
前記[7]に記載の生体粒子分析システム。
[9]
前記閾値は、ユーザにより設定される
前記[1]~[6]のいずれか1つに記載の生体粒子分析システム。
[10]
前記データ圧縮処理は次元圧縮であり、
前記次元圧縮の後に、分取対象範囲が決定される
前記[1]~[9]のいずれか1つに記載の生体粒子分析システム。
[11]
サンプルに含まれる生体由来粒子から測定された測定データにデータ圧縮処理を行う圧縮部と、
前記圧縮部により圧縮された測定データを学習用測定データと、検証用測定データとにゲートし、前記学習用測定データにラベルを付加するゲート部と、
前記学習用測定データと、前記ラベルとを用いて前記生体由来粒子が分取対象であるかどうかを判別する学習モデルを構築する学習部と、
前記学習部によって構築された学習モデルに前記検証用測定データを入力し、分取対象であるかどうかを推論する推論部と、
前記推論に使用された前記検証用測定データの確信度を算出する確信度算出部と、
前記確信度算出部によって算出された前記確信度に基づいて前記サンプルを分取するための閾値を設定する閾値設定部と、
を有する情報処理装置。
[12]
前記構築された学習モデルを微小粒子分取装置に出力する、
前記[11]に記載の情報処理装置。
[13]
サンプルに含まれる生体由来粒子から測定された測定データにデータ圧縮処理を行う圧縮工程と、
前記データ圧縮処理された測定データを学習用測定データと、検証用測定データとにゲートし、前記学習用測定データにラベルを付加するゲート工程と、
前記学習用測定データと、前記ラベルとを用いて前記生体由来粒子が分取対象であるかどうかを判別する学習モデルを構築する学習工程と
前記学習工程によって構築された学習モデルに前記検証用測定データを入力し、分取対象であるかどうかを推論する推論工程と、
前記推論に使用された前記検証用測定データの確信度を算出する確信度算出工程と、
前記確信度算出工程によって算出された前記確信度に基づいて前記サンプルを分取するための閾値を設定する閾値設定工程と、
を有する情報処理方法。
[14]
前記測定データが微小粒子分析装置を用いて測定される測定工程を含む
前記[13]に記載の情報処理方法。
[15]
前記微小粒子分析装置において分取用生体由来粒子から測定された光情報を、前記学習工程によって構築された学習モデルに入力し、前記分取用生体由来粒子が分取対象であるかを推論し、分取対象であると推論した場合に前記閾値設定工程により設定された前記閾値に基づいて分取判断する工程をさらに含む
前記[14]に記載の情報処理方法。
[16]
前記分取判断に基づいて分取対象粒子を分取する工程をさらに含む
前記[15]に記載の情報処理方法。
[17]
サンプルに含まれる生体由来粒子から測定された光情報を含む複数の測定データを取得する取得部と、
前記取得部により取得された複数の前記測定データを複数のクラスタに分類するクラスタリング部と、
前記クラスタリング部により分類された前記クラスタから分取対象となるクラスタを選択するクラスタ選択部と、
前記クラスタ選択部により選択された前記クラスタに含まれる複数の前記測定データに基づいて閾値を設定する閾値設定部と
を有する情報処理装置。
[18]
前記クラスタリング部は、
前記取得部により取得された複数の前記測定データをクラスタに分類し、
前記閾値設定部により設定された前記閾値に基づいて、前記クラスタリング部により分類された前記クラスタに含まれる測定データのうち、分取の対象とする前記測定データを分取する分取部
を有する前記[17]に記載の情報処理装置。
[19]
前記閾値設定部は、
前記クラスタの代表値に対する閾値又は前記クラスタ選択部により選択された前記クラスタに含まれる前記複数の前記測定データの中央値の前記閾値を設定する
前記[17]又は[18]に記載の情報処理装置。
The present technology can also be configured as follows.
[1]
an acquisition unit that acquires measurement data measured from biogenic particles contained in a sample;
a compression unit that performs a data compression process on the measurement data acquired by the acquisition unit;
a gate unit that gates the measurement data compressed by the compression unit into training measurement data and verification measurement data and adds a label to the training measurement data;
A learning unit that constructs a learning model using the learning measurement data and the labels;
an estimation unit that inputs the verification measurement data to the learning model and outputs a confidence level of the verification measurement data;
and a threshold setting unit that sets a threshold for separating the sample based on the degree of certainty.
[2]
a display unit that displays the efficiency and yield of the biological particles based on the output confidence level and the threshold value;
The bioparticle analysis system according to [1].
[3]
The bioparticle analysis system according to
[4]
a determination unit that inputs measurement data measured from the biological particles for sorting into the learning model, infers whether the biological particles for sorting are targets for sorting, and, when it is inferred that the biological particles for sorting are targets for sorting, determines whether the biological particles for sorting are targets for sorting based on a threshold value set by the threshold setting unit;
The bioparticle analysis system according to any one of [1] to [3].
[5]
the biogenic particle sorting device includes a sorting unit that sorts particles to be sorted based on the sorting determination of the determination unit,
The bioparticle analysis system according to [4].
[6]
The biological particle analysis system according to [4], wherein the biological particles for separation are contained in the sample.
[7]
The biological particle analysis system according to any one of [1] to [6], wherein the threshold value is set to a predetermined threshold value.
[8]
The bioparticle analysis system according to [7], wherein the predetermined threshold is determined according to one or more modes.
[9]
The bioparticle analysis system according to any one of [1] to [6], wherein the threshold value is set by a user.
[10]
The data compression process is a dimensional compression process,
The bioparticle analysis system according to any one of [1] to [9], wherein a range to be sorted is determined after the dimensionality reduction.
[11]
a compression unit that performs a data compression process on measurement data obtained by measuring the biogenic particles contained in a sample;
a gate unit that gates the measurement data compressed by the compression unit into training measurement data and verification measurement data and adds a label to the training measurement data;
a learning unit that uses the learning measurement data and the label to construct a learning model for determining whether the biogenic particles are to be sorted;
an inference unit that inputs the verification measurement data into a learning model constructed by the learning unit and infers whether the data is a target for collection;
a certainty factor calculation unit that calculates a certainty factor of the verification measurement data used in the inference;
a threshold setting unit that sets a threshold for dividing the sample based on the certainty calculated by the certainty calculation unit;
An information processing device having the above configuration.
[12]
The constructed learning model is output to a microparticle sorting device.
The information processing device according to [11].
[13]
a compression step of performing a data compression process on the measurement data measured from the biogenic particles contained in the sample;
a gating step of gating the data-compressed measurement data into training measurement data and verification measurement data, and adding a label to the training measurement data;
a learning step of constructing a learning model for determining whether the biological particle is a separation target by using the learning measurement data and the label; and an inference step of inputting the verification measurement data into the learning model constructed by the learning step and inferring whether the biological particle is a separation target.
a confidence level calculation step of calculating a confidence level of the verification measurement data used in the inference;
a threshold setting step of setting a threshold for dividing the sample based on the certainty calculated by the certainty calculation step;
An information processing method comprising the steps of:
[14]
The information processing method according to the above [13], further comprising a measuring step in which the measurement data is measured using a microparticle analysis device.
[15]
The information processing method according to item [14], further comprising the steps of: inputting optical information measured from the biological particles for separation in the microparticle analysis device into a learning model constructed by the learning step; inferring whether the biological particles for separation are targets for separation; and, when it is inferred that the biological particles for separation are targets for separation, making a separation determination based on the threshold value set by the threshold setting step.
[16]
The information processing method according to [15] above, further comprising the step of separating particles to be separated based on the separation determination.
[17]
an acquisition unit that acquires a plurality of pieces of measurement data including optical information measured from biogenic particles contained in a sample;
a clustering unit that classifies the plurality of pieces of measurement data acquired by the acquisition unit into a plurality of clusters;
a cluster selection unit that selects a cluster to be collected from the clusters classified by the clustering unit;
a threshold setting unit that sets a threshold based on the plurality of pieces of measurement data included in the cluster selected by the cluster selection unit.
[18]
The clustering unit includes:
Classifying the plurality of pieces of measurement data acquired by the acquisition unit into clusters;
The information processing device according to [17], further comprising a fractionation unit that fractionates the measurement data to be fractionated from the measurement data included in the clusters classified by the clustering unit based on the threshold value set by the threshold setting unit.
[19]
The threshold setting unit is
The information processing device according to any one of claims 17 to 18, further comprising: setting a threshold for a representative value of the cluster or a threshold for a median value of the plurality of pieces of measurement data included in the cluster selected by the cluster selection unit.
300、400、600 情報処理装置
311、411、611 測定装置
312、412、612 取得部
313、413、613 前処理部
314 次元圧縮部
315 ゲート部
316 分割部
317、618 学習部
318、619 推定部
319、417、621 閾値設定部
320、416、620 表示部
321、418、622 分取部
414 クラスリング及びクラスタリング部
415 クラスタ選択部
614 決定部
615 次元圧縮/クラスタリング部
616 集団特定部
300, 400, 600
Claims (19)
前記取得部により取得された前記測定データにデータ圧縮処理を行う圧縮部と、
前記圧縮部により圧縮された測定データを学習用測定データと、検証用測定データとにゲートし、前記学習用測定データにラベルを付加するゲート部と、
前記学習用測定データと、前記ラベルとを用いて学習モデルを構築する学習部と、
前記学習モデルに前記検証用測定データを入力し、前記検証用測定データの確信度を出力する推定部と、
前記確信度に基づいて前記サンプルを分取するための閾値を設定する閾値設定部と
を有する生体粒子分析システム。 an acquisition unit that acquires measurement data measured from biogenic particles contained in a sample;
a compression unit that performs a data compression process on the measurement data acquired by the acquisition unit;
a gate unit that gates the measurement data compressed by the compression unit into training measurement data and verification measurement data and adds a label to the training measurement data;
A learning unit that constructs a learning model using the learning measurement data and the labels;
an estimation unit that inputs the verification measurement data to the learning model and outputs a confidence level of the verification measurement data;
and a threshold setting unit that sets a threshold for separating the sample based on the degree of certainty.
請求項1に記載の生体粒子分析システム。 a display unit that displays the efficiency and yield of the biological particles based on the output confidence level and the threshold value;
The bioparticle analysis system according to claim 1 .
請求項1に記載の生体粒子分析システム。 The bioparticle analysis system according to claim 1 , wherein the learning measurement data and the verification measurement data included in the measurement data are different from each other.
請求項1に記載の生体粒子分析システム。 a determination unit that inputs measurement data measured from the biological particles for sorting into the learning model, infers whether the biological particles for sorting are targets for sorting, and, when it is inferred that the biological particles for sorting are targets for sorting, determines whether the biological particles for sorting are targets for sorting based on a threshold value set by the threshold setting unit;
The bioparticle analysis system according to claim 1 .
請求項4に記載の生体粒子分析システム。 the biogenic particle sorting device includes a sorting unit that sorts particles to be sorted based on the sorting determination of the determination unit,
The bioparticle analysis system according to claim 4 .
請求項4に記載の生体粒子分析システム。 The biological particle analysis system according to claim 4 , wherein the biological particles for separation are contained in the sample.
請求項1に記載の生体粒子分析システム。 The bioparticle analysis system according to claim 1 , wherein the threshold value is set to a predetermined threshold value.
請求項7に記載の生体粒子分析システム。 The bioparticle analysis system according to claim 7 , wherein the predetermined threshold is determined according to one or more modes.
請求項1に記載の生体粒子分析システム。 The bioparticle analysis system according to claim 1 , wherein the threshold value is set by a user.
前記次元圧縮の後に、分取対象範囲が決定される
請求項1に記載の生体粒子分析システム。 The data compression process is a dimensional compression process,
The bioparticle analysis system according to claim 1 , wherein a fractionation target range is determined after the dimensionality reduction.
前記圧縮部により圧縮された測定データを学習用測定データと、検証用測定データとにゲートし、前記学習用測定データにラベルを付加するゲート部と、
前記学習用測定データと、前記ラベルとを用いて前記生体由来粒子が分取対象であるかどうかを判別する学習モデルを構築する学習部と、
前記学習部によって構築された学習モデルに前記検証用測定データを入力し、分取対象であるかどうかを推論する推論部と、
前記推論に使用された前記検証用測定データの確信度を算出する確信度算出部と、
前記確信度算出部によって算出された前記確信度に基づいて前記サンプルを分取するための閾値を設定する閾値設定部と、
を有する情報処理装置。 a compression unit that performs a data compression process on measurement data obtained by measuring the biogenic particles contained in a sample;
a gate unit that gates the measurement data compressed by the compression unit into training measurement data and verification measurement data and adds a label to the training measurement data;
a learning unit that uses the learning measurement data and the label to construct a learning model for determining whether the biogenic particles are to be sorted;
an inference unit that inputs the verification measurement data into a learning model constructed by the learning unit and infers whether the data is a target for collection;
a certainty factor calculation unit that calculates a certainty factor of the verification measurement data used in the inference;
a threshold setting unit that sets a threshold for dividing the sample based on the certainty calculated by the certainty calculation unit;
An information processing device having the above configuration.
請求項11に記載の情報処理装置。 The constructed learning model is output to a microparticle sorting device.
The information processing device according to claim 11.
前記データ圧縮処理された測定データを学習用測定データと、検証用測定データとにゲートし、前記学習用測定データにラベルを付加するゲート工程と、
前記学習用測定データと、前記ラベルとを用いて前記生体由来粒子が分取対象であるかどうかを判別する学習モデルを構築する学習工程と
前記学習工程によって構築された学習モデルに前記検証用測定データを入力し、分取対象であるかどうかを推論する推論工程と、
前記推論に使用された前記検証用測定データの確信度を算出する確信度算出工程と、
前記確信度算出工程によって算出された前記確信度に基づいて前記サンプルを分取するための閾値を設定する閾値設定工程と、
を有する情報処理方法。 a compression step of performing a data compression process on the measurement data measured from the biogenic particles contained in the sample;
a gating step of gating the data-compressed measurement data into training measurement data and verification measurement data, and adding a label to the training measurement data;
a learning step of constructing a learning model for determining whether the biological particle is a separation target by using the learning measurement data and the label; and an inference step of inputting the verification measurement data into the learning model constructed by the learning step and inferring whether the biological particle is a separation target.
a confidence level calculation step of calculating a confidence level of the verification measurement data used in the inference;
a threshold setting step of setting a threshold for dividing the sample based on the certainty calculated by the certainty calculation step;
An information processing method comprising the steps of:
請求項13に記載の情報処理方法。 The information processing method according to claim 13 , further comprising a measuring step in which the measurement data is measured using a microparticle analysis device.
請求項14に記載の情報処理方法。 15. The information processing method according to claim 14, further comprising the steps of: inputting optical information measured from the biological particles for separation in the microparticle analysis device into a learning model constructed by the learning step; inferring whether the biological particles for separation are targets for separation; and, when it is inferred that the biological particles for separation are targets for separation, making a separation determination based on the threshold value set by the threshold setting step.
請求項15に記載の情報処理方法。 The information processing method according to claim 15 , further comprising the step of separating particles to be separated based on the separation determination.
前記取得部により取得された複数の前記測定データを複数のクラスタに分類するクラスタリング部と、
前記クラスタリング部により分類された前記クラスタから分取対象となるクラスタを選択するクラスタ選択部と、
前記クラスタ選択部により選択された前記クラスタに含まれる複数の前記測定データに基づいて閾値を設定する閾値設定部と
を有する情報処理装置。 an acquisition unit that acquires a plurality of pieces of measurement data including optical information measured from biogenic particles contained in a sample;
a clustering unit that classifies the plurality of pieces of measurement data acquired by the acquisition unit into a plurality of clusters;
a cluster selection unit that selects a cluster to be collected from the clusters classified by the clustering unit;
a threshold setting unit that sets a threshold based on the plurality of pieces of measurement data included in the cluster selected by the cluster selection unit.
前記取得部により取得された複数の前記測定データをクラスタに分類し、
前記閾値設定部により設定された前記閾値に基づいて、前記クラスタリング部により分類された前記クラスタに含まれる測定データのうち、分取の対象とする前記測定データを分取する分取部
を有する請求項17に記載の情報処理装置。 The clustering unit includes:
Classifying the plurality of pieces of measurement data acquired by the acquisition unit into clusters;
18. The information processing device according to claim 17, further comprising a sorting unit that sorts the measurement data to be sorted out from the measurement data included in the clusters classified by the clustering unit based on the threshold value set by the threshold setting unit.
前記クラスタの代表値に対する閾値又は前記クラスタ選択部により選択された前記クラスタに含まれる前記複数の前記測定データの中央値の前記閾値を設定する
請求項17に記載の情報処理装置。 The threshold setting unit is
The information processing apparatus according to claim 17 , wherein the threshold is set to a representative value of the cluster or a median value of the plurality of pieces of measurement data included in the cluster selected by the cluster selection unit.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023-223112 | 2023-12-28 | ||
| JP2023223112 | 2023-12-28 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2025142539A1 true WO2025142539A1 (en) | 2025-07-03 |
Family
ID=96217688
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2024/044143 Pending WO2025142539A1 (en) | 2023-12-28 | 2024-12-13 | Biological particle analysis system, information processing device, and information processing method |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2025142539A1 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020193877A (en) * | 2019-05-28 | 2020-12-03 | ソニー株式会社 | Sorting device, sorting system, and program |
| CN113762401A (en) * | 2021-09-13 | 2021-12-07 | 唯品会(广州)软件有限公司 | Adaptive classification task threshold adjustment method, device, device and storage medium |
| JP2022529196A (en) * | 2019-04-19 | 2022-06-20 | ベクトン・ディキンソン・アンド・カンパニー | Subsampling of flow cytometry event data |
| JP2022540601A (en) * | 2019-07-10 | 2022-09-16 | ベクトン・ディキンソン・アンド・カンパニー | A reconfigurable integrated circuit for coordinating cell sorting |
-
2024
- 2024-12-13 WO PCT/JP2024/044143 patent/WO2025142539A1/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022529196A (en) * | 2019-04-19 | 2022-06-20 | ベクトン・ディキンソン・アンド・カンパニー | Subsampling of flow cytometry event data |
| JP2020193877A (en) * | 2019-05-28 | 2020-12-03 | ソニー株式会社 | Sorting device, sorting system, and program |
| JP2022540601A (en) * | 2019-07-10 | 2022-09-16 | ベクトン・ディキンソン・アンド・カンパニー | A reconfigurable integrated circuit for coordinating cell sorting |
| CN113762401A (en) * | 2021-09-13 | 2021-12-07 | 唯品会(广州)软件有限公司 | Adaptive classification task threshold adjustment method, device, device and storage medium |
Non-Patent Citations (1)
| Title |
|---|
| SOLORZANO LESLIE, WIK LINA, OLSSON BONTELL THOMAS, WANG YUYU, KLEMM ANNA H., ÃFVERSTEDT JOHAN, JAKOLA ASGEIR S., ÃSTMAN ARNE, WÃ: "Machine learning for cell classification and neighborhood analysis in glioma tissue", CYTOMETRY A, vol. 99, no. 12, 1 December 2021 (2021-12-01), US, pages 1176 - 1186, XP093329432, ISSN: 1552-4922, DOI: 10.1002/cyto.a.24467 * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Wilson et al. | Predictive inequity in object detection | |
| JP7540567B2 (en) | Fractionation system and fractionation method | |
| CN109952614B (en) | Classification systems and methods for biological particles | |
| US8077960B2 (en) | Methods for altering one or more parameters of a measurement system | |
| JP2022008632A (en) | Analytical method | |
| US11131622B2 (en) | Information processing device, information processing method, and information processing system | |
| EP3364341A1 (en) | Analyzing digital holographic microscopy data for hematology applications | |
| Iqbal et al. | Classification of selected citrus fruits based on color using machine vision system | |
| JPS6171337A (en) | Device and method for detecting and sorting particle using flow sight metry method | |
| US20240288354A1 (en) | Particle analysis system, information processing apparatus, and sorting apparatus | |
| EP3882603A1 (en) | Information processing device, information processing method, and computer program | |
| US12400326B2 (en) | Automated disease detection system | |
| US10235495B2 (en) | Method for analysis and interpretation of flow cytometry data | |
| WO2025142539A1 (en) | Biological particle analysis system, information processing device, and information processing method | |
| Luo | Machine Learning on High-Throughput Bioparticles Image Recognition and Sizing | |
| WO2025192525A1 (en) | Information processing method, information processing device, and information processing system | |
| WO2024176614A1 (en) | Dye data acquisition method, dye data acquisition device, and dye data acquisition program | |
| Out | BI® _PHOTONICS | |
| Fadel et al. | INTELLIGENT SYSTEMS AND APPLICATIONS IN ENGINEERING |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 24912428 Country of ref document: EP Kind code of ref document: A1 |