CN118551157A - 基于长距注意力机制的多模态视网膜信号重构方法和装置 - Google Patents
基于长距注意力机制的多模态视网膜信号重构方法和装置 Download PDFInfo
- Publication number
- CN118551157A CN118551157A CN202410580278.4A CN202410580278A CN118551157A CN 118551157 A CN118551157 A CN 118551157A CN 202410580278 A CN202410580278 A CN 202410580278A CN 118551157 A CN118551157 A CN 118551157A
- Authority
- CN
- China
- Prior art keywords
- signal
- retinal
- feature
- sample
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/0016—Operational features thereof
- A61B3/0025—Operational features thereof characterised by electronic signal processing, e.g. eye models
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/14—Arrangements specially adapted for eye photography
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Heart & Thoracic Surgery (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Ophthalmology & Optometry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种基于长距注意力机制的多模态视网膜信号重构方法和装置,属于图像处理技术领域,通过第一长短时记忆子模型对上一时间步的第一输出状态、上一时间步的第二输出状态和目标视网膜电成像信号进行第一特征编码得到第一输出状态,且根据第一输出状态确定长距注意力,通过第二长短时记忆子模型对上一时间步的第二输出状态、第一输出状态和长距注意力进行第二特征编码得到初始视网膜信号特征,通过信号对齐模块对初始视网膜信号特征进行信号对齐得到目标对齐信号特征,信号对齐模块基于样本刺激范式特征和样本视网膜电成像信号特征进行训练得到,通过目标生成器对目标对齐信号特征进行刺激范式生成,能够准确模拟视觉刺激信息的编码方式。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种基于长距注意力机制的多模态视网膜信号重构方法和装置。
背景技术
相关技术中,通过生物学和解剖学技术可以清楚地认识视觉信息从眼睛到脑区的完整视觉通路,但无法获得视觉信息在视觉通路中的编码方式。而研究视觉信息如何在视觉通路中被编码,有助于医学、生物工程、计算机视觉及机器人技术等的发展。
发明内容
本申请实施例的主要目的在于提出一种基于长距注意力机制的多模态视网膜信号重构方法和装置,旨在准确模拟视觉信息在视觉通路中的编码过程,理解视觉通路对视觉刺激的响应模式。
为实现上述目的,本申请实施例的第一方面提出了一种基于长距注意力机制的多模态视网膜信号重构方法,所述方法包括:
获取目标视网膜电成像信号;
将所述目标视网膜电成像信号输入至视网膜信号编码器,所述视网膜信号编码器包括第一长短时记忆子模型和第二长短时记忆子模型;
针对多个时间步中的每个时间步,通过所述第一长短时记忆子模型对所述第一长短时记忆子模型在上一时间步输出的第一输出状态、所述第二长短时记忆子模型在上一时间步输出的第二输出状态和所述目标视网膜电成像信号进行第一特征编码,得到所述第一长短时记忆子模型输出的第一输出状态,且根据所述第一输出状态确定长距注意力;
通过所述第二长短时记忆子模型对上一时间步的第二输出状态、所述第一输出状态和所述长距注意力进行第二特征编码,得到第二输出状态,且将所有所述时间步的所述第二输出状态作为初始视网膜信号特征;
通过信号对齐模块对所述初始视网膜信号特征进行信号对齐,得到目标对齐信号特征;所述信号对齐模块基于样本刺激范式特征和样本视网膜电成像信号特征进行训练得到;
通过目标生成器对所述目标对齐信号特征进行刺激范式生成,得到目标刺激范式。
在一些实施例,所述根据所述第一输出状态确定长距注意力,包括:
根据所述第一输出状态确定检索特征向量、键特征向量和值特征向量,并根据所述检索特征向量、所述键特征向量和所述值特征向量确定信号关系特征;
基于门限单元,根据当前时间步的第一输出状态和所述信号关系特征确定目标门限概率;
根据当前时间步的第一输出状态、所述信号关系特征和所述目标门限概率确定所述长距注意力。
在一些实施例,所述视网膜信号编码器根据以下步骤训练得到:
获取基准视网膜电成像信号样本、正视网膜电成像信号样本和负视网膜电成像信号样本;
通过预设编码器对所述基准视网膜电成像信号样本进行视网膜信号编码,得到基准样本视网膜信号特征;
通过所述预设编码器对所述正视网膜电成像信号样本进行视网膜信号编码,得到正样本视网膜信号特征;
通过所述预设编码器对所述负视网膜电成像信号样本进行视网膜信号编码,得到负样本视网膜信号特征;
根据所述基准样本视网膜信号特征和所述正样本视网膜信号特征确定第一损失,根据所述基准样本视网膜信号特征和所述负样本视网膜信号特征确定第二损失;
计算所述正样本视网膜信号特征和所述负样本视网膜信号特征之间的边距距离;
根据所述第一损失、第二损失和所述边距距离对预设编码器进行参数更新,直至所述第一损失小于第二损失,且所述第二损失小于所述第一损失和所述边距距离之和,将所述预设编码器作为所述视网膜信号编码器。
在一些实施例,所述信号对齐模块根据以下步骤训练得到:
获取样本刺激范式和样本视网膜电成像信号;
对所述样本刺激范式进行刺激范式编码,得到所述样本刺激范式特征;
通过所述视网膜信号编码器对所述样本视网膜电成像信号进行视网膜信号编码,得到所述样本视网膜电成像信号特征;
通过预设对齐模块对所述样本刺激范式特征进行刺激范式编码,得到编码刺激范式特征;
通过所述预设对齐模块对所述样本视网膜电成像信号特征进行视网膜信号编码,得到编码视网膜信号特征;
计算所述编码刺激范式特征和所述编码视网膜信号特征之间的相似度分数;
基于预设损失函数,根据所述相似度分数和所述编码刺激范式特征确定第三损失;
根据所述第三损失对所述预设对齐模块进行参数更新,得到所述信号对齐模块。
在一些实施例,所述目标生成器包括映射子模型和生成子模型,所述生成子模型包括多个分辨率依次增加的分辨率单元,所述通过目标生成器对所述目标对齐信号特征进行刺激范式生成,得到目标刺激范式,包括:
随机生成噪声信号;
通过所述映射子模型对所述目标对齐信号特征和所述噪声信号进行特征映射,得到隐空间分布特征;
对所述隐空间分布特征进行仿射变换得到风格向量;
基于当前所述分辨率单元,根据上一所述分辨率单元输出的输出特征、所述风格向量和为当前所述分辨率单元生成的高斯噪声分量确定当前所述分辨率单元输出的输出特征;
将最后一个所述分辨率单元输出的输出特征作为所述目标刺激范式。
在一些实施例,所述目标生成器根据以下步骤训练得到:
获取样本刺激范式和样本视网膜电成像信号;
通过预设生成器对所述样本刺激范式进行刺激范式生成,得到第一预测刺激范式;
通过所述预设生成器对所述样本视网膜电成像信号进行刺激范式生成,得到第二预测刺激范式;
固定所述预设生成器的参数,根据所述样本刺激范式、所述第一预测刺激范式和所述第二预测刺激范式对预设判别器进行参数更新;
通过更新后的预设判别器对所述第一预测刺激范式进行判别得到第一判别特征,并根据所述第一判别特征确定第四损失;
通过所述预设判别器对所述第二预测刺激范式进行判别得到第二判别特征,并根据所述第二判别特征确定第五损失;
根据所述第四损失和所述第五损失对所述预设生成器进行参数更新,得到所述目标生成器。
在一些实施例,所述根据所述样本刺激范式、所述第一预测刺激范式和所述第二预测刺激范式对预设判别器进行参数更新,包括:
通过所述预设判别器对所述样本刺激范式进行判别得到第三判别特征,并根据所述第三判别特征确定第六损失;
通过所述预设判别器对所述第一预测刺激范式进行判别得到第四判别特征,并根据所述第四判别特征确定第七损失;
通过所述预设判别器对所述第二预测刺激范式进行判别得到第五判别特征,并根据所述第五判别特征确定第八损失;
根据所述第六损失、第七损失和所述第八损失对所述预设判别器进行参数更新。
为实现上述目的,本申请实施例的第二方面提出了一种基于长距注意力机制的多模态视网膜信号重构装置,所述装置包括:
获取模块,用于获取目标视网膜电成像信号;
输入模块,用于将所述目标视网膜电成像信号输入至视网膜信号编码器,所述视网膜信号编码器包括第一长短时记忆子模型和第二长短时记忆子模型;
第一编码模块,用于针对多个时间步中的每个时间步,通过所述第一长短时记忆子模型对所述第一长短时记忆子模型在上一时间步输出的第一输出状态、所述第二长短时记忆子模型在上一时间步输出的第二输出状态和所述目标视网膜电成像信号进行第一特征编码,得到所述第一长短时记忆子模型输出的第一输出状态,且根据所述第一输出状态确定长距注意力;
第二编码模块,用于通过所述第二长短时记忆子模型对上一时间步的第二输出状态、所述第一输出状态和所述长距注意力进行第二特征编码,得到第二输出状态,且将所有所述时间步的所述第二输出状态作为初始视网膜信号特征;
对齐模块,用于通过信号对齐模块对所述初始视网膜信号特征进行信号对齐,得到目标对齐信号特征;所述信号对齐模块基于样本刺激范式特征和样本视网膜电成像信号特征进行训练得到;
生成模块,用于通过目标生成器对所述目标对齐信号特征进行刺激范式生成,得到目标刺激范式。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面的基于长距注意力机制的多模态视网膜信号重构方法。
为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述第一方面的基于长距注意力机制的多模态视网膜信号重构方法。
本申请提出的基于长距注意力机制的多模态视网膜信号重构方法、基于长距注意力机制的多模态视网膜信号重构装置、电子设备及计算机可读存储介质,通过获取目标视网膜电成像信号,将目标视网膜电成像信号输入至视网膜信号编码器,以提取目标视网膜电成像信号中用于恢复视觉信息的关键特征。目标视网膜电成像信号为时序序列,为了捕获时序序列中相隔较远的数据点之间的依赖关系,通过堆叠的长短时记忆网络准确提取长距离依赖关系。不同时间步数据点之间存在关联关系,为了准确提取各个时间步数据点的特征表示,通过第一长短时记忆子模型对上一时间步的第一输出状态、上一时间步的第二输出状态和目标视网膜电成像信号进行第一特征编码,得到第一输出状态。为了增强模型的特征表征能力,引入长距注意力机制,根据第一输出状态确定长距注意力,以利用长距注意力捕获长距离依赖关系。为了提取深层次语义特征,通过第二长短时记忆子模型对上一时间步的第二输出状态、第一输出状态和长距注意力进行第二特征编码,得到初始视网膜信号特征。通过信号对齐模块对初始视网膜信号特征进行信号对齐,使初始视网膜信号特征能够对齐于视觉信息,以利用多模态信息准确提取用于恢复视觉信息的关键细节信息,得到目标对齐信号特征。通过目标生成器对目标对齐信号特征进行刺激范式生成,得到目标刺激范式,建立了视网膜电成像信号到视觉信息的映射,能够准确模拟视觉信息在视觉通路中的编码过程。
附图说明
图1是本申请实施例提供的基于长距注意力机制的多模态视网膜信号重构方法的流程图;
图2是本申请实施例提供的视网膜信号编码器的训练过程的流程图;
图3是本申请实施例提供的视网膜信号编码器的网络结构的示意图;
图4是图1中的步骤S130的流程图;
图5是本申请实施例提供的信号对齐模块的训练过程的流程图;
图6是图1中的步骤S160的流程图;
图7是本申请实施例提供的目标生成器的训练过程的流程图;
图8是图7中的步骤S740的流程图;
图9A是本申请实施例提供的从视网膜电成像信号到刺激范式的重构效果图;
图9B是本申请实施例提供的从视网膜电成像信号到刺激范式的另一重构效果图;
图9C是本申请实施例提供的从刺激范式到刺激范式的重构效果图;
图10是本申请实施例提供的基于长距注意力机制的多模态视网膜信号重构装置的结构示意图;
图11是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
相关技术中,通过生物学和解剖学技术可以清楚地认识视觉信息从眼睛到脑区的完整视觉通路,但无法获得视觉信息在视觉通路中的编码方式。而研究视觉信息如何在视觉通路中被编码,有助于医学、生物工程、计算机视觉及机器人技术等的发展。
基于此,本申请实施例提供了一种基于长距注意力机制的多模态视网膜信号重构方法、基于长距注意力机制的多模态视网膜信号重构装置、电子设备及计算机可读存储介质,旨在准确模拟和预测视觉信息的编码方式,理解视网膜对视觉信息的响应模式。
本申请实施例提供的基于长距注意力机制的多模态视网膜信号重构方法、基于长距注意力机制的多模态视网膜信号重构装置、电子设备及计算机可读存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的基于长距注意力机制的多模态视网膜信号重构方法。
本申请实施例提供的基于长距注意力机制的多模态视网膜信号重构方法,涉及图像处理技术领域。本申请实施例提供的基于长距注意力机制的多模态视网膜信号重构方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现基于长距注意力机制的多模态视网膜信号重构方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
图1是本申请实施例提供的基于长距注意力机制的多模态视网膜信号重构方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S110至步骤S160。
步骤S110,获取目标视网膜电成像信号;
步骤S120,将目标视网膜电成像信号输入至视网膜信号编码器,视网膜信号编码器包括第一长短时记忆子模型和第二长短时记忆子模型;
步骤S130,针对多个时间步中的每个时间步,通过第一长短时记忆子模型对第一长短时记忆子模型在上一时间步输出的第一输出状态、第二长短时记忆子模型在上一时间步输出的第二输出状态和目标视网膜电成像信号进行第一特征编码,得到第一长短时记忆子模型输出的第一输出状态,且根据第一输出状态确定长距注意力;
步骤S140,通过第二长短时记忆子模型对上一时间步的第二输出状态、第一输出状态和长距注意力进行第二特征编码,得到第二输出状态,且将所有时间步的第二输出状态作为初始视网膜信号特征;
步骤S150,通过信号对齐模块对初始视网膜信号特征进行信号对齐,得到目标对齐信号特征;信号对齐模块基于样本刺激范式特征和样本视网膜电成像信号特征进行训练得到;
步骤S160,通过目标生成器对目标对齐信号特征进行刺激范式生成,得到目标刺激范式。
在一些实施例的步骤S110中,结合微电子芯片制造技术的非侵入多电极阵列(Micro Electrode Arrays,MEA)具有高密度、高灵敏度和便携等特性,可使用MEA技术实时记录视网膜神经元的活动,以采集小鼠视网膜的视网膜电成像信号(Electro retinography,ERG),为后续视网膜信号重构提供高质量的数据。通过将小鼠视网膜组织贴附在MEA芯片电极上,可以记录和刺激组织的任意位点的电生理活动,这类电生理活动数据称为视网膜电成像信号。目标视网膜电成像信号为利用目标刺激范式刺激小鼠视网膜细胞产生的视网膜电成像信号。目标刺激范式为视觉刺激信息,目标刺激范式可采用动态图像序列,目标刺激范式的类别可以为局部刺激、全局刺激、形状刺激以及颜色刺激等。通过将视觉刺激信号转化为神经活动数据,有助于研究视觉信息在神经系统中的编码和处理过程。
在一些实施例的步骤S120中,为研究视网膜对视觉刺激信息的编码和处理方式,需要建立ERG信号到刺激范式之间的映射,以促进视觉修复、生物仿生眼研究等。为了充分提取ERG信号特征,将目标视网膜电成像信号输入至视网膜信号编码器。视网膜信号编码器采用多个长短时记忆网络(Long Short-Term Memory,LSTM)逐层堆叠的方式构建而成,长短时记忆网络具有较强的泛化能力,能够适应不同的数据分布,并捕获序列数据中的长期依赖关系。本申请实施例不对长短时记忆网络的个数进行限制,可根据实际情况任意设置,如可将其个数设置为2。其中,视网膜信号编码器包括级联的第一长短时记忆子模型和第二长短时记忆子模型,第一长短时记忆子模型和第二长短时记忆子模型均为LSTM网络。
请参阅图2,在一些实施例中,视网膜信号编码器的训练过程可以包括但不限于包括步骤S210至步骤S270:
步骤S210,获取基准视网膜电成像信号样本、正视网膜电成像信号样本和负视网膜电成像信号样本;
步骤S220,通过预设编码器对基准视网膜电成像信号样本进行视网膜信号编码,得到基准样本视网膜信号特征;
步骤S230,通过预设编码器对正视网膜电成像信号样本进行视网膜信号编码,得到正样本视网膜信号特征;
步骤S240,通过预设编码器对负视网膜电成像信号样本进行视网膜信号编码,得到负样本视网膜信号特征;
步骤S250,根据基准样本视网膜信号特征和正样本视网膜信号特征确定第一损失,根据基准样本视网膜信号特征和负样本视网膜信号特征确定第二损失;
步骤S260,计算正样本视网膜信号特征和负样本视网膜信号特征之间的边距距离;
步骤S270,根据第一损失、第二损失和边距距离对预设编码器进行参数更新,直至第一损失小于第二损失,且第二损失小于第一损失和边距距离之和,将预设编码器作为视网膜信号编码器。
在一些实施例的步骤S210中,获取基准视网膜电成像信号样本(基准样本)、正视网膜电成像信号样本(正样本)和负视网膜电成像信号样本(负样本),基准视网膜电成像信号样本为刺激范式刺激视网膜细胞得到的视网膜电成像信号,正视网膜电成像信号样本为同一刺激范式刺激另一视网膜细胞得到的另一视网膜成像像信号,基准视网膜电成像信号样本和正视网膜电成像信号样本为同一刺激范式下的不同ERG信号。负视网膜电成像信号样本为另一刺激范式刺激视网膜细胞得到的视网膜电成像信号,即不同于基准样本和正样本的刺激范式刺激下的ERG信号。
在一些实施例的步骤S220中,预设编码器与视网膜信号编码器的网络结构相同,视网膜信号编码器是训练完成的预设编码器。将基准视网膜电成像信号样本输入至预设编码器进行视网膜信号编码,得到基准样本视网膜信号特征。基准样本视网膜信号特征为预设编码器针对基准样本提取得到的ERG信号特征,可以是a波幅值、b波幅值、振荡电位、相位谱、功率谱等。预设编码器的视网膜信号编码的过程可参照视网膜信号编码器对目标视网膜电成像信号的特征编码过程,此处不再赘述。
在一些实施例的步骤S230中,将正视网膜电成像信号样本输入至预设编码器进行视网膜信号编码,得到正样本视网膜信号特征。正样本视网膜信号特征为预设编码器针对正样本提取得到的ERG信号特征。
在一些实施例的步骤S240中,将负视网膜电成像信号样本输入至预设编码器进行视网膜信号编码,得到负样本视网膜信号特征。负样本视网膜信号特征为预设编码器针对负样本提取得到的ERG信号特征。
在一些实施例的步骤S250中,采用半硬三元组损失作为预设编码器训练时的损失函数,半硬三元组损失试图学习一个特征空间,使得在该特征空间中相同类别(同一刺激范式)下的基准样本与正样本之间的距离更近,不同类别(不同刺激范式)下的基准样本与负样本之间的距离更远。半硬三元组损失函数表示为:
‖fθ(Ea)-fθ(Ep)‖<‖fθ(Ea)-fθ(En)‖<‖fθ(Ea)-fθ(Ep)‖+δ 公式(1)
其中,fθ(·)是预设编码器,θ表示预设编码器的模型参数,Ea是基准样本,Ep是正样本,En是负样本,δ是正样本与负样本之间的边距距离。
基于半硬三元组损失函数,计算基准样本视网膜信号特征和正样本视网膜信号特征之间的特征误差,得到第一损失,第一损失表示为||fθ(Ea)-fθ(Ep)||。计算基准样本视网膜信号特征和负样本视网膜信号特征之间的特征误差,得到第二损失,第二损失表示为||fθ(Ea)-fθ(En)||。
在一些实施例的步骤S260中,利用距离度量指标计算正样本视网膜信号特征和负样本视网膜信号特征之间的边距距离,边距距离为特征空间中两个特征表示之间的距离,距离度量指标可采用欧式距离、曼哈顿距离、余弦相似度等。
在一些实施例的步骤S270中,根据第一损失、第二损失和边距距离对预设编码器进行模型参数更新,以对预设编码器进行模型训练,直至第一损失小于第二损失,且第二损失小于第一损失和边距距离之和,即预设编码器训练完成,将此时的预设编码器作为视网膜信号编码器。
需要说明的是,基准样本和正样本之间的距离小于基准样本和负样本之间的距离,但是这两个距离之间的差距不满足边距距离。半硬三元组损失函数的目的是,在一定的距离上将正样本和负样本分开,通过优化保证类别相同的样本点之间距离足够近,而类别不同的样本点间距离足够远,即基准样本与负样本的距离要远远大于基准样本与正样本之间的距离。
上述步骤S210至步骤S270,通过对预设编码器进行训练,使正样本和基准样本的特征表示在特征空间中距离更近,基准样本、正样本的特征表示和负样本的特征表示在特征空间中距离更远,提高了预设编码器对不同ERG信号的特征编码能力,保证了特征提取的准确性。
视网膜信号编码器的网络结构如图3所示,E表示目标视网膜电成像信号,表示初始视网膜信号特征,即视网膜信号编码器针对目标视网膜电成像信号提取得到的输出特征,表示第一长短时记忆子模型在时间步t的隐藏状态即第一输出状态,表示第二长短时记忆子模型在时间步t的隐藏状态即第二输出状态。当时间步为0时,和均为随机初始化的张量。时间步的数量可以为目标视网膜电成像信号的时长,即目标视网膜电成像信号中数据点的数量。针对多个时间步中的每个时间步,对第一长短时记忆子模型在上一时间步输出的第一输出状态第二长短时记忆子模型在上一时间步输出的第二输出状态以及目标视网膜电成像信号进行特征拼接,得到第一拼接特征,通过第一长短时记忆子模型对第一拼接特征进行第一时序特征编码,得到第一长短时记忆子模型的第一输出状态第一长短时记忆子模型的计算过程可表示为:
其中,LSTM1表示第一长短时记忆子模型。
将第一长短时记忆子模型编码的时序特征(第一输出状态)进行长距注意力计算,得到长距注意力,长距注意力允许模型在处理序列数据时捕捉到序列中相隔较远的数据点之间的依赖关系,长距注意力用于表征ERG信号各数据点之间的隐含关系。
请参阅图4,在一些实施例中,步骤S130可以包括但不限于包括步骤S410至步骤S430:
步骤S410,根据第一输出状态确定检索特征向量、键特征向量和值特征向量,并根据检索特征向量、键特征向量和值特征向量确定信号关系特征;
步骤S420,基于门限单元,根据当前时间步的第一输出状态和信号关系特征确定目标门限概率;
步骤S430,根据当前时间步的第一输出状态、信号关系特征和目标门限概率确定长距注意力。
在一些实施例的步骤S410中,将第一权重矩阵与第一输出状态相乘得到检索特征向量,将第二权重矩阵与第一输出状态相乘得到键特征向量,将第三权重矩阵与第一输出状态相乘得到值特征向量。检索特征向量、键特征向量和值特征向量的特征维度相同,计算过程可表示为:
其中,Q、K、V分别表示检索特征向量、键特征向量和值特征向量,Wq、Wk、Wv分别表示第一权重矩阵、第二权重矩阵和第三权重矩阵。
基于多头自注意力机制,根据检索特征向量、键特征向量和值特征向量进行自注意力计算,得到每个自注意力头输出的信号关系特征,并将各个信号关系特征进行拼接。信号关系特征的计算过程如下:
A=concat(A1,…,Ah)公式(7)
其中,Ai表示第i个自注意力头输出的信号关系特征,T表示转置操作;dk表示特征维度,softmax表示softmax激活函数;A表示拼接所得特征;h表示自注意力头的数量;concat表示拼接操作。
在一些实施例的步骤S420中,目标门限概率为门限单元的输出特征,用于控制当前时间步的信号关系特征A、第一输出状态向下传递的概率。基于门限单元,将当前时间步t的第一输出状态和信号关系特征A进行拼接,对拼接后的特征进行门限特征提取,得到目标门限概率。目标门限概率表示为:
其中,gt表示时间步t的目标门限概率;Wg表示门限单元的可学习参数;sigmoid表示激活函数。
在一些实施例的步骤S430中,根据目标门限概率控制第一长短时记忆子模型向第二长短时记忆子模型传递的信号关系特征和第一输出状态。将当前时间步的第一输出状态与目标门限概率相乘,将信号关系特征与1减去目标门限概率所得概率进行相乘,将两个相乘结果相加得到长距注意力。长距注意力用于表征ERG信号不同特征通道之间的隐含关系,长距注意力表示为:
通过上述步骤S410至步骤S430,能够得到长距注意力,以确定ERG信号不同特征通道之间的隐含关系,进而捕获ERG信号的长距离依赖关系,提高视网膜信号重构的准确性。
在一些实施例的步骤S140中,针对每个时间步,对上一时间步的第二输出状态、第一输出状态和长距注意力进行特征拼接,得到第二拼接特征。通过第二长短时记忆子模型对第二拼接特征进行第二特征编码,得到第二输出状态,将各个时间步的第二输出状态作为初始视网膜信号特征。初始视网膜信号特征表示为:
其中,表示初始视网膜信号特征;LSTM2表示第二长短时记忆子模型。
在一些实施例的步骤S150中,通过线性层对初始视网膜信号特征进行特征映射,通过信号对齐模块将特征映射后的初始视网膜信号特征与特征空间中的刺激范式特征进行信号对齐,以提取初始视网膜信号特征中与刺激范式相关的特征,得到目标对齐信号特征。目标对齐信号特征为信号对齐模块对初始视网膜信号特征进行编码后的特征。信号对齐模块基于样本刺激范式特征和样本视网膜电成像信号特征进行训练得到。
请参阅图5,在一些实施例中,信号对齐模块的训练过程可以包括但不限于包括步骤S510至步骤S580:
步骤S510,获取样本刺激范式和样本视网膜电成像信号;
步骤S520,对样本刺激范式进行刺激范式编码,得到样本刺激范式特征;
步骤S530,通过视网膜信号编码器对样本视网膜电成像信号进行视网膜信号编码,得到样本视网膜电成像信号特征;
步骤S540,通过预设对齐模块对样本刺激范式特征进行刺激范式编码,得到编码刺激范式特征;
步骤S550,通过预设对齐模块对样本视网膜电成像信号特征进行视网膜信号编码,得到编码视网膜信号特征;
步骤S560,计算编码刺激范式特征和编码视网膜信号特征之间的相似度分数;
步骤S570,基于预设损失函数,根据相似度分数和编码刺激范式特征确定第三损失;
步骤S580,根据第三损失对预设对齐模块进行参数更新,得到信号对齐模块。
在一些实施例的步骤S510中,从训练集获取样本刺激范式和样本视网膜电成像信号,样本视网膜电成像信号为样本刺激范式下的视网膜电成像信号。
在一些实施例的步骤S520中,通过预训练的卷积神经网络对样本刺激范式进行刺激范式编码,得到样本刺激范式特征。卷积神经网络可以为ResNet50,样本刺激范式特征包括图像动态特征、纹理特征、空间关系特征、颜色特征、形状结构特征等。需要说明的是,在信号对齐模块的训练过程中,卷积神经网络的模型参数是固定的,不需要更新。
在一些实施例的步骤S530中,视网膜信号编码器包括级联的第一长短时记忆子模型和第二长短时记忆子模型,通过第一长短时记忆子模型、第二长短时记忆子模型以及长距注意力机制对样本视网膜电成像信号进行视网膜信号编码得到样本视网膜电成像信号特征,样本视网膜电成像信号特征为样本视网膜电成像信号的ERG信号特征。具体的视网膜信号编码过程可参照步骤S130至步骤S140,此处不再赘述。
在一些实施例的步骤S540中,通过预设对齐模块对样本刺激范式特征进行刺激范式编码,得到编码刺激范式特征。即其中V表示样本刺激范式特征,表示编码刺激范式特征,CL IP表示预设对齐模块。
在一些实施例的步骤S550中,通过线性层对样本视网膜电成像信号特征进行线性映射,通过预设对齐模块CL IP对线性映射后的进行视网膜信号编码,得到编码视网膜信号特征线性层用于将样本视网膜电成像信号特征转换为与样本刺激范式特征相同的维度。
在一些实施例的步骤S560中,对编码刺激范式特征和编码视网膜信号特征进行点积运算,得到相似度分数。相似度分数表示为:
其中,l ogits表示相似度分数;T表示转置操作;·表示点积运算。
在一些实施例的步骤S570中,预设损失函数为用于训练预设对齐模块的损失函数,以实现样本视网膜电成像信号特征和样本刺激范式特征之间的跨模态对齐。基于预设损失函数,根据相似度分数和编码刺激范式特征进行交叉熵损失计算,得到第一交叉熵损失,根据相似度分数的转置和编码刺激范式特征进行交叉熵损失计算,得到第二交叉熵损失,将第一交叉熵损失和第二交叉熵损失进行加权平均得到第三损失,预设损失函数表示为:
其中,lossalign为第三损失;cross_entropy表示交叉熵损失;logits表示相似度分数;T表示转置操作;表示编码刺激范式特征。
在一些实施例的步骤S580中,根据第三损失对线性层和预设对齐模块进行参数更新,将第三损失取最小值时的预设对齐模块作为信号对齐模块。
上述步骤S510至步骤S580,通过对预设对齐模块进行训练,使得信号对齐模块可以从视网膜电成像信号特征中提取出与刺激范式相似的特征,提高了视网膜信号重构的准确性。
通过目标生成器对目标对齐信号特征进行刺激范式生成,得到目标视网膜电成像信号的目标刺激范式,以模拟视觉刺激信息在视网膜中的编码方式。目标生成器采用StyleGAN。目标生成器不仅能从ERG信号重构刺激范式,也能从刺激范式重构刺激范式。在一些实施例中,获取目标刺激范式,通过预训练的卷积神经网络对目标刺激范式进行第一刺激范式编码,得到目标刺激范式特征。通过信号对齐模块对目标刺激范式特征进行对齐,得到对齐刺激范式特征。对齐刺激范式特征为目标刺激范式特征与特征空间中的ERG信号特征对齐后的特征。通过目标生成器对对齐刺激范式特征进行刺激范式生成,得到生成刺激范式特征。需要说明的是,当输入为刺激范式时不需要经过线性层进行线性映射,直接通过信号对齐模块进行对齐操作即可。
请参阅图6,在一些实施例中,目标生成器包括映射子模型和生成子模型,生成子模型包括多个分辨率依次增加的分辨率单元,步骤S160可以包括但不限于包括步骤S610至步骤S650:
步骤S610,随机生成噪声信号;
步骤S620,通过映射子模型对目标对齐信号特征和噪声信号进行特征映射,得到隐空间分布特征;
步骤S630,对隐空间分布特征进行仿射变换得到风格向量;
步骤S640,基于当前分辨率单元,根据上一分辨率单元输出的输出特征、风格向量和为当前分辨率单元生成的高斯噪声分量确定当前分辨率单元输出的输出特征;
步骤S650,将最后一个分辨率单元输出的输出特征作为目标刺激范式。
在一些实施例的步骤S610中,为了模拟真实场景中的随机性,利用伪随机数生成器或者真随机数生成器随机生成噪声信号。
在一些实施例的步骤S620中,将目标对齐信号特征和噪声信号进行拼接得到第三拼接特征,对第三拼接特征进行归一化,通过映射子模型对归一化后的第三拼接特征进行特征映射,以将特征转换到隐藏空间中,得到隐空间分布特征。映射子模型从训练集中学习到了图片中间层的隐空间分布,用于生成控制图像特征的隐编码。隐空间分布特征为第三拼接特征在隐空间中的分布特征。映射子模型由八层全连接层(Fully Connected layer,FC)组成,每一层FC的结构相同。
在一些实施例的步骤S630中,通过全连接层对隐空间分布特征进行仿射变换得到风格向量。风格向量为从隐空间分布特征中采样出的空间不变风格,风格向量包括风格尺度和风格偏置。y=(ys,yb),ys表示风格尺度,yb表示风格偏置。
在一些实施例的步骤S640中,生成子模型包括九个分辨率依次增加的分辨率单元,第l个分辨率单元的分辨率为2l+1×2l+1,分辨率变化范围为42-10242。除第一个分辨率单元只有一个3×3的卷积层,其他分辨率单元均有两个3×3的卷积层,每个卷积层后接实例正则化操作。目标生成器在每一个尺度的特征图计算时,都会引入一个额外的高斯噪声分量。为每个分辨率单元生成高斯噪声分量,以在生成图像空间上有一些随机的细节变化。高斯噪声分量的分辨率与分辨率单元的分辨率相同。可通过风格向量和高斯噪声分量控制生成子模型每个卷积层后的实例正则化操作,生成子模型在风格向量和高斯噪声分量的控制下可以为学习过的各种风格生成图像。若当前分辨率单元为第一个分辨率单元,那么上一分辨率单元输出的输出特征为恒定的4×4×512大小的常数值。若当前分辨率单元不是第一个分辨率单元,那么可将该常数值替换为3×3的卷积层。具体得,若当前分辨率单元为第一个分辨率单元,将常数值、风格向量和为当前分辨率单元生成的高斯噪声分量进行特征相加,得到第一融合特征。若当前分辨率单元不是第一个分辨率单元,通过第一个3×3卷积层对上一分辨率单元输出的输出特征进行卷积,将卷积所得特征、风格向量和为当前分辨率单元生成的高斯噪声分量进行特征相加,得到第一融合特征。根据第一融合特征、风格尺度和风格偏置进行逐像素的实例正则化,得到第一实例正则化特征。实例正则化的对象是第一融合特征的每一个通道,使特征图可以具有表征风格的隐藏分布参数。实例正则化的过程表示为:
其中,xi表示第i个特征图即第一融合特征;y表示风格向量;AdaIN表示实例正则化操作;μ(·)表示均值,σ(·)表示方差;ys,i表示第i个特征图的风格尺度;yb,i表示第i个特征图的风格偏置。
通过3×3卷积层对第一实例正则化特征进行卷积得到卷积特征,将卷积特征、风格向量和为当前分辨率单元生成的高斯噪声分量进行特征相加,得到第二融合特征,根据第二融合特征、风格尺度和风格偏置进行实例正则化,得到第二实例正则化特征。将第二实例正则化特征作为当前分辨率单元输出的输出特征。
在一些实施例的步骤S650中,将最后一个分辨率单元输出的输出特征作为目标刺激范式。
通过上述步骤S610至步骤S650,能够建立ERG信号到刺激范式之间的映射,以获取视网膜细胞对刺激范式的编码和处理方式。
请参阅图7,在一些实施例中,目标生成器的训练过程可以包括但不限于包括步骤S710至步骤S770:
步骤S710,获取样本刺激范式和样本视网膜电成像信号;
步骤S720,通过预设生成器对样本刺激范式进行刺激范式生成,得到第一预测刺激范式;
步骤S730,通过预设生成器对样本视网膜电成像信号进行刺激范式生成,得到第二预测刺激范式;
步骤S740,固定预设生成器的参数,根据样本刺激范式、第一预测刺激范式和第二预测刺激范式对预设判别器进行参数更新;
步骤S750,通过更新后的预设判别器对第一预测刺激范式进行判别得到第一判别特征,并根据第一判别特征确定第四损失;
步骤S760,通过预设判别器对第二预测刺激范式进行判别得到第二判别特征,并根据第二判别特征确定第五损失;
步骤S770,根据第四损失和第五损失对预设生成器进行参数更新,得到目标生成器。
在一些实施例的步骤S710中,从训练集获取样本刺激范式和样本视网膜电成像信号。
在一些实施例的步骤S720中,为了使预设生成器既能从ERG信号重构刺激范式,又能从刺激范式重构刺激范式,通过预设生成器对样本刺激范式进行刺激范式生成,得到第一预测刺激范式。第一预测刺激范式为基于样本刺激范式生成的刺激范式,预设生成器与目标生成器的网络结构相同。刺激范式生成的方式可参照步骤S610至步骤S650,此处不再赘述。
在一些实施例的步骤S730中,通过预设生成器对样本视网膜电成像信号进行刺激范式生成,得到第二预测刺激范式,第二预测刺激范式为基于样本视网膜电成像信号生成的刺激范式。
在一些实施例的步骤S740中,可采用交替训练方式训练预设生成器和预设判别器。具体地,固定预设生成器的参数,根据样本刺激范式、第一预测刺激范式和第二预测刺激范式对预设判别器进行参数更新。预设判别器包括九个卷积层,通过九个卷积层依次进行降采样操作,分辨率变化范围为10242-42。
在一些实施例的步骤S750中,通过更新后的预设判别器对第一预测刺激范式进行判别得到第一判别特征,第一判别特征用于表征第一预测刺激范式为真的概率分布。基于生成器损失函数,根据第一判别特征确定第四损失。生成器损失函数表示为:
LossG=log(exp(D(G(Z)))+1) 公式(14)
其中,lossG为生成器损失函数;G表示生成器;D表示判别器;z表示生成器的输入。
在一些实施例的步骤S760中,通过更新后的预设判别器对第二预测刺激范式进行判别得到第二判别特征,第二判别特征用于表征第二预测刺激范式为真的概率分布。基于生成器损失函数,根据第二判别特征确定第五损失。
在一些实施例的步骤S770中,生成器的目标是生成样本的得分越高越好,判别器的目标是生成样本的得分越低越好,真实样本的得分越高越好。对第四损失和第五损失进行求和得到第一目标损失,最大化第一目标损失对预设生成器进行参数更新。或者,对第一预测刺激范式和样本刺激范式进行均方误差计算,得到第一误差,对第二预测刺激范式进行均方误差计算,得到第二误差,对第一误差、第二误差、第四损失的负数、第五损失的负数进行求和得到第一目标损失,最小化第一目标损失对预设生成器进行参数更新。当交替训练的次数达到预设次数阈值或者判别器判别第一预测刺激范式和第二预测刺激范式均为真时,得到目标生成器,以使目标生成器具备生成与真实刺激范式无限接近的能力。可以理解的是,当判别器认为生成器生成的图像是假的,则生成器需要重新生成。
通过上述步骤S710至步骤S770,能够得到目标生成器,以建立ERG信号到刺激范式之间的映射或者刺激范式到刺激范式之间的映射,从而准确模拟视觉刺激信息在视网膜细胞的编码和处理方式。
请参阅图8,在一些实施例中,步骤S740可以包括但不限于包括步骤S810至步骤S850:
步骤S810,通过预设判别器对样本刺激范式进行判别得到第三判别特征,并根据第三判别特征确定第六损失;
步骤S820,通过预设判别器对第一预测刺激范式进行判别得到第四判别特征,并根据第四判别特征确定第七损失;
步骤S830,通过预设判别器对第二预测刺激范式进行判别得到第五判别特征,并根据第五判别特征确定第八损失;
步骤S840,根据第六损失、第七损失和第八损失对预设判别器进行参数更新。
在一些实施例的步骤S810中,通过预设判别器对样本刺激范式进行判别得到第三判别特征,第三判别特征用于表征样本刺激范式为真的概率,并根据第三判别特征确定第六损失。第六损失表示为log(exp(-D(x))+1),D(x)为第三判别特征。
在一些实施例的步骤S820中,通过预设判别器对第一预测刺激范式进行判别得到第四判别特征,第四判别特征用于表征第一预测刺激范式为真的概率,并根据第四判别特征确定第七损失。第七损失表示为log(exp(D(G(z)))+1)。
在一些实施例的步骤S830中,通过预设判别器对第二预测刺激范式进行判别得到第五判别特征,第五判别特征用于表征第二预测刺激范式为真的概率,并根据第五判别特征确定第八损失。第八损失的计算方式与第七损失相同。
在一些实施例的步骤S840中,对第六损失、第七损失和第八损失进行损失求和,得到第二目标损失,最小化第二目标损失对预设判别器进行参数更新。
通过上述步骤S810至步骤S840,能够提高判别器的判别能力,将判别器的输出结果反馈给生成器,促进生成器生成更高质量的刺激范式。
训练集共包含50000个样本对,样本对包括ERG信号和刺激范式,测试集包含500个样本对。训练集用于进行视网膜信号编码器、信号对齐模块以及StyleGAN的训练,测试集用于测试视网膜信号的重构效果。视网膜信号编码器和StyleGAN均在NVIDIA RTX A6000上训练,批次大小(batch size)为16,在训练了3个周期epoch的时候,StyleGAN的损失收敛。模型训练完成后,利用测试集测试ERG信号到刺激范式、图像到图像生成的结果。图9A和图9B展示了对两个不同ERG信号进行刺激范式重构的结果。图9A中的ERG信号对应的真实刺激范式包括局部刺激、全局刺激、方块形的形状刺激以及颜色刺激。通过重构出的刺激范式可以看出,本申请能够准确地重构出这些刺激。
图9B展示了一个更复杂的刺激范式以及这个刺激范式对应的真实ERG信号。相比于图9A的真实刺激范式,图9B的真实刺激范式中包含更复杂的形状刺激,如方框中有圆形区域,而且方框的颜色和圆形区域的颜色不同。对于这种较为复杂的刺激范式,本申请同样能够准确地重构刺激范式。本申请的生成器除了能实现从ERG信号到刺激范式的重构,还能实现从刺激范式到刺激范式的重构,重构结果如图9C所示。利用图9C中的真实刺激范式进行刺激范式重构,得到重构的刺激范式。与真实的刺激范式相比,重构出的刺激范式能够准确重构出真实刺激范式中的颜色、形状、局部、全局的刺激。
请参阅图10,本申请实施例还提供一种基于长距注意力机制的多模态视网膜信号重构装置,可以实现上述基于长距注意力机制的多模态视网膜信号重构方法,该基于长距注意力机制的多模态视网膜信号重构装置包括:
获取模块1010,用于获取目标视网膜电成像信号;
输入模块1020,用于将目标视网膜电成像信号输入至视网膜信号编码器,视网膜信号编码器包括第一长短时记忆子模型和第二长短时记忆子模型;
第一编码模块1030,用于针对多个时间步中的每个时间步,通过第一长短时记忆子模型对第一长短时记忆子模型在上一时间步输出的第一输出状态、第二长短时记忆子模型在上一时间步输出的第二输出状态和目标视网膜电成像信号进行第一特征编码,得到第一长短时记忆子模型输出的第一输出状态,且根据第一输出状态确定长距注意力;
第二编码模块1040,用于通过第二长短时记忆子模型对上一时间步的第二输出状态、第一输出状态和长距注意力进行第二特征编码,得到第二输出状态,且将所有时间步的第二输出状态作为初始视网膜信号特征;
对齐模块1050,用于通过信号对齐模块对初始视网膜信号特征进行信号对齐,得到目标对齐信号特征;信号对齐模块基于样本刺激范式特征和样本视网膜电成像信号特征进行训练得到;
生成模块1060,用于通过目标生成器对目标对齐信号特征进行刺激范式生成,得到目标刺激范式。
该基于长距注意力机制的多模态视网膜信号重构装置的具体实施方式与上述基于长距注意力机制的多模态视网膜信号重构方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了一种电子设备,电子设备包括括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述基于长距注意力机制的多模态视网膜信号重构方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图11,图11示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器1110,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器1120,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器1120可以存储操作系统和其它应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1120中,并由处理器1110来调用执行本申请实施例的基于长距注意力机制的多模态视网膜信号重构方法;
输入/输出接口1130,用于实现信息输入及输出;
通信接口1140,用于实现本设备与其它设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WI FI、蓝牙等)实现通信;
总线1150,在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息;
其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述基于长距注意力机制的多模态视网膜信号重构方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其它非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.基于长距注意力机制的多模态视网膜信号重构方法,其特征在于,所述方法包括:
获取目标视网膜电成像信号;
将所述目标视网膜电成像信号输入至视网膜信号编码器,所述视网膜信号编码器包括第一长短时记忆子模型和第二长短时记忆子模型;
针对多个时间步中的每个时间步,通过所述第一长短时记忆子模型对所述第一长短时记忆子模型在上一时间步输出的第一输出状态、所述第二长短时记忆子模型在上一时间步输出的第二输出状态和所述目标视网膜电成像信号进行第一特征编码,得到所述第一长短时记忆子模型输出的第一输出状态,且根据所述第一输出状态确定长距注意力;
通过所述第二长短时记忆子模型对上一时间步的第二输出状态、所述第一输出状态和所述长距注意力进行第二特征编码,得到第二输出状态,且将所有所述时间步的所述第二输出状态作为初始视网膜信号特征;
通过信号对齐模块对所述初始视网膜信号特征进行信号对齐,得到目标对齐信号特征;所述信号对齐模块基于样本刺激范式特征和样本视网膜电成像信号特征进行训练得到;
通过目标生成器对所述目标对齐信号特征进行刺激范式生成,得到目标刺激范式。
2.根据权利要求1所述的基于长距注意力机制的多模态视网膜信号重构方法,其特征在于,所述根据所述第一输出状态确定长距注意力,包括:
根据所述第一输出状态确定检索特征向量、键特征向量和值特征向量,并根据所述检索特征向量、所述键特征向量和所述值特征向量确定信号关系特征;
基于门限单元,根据当前时间步的第一输出状态和所述信号关系特征确定目标门限概率;
根据当前时间步的第一输出状态、所述信号关系特征和所述目标门限概率确定所述长距注意力。
3.根据权利要求1所述的基于长距注意力机制的多模态视网膜信号重构方法,其特征在于,所述视网膜信号编码器根据以下步骤训练得到:
获取基准视网膜电成像信号样本、正视网膜电成像信号样本和负视网膜电成像信号样本;
通过预设编码器对所述基准视网膜电成像信号样本进行视网膜信号编码,得到基准样本视网膜信号特征;
通过所述预设编码器对所述正视网膜电成像信号样本进行视网膜信号编码,得到正样本视网膜信号特征;
通过所述预设编码器对所述负视网膜电成像信号样本进行视网膜信号编码,得到负样本视网膜信号特征;
根据所述基准样本视网膜信号特征和所述正样本视网膜信号特征确定第一损失,根据所述基准样本视网膜信号特征和所述负样本视网膜信号特征确定第二损失;
计算所述正样本视网膜信号特征和所述负样本视网膜信号特征之间的边距距离;
根据所述第一损失、第二损失和所述边距距离对预设编码器进行参数更新,直至所述第一损失小于第二损失,且所述第二损失小于所述第一损失和所述边距距离之和,将所述预设编码器作为所述视网膜信号编码器。
4.根据权利要求1所述的基于长距注意力机制的多模态视网膜信号重构方法,其特征在于,所述信号对齐模块根据以下步骤训练得到:
获取样本刺激范式和样本视网膜电成像信号;
对所述样本刺激范式进行刺激范式编码,得到所述样本刺激范式特征;
通过所述视网膜信号编码器对所述样本视网膜电成像信号进行视网膜信号编码,得到所述样本视网膜电成像信号特征;
通过预设对齐模块对所述样本刺激范式特征进行刺激范式编码,得到编码刺激范式特征;
通过所述预设对齐模块对所述样本视网膜电成像信号特征进行视网膜信号编码,得到编码视网膜信号特征;
计算所述编码刺激范式特征和所述编码视网膜信号特征之间的相似度分数;
基于预设损失函数,根据所述相似度分数和所述编码刺激范式特征确定第三损失;
根据所述第三损失对所述预设对齐模块进行参数更新,得到所述信号对齐模块。
5.根据权利要求1至4任一项所述的基于长距注意力机制的多模态视网膜信号重构方法,其特征在于,所述目标生成器包括映射子模型和生成子模型,所述生成子模型包括多个分辨率依次增加的分辨率单元,所述通过目标生成器对所述目标对齐信号特征进行刺激范式生成,得到目标刺激范式,包括:
随机生成噪声信号;
通过所述映射子模型对所述目标对齐信号特征和所述噪声信号进行特征映射,得到隐空间分布特征;
对所述隐空间分布特征进行仿射变换得到风格向量;
基于当前所述分辨率单元,根据上一所述分辨率单元输出的输出特征、所述风格向量和为当前所述分辨率单元生成的高斯噪声分量确定当前所述分辨率单元输出的输出特征;
将最后一个所述分辨率单元输出的输出特征作为所述目标刺激范式。
6.根据权利要求1至4任一项所述的基于长距注意力机制的多模态视网膜信号重构方法,其特征在于,所述目标生成器根据以下步骤训练得到:
获取样本刺激范式和样本视网膜电成像信号;
通过预设生成器对所述样本刺激范式进行刺激范式生成,得到第一预测刺激范式;
通过所述预设生成器对所述样本视网膜电成像信号进行刺激范式生成,得到第二预测刺激范式;
固定所述预设生成器的参数,根据所述样本刺激范式、所述第一预测刺激范式和所述第二预测刺激范式对预设判别器进行参数更新;
通过更新后的预设判别器对所述第一预测刺激范式进行判别得到第一判别特征,并根据所述第一判别特征确定第四损失;
通过所述预设判别器对所述第二预测刺激范式进行判别得到第二判别特征,并根据所述第二判别特征确定第五损失;
根据所述第四损失和所述第五损失对所述预设生成器进行参数更新,得到所述目标生成器。
7.根据权利要求6所述的基于长距注意力机制的多模态视网膜信号重构方法,其特征在于,所述根据所述样本刺激范式、所述第一预测刺激范式和所述第二预测刺激范式对预设判别器进行参数更新,包括:
通过所述预设判别器对所述样本刺激范式进行判别得到第三判别特征,并根据所述第三判别特征确定第六损失;
通过所述预设判别器对所述第一预测刺激范式进行判别得到第四判别特征,并根据所述第四判别特征确定第七损失;
通过所述预设判别器对所述第二预测刺激范式进行判别得到第五判别特征,并根据所述第五判别特征确定第八损失;
根据所述第六损失、第七损失和所述第八损失对所述预设判别器进行参数更新。
8.基于长距注意力机制的多模态视网膜信号重构装置,其特征在于,所述装置包括:
获取模块,用于获取目标视网膜电成像信号;
输入模块,用于将所述目标视网膜电成像信号输入至视网膜信号编码器,所述视网膜信号编码器包括第一长短时记忆子模型和第二长短时记忆子模型;
第一编码模块,用于针对多个时间步中的每个时间步,通过所述第一长短时记忆子模型对所述第一长短时记忆子模型在上一时间步输出的第一输出状态、所述第二长短时记忆子模型在上一时间步输出的第二输出状态和所述目标视网膜电成像信号进行第一特征编码,得到所述第一长短时记忆子模型输出的第一输出状态,且根据所述第一输出状态确定长距注意力;
第二编码模块,用于通过所述第二长短时记忆子模型对上一时间步的第二输出状态、所述第一输出状态和所述长距注意力进行第二特征编码,得到第二输出状态,且将所有所述时间步的所述第二输出状态作为初始视网膜信号特征;
对齐模块,用于通过信号对齐模块对所述初始视网膜信号特征进行信号对齐,得到目标对齐信号特征;所述信号对齐模块基于样本刺激范式特征和样本视网膜电成像信号特征进行训练得到;
生成模块,用于通过目标生成器对所述目标对齐信号特征进行刺激范式生成,得到目标刺激范式。
9.电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于长距注意力机制的多模态视网膜信号重构方法。
10.计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于长距注意力机制的多模态视网膜信号重构方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410580278.4A CN118551157A (zh) | 2024-05-11 | 2024-05-11 | 基于长距注意力机制的多模态视网膜信号重构方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410580278.4A CN118551157A (zh) | 2024-05-11 | 2024-05-11 | 基于长距注意力机制的多模态视网膜信号重构方法和装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN118551157A true CN118551157A (zh) | 2024-08-27 |
Family
ID=92445065
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410580278.4A Pending CN118551157A (zh) | 2024-05-11 | 2024-05-11 | 基于长距注意力机制的多模态视网膜信号重构方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118551157A (zh) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20200098139A1 (en) * | 2018-09-26 | 2020-03-26 | Facebook Technologies, Llc | Systems and Methods for Generating and Transmitting Image Sequences Based on Sampled Color Information |
| WO2023110678A1 (en) * | 2021-12-13 | 2023-06-22 | Essilor International | Method for determining a level of certainty of a patient's response to a stimulus perception of a subjective medical test and a device therefore |
| CN116861995A (zh) * | 2023-07-10 | 2023-10-10 | 京东科技信息技术有限公司 | 多模态预训练模型的训练及多模态数据处理方法和装置 |
-
2024
- 2024-05-11 CN CN202410580278.4A patent/CN118551157A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20200098139A1 (en) * | 2018-09-26 | 2020-03-26 | Facebook Technologies, Llc | Systems and Methods for Generating and Transmitting Image Sequences Based on Sampled Color Information |
| WO2023110678A1 (en) * | 2021-12-13 | 2023-06-22 | Essilor International | Method for determining a level of certainty of a patient's response to a stimulus perception of a subjective medical test and a device therefore |
| CN116861995A (zh) * | 2023-07-10 | 2023-10-10 | 京东科技信息技术有限公司 | 多模态预训练模型的训练及多模态数据处理方法和装置 |
Non-Patent Citations (1)
| Title |
|---|
| 陈科峻;张叶;: "循环神经网络多标签航空图像分类", 光学精密工程, no. 06, 9 June 2020 (2020-06-09) * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Yang et al. | Diversity-sensitive conditional generative adversarial networks | |
| Hayat et al. | Deep reconstruction models for image set classification | |
| Lin et al. | Deep variational metric learning | |
| Singh et al. | Dual directed capsule network for very low resolution image recognition | |
| CN112633459B (zh) | 训练神经网络的方法、数据处理方法和相关装置 | |
| Abdi | A generalized approach for connectionist auto-associative memories: interpretation, implications and illustration for face processing | |
| Sui et al. | Scandmm: A deep markov model of scanpath prediction for 360deg images | |
| CN114882289B (zh) | 基于自适应确定拒判准则的sar目标开集识别方法 | |
| CN112883227B (zh) | 一种基于多尺度时序特征的视频摘要生成方法和装置 | |
| CN113705296B (zh) | 生理电信号分类处理方法、装置、计算机设备和存储介质 | |
| Agrawal et al. | Image caption generator using attention mechanism | |
| CN114298997B (zh) | 一种伪造图片检测方法、装置及存储介质 | |
| Nitzan et al. | Large: Latent-based regression through gan semantics | |
| CN110751032A (zh) | 一种无需校准的脑机接口模型的训练方法 | |
| Babaee et al. | Gait energy image restoration using generative adversarial networks | |
| Riazi et al. | Synfi: Automatic synthetic fingerprint generation | |
| Wang et al. | A coordinate attention enhanced swin transformer for handwriting recognition of Parkinson's disease | |
| CN115131194B (zh) | 一种图像合成模型的确定方法和相关装置 | |
| Havugimana et al. | Predicting cognitive load using parameter-optimized cnn from spatial-spectral representation of eeg recordings | |
| Feng et al. | Deep image set hashing | |
| Zhang et al. | ATGAN: attention-based temporal GAN for EEG data augmentation in personal identification | |
| CN118551157A (zh) | 基于长距注意力机制的多模态视网膜信号重构方法和装置 | |
| CN113705291B (zh) | 视频处理网络的训练方法、装置、设备及可读存储介质 | |
| Huo et al. | Multi‐source heterogeneous iris segmentation method based on lightweight convolutional neural network | |
| CN119397484A (zh) | 多模态表征支持的学习者元认知能力评估方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |