CN117056720A

CN117056720A - 预训练语言的学习微调方法、计算机装置及计算机可读存储介质

Info

Publication number: CN117056720A
Application number: CN202310940361.3A
Authority: CN
Inventors: 王瑞平; 吴士泓; 王志刚; 冯荣
Original assignee: Yuanguang Software Co Ltd
Current assignee: Yuanguang Software Co Ltd
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2023-11-14

Abstract

本发明提供一种预训练语言的学习微调方法、计算机装置及计算机可读存储介质，该方法包括获取预训练模型，并制作垂直领域的垂直数据集，垂直数据集包括多组具有逻辑关系的第一训练语句，将第一训练语句进行扩充和乱序处理后，对预训练模型进行训练，获得初始训练模型；并且，应用第一训练语句对初始训练模型进行测试，根据初始训练模型对第一训练语句的答复准确率判断初始训练模型是否存在欠拟合的情况；并且判断初始训练模型是否存在过拟合的情况，根据欠拟合或者过拟合的情况对第一训练语句的扩充倍数进行调整。本发明还提供实现上述方法的计算机装置及计算机可读存储介质。本发明能避免训练模型过拟合或者欠拟合。

Description

预训练语言的学习微调方法、计算机装置及计算机可读存储介质

技术领域

本发明涉及大规模语言训练的技术领域，具体地，是一种针对大规模预训练语言模型的强化学习微调方法，还涉及实现该方法的计算机装置及计算机可读存储介质。

背景技术

大规模预训练语言模型是近年来取得突破性进展的人工智能技术，其中最著名的模型是Open AI的GPT，这种模型使用无标签的大规模文本数据进行预训练，从而学习到丰富的语言表示，然后，通过微调这些预训练模型，可以使其适应特定领域的任务或问题。

在强化学习领域，研究人员已经提出了多种方法来将预训练语言模型与强化学习相结合。例如，现有一种常用的方法是使用基于奖励信号的强化学习算法，通过与环境的交互来微调预训练模型，这种方法允许模型在特定任务中进行自我学习和优化。

关于针对特定领域的微调方法，现有一些文献提出了不同的技术和策略。例如，Smith等人在其2019年的论文“Offline Reinforcement Learning:Tutorial,Review,andPerspectives on Open Problems”中介绍了离线强化学习的方法，该方法可以在没有实时交互的情况下进行微调。另外，Li等人在其2020年的论文“Train Your Own Model(TYOM):ASelf-Supervised Model for Speech Recognition”中介绍了一种自我监督的微调方法，该方法使用自动生成的标签来微调预训练模型，以适应特定的语音识别任务。

尽管大规模预训练语言模型在自然语言处理领域取得了巨大成功，但它们也存在一些问题和缺点。首先，这些模型往往需要大量的计算资源和时间进行预训练。其次，预训练的通用表示可能无法直接适应特定领域的细节和特征。此外，微调过程中可能会面临领域特定数据不足的挑战，特别是对于某些特定的垂直领域或任务。这些问题和困难限制了大规模预训练语言模型在特定领域应用中的效果和性能。

总而言之，目前的大规模预训练语言模型的核心能力来源于大量的训练数据和庞大的网络模型参数，但这种大规模效应在带来智能化的同时也使得模型难以被本地化部署和难以二次训练，在此背景下，微调训练被广泛的用于大规模预训练模型的知识增强。然而，目前针对微调训练并没有非常有效且具体的方式来进行。

公开号为CN115423118A的发明专利申请公开了一种预训练语言模型微调方法，该方法针对每一类任务通过初始预训练语言模型制定文本提示模板；将训练数据整理成批次数据并进行合并；打乱合并后的批次数据顺序；通过多任务学习微调预训练语言模型的参数。然而，该方法没有考虑到模型出现过拟合或者欠拟合的处理方式，尤其是没有针对过拟合进行有效的测试，导致训练获得的模型会存在过拟合的情况，影响训练模型的质量。

发明内容

本发明的第一目的是提供一种可以避免训练获得的模型过拟合或者欠拟合的预训练语言的学习微调方法。

本发明的第二目的是提供一种实现上述预训练语言的学习微调方法的计算机装置。

本发明的第三目的是提供一种实现上述预训练语言的学习微调方法的计算机可读存储介质。

为实现本发明的第一目的，本发明提供的预训练语言的学习微调方法包括获取预训练模型，并制作垂直领域的垂直数据集，垂直数据集包括多组具有逻辑关系的第一训练语句，将第一训练语句进行扩充和乱序处理后，对预训练模型进行训练，获得初始训练模型；并且，应用第一训练语句对初始训练模型进行测试，根据初始训练模型对第一训练语句的答复准确率判断初始训练模型是否存在欠拟合的情况；如初始训练模型存在欠拟合的情况，则增加垂直数据集中第一训练语句的扩充倍数，对预训练模型进行重新训练；建立常识数据集，常识数据集包含有多组第二训练语句，将第二训练语句增量到垂直数据集中形成增量垂直数据集，应用增量垂直数据集对初始训练模型进行训练，获得增量训练模型，根据增量训练模型对增量垂直数据集中的训练语句的答复准确率判断初始训练模型是否存在过拟合的情况；如初始训练模型存在过拟合的情况，则减小垂直数据集中第一训练语句的扩充倍数，对预训练模型进行重新训练。

由上述方案可见，在训练获得初始训练模型后，需要对初始训练模型是否存在过拟合以及欠拟合的情况进行测试，并且针对过拟合、欠拟合的情况对扩充倍数进行动态调整，从而获得更加的训练模型，提升训练获得的模型质量。

另外，针对过拟合测试，设置了常识数据集，通过增加第二训练语句后的数据集对增量训练模型进行测试，能够有效判断出初始训练模型是否存在过拟合的情况，从而准确的对初始训练模型进行调整。

一个优选的方案是，制作垂直领域的垂直数据集时，应用前端界面输入第一训练语句，前端界面具有提示语输入框、问题输入框以及答案输入框。

由此可见，在进行训练时，用户可以快速的通过前端界面输入第一训练语句，操作简单，可以提升模型的训练效率。

进一步的方案是，前端界面还设置有数据导入按钮、数据扩充按钮、数据乱序按钮。

这样，用户可以通过数据导入按钮、数据扩充按钮、数据乱序按钮针对第一训练语句进行自动化的扩充、乱序处理，提升测试效率。

更进一步的方案是，建立常识数据集时，应用前端界面输入第二训练语句。

可见，应用相同的前端界面还可以输入第二训练语句，使得常识数据集的制作非常简单、方便。

一个优选的方案是，前端界面还设置有欠拟合检测按钮以及过拟合检测按钮；该方法还包括：在获取欠拟合检测按钮被按下的信号时，执行欠拟合检测操作，在获取过拟合检测按钮被按下的信号时，执行过拟合检测操作。

由此可见，进行过拟合测试以及欠拟合测试时，都是通过对前端界面的相应操作按钮进行的，通过前端界面就可以实现过拟合测试以及欠拟合测试，对初始训练模型的测试操作非常便捷。

优选的方案是，前端界面还设置有模型导出按钮；该方法还包括：在获取模型导出按钮被按下的信号时，导出微调后的训练模型。

这样，在确定训练模型满足要求，即不存在过拟合以及欠拟合的时候，可以通过模型导出按钮快速的导出训练获得的模型。

进一步的方案是，对第一训练语句的扩充倍数进行增加或者减少时，增加或者减少后的扩充倍数为整数倍。

这样，使得用于训练的第一训练语句与第二训练语句实现整数倍的扩充，训练效果更佳。

更进一步的方案是，第一训练语句为问答方式；和/或，第二训练语句为问答方式。

为实现上述的第二目的，本发明提供的计算机装置包括处理器以及存储器，存储器存储有计算机程序，计算机程序被处理器执行时实现上述预训练语言的学习微调方法的各个步骤。

为实现上述的第三目的，本发明提供计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述预训练语言的学习微调方法的各个步骤。

附图说明

图1是本发明预训练语言的学习微调方法实施例的流程图的第一部分。

图2是本发明预训练语言的学习微调方法实施例的流程图的第二部分。

图3是本发明预训练语言的学习微调方法实施例中前端界面的示意图。

以下结合附图及实施例对本发明作进一步说明。

具体实施方式

本发明的预训练语言的学习微调方法主要应用于大规模预训练语言模型的训练，尤其是针对垂直领域的大规模预训练语言模型进行训练。本发明提供的计算机装置具有处理器以及存储器，处理器可以执行计算机程序并实现上述的预训练语言的学习微调方法。

预训练语言的学习微调方法实施例：

参见图1与图2，本实施例首先执行步骤S1，获取一个需要进行垂直领域训练的预训练模型，并且将该将预训练模型下载到本地计算机上，例如将该预训练模型存储在本地计算机的存储器上。另外，还需要设计好的微调算法模型部署在本地计算机，将各种依赖包安装到本地计算机上。然后，在本地计算机上实现Low-Rank Adaptation(lora)功能，可以在保证预训练原始模型不变的情况下，形成一个新的附加模型，该模型包含了垂直领域的知识，并以参数的形式保存在本地计算机上。

然后，执行步骤S2，制作需要训练的垂直领域的数据，形成垂直数据集。在制作垂直数据集时，需要准备垂直领域的多种知识，并且需要保证训练数据的准确性。在确定用于训练的数据后，将这些数据制作成具有逻辑关系的前后语句，例如针对每一项训练数据，制作成问题和答案的形式。进一步的，还可以将每一项训练数据的问题和答案相关的描述以提示词或者说明的形式设置在问答对的前段，并按照前后顺序放入按照预定格式构成的json文件中。

优选的，将数据信息整理成标准json文件的过程，本实施例通过设计一个标准前端界面和后端程序直接完成，用户只需要在前端界面的对应位置输入提示词、问题和标准答案，点击形成json文件即可。

参见图3，前端界面设置有多个按钮，并且设置有三个输入框，分别是提示语输入框11、问题输入框12以及答案输入框13，在每一个输入框的上方均显示有该输入框的名称，以便于用户正确识别各个输入框，并且在各个输入框中输入正确的信息。

此外，前端界面还设置有六个按钮，分别是数据导入按钮21、数据扩充按钮22、数据打乱按钮23、欠拟合检测按钮24、过拟合检测按钮25以及模型输出按钮26。其中，数据导入按钮21用于实现模型数据的导入，例如将预训练的模型导入到测试系统中。数据扩充按钮22用于实现对第一训练语句、第二训练语句的扩充，优选的，扩充的倍数由用户设定，例如扩充5倍或者6倍。优选的，扩充的倍数是整数，也就是第一训练语句、第二训练语句是整数倍的进行扩充。数据打乱按钮23用于对扩充后的数据进行乱序处理，即对扩充后的数据进行随机的排序，从而实现数据集的扩展。

欠拟合检测按钮24用于发出进行欠拟合检测的指令，当用户点击该按钮后，系统将自动对初始训练模型是否存在欠拟合的情况进行测试。过拟合检测按钮25用于发出进行过拟合检测的指令，当用户点击该按钮后，系统将自动对初始训练模型是否存在过拟合的情况进行测试。而模型输出按钮26用于输出经过测试后的模型，说输出的模型保存在本地计算机的存储器中。

参见图1，在获取垂直数据集后的多组具有逻辑关系的第一训练语句后，执行步骤S3，将第一训练语句进行扩充和乱序处理。优选的，可以设定默认的扩充倍数，例如默认的扩充倍数是5倍，加上垂直数据集的第一训练语句初始状态下有1000条问答对，则进行幅值5次，形成5000条问答对，但只涉及1000条内容。并且，步骤S3还对扩充后的第一训练语句进行打乱顺序的处理，并且放入到微调模型中进行训练。

接着，执行步骤S4，应用经过扩充、乱序处理后的第一训练语句进行训练，获得初始训练模型。在获得初始训练模型后，需要判断经过初始训练后的初始训练模型是否出现过拟合或者欠拟合的情况，并根据测试结果多初始训练模型进行微调。

然后，执行步骤S5，对初始训练模型进行是否存在欠拟合的情况的测试。具体的，首先从垂直数据集中随机选择其中一定比例的数据，例如随机选取10％的数据作为欠拟合的测试数据，提取其中的问题输入到训练好的初始训练模型中，然后获取初始训练模型针对输入的测试问的答案，将所获取的答案与第一训练语句中的标准答案进行比对，判断初始训练模型所生成的答案与标准答案的相似度，如果相似度高于90％，那么就认为初始训练模型可以获得正确答案。通过这种方式，逐一计算初始训练模型针对随机选取的10％的问题的答案中，与标准答案相似度大于90％的数量，如果与标准答案相似度大于90％的数量超过预先设定的阈值，例如该阈值为95％，则认为初始训练模型不存在欠拟合的情况。

因此，在步骤S6中，需要判断初始训练模型是否存在欠拟合的情况，如果初始序列模型不存在欠拟合的情况，则执行步骤S9，如果初始训练模型存在欠拟合的情况，则表示步骤S3中对第一训练语句的扩充倍数不够，需要执行步骤S7，增加第一训练语句的扩充倍数。如果初始状态下扩充倍数是5倍，则步骤S7可以将扩充倍数设置为6倍或者7倍，并且执行步骤S8，再次将扩充后的第一训练语句进行打乱顺序的处理，并再次对预训练模型进行训练。

在步骤S9中，需要对初始训练模型是否存在过拟合的情况进行测试。本实施例中，需要制作一个常识数据集，该常识数据集是包含有多条第二训练语句，第二训练语句是常识性的语句，也是以问答的方式呈现，例如第二训练语句的问题是“中国的国土面积有多大”等。优选的，第二训练语句的规模与第一训练语句的规模相近，如第一训练语句有1000条，则第二训练语句的数量也大约是1000条，优选在900条中1100条之间。

在制作常识数据集后，将常识数据集的第二训练语句增加到垂直数据集中，形成增量垂直数据集，并应用增量垂直数据集对初始训练模型进行训练，获得增量训练模型。然后，从增加垂直数据集中随机获取一定比例的数据作为过拟合的测试数据，并判断增量训练模型所生成的答案与标准答案的相似度，如相似度大于90％则认为增量训练模型生成的答案正确。最后，需要统计答案正确的比例，如果答案正确的比例大于预设的阈值，则认为初始训练模型不存在过拟合的情况，否则，认为初训练模型存在过拟合的情况。

在步骤S10中，如果判断结果为是，表示初始训练模型存在欠拟合的情况，则执行步骤S11，减小第一训练语句的扩充倍数，例如初始状态下对第一训练语句的扩充倍数是5倍，则步骤S11将将扩充倍数设置为3倍或者4倍，并且执行步骤S10，再次将扩充后的第一训练语句进行打乱顺序的处理，并再次对预训练模型进行训练。

如果步骤S10的判断结果为否，在表示初始训练模型既不存在过拟合也不存在欠拟合的情况，则执行步骤S13，输出经过训练的初始训练模型，并将该初始训练模型作为最终的训练模型，并保存在本地计算机的本地存储器中。

本发明针对初始训练模型提出了进行欠拟合测试和过拟合测试的方法，尤其是针对过拟合测试的情况，通过增加常识性的第二测试语句对垂直数据集进行增量，能够有效的测试出初始训练模型是否存在过拟合的情况。此外，针对欠拟合以及过拟合的情况，通过增加或者减小扩充倍数的方式对初始训练模型进行调整，使得最终获得的训练模型的质量更佳。

此外，本发明还构建一个前端界面，用户可以通过前端界面快速的输入第一训练语句和第二训练语句，并且能够开始的进行数据中的训练语句的扩充、乱序等处理，还能够通过点击欠拟合检测按钮24、过拟合检测按钮25以及模型输出按钮26实现欠拟合测试、过拟合检测以及训练模型的导出，操作非常方便。

计算机装置实施例：

本实施例的计算机装置可以是智能终端设备，也可以是台式计算机，该计算机装置具有处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序，例如用于实现上述信息处理方法的信息处理程序，处理器执行计算机程序时实现上述预训练语言的学习微调方法的各个步骤。

例如，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明的各个模块。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

需要说明的是，终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，本发明的示意图仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

本发明所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质实施例：

计算机装置所存储的计算机程序如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述预训练语言的学习微调方法的各个步骤。

其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

最后需要强调的是，以上仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种变化和更改，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.预训练语言的学习微调方法，包括：

获取预训练模型，并制作垂直领域的垂直数据集，所述垂直数据集包括多组具有逻辑关系的第一训练语句，将所述第一训练语句进行扩充和乱序处理后，对所述预训练模型进行训练，获得初始训练模型；

其特征在于：

应用所述第一训练语句对所述初始训练模型进行测试，根据所述初始训练模型对所述第一训练语句的答复准确率判断所述初始训练模型是否存在欠拟合的情况；如所述初始训练模型存在欠拟合的情况，则增加所述垂直数据集中所述第一训练语句的扩充倍数，对所述预训练模型进行重新训练；

建立常识数据集，所述常识数据集包含有多组第二训练语句，将所述第二训练语句增量到所述垂直数据集中形成增量垂直数据集，应用所述增量垂直数据集对初始训练模型进行训练，获得增量训练模型，根据所述增量训练模型对所述增量垂直数据集中的训练语句的答复准确率判断所述初始训练模型是否存在过拟合的情况；如所述初始训练模型存在过拟合的情况，则减小所述垂直数据集中所述第一训练语句的扩充倍数，对所述预训练模型进行重新训练。

2.根据权利要求1所述的预训练语言的学习微调方法，其特征在于：

制作所述垂直领域的垂直数据集时，应用前端界面输入所述第一训练语句，所述前端界面具有提示语输入框、问题输入框以及答案输入框。

3.根据权利要求2所述的预训练语言的学习微调方法，其特征在于：

所述前端界面还设置有数据导入按钮、数据扩充按钮、数据乱序按钮。

4.根据权利要求2所述的预训练语言的学习微调方法，其特征在于：

建立所述常识数据集时，应用所述前端界面输入所述第二训练语句。

5.根据权利要求4所述的预训练语言的学习微调方法，其特征在于：

所述前端界面还设置有欠拟合检测按钮以及过拟合检测按钮；

该方法还包括：在获取所述欠拟合检测按钮被按下的信号时，执行所述欠拟合检测操作，在获取所述过拟合检测按钮被按下的信号时，执行所述过拟合检测操作。

6.根据权利要求2所述的预训练语言的学习微调方法，其特征在于：

所述前端界面还设置有模型导出按钮；

该方法还包括：在获取所述模型导出按钮被按下的信号时，导出微调后的训练模型。

7.根据权利要求1至6任一项所述的预训练语言的学习微调方法，其特征在于：

对所述第一训练语句的扩充倍数进行增加或者减少时，增加或者减少后的扩充倍数为整数倍。

8.根据权利要求1至6任一项所述的预训练语言的学习微调方法，其特征在于：

所述第一训练语句为问答方式；和/或，所述第二训练语句为问答方式。

9.计算机装置，其特征在于，包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述预训练语言的学习微调方法的各个步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述预训练语言的学习微调方法的各个步骤。