[go: up one dir, main page]

CN119336906B - 大模型训练及数据增强方法、装置、设备和介质 - Google Patents

大模型训练及数据增强方法、装置、设备和介质

Info

Publication number
CN119336906B
CN119336906B CN202411266526.4A CN202411266526A CN119336906B CN 119336906 B CN119336906 B CN 119336906B CN 202411266526 A CN202411266526 A CN 202411266526A CN 119336906 B CN119336906 B CN 119336906B
Authority
CN
China
Prior art keywords
result
target
data enhancement
model
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202411266526.4A
Other languages
English (en)
Other versions
CN119336906A (zh
Inventor
朱子赫
周涵
徐新超
吴文权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202411266526.4A priority Critical patent/CN119336906B/zh
Publication of CN119336906A publication Critical patent/CN119336906A/zh
Application granted granted Critical
Publication of CN119336906B publication Critical patent/CN119336906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种大模型训练及数据增强方法、装置、设备和介质,涉及人工智能技术领域,具体为自然语言处理、深度学习、大模型等技术领域。大模型训练方法包括:采用预训练大模型,基于种子句子和初始提示词进行主动学习,以获得目标提示词;采用所述预训练大模型,基于所述种子句子和所述目标提示词进行数据增强,以获得初始数据增强结果;基于目标领域的质量分类模型,对所述初始数据增强结果进行主动学习,以获得目标数据增强结果;基于所述种子句子、所述目标提示词和所述目标数据增强结果,对所述预训练大模型进行微调,以获得所述目标领域的目标大模型。

Description

大模型训练及数据增强方法、装置、设备和介质
技术领域
本公开涉及人工智能技术领域,具体为自然语言处理、深度学习、大模型等技术领域,尤其涉及一种大模型训练及数据增强方法、装置、设备和存储介质。
背景技术
基于大语言模型(Large Language Model,LLM,简称为大模型)的生成能力,通过对种子句子的扩写和仿写,能够输出大量的合成数据,但是无法保证数据质量。而高质量的训练数据,对于模型训练后的性能好坏至关重要。
如何提高数据增强结果的质量是需要解决的问题。
发明内容
本公开提供了一种大模型训练及数据增强方法、装置、设备和存储介质。
根据本公开的一方面,提供了一种大模型训练方法,包括:采用预训练大模型,基于种子句子和初始提示词进行主动学习,以获得目标提示词;采用所述预训练大模型,基于所述种子句子和所述目标提示词进行数据增强,以获得初始数据增强结果;基于目标领域的质量分类模型,对所述初始数据增强结果进行主动学习,以获得目标数据增强结果;基于所述种子句子、所述目标提示词和所述目标数据增强结果,对所述预训练大模型进行微调,以获得所述目标领域的目标大模型。
根据本公开的另一方面,提供了一种基于大模型的数据增强方法,包括:获取种子句子和提示词;采用目标大模型,对所述种子句子和所述提示词进行数据增强,以获得数据增强结果;其中,所述目标大模型是采用如上述任一方面的任一项所述的方法训练的。
根据本公开的另一方面,提供了一种大模型训练装置,包括:预热模块,用于采用预训练大模型,基于种子句子和初始提示词进行主动学习,以获得目标提示词;增强模块,用于采用所述预训练大模型,基于所述种子句子和所述目标提示词进行数据增强,以获得初始数据增强结果;学习模块,用于基于目标领域的质量分类模型,对所述初始数据增强结果进行主动学习,以获得目标数据增强结果;微调模块,用于基于所述种子句子、所述目标提示词和所述目标数据增强结果,对所述预训练大模型进行微调,以获得所述目标领域的目标大模型。
根据本公开的另一方面,提供了一种基于大模型的数据增强装置,包括:获取模块,用于获取种子句子和提示词;增强模块,用于采用目标大模型,对所述种子句子和所述提示词进行数据增强,以获得数据增强结果;其中,所述目标大模型是采用如上述任一方面的任一项所述的方法训练的。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
本公开实施例可以提高数据增强结果的质量。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是用来实现本公开实施例的应用场景的示意图;
图3是根据本公开第二实施例的示意图;
图4是根据本公开第三实施例的示意图;
图5是根据本公开第四实施例的示意图;
图6是根据本公开第五实施例的示意图;
图7是用来实现本公开实施例的大模型训练方法或基于大模型的数据增强方法的电子设备的示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了更好地理解本公开实施例,对本公开实施例涉及的术语说明如下:
数据增强:是从现有数据中生成新数据的过程,主要用于训练新的机器学习(Machine Learning,ML)模型。ML模型在训练过程中需要使用大量且多样化的数据集,而数据增强技术通过修改现有数据来生成新的训练样本,从而提高模型的泛化能力和鲁棒性。
合成数据:通过模型生成方式构建的数据,而非真实世界的数据。
主动学习:一种机器学习方法,它允许模型在训练过程中选择最有价值的数据进行学习,从而优化模型的性能。在学习过程中,学习器会挑选未标记的样本,并请求外界提供标记信息,目标是使用尽可能少的查询来取得好的学习性能。
为了提高数据增强结果的质量,本公开提供如下实施例。
图1是根据本公开第一实施例的示意图。本实施例提供一种大模型训练方法,该方法包括:
101、采用预训练大模型,基于种子句子和初始提示词进行主动学习,以获得目标提示词。
102、采用所述预训练大模型,基于所述种子句子和所述目标提示词进行数据增强,以获得初始数据增强结果。
103、基于目标领域的分类模型,对所述初始数据增强结果进行主动学习,以获得目标数据增强结果。
104、基于所述种子句子、所述目标提示词和所述目标数据增强结果,对所述预训练大模型进行微调,以获得所述目标领域的目标大模型。
其中,大模型(LLM)是参数规模较大的深度学习模型,可以生成自然语言文本或理解语言文本的含义,大模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的重要途径。
深度学习模型可以分为预训练(Pre-training)模型和微调(Fine-tuning)模型,预训练模型是预先在包含大量数据的大数据集上训练模型以学习通用特征,微调模型是在特定任务的小数据集上微调预训练模型,以优化性能。
本公开实施例中,针对大模型,各领域通用模型称为预训练大模型,针对目标领域微调后的模型称为目标大模型。
另外,本公开实施例中主要利用大模型的生成能力,通过大模型进行数据增强,以获得数据增强结果,即采用大模型对已有数据进行数据增强处理,得到作为数据增强结果的合成数据。
种子句子,是一种文本数据,作为数据增强的基础数据,是已有数据。
提示词(Prompt),用于引导大模型执行数据增强处理,也为文本,例如,指示大模型对种子句子进行细节添加、情感变换、语境转换中的一种或多种。
本公开实施例中,提示词分为初始提示词和目标提示词。
初始提示词是初始设置的提示词,例如为人工设计的。
目标提示词是对初始提示词进行调整后得到的,例如修改语言风格、增加上下文信息、调整问题表述等,以提高大模型得到的合成数据的质量。
种子句子、初始提示词和目标提示词可以为一个或多个,在多个的情况下,可以分别组成种子句子集、初始提示词集和目标提示词集。
本公开实施例中,基于主动学习方式获得目标提示词。具体地,可以采用预训练大模型对输入的种子句子和初始提示词进行数据增强,得到少量(如几百至几千条)的合成数据,对该合成数据进行人工标注,预训练大模型再根据人工标注结果对初始提示词进行调整,得到目标提示词。
获取种子句子和目标提示词后,将其输入至预训练大模型中,采用预训练大模型对种子句子和目标提示词进行批量的数据增强,得到初始数据增强结果。批量处理是指针对每一条种子句子,分别采用各个目标提示词进行处理,这样假设种子句子为M条,目标提示词为N个,则可以获得M*N条合成数据(初始数据增强结果),M和N均为正整数。
获得初始数据增强结果后,采用目标领域的质量分类模型对初始数据增强结果进行主动学习,得到目标数据增强结果。
质量分类模型用于确定初始数据增强结果的质量类别。具体地,质量分类可以分为高、中、低。针对高质量的初始数据增强结果,可以直接作为目标数据增强结果。针对低质量的初始数据增强结果,可以直接丢弃。针对中质量的初始数据增强结果,可以对初始数据增强结果进行人工标注结果,标注其是否可用,若可用将其作为目标数据增强结果,否则丢弃。
质量分类模型是预先训练的,不同领域的质量分类模型采用对应领域的训练样本进行训练,用来评价对应领域的合成数据(数据增强结果)的质量。
获取目标数据增强结果后,采用种子句子、目标提示词、目标数据增强结果对预训练大模型进行微调,得到目标领域的目标大模型。
获得目标大模型后,在应用阶段,可以利用该目标大模型进行数据增强,以获得数据增强结果。
本实施例中,通过对种子句子和初始提示词进行主动学习,得到目标提示词,基于种子句子和目标提示词获得初始数据增强结果,对初始数据增强结果进行主动学习得到目标数据增强结果,基于种子句子、目标提示词和目标数据增强结果微调预训练大模型得到目标大模型,可以提高目标大模型的效果,进而利用该目标大模型进行数据增强时,提高数据增强结果的质量。
为了更好地理解本公开实施例,对本公开实施例可以适用的应用场景进行说明。
图2是用来实现本公开实施例的应用场景的示意图。
如图2所示,训练阶段主要包括:预热阶段、数据增强阶段、主动学习阶段和增强数据的应用阶段。
本实施例中,以种子句子组成种子句子集、初始提示词组成初始提示词集、目标提示词组成目标提示词集为例。
初始时,获取已有的预训练大模型M、种子句子集Q和初始提示词集p。预训练大模型是利用大量数据预训练后得到的;种子句子集是现有数据;初始提示词集可以是人工设定的,用于指示数据增强操作。
针对预热阶段:主要是获得目标提示词集P。
具体地,将种子句子集中的至少部分种子句子和初始提示词集中的至少部分初始提示词输入到预训练大模型中,输出是根据初始提示词对种子句子进行数据增强后得到的合成数据。
为了降低后续人工标注量,预热阶段可以生成少量的合成数据,如几十条合成数据,但为了提高泛化性,应尽量覆盖各个领域。
获得合成数据后,采用标注团队对合成数据进行人工标注。具体地,专业的标注团队可以对生成的合成数据进行详细审查,包括主题关联性、内容准确性、逻辑连贯性等方面的评估,并根据评估结果标注合成数据是否符合预期。
若符合预期,将初始提示词集p作为目标提示词集P。
若不符合预期,对初始提示词集p进行更新,例如,修改语言风格、增加上下文信息、调整问题表述等。之后,利用更新后的提示词集重复上述的数据增强过程,直至得到符合预期的目标提示词集。
针对数据增强阶段:采用预训练大模型M,基于种子句子集Q和目标提示词集P进行数据增强,得到初始数据增强结果D。
具体地,预训练大模型M会遍历种子句子集Q中的每一个句子,并结合目标提示词集P中的不同提示词进行操作。对于Q中的每一个句子,M会根据P中的提示词生成一系列变体或相关句子。这些变体可能包括但不限于:
细节添加:在句子中增加描述性细节,使句子内容更加丰富;
情感变换:调整句子的情感倾向,如从正面评价转为负面评价;
语境转换:将句子置于不同的语境中,以测试模型在不同场景下的表现。
最终,预训练大模型M根据种子句子集Q和提示词集P生成初始数据增强结果D,用于后续的数据精筛。
针对主动学习阶段:主要是对初始数据增强结果D进行筛选,得到目标数据增强结果D’。
其中,可以先进行数据过滤,再对过滤后的结果基于主动学习方式进一步进行数据筛选。
具体地,针对过滤:可以基于预先定义的规则,去除初始数据增强结果中的低质数据和重复数据。
可以包括:定义低质数据标准:根据业务需求和数据特性,定义低质数据的标准,如缺失关键字段、数据分布极端等;
基于策略粗筛低质数据:利用句子属性特征(如句子中词重复度、句子长度过长和过短、生成句子和种子句子的重复度)等,进行筛选去除低质数据;
检测并删除重复数据:利用K最邻近(KNN,K-NearestNeighbor,KNN)算法、相似度计算等方法识别并删除语义重复的数据,确保数据的语义唯一性。
针对主动学习:将初始数据增强结果中经过过滤后保留的数据输入至质量分类模型中,输出是质量分类结果。
质量分类模型用于对数据进行质量分类,是预先训练的分类模型,不同领域可以分别训练各自领域的质量分类模型。
本实施例中,质量分类模型为三分类模型,基于此,质量分类结果包括:高、中、低,高质量数据直接用于后续应用,即作为目标数据数据增加结果;中质量数据进行送标;对低质数据进行去除。
针对中质量数据由标注团队进行人工标注,标注其是否可用,若可用保留作为目标数据增强结果,否则去除。
另外,还可以根据人工标注结果对质量分类模型进行迭代训练,以更新质量分类模型,之后采用更新的质量分类模型重新对数据进行质量分类,这样可以提高质量分类模型的准确度,提高数据分类结果的准确度,提高所筛选的目标数据增强结果的质量。
针对应用阶段:主要是利用目标提示词集P、种子句子集Q和目标数据增强结果D’对预训练大模型M进行微调,得到目标大模型M’。
具体地,将目标提示词集P、种子句子集Q和目标数据增强结果D’作为监督微调(Supervised Fine-Tuning,SFT)数据集,利用该SFT数据集对预训练大模型M进行微调,得到目标领域的目标大模型M’。
目标大模型M’不仅继承了预训练大模型M的广泛知识基础和强大生成能力,还通过SFT训练获得了对专项任务提示的精准响应能力,能够生成更加符合任务要求的高质量数据。
结合上述应用场景,本公开还提供了如下实施例。
图3是根据本公开第二实施例的示意图,本实施例提供了一种大模型训练方法,该方法包括:
301、采用预训练大模型,对输入的种子句子和初始提示词进行数据增强,以获得合成数据。
302、获取所述合成数据的人工标注结果。
303、基于所述人工标注结果获取目标提示词。
其中,种子句子和初始提示词是已有数据,初始提示词用于指示对种子句子进行数据增强操作,将种子句子和初始提示词输入至预训练大模型中,预训练大模型根据初始提示词的指示,对种子句子进行数据增强,输出是合成数据。
获得合成数据后对其进行人工标注,获得人工标注结果。
若人工标注结果表明合成数据符合预期,将初始提示词作为目标提示词;否则,若不符合预期,则对初始提示词进行更新,采用更新后的提示词重新进行数据增强,并对新生成的合成数据进行人工标注,直至合成数据符合预期,将对应的提示词作为目标提示词。
本实施例中,通过对合成数据进行人工标注,并根据人工标注结果获得目标提示词,可以采用主动学习的方式获得目标提示词,这样可以提高目标提示词的准确度,进而利用目标提示词进行数据增强时可以提高数据增强结果的质量。
304、采用所述预训练大模型,基于所述种子句子和所述目标提示词进行数据增强,以获得初始数据增强结果。
其中,可以将种子句子和目标提示词输入至预训练大模型中,预训练大模型根据目标提示词的提示,对种子句子进行数据增强,输出是初始数据增强结果。
305、对所述初始数据增强结果进行过滤,以获得过滤结果。
其中,可以预先定义过滤规则,如去除缺失关键字段的结果,去除长度过长或过短的结果等,基于该过滤规则去除低质的初始数据增强结果;还可以计算不同的初始数据增强结果之间的相似度,对相似度大于预设值的结果进行去重处理。
本实施例中,通过对初始数据增强结果进行过滤,可以去除存在潜在风险的数据,提高数据质量。
306、采用目标领域的质量分类模型,对所述过滤结果进行质量分类,以确定所述过滤结果的质量分类结果。
其中,可以将过滤结果输入至质量分类模型中,输出是质量分类结果。
不同领域可以预先训练各自领域对应的质量分类模型。
本实施例中,通过质量分类模型进行质量分类,而不是预训练大模型对自身生成数据进行质量分类,可以降低预训练大模型的资源开销,保证其推理能力。
307、基于所述质量分类结果,对所述过滤结果进行主动学习,以获得所述目标数据增强结果。
其中,可以包括:若所述质量分类结果是第一类别,将所述初始数据增强结果作为所述目标数据增强结果;若所述质量分类结果是第二类别,获取所述初始数据增强结果的人工标注结果,基于所述人工标注结果获取所述目标数据增强结果;若所述质量分类结果是第三类别,去除所述初始数据增强结果;所述第一类别的质量高于所述第二类别,所述第二类别高于所述第三类别。
具体地,质量分类模型是三分类模型,按照数据质量从高到低的顺序分别是第一类别、第二类别和第三类别,也可以称为高、中、低。
针对第一类别(高),可以将初始数据结果作为目标数据增强结果;
针对第二类别(中),提供给标注团队进行人工标注,根据人工标注结果获得目标数据增强结果,例如,将标注为可用的初始数据增强结果作为目标数据增强结果,去除标注为不可用的初始数据增强结果。
针对第三类别(低),去除对应的初始数据增强结果。
本实施例中,基于质量分类结果获得目标数据增强结果,可以提高数据增强结果的准确性,进而提高目标大模型效果。另外,针对中质量的初始数据增强结果进行人工标注,可以引入人为因素,避免模型打分导致的局限性问题,获得更符合人类习惯的数据,提升数据质量。
308、基于所述种子句子、所述目标提示词和所述目标数据增强结果,对所述预训练大模型进行微调,以获得所述目标领域的目标大模型。
具体地,可以将种子句子和目标提示词输入至预训练大模型中,获得预测结果,将目标数据增强结果作为真值,通过预测结果和目标数据增强结果构建损失函数,基于损失函数调整预训练大模型的参数,直至达到预设的结束条件,获得最终的目标大模型。
目标大模型可以在推理阶段用于数据增强。
图4是根据本公开第三实施例的示意图,本实施例提供了一种基于大模型的数据增强方法,该方法包括:
401、获取种子句子和提示词。
402、采用目标大模型,对所述种子句子和所述提示词进行数据增强,以获得数据增强结果。
其中,所述目标大模型是采用上述任一实施例所述的方法训练的。
其中,种子句子是已有数据,提示词用于指示数据增强操作,可以是用户设置的,之后,可以将种子句子和提示词输入至目标大模型中,输出是针对种子句子的数据增强结果,即对应种子句子的合成数据。
本实施例中,基于上述的目标大模型获得数据增强结果,由于目标大模型效果较好,可以获得质量较高的数据增强结果。
图5是根据本公开第四实施例的示意图,本实施例提供了一种大模型训练装置,该装置500包括:预热模块501、增强模块502、学习模块503和微调模块504。
预热模块501用于采用预训练大模型,基于种子句子和初始提示词进行主动学习,以获得目标提示词;增强模块502用于采用所述预训练大模型,基于所述种子句子和所述目标提示词进行数据增强,以获得初始数据增强结果;学习模块503用于基于目标领域的质量分类模型,对所述初始数据增强结果进行主动学习,以获得目标数据增强结果;微调模块504用于基于所述种子句子、所述目标提示词和所述目标数据增强结果,对所述预训练大模型进行微调,以获得所述目标领域的目标大模型。
本实施例中,通过对种子句子和初始提示词进行主动学习,得到目标提示词,基于种子句子和目标提示词获得初始数据增强结果,对初始数据增强结果进行主动学习得到目标数据增强结果,基于种子句子、目标提示词和目标数据增强结果微调预训练大模型得到目标大模型,可以提高目标大模型的效果,进而利用该目标大模型进行数据增强时,提高数据增强结果的质量。
一些实施例中,所述预热模块501进一步用于:
采用预训练大模型,对输入的种子句子和初始提示词进行数据增强,以获得合成数据;
获取所述合成数据的人工标注结果;
基于所述人工标注结果获取目标提示词。
本实施例中,通过对合成数据进行人工标注,并根据人工标注结果获得目标提示词,可以采用主动学习的方式获得目标提示词,这样可以提高目标提示词的准确度,进而利用目标提示词进行数据增强时可以提高数据增强结果的质量。
一些实施例中,所述学习模块503进一步用于:
对所述初始数据增强结果进行过滤,以获得过滤结果;
采用所述质量分类模型,对所述过滤结果进行质量分类,以确定所述过滤结果的质量分类结果;
基于所述质量分类结果,对所述过滤结果进行主动学习,以获得所述目标数据增强结果。
本实施例中,通过对初始数据增强结果进行过滤,可以去除存在潜在风险的数据,提高数据质量;通过质量分类模型进行质量分类,而不是预训练大模型对自身生成数据进行质量分类,可以降低预训练大模型的资源开销,保证其推理能力。
一些实施例中,所述学习模块503进一步用于:
若所述质量分类结果是第一类别,将所述初始数据增强结果作为所述目标数据增强结果;
若所述质量分类结果是第二类别,获取所述初始数据增强结果的人工标注结果,基于所述人工标注结果获取所述目标数据增强结果;
若所述质量分类结果是第三类别,去除所述初始数据增强结果;
其中,所述第一类别的质量高于所述第二类别,所述第二类别高于所述第三类别。
本实施例中,基于质量分类结果获得目标数据增强结果,可以提高数据增强结果的准确性,进而提高目标大模型效果。另外,针对中质量的初始数据增强结果进行人工标注,可以引入人为因素,避免模型打分导致的局限性问题,获得更符合人类习惯的数据,提升数据质量。
图6是根据本公开第五实施例的示意图,本实施例提供了一种基于大模型的数据增强装置,该装置600包括:获取模块601和增强模块602。
获取模块601用于获取种子句子和提示词;增强模块602用于采用目标大模型,对所述种子句子和所述提示词进行数据增强,以获得数据增强结果。
其中,所述目标大模型是采用上述任一实施例所述的方法训练的。
其中,种子句子是已有数据,提示词用于指示数据增强操作,可以是用户设置的,之后,可以将种子句子和提示词输入至目标大模型中,输出是针对种子句子的数据增强结果,即对应种子句子的合成数据。
本实施例中,基于上述的目标大模型获得数据增强结果,由于目标大模型效果较好,可以获得质量较高的数据增强结果。
可以理解的是,本公开实施例中,不同实施例中的相同或相似内容可以相互参考。
可以理解的是,本公开实施例中的“第一”、“第二”等只是用于区分,不表示重要程度高低、时序先后等。
可以理解的是,流程中涉及步骤的先后顺序如无特殊说明,则表明这些步骤之间的时序关系不限定。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备700旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如大模型训练方法或基于大模型的数据增强方法。例如,在一些实施例中,大模型训练方法或基于大模型的数据增强方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的大模型训练方法或基于大模型的数据增强方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行大模型训练方法或基于大模型的数据增强方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (11)

1.一种大模型训练方法,包括:
采用各领域通用的预训练大模型,基于种子句子和初始提示词进行主动学习,以获得目标提示词;
将所述种子句子和所述目标提示词输入至所述预训练大模型中,采用所述预训练大模型,基于所述种子句子和所述目标提示词进行数据增强的批量处理,以获得初始数据增强结果;所述批量处理包括:针对每条种子句子,分别采用各个目标提示词进行处理;
基于目标领域的质量分类模型,对所述初始数据增强结果进行主动学习,以获得目标数据增强结果;不同领域的质量分类模型采用对应领域的训练样本进行训练;
基于所述种子句子、所述目标提示词和所述目标数据增强结果,对所述预训练大模型进行微调,以获得所述目标领域的目标大模型;
所述基于目标领域的质量分类模型,对所述初始数据增强结果进行主动学习,以获得目标数据增强结果,包括:
对所述初始数据增强结果进行过滤,以获得过滤结果;
采用所述质量分类模型,对所述过滤结果进行质量分类,以确定所述过滤结果的质量分类结果;
基于所述质量分类结果,对所述过滤结果进行主动学习,以获得所述目标数据增强结果;
所述质量分类结果包括:第一类别、第二类别和第三类别,所述第一类别的质量高于所述第二类别,所述第二类别高于所述第三类别;
所述基于所述质量分类结果,对所述过滤结果进行主动学习,以获得所述目标数据增强结果,包括:
若所述质量分类结果是所述第二类别,获取所述初始数据增强结果的人工标注结果,基于所述人工标注结果获取所述目标数据增强结果。
2.根据权利要求1所述的方法,其中,所述采用预训练大模型,基于种子句子和初始提示词进行主动学习,以获得目标提示词,包括:
采用预训练大模型,对输入的种子句子和初始提示词进行数据增强,以获得合成数据;
获取所述合成数据的人工标注结果;
基于所述人工标注结果获取目标提示词。
3.根据权利要求1所述的方法,其中,所述基于所述质量分类结果,对所述过滤结果进行主动学习,以获得所述目标数据增强结果,还包括:
若所述质量分类结果是所述第一类别,将所述初始数据增强结果作为所述目标数据增强结果;
若所述质量分类结果是所述第三类别,去除所述初始数据增强结果。
4.一种基于大模型的数据增强方法,包括:
获取种子句子和提示词;
采用目标大模型,对所述种子句子和所述提示词进行数据增强,以获得数据增强结果;
其中,所述目标大模型是采用如权利要求1-3任一项所述的方法训练的。
5.一种大模型训练装置,包括:
预热模块,用于采用预训练大模型,基于种子句子和初始提示词进行主动学习,以获得目标提示词;
增强模块,用于将所述种子句子和所述目标提示词输入至所述预训练大模型中,采用所述预训练大模型,基于所述种子句子和所述目标提示词进行数据增强的批量处理,以获得初始数据增强结果;所述批量处理包括:针对每条种子句子,分别采用各个目标提示词进行处理;
学习模块,用于基于目标领域的质量分类模型,对所述初始数据增强结果进行主动学习,以获得目标数据增强结果;不同领域的质量分类模型采用对应领域的训练样本进行训练;
微调模块,用于基于所述种子句子、所述目标提示词和所述目标数据增强结果,对所述预训练大模型进行微调,以获得所述目标领域的目标大模型;
所述学习模块进一步用于:
对所述初始数据增强结果进行过滤,以获得过滤结果;
采用所述质量分类模型,对所述过滤结果进行质量分类,以确定所述过滤结果的质量分类结果;
基于所述质量分类结果,对所述过滤结果进行主动学习,以获得所述目标数据增强结果;
所述质量分类结果包括:第一类别、第二类别和第三类别,所述第一类别的质量高于所述第二类别,所述第二类别高于所述第三类别;
所述学习模块进一步用于:
若所述质量分类结果是所述第二类别,获取所述初始数据增强结果的人工标注结果,基于所述人工标注结果获取所述目标数据增强结果。
6.根据权利要求5所述的装置,其中,所述预热模块进一步用于:
采用预训练大模型,对输入的种子句子和初始提示词进行数据增强,以获得合成数据;
获取所述合成数据的人工标注结果;
基于所述人工标注结果获取目标提示词。
7.根据权利要求5所述的装置,其中,所述学习模块还用于:
若所述质量分类结果是第一类别,将所述初始数据增强结果作为所述目标数据增强结果;
若所述质量分类结果是第三类别,去除所述初始数据增强结果。
8.一种基于大模型的数据增强装置,包括:
获取模块,用于获取种子句子和提示词;
增强模块,用于采用目标大模型,对所述种子句子和所述提示词进行数据增强,以获得数据增强结果;
其中,所述目标大模型是采用如权利要求1-3任一项所述的方法训练的。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的方法。
CN202411266526.4A 2024-09-10 2024-09-10 大模型训练及数据增强方法、装置、设备和介质 Active CN119336906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411266526.4A CN119336906B (zh) 2024-09-10 2024-09-10 大模型训练及数据增强方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411266526.4A CN119336906B (zh) 2024-09-10 2024-09-10 大模型训练及数据增强方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN119336906A CN119336906A (zh) 2025-01-21
CN119336906B true CN119336906B (zh) 2025-09-16

Family

ID=94264776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411266526.4A Active CN119336906B (zh) 2024-09-10 2024-09-10 大模型训练及数据增强方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN119336906B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118350361A (zh) * 2024-03-26 2024-07-16 上海图灵天问智能科技有限公司 面向大语言模型处理多标签分类任务的提示词优化方法
CN118445397A (zh) * 2024-05-24 2024-08-06 浪潮云信息技术股份公司 一种基于监督微调的大模型微调方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303391B2 (en) * 2017-10-30 2019-05-28 AtomBeam Technologies Inc. System and method for data storage, transfer, synchronization, and security
CN118378090B (zh) * 2024-05-23 2024-10-22 北京壹永科技有限公司 训练数据增强方法、大模型训练方法及其装置、计算设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118350361A (zh) * 2024-03-26 2024-07-16 上海图灵天问智能科技有限公司 面向大语言模型处理多标签分类任务的提示词优化方法
CN118445397A (zh) * 2024-05-24 2024-08-06 浪潮云信息技术股份公司 一种基于监督微调的大模型微调方法、装置、设备及介质

Also Published As

Publication number Publication date
CN119336906A (zh) 2025-01-21

Similar Documents

Publication Publication Date Title
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN112818227B (zh) 内容推荐方法、装置、电子设备及存储介质
CN117273117B (zh) 语言模型训练方法、奖励模型训练方法、装置及电子设备
CN114218951B (zh) 实体识别模型的训练方法、实体识别方法及装置
CN113312552B (zh) 数据处理方法、装置、电子设备和介质
CN115248890B (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
JP2025505456A (ja) ニューラルネットワークを使用したタスク記述からのコンピュータコード生成
CN118520090A (zh) 大型奖励模型的训练数据集的确定方法、装置及电子设备
CN118194175A (zh) 模型的评测方法、装置、电子设备及存储介质
CN117455491A (zh) 一种风险识别方法、装置、设备及存储介质
CN119151012A (zh) 基于大模型的文本训练样本的生成方法、装置及电子设备
CN115048505A (zh) 语料筛选方法和装置、电子设备、计算机可读介质
CN114841471B (zh) 知识点预测方法、装置、电子设备和存储介质
CN119760074B (zh) 模型蒸馏方法、装置、电子设备及存储介质
CN115858774A (zh) 用于文本分类的数据增强方法、装置、电子设备及介质
CN119336906B (zh) 大模型训练及数据增强方法、装置、设备和介质
CN117932073B (zh) 一种基于提示工程的弱监督文本分类方法及系统
CN119357364A (zh) 一种基于大模型的问题答复方法、装置、电子设备及介质
CN112632999A (zh) 命名实体识别模型获取及命名实体识别方法、装置及介质
JP2024170588A (ja) テキスト検出方法、トレーニング方法、装置、機器、媒体及びプログラム
CN119357350A (zh) 基于大模型的问答方法、装置、电子设备及存储介质
CN119149695A (zh) 基于大模型的对话处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant