一种无监督增强大模型超长文本集数据对比分析方法及系统

申请号：CN202510116435

申请日期：2025-01-24

公开号：CN120181068A

公开日期：2025-06-20

类型：发明专利

摘要

本申请公开了一种无监督增强大模型超长文本集数据对比分析方法及系统，可应用于文本数据处理技术领域。本申请通过从外部中文语料库中获取待处理语料数据后，对待处理语料数据进行连续字符组合划分得到语料组合数据，再对每个语料组合数据形成词汇的可能性进行评估得到评估结果后，根据评估结果和语料组合数据对预训练模进行训练，从而使得预训练模型可以充分利用中文语料库资源，进而提高对超长文本的拆分和词性分析准确度，然后将待处理词性筛选结果输入到通过预设应用场景进行参数调节后的预设基准模型中，从而可以利用预设基准模型中的预设检索增强生成机制提高超长文本数据集的数据对比分析的准确度和可靠性，进而满足超长文本的分析需求。

技术关键词

预训练模型词典分词无监督生成机制文本数据处理技术基准词频统计分析方法分析系统信息熵字符模块频率处理器场景参数