摘要
本发明涉及一种基于冗余信息削减的无监督句子学习方法,属于自然语言处理技术领域。本发明聚焦于句子嵌入Sentence Embedding技术中的冗余信息识别与削减问题,旨在通过无监督学习的方式优化句子语义表示的质量。该方法适用于文本分类、信息检索、语义相似度计算等任务,并为低资源语言和跨语言应用场景提供了高效的解决方案。本发明的技术方案结合了高频词汇分析、动态维度筛选以及对比学习正则化策略,能够有效缓解预训练模型在句子嵌入过程中存在的过度平滑问题和冗余信息表征问题。通过从Token级别对冗余信息进行构建、筛选和分离,本方法显著提升了模型在语义特征捕捉上的区分能力,为无监督学习框架下的句子表示学习提供了新的研究思路和技术手段。