一种基于集成学习与程序切片的代码相似性动态检测方法
申请号:CN202511034713
申请日期:2025-07-25
公开号:CN120872352A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及代码相似性检测技术领域,公开了一种基于集成学习与程序切片的代码相似性动态检测方法,包括:生成各源代码的抽象语法树、原始代码属性图;获取各节点的语法、数据与控制信息,构建各源代码的扩展代码属性图;对扩展代码属性图进行程序切片,生成程序切片子图,并将其节点名称通过基于语义的自动映射方法进行标准化;然后将标准的程序切片子图输入图神经网络中捕获图特征,同时将抽象语法树输入Transformer编码器中提取序列特征;最后,将生成的两种特征进行融合集成并进行相似性检测任务;该方法实现了跨语言场景下的高精度代码分类与高效语义分析。
技术关键词
程序切片
动态检测方法
输出特征
抽象语法树
序列特征
程序依赖图
融合特征
编码器
注意力
语义向量
基准
前馈神经网络
自动映射方法
K均值聚类方法
编码向量
节点特征
语义特征提取
生成词库