一种基于HTML和图像的RPA代码生成方法

申请号：CN202510417777

申请日期：2025-04-03

公开号：CN120255861A

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了一种基于HTML和图像的RPA代码生成方法，包括以下步骤：S1、接收用户提供的多模态输入数据，所述多模态输入数据包括目标业务系统的HTML结构文件、界面截图图像和自然语言操作需求描述；S2、对所述HTML结构文件进行标准化解析，提取DOM树结构信息，并对所述界面截图图像进行视觉特征增强处理；S3、将处理后的HTML结构信息、界面截图图像和自然语言操作需求输入预训练的视觉语言模型，通过视觉语言模型输出目标XPath路径和Python代码序列。本发明通过结合HTML结构信息和界面图像，实现对复杂业务系统的全面理解，从而自动生成高效、准确且能在多平台执行的RPA脚本代码。

技术关键词

代码生成方法文本特征向量文本编码器多模态自然语言高维向量空间图像交叉注意力机制解码器序列界面业务系统 DOM树结构多任务损失函数视觉特征标签像素块交互组件