摘要
本发明公开了一种基于HTML和图像的RPA代码生成方法,包括以下步骤:S1、接收用户提供的多模态输入数据,所述多模态输入数据包括目标业务系统的HTML结构文件、界面截图图像和自然语言操作需求描述;S2、对所述HTML结构文件进行标准化解析,提取DOM树结构信息,并对所述界面截图图像进行视觉特征增强处理;S3、将处理后的HTML结构信息、界面截图图像和自然语言操作需求输入预训练的视觉语言模型,通过视觉语言模型输出目标XPath路径和Python代码序列。本发明通过结合HTML结构信息和界面图像,实现对复杂业务系统的全面理解,从而自动生成高效、准确且能在多平台执行的RPA脚本代码。