摘要
本发明公开了一种基于语义通信的大语言模型推理调度方法和装置,包括:边缘设备通过联合轻量模型提取推理请求的语义信息后预测输出token长度并上传至大语言模型服务器;大语言模型服务器根据语义调度评分函数对等待请求排序,评分函数基于token长度、信道质量和历史重传次数动态加权计算,选取优先级最高的请求组并指示对应的边缘设备上传由联合轻量模型提取的推理请求的语义张量;大语言模型服务器接收语义张量后重构信息进行批次推理。本发明能有效提升推理系统在高并发环境下的吞吐能力,降低任务响应时延,增强边缘语义通信系统的稳定性与服务质量,对大语言模型在边缘计算与多用户语义通信场景下的部署具有广泛适用性与推广价值。