一种面向可信度的基于LSTM与PPO的MCS激励方法

申请号：CN202510137339

申请日期：2025-02-07

公开号：CN120216900A

公开日期：2025-06-27

类型：发明专利

摘要

本发明提供一种面向可信度的基于LSTM与PPO的MCS激励方法，能够将参与者的感知决策过程建模为非合作博弈，并采用马尔可夫决策过程MDP来描述其行为。在不了解全局信息的情况下，利用长短期记忆网络LSTM与近端策略优化算法PPO相结合的激励模型LSTM‑PPO，为每位参与者制定最合理且有效的感知时长策略，以最大化效用奖励。任务完成后，通过评估上传数据的质量来动态更新参与者的可信度，从而调整其下一阶段的效用奖励。在真实数据集上，我们对CIM‑LP和现有的其他激励机制进行了大量的仿真实验。结果表明，CIM‑LP机制使参与者平均效用提高了19.3%，任务完成率提高了12.8%。

技术关键词

激励方法长短期记忆网络决策策略动态更新非合作博弈转移概率矩阵深度强化学习平台数据估计算法社交机制