Deep Reinforcement Learning Based Resource Allocation andTrajectory Planning in Integrated Sensing

1、基本内容:

ISAC通过共享设备和频谱,可以大大降低硬件成本和训练开销,从而提高频谱效率和能量效率。由于UAV具有可控的移动性,部署的灵活性及其低廉的成本,利用UAV作为空中ISAC基站不仅可以通过移动建立直视路径,而且可以大大增加ISAC系统的灵活性。但是,由此带来的调度和轨迹规划问题是设计难点。

本文联合优化用户关联、无人机轨迹规划和功率分配,以最大化无人机的最小加权频谱效率。

(1)作者首先利用对称群对原问题进行了等效变换,然后利用SAC算法求解。为了提高样本效率,作者引入了两种数据增强方案:random和adaptive。

(2)利用多智能体SAC(MASAC)求解问题。

2、系统模型:

多无人机(2D)、多目标用户

无人机位置:\Theta_{k,t}=(X_{k,t},Y_{k,t})

一个时隙飞行的最大距离:\|\Theta_{k,t}-\Theta_{k,t-1}\|\leq V,\forall k\in\mathcal{K}

无人机间的最小避免碰撞距离:\|\Theta_{i,t}-\Theta_{j,t}\|\geq D,\forall i,j\in\mathcal{K}

用户协同:每架无人机可服务多个目标用户,且每个目标用户仅由一架无人机服务。

\alpha_{k,m,t}\in\{0,1\}

\sum_{k=1}^{K}\alpha_{k,m,t}=1,\forall m\in\mathcal{M}

无人机最大能量约束:

——————————————————————————————————————————

通信信道增益:g_{k,m,t}=g_{0}d^{-2}(\Theta_{k,t},\boldsymbol u_{m,t})

感知信道增益:h_{k,m,t}=\frac{g_tg_r\eta l^2}{(4\pi)^3}d^{-4}(\Theta_{k,t},\boldsymbol{u}_{m,t})

通信频谱效率:

E_{k,t}^\mathrm{com}=\sum\limits_{m\in\mathcal{M}}\alpha_{k,m,t}\mathrm{log}(1+\frac{p_{k,t}g_{k,m,t}}{\sum_{k'\in\mathcal{K}\setminus k}p_{k',t}g_{k',m,t}+\sigma^{2}})

感知频谱效率:

E_{k,t}^{\mathrm{rad}}=\sum\limits_{m\in\mathcal{M}}\alpha_{k,m,t}\mathrm{log}(1+\frac{p_{k,t}h_{k,m,t}}{\sum_{k^{\prime}\in\mathcal{K}\setminus k}p_{k^{\prime},t}h_{k^{\prime},m,t}+\sigma^{2}})

加权频谱效率:

E_{k,t}=\frac{\omega_{\mathrm{c}}E_{k,t}^{\mathrm{com}}+\omega_{\mathrm{s}}E_{k,t}^{\mathrm{sen}}}{\omega_{\mathrm{c}}+\omega_{\mathrm{s}}}

长期的加权频谱效率:

E_k=\sum\limits_{t\in\mathcal{T}}E_{k,t}

3、优化问题:

混合动作空间:

因为\operatorname*{min}\limits_{k\in\mathcal{K}}(\sum_{t\in\mathcal{T}}E_{k,t})\neq\sum\limits_{t=1}^{T}\operatorname*{min}\limits_{k\in\mathcal{K}}(E_{k,t}),所以在设计奖励函数时,需要引入Jain 公平指数。

Jain 公平指数:

f_{t}=\frac{\left(\sum\limits_{k\in\mathcal{K}}E_{k,t}\right)^{2}}{K\sum\limits_{k\in\mathcal{K}}E_{k,t}^{2}}

奖励函数:

r_t=\min\limits_{k\in\mathcal{K}}E_{k,t}+\beta f_t

作者提出每个无人机的索引都是认为安排的,那么可以对其索引进行全排列,这样可以轻松得到其对称群,将对称群的数据也加入到经验池,相当于实现经验池数据的扩充。(没太看懂,感觉就是把一组数据复制了多次)

数据增强方案:

(1)random:每个episode从对称群中随机选一定数量的轨迹。

(2)adaptive:随着算法训练,从对称群中选取的轨迹适应性减少。

         选取数量:\lambda_v=\lfloor L\omega^{\lfloor\frac vN\rfloor}\rfloor

参考文献

[1]Y. Qin, Z. Zhang, X. Li, W. Huangfu and H. Zhang, "Deep Reinforcement Learning Based Resource Allocation and Trajectory Planning in Integrated Sensing and Communications UAV Network," in IEEE Transactions on Wireless Communications, vol. 22, no. 11, pp. 8158-8169, Nov. 2023, doi: 10.1109/TWC.2023.3260304.