logo资料库

基于机器学习的认知无线网络优化策略.pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
第30 卷 第5 期 2020 年5 月 计 算 机 技 术 与 发 展 COMPUTER TECHNOLOGY AND DEVELOPMENT Vol.30 No.5 May 2020 基于机器学习的认知无线网络优化策略 农汉琦,孙蕴琪,黄 洁,杨泽宇,吴雪雯,杨 科,欧阳键 (南京邮电大学 通信与信息工程学院,江苏 南京 210003) 摘 要:5G 的发展带来了终端设备爆炸式增长的现象,使得频谱资源紧缺的问题越加严峻,认知无线网(cognitive radio, CR)的提出,被认为是提高频谱利用率的有效途径。 认知无线网,融合了当代无线电通信技术、计算机技术、微电子学技 术、软件无线电技术和现代信号处理技术等多学科之长,通过感知周围的电磁环境、学习及理解等方式,自主为用户寻找 到当前空闲的频谱,完成信息交互过程。 针对频谱资源紧张的现状,为改善频谱分配,首先介绍了有关认知无线网络的概 念及其特点,重点介绍了机器学习中遗传算法,强化学习和隐马尔可夫模型在认知无线网络中的应用,并展望了其在认知 无线网络中的发展前景。 机器学习算法的引入,实现了高效的频谱资源管理,有效地解决了无线频谱资源紧张的问题。 关键词:认知无线网络;强化学习;遗传算法;隐马尔可夫模型;频谱利用 中图分类号:TP39 doi:10.3969 / j. issn.1673-629X.2020.05.024 文章编号:1673-629X(2020)05-0125-07 文献标识码:A Optimization Strategy of Cognitive Radio Network Based on Machine Learning NONG Han-qi,SUN Yun-qi,HUANG Jie,YANG Ze-yu,WU Xue-wen,YANG Ke,OUYANG Jian (School of Telecommunications and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China) Abstract:The development of 5G has brought explosive growth of terminal equipment, making the shortage of spectrum resources become increasingly serious. The proposal of cognitive radio (CR) is considered as an effective way to improve spectrum utilization. CR incorporates many technologies,including modern radio communication technology,computer technology,microelectronics technology, It can automatically find and allocate idle spectrum for users to software radio technology and modern signal processing technology. complete the information interaction by means of sensing and understanding the environment. In view of the current situation of the shortage of spectrum resources,we discuss various learning algorithms and their application in cognitive radio to improve the technology of spectrum allocation. Some of the prominent learning algorithms discussed are genetic algorithm ( GA),Q-learning algorithm and hidden Markov model (HMM). The machine learning algorithms have achieved efficient spectrum resource management and solve the problem of wireless spectrum scarcity. Key words:cognitive radio;Q-learning algorithm;genetic algorithm;hidden Markov model;utilization of spectrum 0 引 言 无线通信的发展带来了数据传输速率的逐步提 为例,传输速率从最早的不足 10 kbps 提高到即将迎 来的第五代移动通信技术,可以提供 10 Gbps 的数据 传输速率,可达到如今 4G 通信的十倍到百倍[1]。 然 而,即便调制编码技术在不断更新和改进,频谱资源紧 张问题仍然存在。 由于国内的频谱资源统一授权使 用,某一个通信系统独立使用一个频段,这种方法虽然 有效地避免了系统间的干扰,但仍然会出现通信冗余 网络出版时间:2019-12-18 认知无线网络,就是在无线网络的基础上,加上了 “认知”的功能,通信系统可以利用这种学习和认知能 力,伺机寻找和使用空闲频谱资源,提高频谱资源的使 用效率,缓解频谱资源带来的通信压力。 升,与此同时,带宽的需求也在成倍增长。 以移动通信 收稿日期:2019-04-30 基金项目:南京邮电大学省级大学生创新训练计划(SZD2018002);江苏省研究生科研与实践创新计划项目(SJCX18_0276);国家自然科学基 金重点国际合作项目(61720106003);国家自然科学基金面上项目(61372122) 作者简介:农汉琦(1998-),男(壮),研究方向为计算机网络、机器学习;欧阳键,讲师,硕导,研究方向为无人机通信技术、通信信号处理以及 机器学习。 网络出版地址:http:/ / kns. cnki. net / kcms/ detail /61.1450. TP.20191218.1113.044. html 修回日期:2019-08-30
计算机技术与发展 第30 卷 ·621· 的情况,即频谱上会出现未被利用的冗余频谱资源,称 为“频谱 空 穴” ( 即 暂 未 被 授 权 用 户 使 用 的 频 谱 资 源)[2]。 因此,如何更有效地利用频谱资源成为了行 业关注的焦点。 为了解决上述问题,认知无线网络应 运而生。 认知无线网络除了具有感知能力和自适应能力, 更具有机器学习的能力。 其应用遍及人工智能的各个 领域[3]。 如今认知无线网络在军事和民用领域都得到 了应用。 例如在军事方面[4],由于战场形式瞬息万变, 固定分配带宽容易贻误战机,借助 CR 能够实现快速 地分配频谱资源,避免了系统内部或友军间的电磁干 扰;在民用领域,也具有巨大的发展潜力和前景。 2017 年6 月初,工信部确定了 5G 部署的初始频段:3 300 MHz ~3 600 MHz 和 4 800 MHz ~5 000 MHz,共 500 MHz 带宽[1],而有限的频谱资源必定会使得频谱的供 需矛盾日益突出,因此,在 5G 移动通信系统中,采用 源供需矛盾的重要手段。 而机器学习的应用范围广泛,文献[5] 提出了一 种基于遗传算法的定位服务时延估计方案,可降低非 直达径环境带来的不利影响,以提高定位服务响应速 度以及定位精度。 在大数据等新技术产业和无线通信 兴起的大背景下,数以亿计的接入点产生的大量数据 信息给网络空间带来了巨大困难,机器学习算法为安 全领域提供了一系列有效的分析决策工具,而在近年 市中诸多难题。 除此之外,机器学习算法的蓬勃发展 也使认知无线电的智能化成为了现实[6]。 1 认知无线网络的国内外研究现状 认知无线网络对频谱资源的管理将是有效缓解频谱资 来迅速发展的智慧城市更是通过机器学习算法解决城 目前,认知无线网络在国内外的通信领域都得到 了广泛的应用,但主要的研究还是集中在地面无线通 信系统中。 认知无线网络的核心技术有频谱检测以及 认知路由技术。 国内外的学者提出了许多频谱检测的 可行方案,例如能量检测、匹配滤波检测等,这些技术 大多都用在了地面通信系统当中。 文献[7] 确定了构成医疗保健无线通信的条件, 提出了一种应用于医院场合的 CR 系统,从而避免电 子医疗设备产生的电磁干扰,保证用户的无线通信质 量。 文献[8]表明了应用于公共安全网的认知无线网 络能够很好地解决在城市公共安全网频段拥挤,不同 应急部门设备不兼容等问题,为公共安全网提供了可 靠的网络服务。 如今随着 5G 技术的发展与 日 渐 成 熟,也可见认知无线网络的重要性。 在 2017 年 6 月 初,工信部确定了 5G 部署的初始频段共 500 MHz 带 宽[1],而有限的频谱资源使得频谱的供需矛盾日益突 究了一种基于软件定义体系结构的认知卫星地面网的 非正交多址接入技术的卫星地面综合网络联合优化设 出,因此,在5G 移动通信系统中,采用了认知无线网 络来进行频谱管理,提升了频谱的利用率,有效缓解了 频谱资源紧张的压力。 除了在民用领域,同样在军事 领域,认知无线网络的应用也带来了较大的影响。 文 献[9] 研究指出,在军事方面,由于战场形式瞬息万 变,固定分配带宽容易贻误战机,借助 CR 能够实现快 速地分配频谱资源,避免了系统内部或友军间的电磁 干扰。 认知无线网络在地面通信的应用成果较为丰富, 而对于卫星通信而言,仍属于起步阶段。 卫星通信是 典型的资源受限网络,并且目前其智能化程度较低。 认知无线网络的应用,在提高其智能化程度的同时,还 可以解决其突增的业务量与有限的频谱资源的矛盾, 从而提高其频谱利用率。 文献[10] 提出了一种基于 计方法,从而最大化系统的和速率。 文献[11-12] 研 安全通信以及功率传输问题,其中网关作为控制中心 为无线系统提供资源分配。 文献[13] 研究了 5G 蜂窝 的鲁棒性和安全性。 文献[14] 研究了与蜂窝网络共 享下行频谱资源的卫星网络的物理层安全问题。 认知无线网络具有广阔的应用前景,无论是在地 面无线通信网络中,亦或是卫星无线通信领域。 它可 以应用于智能电网,宽带蜂窝网,空闲的广播电视频段 都能为这些新兴的业务提供频段。 由于认知无线网络 在卫星通信中的应用研究的起步比较晚,还具有很大 的发展空间。 卫星通信是军事通信的重要手段,在一 些发达国家,百分之八十的军事信息传递交互通过卫 星通信来完成。 基于现有卫星通信对环境掌控能力缺 乏,智能化程度普及相对低的特点,认知无线网络的应 作用。 2 认知无线网络中的机器学习算法 用为未 来 的 卫 星 通 信 发 展 势 必 会 起 到 很 好 的 铺 垫 系统与卫星网络共存于毫米波频段下的波束形成问题 作参数使其内部状态适应接收到的无线信号的统计变 首先,具体来说,认知无线网络利用人工智能技 术,使通信系统具有一定的学习能力,在不影响授权频 段正常通信的基础上,通过有目的地实时改变某些操 化,从而接入到授权的频段内,动态地利用其频谱。 动 态频谱接入是指次级用户( secondary user) 动态的搜 索“频谱空穴”( spectrum holes) 进行通信。 这些次级 用户也具有认知功能,因此,次级用户要在不对经授权 使用频谱的主用户(primary user) 造成干扰的情况下, 利用其认知能力,对当前空闲的频谱进行感知,再“ 伺 机”接入频谱。 与此同时,还必须保证主用户仍具有
第5 期 最高的优先级使用其授权频谱。 由此,当前频谱低下 的效率得到了极大的改善,而在这一过程中,机器学习 起着关键的作用。 强化学习算法、遗传算法以及隐马尔科夫模型在 认知无线网络中得到了很大的应用,它们的应用分别 使得认知无线网络更好地完成了频谱资源分配、提高 频谱的管理效率以及频谱预测的工作。 在前人的工作中,文献[15] 指出认知无线网络通 过加入了学习引擎及知识库等完成认知的功能,学习 引擎可以通过对其经验学习进行知识库积累,存入到 知识库中的知识,可以在需要的时候不断使用。 由于 机器学习算法应用广泛,它们也被用作于认知无线网 络的学习引擎。 由于传统的能量检测方法在阴影等情 况下得到的结果并不可靠,因此文献[16] 提出了一种 基于机器学习的模块化频谱感知系统,利用非线性门 限来解决单节点单天线的频谱感知问题。 由于次级用 户的到达和离开使得信道存在着动态特性,不同于稳 定的信道,因此,为了更好地适应信道变化这一特点来 进行频谱的分配,文献[17] 提出了一种基于强化学习 自动化式的信道和功率分配算法,在强化学习的基础 上通过次用户业务的到达与离开来学习最佳策略。 目 前,强化学习在国际上是十分活跃的研究领域,强化学 习的应用使得即使在复杂的控制系统中,学习控制仍 为一种强有力的控制手段[18],可以帮助认知无线电实 现性能优化。 文献[19] 提到强化学习的主要特点是 能够准确、快速学习到最优策略,模拟真实环境,自适 应性强,提高频谱感知以及分配效率,从而最大化系统 吞吐量,这些优势充分证明了强化学习将是认知领域 里一种很有前景的技术。 由于要提高频谱的利用率, 次级用户需要通过“机会方式” 接入频谱,并且保证不 对主用户造成干扰,所以,空闲频谱感知问题成为关 键。 由此,文献[20]开发了一个基于部分感知马尔可 夫决策过程的机会式频谱接入分析架构,它可以很容 易消除频谱感知错误并降低与主用户冲突的可能性。 当检测到空闲频谱,如何高效公平地分配频谱资源变 得至关重要。 文献[21] 以在遗传过程中的控制干扰 为目标,提出认知无线网络频谱分配算法,设计出染色 体中的基因表达规则。 依据基因表达规则标记显性基 因与隐性基因,在下一代染色体中表达显性基因,抑制 隐性基因,从而保证染色体的健康,提高算法效率。 文 献[22]指出遗传算法是模拟自然选择和遗传学机理 的计算模型,借鉴了自然界的优胜劣汰的进化规律,产 生的最优解像自然中更适应环境的后代种群一样,它 的特点在于能够自适应地调整搜索的方向,具有很强 的全局优化能力,可以作为解决最优化的搜索启发式 算法。 农汉琦等:基于机器学习的认知无线网络优化策略 ·721· 无线认知网络的研究工作主要集中在:频谱的感 知、共享、决策、迁移。 频谱感知是所有工作的基础。 当前的频谱感知方法有:能量检测、匹配滤波器检测, 以及多分辨率频谱感知,但在一些特定的情况下,因为 是单节点检测方法,结果并不可靠。 另外,在信道分配 上,传统的无线网络分配及功率效率低。 加入了机器 的同时,完成了动态的频谱以及功率分配,减少了有限 频谱的资源浪费。 通过对国内外涉及认知无线网络文献的学习、标 引,文中梳理了认知无线网络中机器学习的应用。 下 面对一些主要的学习算法进行介绍: Q 学习算法、遗 传算法和隐马尔可夫模型。 2. 1 Q 学习算法 学习算法的认知无线网络在实现了高效率的频谱管理 Q 学习适用于解决动态环境中的决策问题,通过 学习的强化训练寻找到达目标的最优动作。 在基本的 Q 学习算法中,环境由有限状态的离散 时间随机系统组成。 设全部的状态为 S = {s1,s2,…, sn} ,可能的行动为 A = {a1,a2,…,am} 。 进入环境之 后,Agent 处于某一状态 s ∈ S ,并在此状态下的可选 动作中按某种策略(如贪心策略)选择一个动作 a ∈ A 执行。 进入下一状态后,Agent 将得到一个反馈信号 r(s,a) ,可视为在状态 s 下执行动作 a 的即时奖励值, 用来更新 Q(s,a) 、策略 π 。 定义 Q(s,a) 为:Agent 在 状态 s 下执行动作 a 的总体收益,包括即时奖励和预 期未来收益。 Agent 按照以上步骤不断地学习探索, 直到满足一定的收敛条件,就停止更新 Q(s,a) ,结束 学习。 在做决策时,只需要跟踪在当前状态 s 下,到达 目标状态过程中执行每个操作的 Q 值,来指导 Agent 移动。 Q 值已经包含了未来收益,故无需再考虑状态 s 的后续状态。 总之, Q 学习的核心是采取能最大限度 地提高总体收益的行动 a ,并不断更新 Q 值组成的 Q 矩阵形成最优决策。 Q(s,a) 值定义如下: Q(s,a) = (1 - α)Q(s,a) + α[r + γQ(s',a')] (1) 其中, r 为当前状态 s 下执行 a 动作的即时奖励 值; γ(0 < γ < 1) 为折扣因子,决定未来奖励对当前 Q 值的影响; α 为学习率; Q(s') 为 s 的下一状态下的 最大 Q 值。 在 Agent 选择动作时,会遇到“ 探索-利用” 困境: “利用”是指选择 Q 值最大的动作以尽快增加收益,而 “探索” 是指随机选择一个动作探索其总体收益。 文 中采用 ε -贪心策略,达到平衡“ 探索” 和“ 利用” 的目 的。 设学习起步阶段的探索概率为 ε ,则以1- ε 的概 率选择 Q 值最大的动作,以 ε 的概率随机选择其余动 作中的一个动作,探索非最优动作带来的收益。 ε -贪
·821· 心策略在初始学习时,主动探索非最优动作,能一定程 度地避免“ 局部最优”。 随着不断的学习探索,Agent 对环境的认知逐渐清晰准确,可以逐步减少不必要的 探索,即减小 ε 值,以提高学习效率,从而加快 Q 值 收敛。 使用 Q 学习算法管理 CR 的频谱:认知无线网络 的特点在于实时变化:随时有用户到达和离开环境,业 务处于动态变化中。 系统需要自适应地调整传输参数 (包括发送功率、传输信道等),以适应环境中的通信 条件和要求。 新到达的用户称为次级用户,其功率发 射由基站控制,与基站的通信频段选用无需授权的公 共频段,例如 ISM 频段。 Q 学习算法适用于此类动态 变化的环境,能帮助系统实现信道和功率的实时自适 应分配问题。 文中提出的 Q 学习算法实现动态频谱接入的处 理步骤如下: Q 函数的主要参数:学习者所处的状态集合 S ,可 选动作的集合 A ,动作的即时奖励值 r ,以及动作选择 策略 π:S → A 。 (1)状态:假设信道不随时间变化,环境中的业务 是动态变化的,用户是时间离散的。 新用户到达会增 加业务,触发 Agent 选择信道或分配功率,而用户业务 的离去不会产生新业务,即不触发动作选择。 因此,状 态 s 由下式给出: s = (新用户的序号,当前接入的用户序号,基站接 收的各信道功率总和) (2) (2) 动作:当新用户到达时,基站需 执 行 两 个 操 作:分配合适的信道;分配适合的功率。 这两个动作由 下式给定: A = (P1,P2,…,PM) (3) 其中, M 是总信道数, Pm ∈ {p1,p2,…,pM} , m = 1,2,…,M 。 由于新用户接入时最多只需占用一个信 道,因此向量 A 至多有一个非零元素。 (3) 回报 r :Agent 的决策取决于学习过程中回报 的累积值,即总体收益。 回报的定义方式很多,此算法 认为动作所实现的总体吞吐量越高,相应的回报值越 高,故定义回报值为当前业务用户的服务速率之和,可 通过下式计算: r(s,a) = pnfn(n)hn((f(n))) ∑N Pjf(j)hj(f(j))ψ(n,j)) (4) n =1 log(1 + 其中, f(n),pn 分别表示用户 n 所占用的信道以 及发射功率。 若用户 j 不发送信号,则 pj 为零。 ψ(n,j) 由下式决定: n0 + ∑j≠n (5) {0 ψ(n,j) = 1 if else f(n) = f(j) 计算机技术与发展 第30 卷 从式(5) 可以看出,该算法考虑了新来用户的发 每当新来一个用户,Agent( 认知基站) 就会发起 射功率对正在进行业务的用户的干扰。 一轮迭代(如图1 所示),过程如下: 图1 Q 学习算法流程 用户的序号和当前接入的用户序号以及基站接收的各 索概率 ε , Q 矩阵为全零。 (1)初始化:初始化折扣因子 γ 、学习率 α 以及探 (2)构建状态空间:新用户到达后,基站需确认新 信道功率之和。 新用户序号由新用户发给基站;其他 信息可由基站自身获取。 构建的状态空间如式(2) 所示。 (3)生成 Q 值:系统计算当前状态下所有动作对 应的 Q 值, 并 存 入 Q 矩 阵: Qi(s) = (Q(s,a1),Q(s, a2),···,Q(s,am)) ,此即完成了一次 Q 值更新。 更 新须保存,以待下一轮迭代中继续更新 Q 值。 (4)选择和执行动作:基站选择动作时采用 ε -贪 心策略,然后基站通过公共控制信道告知用户所选动 作对应的信道选择和功率分配策略。 用户根据基站的 要求,发射指定的功率。 (5)计算回报值:基站根据式(4) 计算执行动作后 的即时回报并存储其数值。 (6) 更新相关参数:每轮迭代结束 后,需 要 更 新 α , ε 以加快 Q 值收敛。 这里设定 α , ε 按负指数减 小。 算法收敛的标志为 α , ε 减为零或者迭代次数达
农汉琦等:基于机器学习的认知无线网络优化策略 第5 期 到了预设的门限值。 2. 2 遗传算法 遗传算法是一种模拟自然选择过程的搜索算法, 通常用于解决优化和搜索问题。 遗传算法流程如图 2 所示。 ·921· (b)功率基因:假设功率值范围从-95 dBm 到-46 dBm,步长为1 dBm,共50 个功率基因,如表2 所示。 表2 功率基因 功率 / dBm 图2 遗传算法流程 算法从一组初始解开始,定义适应度函数来评估 初始解,根据某种选择规则选择某些解进行交叉、变异 产生新解。 若未得到最优解就返回到第一步,将新生 成的解作为新的初始解,一直循环迭代,直到获得最优 解。 使用不同的适应度函数所得到的结果会有差别。 使用遗传算法进行 CR 的频谱管理:基于传感器 信息或次级用户输入的信息,系统可预定义次级用户 的服务质量(quality of service,QoS)需求,选择次级用 户参数,包括调制方案、带宽、数据速率、功率利用率 等。 通过学习和优化这些参数,次级用户可以在不干 扰主用户的前提下访问主用户的频谱空穴,从而提高 频谱利用率。 文中以频率、功率、带宽和调制方案四个 参数为例进行频谱管理。 每个参数称为一个“ 基因”, 四个参数的组合形成了“染色体”。 遗传算法解决频谱管理问题的步骤如下: (1)基因组合。 (a)频率基因:假设系统带宽为 800 MHz,频带范 围为50 MHz ~850 MHz,信道带宽为 8 MHz,,即步长 为8 MHz,共100 个频率基因,如表1 所示。 表1 频率基因 初始化:随机生成一个初始种群,包含 50 个初始 个体,如表6 所示。 表6 初始染色体结构 频带 / MHz 50 ~58 58 ~66 … 842 ~850 染色体序号 1 2 3 … 50 频率 F1 F2 F3 … F50 功率 P1 P2 P3 … P50 误码率 B1 B2 B3 … B50 调制方式 M1 M2 M3 … M50 序号 1 2 … 100 序号 1 2 … 100 1 2 … 8 -95 -94 … -46 10 -1 10 -2 … 10 -8 ( c) 误 码 率 基 因: 假 设 误 码 率( Bit Error Rate, BER)的变化范围为10 -1 ~ 10 -8 ,步长为10 -1 ,共8 个 误码率基因,如表3 所示。 表3 误码率基因 序号 误码率 (d)调制基因:文中只考虑针对特定频谱管理应 用的四种调制方式,如表4 所示。 表4 调制基因 序号 调制方式 BPSK QPSK 8-QAM 16-QAM 1 2 3 4 (2)染色体。 四个基因结合形成一个染色体,或称种群中的单 一个体。 染色体的结构如表5 所示。 表5 染色体结构特征 序号 1 2 3 4 基因 频率 功率 误码率 调制方式 范围 1 ~100 1 ~50 1 ~8 1 ~4
i i fi = (6) xi - xd i < xd 用加权和方法来计算种群中每个个体的适应度 ·031· (3)个体适应度评估。 值,从而评估个体适应度。 为了简单起见,假设染色体 上的每种基因的权重相同。 设参数 x1、x2、x3、x4 分别 为频率基因、功率基因、误码率基因和调制基因。 每个 参数的适应度函数 fi 由式(6)给出。 {1,2,3,4} 为基因的序号。 wi xi - xd ì çç ,if xd í i çç otherwise wi, î i 是 QoS 参数, wi 是权重且∑4 其中, xd i =1 染色体的适应度函数通过式(7)给出。 F =∑4 (7) 适应度越低,遗传算法的优势越明显。 若某个染 色体的适应度值满足次级用户的 QoS 要求,则将其作 为可行解,若不满足,则从初始群体中选择适应度值较 低的染色体,利用变异、交叉[23] 等遗传算子生成下一 个群体。 重复进行这个过程,直到种群满足某个特定 条件(例如种群数量最大化或优于当前最佳方案) 为 止。 当终止条件满足时,选择适应度值最高的个体,该 个体包含了频谱利用的最优参数。 2. 3 隐马尔可夫模型 wi =1, i∈ i =1 fi 隐马尔可夫模型(hidden Markov model,HMM) 是 一种有向图模型,用于探究一个隐含有未知参数的马 尔可夫过程,描述一个马尔可夫过程和背后隐藏状态 的关系[24]。 模型如图3 所示。 图3 隐马尔可夫模型 在该模型中,系统被假定为未观察( 隐) 状态的马 尔可夫过程。 模型有两个变量序列,隐藏状态序列 S = [S1,S2,…,Sn] 和观察到的变量序列 O = [O1,O2,…, On] 。 对于每个状态,初始的概率 π i 可被定义为: (8) π i = P(Si = si) 其中 Si 是隐藏状态集中的任意值。 模型的目标是给定一个观测序列 O ,获取可能的 最佳状态序列 S ,即最大化 P(S | O) 。 S* = arg maxs(P(S O)) (9) 因此一个完全隐马尔可夫模型可以表示为: (10) λ = (A,B,π) 其中, A 是状态转移概率,即模型在各个状态间转 计算机技术与发展 第30 卷 换的概率; B 是观察状态转移概率,即模型根据当前状 态获得各个观测值的概率; π 是初始状态概率,即模 型在初始时刻各个状态出现的概率。 基于 HMM 的频率信道预分配: 为了高效地利用频谱,很多 CR 系统使用了静默 周期(静默周期是指为了精确地感知频谱,CR 网络停 止所有的信道传输的状态),但即便如此,干扰仍可能 产生。 为了减少干扰,CR 系统采用了频率期望算法, 但会降低 CR 系统吞吐量,因此对于每个期望周期,采 用基于 HMM 的频率信道预分配策略,从而既可以减 少干扰时间,也能提高系统吞吐量[25]。 HMM 频率信道预分配步骤如下: 通道状态(忙或闲)是观察到的状态,可以表示为 O = [0,1] ,其中0 表示通道空闲,1 表示通道忙碌,而 隐藏状态为分配给通道的一组频率,表示为 S = [F1, F2,…,FM] 。 假设一个观察序列 [10101001…11] 对应的隐藏 状态序列为 [S1,S2,…,Si,…,SN] ,其中 Si ∈ S 。 所以, 对 于 给 定 的 观 测 序 列 ( O ), 转 移 概 率 ( A ),发射概率( B )和初始概率( π ),基于信道状态 或观测序列( O ) 可以得到最佳可能状态序列或分配 频率 S* ,如式(11) 所示,其中使用了马尔可夫假设, 即隐藏状态只依赖于前一个状态,与时间无关。 P(SN | SN-1,O) P(S)(P(O S)) P(S | O) = P(S1 | O)P(S2 | S1,O)… 利用贝叶斯定理计算方程(8)中的条件概率: S* = arg maxs (12) 其中, P(O) 可以忽略,因为它与 S 无关,且被视 为常数。 根 据 方 程(9), 可 以 用 马 尔 可 夫 假 设 计 算 P(S) 和 P(O | S) ,并假设当前观测状态只取决于当 前隐藏状态。 即: (13) P(S) = P(S1)P(S1 S2)…P(SN SN-1) P(O S) = P(O1 S1)P(O2 S2)…P(OM SM) (14) 根据式(12)、式(13) 和式(14),可以得到最终的 输出 值 S* , 从 而 分 配 频 率 设 置 对 应 观 察 组 的 通 道 状态。 3 结束语 认知无线网络的核心思想是人工智能技术,而机 器学习是人工智能技术的核心,是动态管理频谱资源 的关键。 Q 学习利用认知无线网络的动态特性实现了 信道和功率分配的自主性;遗传算法通过模拟自然选 择过程,在生成解中搜索最优解,高效地管理频谱资 源;隐马尔可夫模型能通过训练数据解决认知无线网 P(O) (11) 1S2SiSnS1O2OiOnOBBBBAAAA
农汉琦等:基于机器学习的认知无线网络优化策略 第5 期 络中频率信道的预测和预分配问题。 随着机器学习技 术的发展和完善,认知无线网络将更好地利用频谱资 源,在通信、数据交互等领域有更加广泛的应用。 参考文献: [1] 徐大钧.5G 移动通信中的动态频谱共享简述[J]. 中国无 线电,2017(8):26-28. [2] 陈培培. 认知无线电网络中基于多维频谱空穴的频谱共享 研究[D]. 哈尔滨:哈尔滨工业大学,2010. [3] 贺 倩,冯志勇,张 平. 基于人工智能技术的认知无线网 络重构决策算法[J]. 通信学报,2012,33(7):96-102. [4] 赵陆文,周志杰,缪志敏,等. 浅析认知无线电在军事通信 中的应用[J]. 无线通信技术,2007,16(4):31-35. [5] 丘觐玮,余天尧,戴伟强,等. 基于遗传算法的 LTE 网络定 位服务时延估计[J]. 计算机技术与发展,2016,26(5):149- 152. [6] 郑永亮,李晓坤,王琳琳,等. 基于人工智能与机器学习技 术在智慧城市的应用[J]. 智能计算机与应用,2019,9(1): 153-158. [7] PHUNCHONGHARN P,HOSSAIN E,NIYATO D,et al. A cognitive radio system for e-health applications in a hospital environment[ J]. IEEE Wireless Communications,2010,17 (1):20-28. [8] 罗丽平,秦家银. 认知无线电研究进展及应用前景[J]. 科 技导报,2012,30(3):74-79. [9] 赵陆文,周志杰,缪志敏,惠毅. 浅析认知无线网络在军事 通信中的应用[J]. 无线通信技术,2007(4):31-35. [10] LIN Z,LIN M,WANG J,et al. Joint beamforming and power allocation for satellite - terrestrial integrated networks with non-orthogonal multiple access[J]. IEEE Journal of Select- ed Topics in Signal Processing,2019,13(3):657-670. [11] LIN M,LIN Z,ZHU W,et al. Joint beamforming for secure communication in cognitive satellite terrestrial networks[J]. IEEE Journal on Selected Areas in Communications,2018,36 (5):1017-1029. [12] LIN Z,LIN M,OUYANG J,et al. Beamforming for secrecy wireless information and power transfer in cognitive satellite- terrestrial networks [ J]. IEEE Signal Processing Letters, ·131· 2018,25(8):1166-1170. [13] LIN Z,LIN M,WANG J,et al. Robust secure beamforming for 5G cellular networks coexisting with satellite networks [J]. IEEE Journal on Selected Areas in Communications, 2018,36(4):932-945. [14] AN K,LIN M,OUYANG J, et al. Secure transmission in cognitive satellite terrestrial networks[ J]. IEEE Journal on Selected Areas in Communications,2016,34(11):3025 - 3037. [15] 卢泳兵,徐 聪. 机器学习在认知无线电技术中的应用 [J]. 数字技术与应用,2013(5):97-98. [16] 蔡卓燃. 基于机器学习与压缩感知的认知无线电频谱感知 方法研究[D]. 哈尔滨:哈尔滨工业大学,2013. [17] YAO Yanjun,FENG Zhiyong. Centralized channel and power allocation for cognitive radio networks:a q-learning solution [ C ] / / Future network&mobile summit. Florence: IEEE, 2010:1-8. [18] 赵星宇,丁世飞. 深度强化学习研究综述[J]. 计算机科学, 2018,45(7):1-6. [19] 杜 江,刘 毅. 基于强化学习的动态频谱分配研究[J]. 数字通信,2012,39(4):34-38. [20] ZHAO Q,TONG L,ANANTHRAM S,et al. Decentralized cognitive MAC for opportunistic spectrum access in Ad Hoc networks:a POMDP framework[J]. IEEE Journal on Select- ed Areas in Communications,2007,25(3):589-599. [21] 郭 霖,曾 锋,陈志刚. 基于基因选择性遗传的认知无线 电频 谱 分 配 算 法[ J]. 计 算 机 工 程,2015,41(10):275- 279. [22] 路 景,周春艳. 基于遗传算法的混合优化策略研究[J]. 计算机技术与发展,2007,17(3):144-146. [23] 闫友彪,陈元琰. 机器学习的主要策略综述[J]. 计算机应 用研究,2004,21(7):4-10. [24] 杜世平. 隐马尔可夫模型的原理及其应用[D]. 成都:四川 大学,2004. [25] SOHN S H,JANG J,KIM J M. Hmm-based adaptive fre- quency hopping cognitive radio system to reduce interference time and to improve throughput[J]. KSII Transactions on In- ternet and Information Systems,2010,4(4):475-490.
分享到:
收藏