故障现象
某FDD-LTE项目,路测DT中存在信号较好时也会出现Attach失败。而且几率较高,全网基本有5%的几率会出现。
选取一个比较明显的簇进行分析,如下表所示。可以看到除了标黄行可能因为信号质量差而失败外,剩下都是在信号较好时Attach失败。
查看其中一次LOG可以发现:
UE会上发两次ATTACH REQ,如下图所示,但是第一次的REQ之后并无RRC Connection Request。
两次ATTACH REQ时间间隔为4 s,如下图所示。
为什么会出现此问题呢?正常来说应该ATTCH REQ之后UE会上发RRC Connection Request,为什么没有上发呢?正常一次ATTACH失败之后T3410应该为15 s,为什么4 s就会再次上发呢?
故障分析
故障排查先从终端是否存在硬件故障或软件模式设置错误开始。在排除了终端问题后,再继续排查是否存在网管参数设置问题。
一、更换终端测试
初始怀疑是由于终端或者软件有问题导致RRC Connection Request没有上发,所以尝试更换终端及使用QXDM进行测试。
将终端MF823更换为MF831,测试软件从CXT更换为QXDM。发现更改后还是会出现此问题。说明使用不同的终端和测试软件会遇到相同的问题。
因此先排除故障是由测试软件问题导致的可能性。
二、修改终端附着模式
观察ATTACH REQ消息,如下图所示。
对比后发现现场的Attach类型为2,而一般正常的attach的类型为1。类型2是指EPS attach combined EPS/IMSI attach ,怀疑是UE联合附着在EPS和2/3G的核心网,在2/3G的核心网附着失败,最后在EPS附着成功。
现场在QXDM中,把终端的Service Domain Preference配置参数值由CS+PS修改为PS,如下图所示。即是将终端在网络侧的注册模式从(电路域+数据域)修改为(数据域),排查附着失败是否是由于终端的附着类型设置错误而导致的。
在修改终端侧设置后进行测试,发现问题依然存在。说明在终端侧变更设置也会遇到相同的问题。
结合步骤一和步骤二这两点可以得出,故障问题的出现与终端无关。排除故障是由终端问题导致的可能性。因此,后续进行网管配置参数的排查。
三、排查接入概率因子参数
在咨询专家之后,发现在该站点下发的SIB2消息中,接入类的两个参数配置可能会导致此类问题,如下图所示。
ac-BarringForMO-Signalling和ac-BarringForMO-Data的因子分别是指:信令接入概率因子和呼叫接入概率因子。
故障处理
- 在EMS网管的配置管理中,打开无线参数--->LTE-FDD--->小区重选配置--->E-UTRAN小区重选页面,将信令和呼叫两个接入的概率因子从0.95修改至1。
2. 在修改两个接入概率因子之后,进行实地测试。
- 单站测试站下37次Attach之后未出现之前错误。
- 簇10测试拉网,共Attach 96次未出现之前错误。
故障已排除,可以确定就是此参数导致问题。
通信小知识
为什么信令接入概率因子和呼叫接入概率因子会造成这一类故障呢?
这是因为设置该参数会固定造成一定比例的接入失败。例如本案例中,参数设置为0.95,就会约5%左右的接入失败。该参数存在的目的是LTE系统为了避免海量终端接入所导致的无线接入网过载,从而引发更严重问题的一种规避手段。
按照该参数的原理,只有在网络用户数量非常密集的时候才使用非1配置,例如:超忙小区,有必要将用户数量均衡到其他小区的情况。
信令和呼叫接入概率因子参数的作用是:对主叫信令业务(比如attach)或主叫数据业务是否禁止的标识。如果存在禁止信令或数据内容,或存在禁止的UE接入,那么就配置ac-BarringForMO-Signalling和/或ac-BarringForMO-Data内容。
而不管终端做的什么类型的ATTACH,上发的RRCConnectionRequest消息中的原因值都是mo-Signalling。所以对于ATTACH,影响主要是信令接入概率因子这一个参数,如果主叫中有出现,是第二个参数。
对应这两个参数还有信令禁止接入时间和呼叫禁止接入时间两个配套参数。这两个配套参数的默认配置都是4 s,这样也就解释了为什么两次Attach之间是4 s而不是T3410配置的15 s。
ac-BarringForMO-Signalling如果启用了UE inactivity timer的话,主要针对手机在入网时attach和周期性TAU或正常的TAU的RRC。
ac-BarringForMO-Data主要针对数据业务的主叫mo-data(如手机上网,ftp,联通的短信等)。
对所有的UE来说,都属于随机分配的10类移动群体(mobile populations)之一,定义为接入类别(Access Classes)0 - 9。所属的群号(population number)被存储在SIM/USIM卡中。另外,移动终端也可能属于5个特殊类别(接入类别11 - 15)中的一个或多个,同样,也存储在SIM/USIM卡中。这些特殊类别是分配给特定的高优先级的用户,如下所示(列举的顺序并不代表优先级顺序)[9]:
Class15 → PLMN Staff
Class14→Emergency Services
Class 13→Public Utilities(例如:水/煤气供应商)
Class12→Security Services
Class11→For PLMN Use
如果UE至少隶属于那些与在空口上指定的准许的类别(permitted classes)对应的Access Classe之一,并且当前服务网络支持这些Access Class,则允许UE发起接入尝试,否则接入尝试是被禁止的。
接入类别适用场合如下:
Classes 0~9→Home and Vistised PLMNs.
Classes 11,15→Home PLMN only if the EHPLMN list is not present or any EHPLMN.
Classes 12,13,14→Home PLMN and Visited PLMNs of home country only. For this purpose the home country is defined as the country of the MCC part of the IMSI.
总结
接入时,如果信令接入概率因子和呼叫接入概率因子配置为0.95,那么不管是做什么业务都会有一定几率(5%)出现接入失败。这样会对接入涉及到的时延类指标造成较大影响。比如:UE发送2次ATU更新才能成功,导致Fast Return时延过大等问题。
此类问题比较明显的特征就是Attach Req之后并没有RRC Connection Req和MSG1消息。当碰到此现象时,可以对这2个参数进行检查,查看是否是此参数配置导致。