Jupiter198343
初级会员
发短消息
关注Ta
积分 86
帖子 16
威望 10048 个
礼品券 8 个
专家指数 6
注册 2012-7-1 专业方向
通信,计算机
回答问题数 0
回答被采纳数 0
回答采纳率 0%
|
|
上海网络HSDPA业务无速率问题分析报告 1.
问题描述联芯投诉:从5月18日起,陆续出现用户投诉用联芯数据卡上网无流量的问题,终端拨号连接正常,但网页打不开,网址也ping不通;5月25日以后,此现象开始大量出现,联芯测试人员用华为ET128数据卡在大唐无线网络下发现有同样问题.
2.
定位过程6月9日,产品线支持人员到联芯公司实验室协助定位,用2台8130终端尝试数次,问题未能复现;用5731E数据卡,问题2次复现;同时这些终端都能正常进行FTP下载.测试地点为联芯公司实验室,信号为室外小区覆盖,P-CCPCH RSCP较高,在-60dBm左右.另外经了解,西安研发部梁剑曾在上个月来上海定位过网页打不开问题,最终定位为上海移动的防火墙负荷过重导致大量丢包.结合以上信息,做出初步分析,问题有如下可能原因
1)从2款终端的表现看,联芯5731数据卡和8130手机的处理可能存在差异.需要通过进一步的测试来判断
2)网络传输某个环节仍然存在丢包问题.经过向梁剑了解,上次定位后,防火墙进行了调整,性能有所提升,由防火墙导致的丢包大大降低,但并不能保证防火墙,或是由核心网到RAN的有线连接某个环节存在传输丢包,这应该是后续关注的主要方向.
3)空口信号质量差导致丢包,在联芯测试时使用的小区,其基站HSDPA算法中,CQI算法的”初始Bler”按室外环境标定为10%,这个参数设置如果超过实际Bler太高,会导致Mac-hs向空口发包的速率超过此空口环境下终端的正确解调能力,导致误块率迅速上升.但经过观察和验证,此环境下实际Bler应该大于5%,在8%~10%左右,也就是说此时基站参数的设置基本合理,不会导致空口性能的恶化;另外,在终端不能打开网页的过程中,伴随的是始终正常的FTP下载过程,如果是空口质量不好导致网页基本不能打开,FTP的丢包率应该相当高,但此时FTP的重传率在10%左右,因此这个原因的可能性较小,作为后续关注的次要方向.
6月10日,大唐人员和联芯测试人员,在大唐分公司会议室进行了多款商用终端的对比测试,共验证了联芯8130手机,以及联芯5731E,中兴MU350华为ET128,三星等几款数据卡,测试地点为中打-1小区(RNC390,TDR2000+TDB09A.P-CCPCH RSCP大于-60dBm).测试方法为用4款终端对4个门户网站进行ping操作,结果为:
Ping次数/响应次数
| 搜狐
| 新浪
| 百度
| 网易
| 联芯8130
| 4/4
| 4/4
| 4/0
| 4/0
| 联芯5731E
| 4/4
| 4/4
| 4/0
| 4/0
| 三星
| 4/4
| 4/4
| 4/0
| 4/0
| 华为ET128
| 4/0
| 4/0
| 未找到主机
| 4/3
| Ping不通的网址,网页也打不开,但同时FTP下载正常。
当天的测试过程中,同时跟踪了如下信息:终端测wireshark抓包,Iub口TDPA跟踪Iub口用户面,基站内部跟踪FP消息,RNC内部进行QoS级UE跟踪,CN内部进行Gi接口跟踪。其中对8130访问网站时的终端侧和CN侧Log结合分析如下:
<8130终端第一次跟踪>:
(1)连接crl.microsoft.com,服务器回复2个主机地址(745行)
终端向第1个主机地址发送3次TCP握手请求,该主机无响应
(2)连接www.163.com,服务器返回10个主机地址(1005行)
主机响应终端的域名解析请求88秒后,终端才开始向该主机发TCP握手请求,发送3次,终端无响应
(3)连接www.baidu.com,服务器返回2个主机地址(2356行)
作了数次ping操作,主机均有响应,但终端未收到
(4)连接www.sohu.com,服务器返回2个主机地址(3830行)
作了数次ping操作,主机均有响应,但终端未收到
(5)连接c.baidu.com,服务器返回1个主机地址(4342行)
终端向第1个主机地址发送3次TCP握手请求,主机均有响应,但终端未收到
(6)连接www.sina.com.cn,服务器返回1个主机地址(5250行)
终端和主机成功进行TCP的3次握手,并成功下载该主机的HTTP协议数据包后续该网址下的链接都成功打开
(7)连接cn.msn.com,服务器返回1个主机地址(11398行)
作了数次ping操作并能ping通
(8)整个Log跟踪过程中,终端一直成功进行FTP下载(连接移动内部FTP服务器)
<8130终端第二次跟踪>
(1)连接www.163.com,服务器返回10个主机地址(747行)
作了数次ping操作,主机均有响应,但终端未收到
(2)连接www.baidu.com,服务器返回2个主机地址(2335行)
作了数次ping操作,主机均有响应,但终端未收到
(3)连接www.sohu.com,服务器返回2个主机地址(3483行)
作了数次ping操作并能ping通
(4)连接www.qq.com,服务器返回2个主机地址(4383行)
作了数次ping操作,主机无响应
(5)连接cn.msn.com,服务器返回1个主机地址(5322行)
作了数次ping操作并能ping通
(6)整个Log跟踪过程中,终端一直成功进行FTP下载(连接移动内部FTP服务器)
通过以上Log,基本可排除空口质量的影响,因为虽然FTP过程能看到一定比例的丢包,但打开网页操作中,每次的DNS域名解析交互过程都是完整的,未打开网页的,都是TCP握手过程不完整;或者ping不通网址的,都是主机的ICMP响应终端侧没有跟踪到.若是空口丢包,不太可能每次都刚好在TCP协商过程中丢包
另外鉴于Log的全过程中都有持续的FTP协议数据包,RAN丢包的可能性也不大,因为所有IP包是统一在RLC对等层封装为PDU的,RAN设备无法区分该IP包来自哪种应用协议,也不会做有区别的处理
网络结构中各节点连接关系为:
UE-空口-Node B-(Iub)-RNC-(Iu)-SGSN-(Gn)-GGSN-(Gi)-防火墙-移动服务器(APN)-Internet
从Gi口跟踪可以看到服务器对终端的请求都进行了响应,且Gi口跟踪位置在GGSN和防火墙之间,可以排除防火墙丢包的可能性
另外经对比Iub口用户面的TDPA跟踪,以及基站内部跟踪,未发现Iub口存在丢包。
这样问题可缩小为:在RNC-SGSN-GGSN的下行传输过程中存在丢包,鉴于丢包现象出现的规律性,且RNC内部对来自不同应用协议的IP包不作区分,重点嫌疑在核心网侧,即SGSN或GGSN可能存在丢包。
6月11日,鉴于浦西的RNC连接的核心网设备无法跟踪Gn口,在浦东的RNC下进一步进行定位,同时在RNC内部进行QoS级的UE跟踪,用TDPA跟踪Iu口用户面消息,CN内部同时跟踪Gn和Gi口。当晚测试结果如下:
<21:00~22:00>
| 终端IP地址
| 网易
| 百度
| 新浪
| 腾讯
| 搜狐
| FTP
| 华为ET128
| 10.80.49.96
| 失败
| 失败
| OK
| OK
| OK
| OK
| 中兴MU350
| 10.80.54.75
| 失败
| 失败
| OK
| 失败
| OK
| OK
| 联芯8130
| 10.80.57.198
| 失败
| 失败
| OK
| OK
| OK
| OK
| 联芯5731E
| 10.80.59.222
| 失败
| 失败
| OK
| OK
| OK
| OK
| <22:00~23:00>(Iu口挂上TDPA)
| 终端IP地址
| 网址
| FTP
| 华为ET128
| 10.80.184.185
| 连接所有网址成功
| OK
| 联芯8130
| 10.80.3.90
| 连接所有网址失败
| 失败
| 联芯8130(第二次拨号)
| 10.80.3.207
| 连接所有网址失败
| 失败
| 联芯8130(第三次拨号)
| 10.80.185.156
| 连接所有网址成功
| OK
| 经分析Gn口和Gi口Log,所有连接网页失败,都是终端发出的DNS域名解析请求,或TCP连接请求,在Gi口看到了服务器的响应,但在Gn口没有看到。所有连接FTP失败,也是终端发出的FTP连接请求,在Gi口可以看到响应,而在Gn口没有看到。
也就是说,失败的情况,都是由于服务器发给GGSN的响应数据包,GGSN没有发给SGSN导致。因此定位为ASB核心网GGSN设备的处理存在问题。
6月12日,和西安研发部远程支持同事就此结论做了确认并知会ASB方面
6月13日,ASB方面反馈其更换了GGSN中的某个设备板卡,但尚未提供更详细的信息。经6月13日和6月14日2天在外场和室内的验证,全网大规模的上网后业务无流量问题已得到控制,6月14日的外场验证结果如下:
浦东
RNC
| NodeB
| 384网页打开情况
| 384 ftp下载情况
| H网页打开情况
| H ftp下载情况
| 411(TDR3000)
| 陈行、江龙
| 打开速率较慢(10s)
| 240kbps左右
| 打开网页快
| 平均速率1Mbps
| 406(TDR2000)
| 归泾、西林村
| 打开网页比较快
| 240kbps左右
| 打开网页快
| 平均速率700~800kbps
| 注:H和R4测试2次,保持10分钟,未出现打不开网页,速率为0后回不来的现象
浦西
RNC
| NodeB
| 384网页打开情况
| 384 ftp下载情况
| H网页打开情况
| H ftp下载情况
| 397(TDR3000)
| 漕钦2
| 打开速率较慢
| ftp没速率,能ping通,迅雷能下载,120kbps左右
| 打开速率较慢
| ftp没速率,能ping通,迅雷能下载,960kbps
| 397(TDR3000)
| 二污2
| 打开速率较慢
| 40kbps左右
| 打开速率较慢
| ftp没速率,能ping通,迅雷能下载,400kbps;多次尝试后,ftp可以下载,400kpbs左右
| 390(TDR2000)
| 长世贸2
| 打开网页比较快
| 700kbps左右
| 打开网页比较快
| 700kbps左右
| 注:每个小区测试2次~5次,未出现打不开网页,速率为0后回不来的现象
3.
问题跟进(1)后续需要ASB进一步提供定位和排障的更详细信息,以便其他城市网络参考和预防。
(2)6月14日4:00~18:00,在桂平路王安宾馆室内保持一个业务(RNC390下的室外小区信号),中间没有出现速率为0后不能恢复的问题,但发生过多次网页打不开(同时FTP连接失败)的情况,在1~2分钟后都能恢复正常。 出现如上问题时,仍是DNS域名解析请求和FTP连接请求消息在终端侧看不到响应消息.,因此对核心网问题解决的效果需要持续观察 (3)6月13日在室内保持验证过程中,还发现如下几个其他问题,也建议持续关注: 业务保持1h左右时,可以正常打开网页,但连接FTP服务器失败,多次重新连接均失败,从终端侧wireshark抓包看是终端发出的FTP连接请求TCP消息没有收到响应.但2min后FTP连接突然恢复正常.此现象的原因未知 曾发现中兴数据卡MU350在业务保持过程中切换到2G网络但未弹出提示窗口,此时PS业务会释放,因此用户投诉也有可能因为网络覆盖不足而切换至2G网络导致 (4)前期验证过程中,曾数次出现中兴MU350数据卡HSDPA业务保持过程中,突然发生上行无线链路失败导致速率降为0,重新拨号,或拔出终端重新连接PC并拨号后,网页和FTP仍然连接不上;只有重起PC,再连接终端和拨号,业务才能恢复正常。这个现象在后期的定位过程中没有复现,目前初步分析主要与终端有关。 (5)从6月4日联芯在顾戴路测试的Log可以看出,切换到2G网络时,CN去激活了PDP但没有释放RAB,此后终端再次切回TD网络并再次请求激活PDP,CN下发的RAB指派消息中,RAB ID与之前未释放的RAB相同,参数中除了GTP-TEI与之前不同外,其余参数不变,RNC对此指派消息返回失败,原因为“非法的参数值”,导致终端重新发起的多次PDP激活请求均失败,业务无法恢复。经过和ASB讨论,认为CN的处理有问题,不应该出现只释放PDP上下文而不释放RAB的异常情况。ASB表示要进一步分析,此问题需要继续关注。对于RNC来说,虽然CN的处理过程不正常,但这条RAB指派消息并不违反协议,RNC是可以返回成功,从而规避这种异常情况的,此问题需要RNC研发后续改进。 4.
方法介绍此问题主要是通过析wireshark抓包数据,并结合网元的跟踪信息进行定位的,wireshark抓包的分析方法可参考西安研发部梁剑之前提供的《网页刷新慢及下载速率低问题业务面定位方法总结》。在这里针对本次问题,对wireshark抓包数据的分析方法再做一点简单的补充: 用wireshark抓包的界面如下图所示(以打开网页的正常过程为例,图中终端PDP激活后分配的IP为192.168.1.111,服务器的IP为
218.206.176.4): 首先终端侧回向服务器发送欲打开网址的域名申请解析,服务器解析域名并返回若干个主机地址;此后浏览器一般会向其中第一个主机地址发起TCP请求消息,并交互3次,TCP消息中的标志位分别为[SYN],[SYN,ACK]和[ACK],这个过程即常说的TCP三次握手。此后终端侧发HTTP协议消息(GET)表示获取到主机地址,此后就是通过TCP协议数据包下载网页内容,即图中的[TCP Segment of a reassembled PDU]数据包。 同样的,如果是连接FTP服务器,可以看到封装FTP连接请求和响应消息的TCP数据包,其中可以看到请求连接的FTP服务器地址,用户名和密码等信息;如果是对某个地址进行ping操作,可以看到ICMP协议数据包(ping包)。 通过各检测位置(比如终端侧、CN内各接口)检查以上过程的完整性,可以初步判断是否某个环节存在传输丢包问题。 本次问题是由联芯投诉引发的,开始几天处理时,因联芯人员没有提供详细的问题描述,定位一直没有找到准确的方向,在后续去联芯公司定位,以及联芯测试人员来公司定位的过程中,通过进一步交流,才了解了联芯反馈问题的详细信息。后续对此类问题的处理,开始时多花一些时间了解问题的详情是很有必要的。 对于某一时间突然发生的,全网普遍出现的问题,一般都和网络汇聚节点的网元如RNC、CN、业务平台等有关。现在此类网络问题一般会从RNC日常操作和升版的影响性开始定位,但我们和ASB的沟通尚不够畅通,核心网是否进行过什么操作或版本升级我们一般无法得知,也无法就已解决的核心网问题形成有效的案例总结,也建议后续进一步增强和ASB的信息沟通,比如核心网进行某项操作或修改前,能将此活动的影响性事先知会我们。
扫码关注5G通信官方公众号,免费领取以下5G精品资料
1、回复“LTBPS”免费领取《《中国联通5G终端白皮书》》
2、回复“ZGDX”免费领取《中国电信5G NTN技术白皮书》
3、回复“TXSB”免费领取《通信设备安装工程施工工艺图解》
4、回复“YDSL”免费领取《中国移动算力并网白皮书》
5、回复“5GX3”免费领取《 R16 23501-g60 5G的系统架构1》
6、回复“iot6”免费领取《【8月30号登载】物联网创新技术与产业应用蓝皮书——物联网感知技术及系统应用》
7、回复“6G31”免费领取《基于云网融合的6G关键技术白皮书》
8、回复“IM6G”免费领取《6G典型场景和关键能力白皮书》
| |