MSCBSC 移动通信论坛
搜索
登录注册
网络优化工程师招聘专栏 4G/LTE通信工程师最新职位列表 通信实习生/应届生招聘职位

  • 阅读:7126
  • 回复:13
python使用pyspark大数据技术解决大量数据迭代分组取TOPN的问题
huming
论坛元老
鎵嬫満鍙风爜宸查獙璇


 发短消息    关注Ta 

积分 27659
帖子 260
威望 19169 个
礼品券 18 个
专家指数 16
注册 2007-6-27
专业方向  LTE
回答问题数 0
回答被采纳数 0
回答采纳率 0%
 
发表于 2019-03-08 20:06:14  只看楼主 

探讨的场景:

1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;
2、存在的问题,很难再短时间内对大量的数据计算出需要需要的结果;
需求:取出每个月,每个小区<最大RRC连接数>的最大的三天数据和其对应的其他指标;(迭代分组取TOPN的问题)
即:
第一次分组计算:取出每个小区每天24小时中,哪个时段的<最大RRC连接数>的值最大,并记录下这个时段(即自忙时);
第二次分组计算:以第一次分组结算的结果,作为数据源,取每个月中,每个小区<最大RRC连接数>最大的前三天对应的指标数据;
3、解决方案:
1.png

对于数据量比较大的场景,使用单机关系型数据库实现迭代分组的功能,耗时较长,有兴趣的朋友可以尝试一下,oracle里面的开窗函数可以解决此类场景的问题,但是具体性能如何,没有尝试过。单机mysql貌似没有能够有高性能的解决方案,我自己尝试过好几种写法,都无法避免索引失效导致的全表扫描问题;但无论如何,文件导入数据库的过程必然耗费大量时间。

4、业务流程:

2.png5、代码过程落地:

3.png


4.png

6、源码:

源码.rar

源码.rar


7、视频说明:

链接:[url]https://pan.baidu.com/s/1cer_qm6I2AC_69AgLZuotA&nbsp[/url];

提取码:2aqj 






查看积分策略说明
附件下载列表:
2019-3-8 20:05:50  下载次数: 51
源码.rar (183.82 KB)
2019-3-8 23:10:02  下载次数: 27
源码.rar (183.12 KB)
2019-3-9 13:51:38  下载次数: 36
源码.rar (183.12 KB)
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“LTBPS”免费领取《《中国联通5G终端白皮书》
  • 2、回复“ZGDX”免费领取《中国电信5G NTN技术白皮书
  • 3、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 4、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 5、回复“5GX3”免费领取《 R16 23501-g60 5G的系统架构1
  • 6、回复“iot6”免费领取《【8月30号登载】物联网创新技术与产业应用蓝皮书——物联网感知技术及系统应用
  • 7、回复“6G31”免费领取《基于云网融合的6G关键技术白皮书
  • 8、回复“IM6G”免费领取《6G典型场景和关键能力白皮书
  • 共获得 1 次点评 我要点评

     
    [充值威望,立即自动到帐] [VIP贵宾权限+威望套餐] 另有大量优惠赠送活动,请光临充值中心
    充值拥有大量的威望和最高的下载权限,下载站内资料无忧
    bikerboy
    论坛元老
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    纪念勋章·十周年  
    积分 20363
    帖子 548
    威望 201761 个
    礼品券 115 个
    专家指数 -1338
    注册 2008-11-11
    专业方向  无线
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-09 10:29:51 
    技术问题,回答得专家指数,快速升级

    支持原创

    对本帖内容的看法? 我要点评

     
    [立即成为VIP会员,百万通信专业资料立即下载,支付宝、微信付款,简单、快速!]
    bikerboy
    论坛元老
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    纪念勋章·十周年  
    积分 20363
    帖子 548
    威望 201761 个
    礼品券 115 个
    专家指数 -1338
    注册 2008-11-11
    专业方向  无线
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-09 10:30:17 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    点赞!

    对本帖内容的看法? 我要点评

     
    最新通信职位:广东通信人才网 | 北京通信人才网 | 上海通信人才网 | 南京通信人才网 | 西安通信人才网 | 重庆通信人才网 | 中国通信人才网
    大灰熊
    新手上路
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 -176
    帖子 91
    威望 9522 个
    礼品券 8 个
    专家指数 -631
    注册 2012-8-27
    专业方向  WCDMA
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-09 11:05:11 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    源码没法下载啊

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    shujunjie
    银牌会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 3266
    帖子 857
    威望 19152 个
    礼品券 205 个
    专家指数 -1019
    注册 2010-1-14
    专业方向  网优
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-09 23:00:13 

    太牛逼了;谢谢

    对本帖内容的看法? 我要点评

     
    最新通信职位:广东通信人才网 | 北京通信人才网 | 上海通信人才网 | 南京通信人才网 | 西安通信人才网 | 重庆通信人才网 | 中国通信人才网
    JOHNY
    VIP会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    纪念勋章·七周年   财富勋章·神秘富豪   纪念勋章·八周年   纪念勋章·九周年   纪念勋章·十周年  
    积分 4170
    帖子 840
    威望 320282 个
    礼品券 54 个
    专家指数 -30
    注册 2010-1-18
    专业方向  无线网络优化
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-10 13:27:00 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    牛逼不是一般般的

    对本帖内容的看法? 我要点评

     
    [2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]
    horizon2
    VIP会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 28229
    帖子 1102
    威望 19312 个
    礼品券 66 个
    专家指数 -399
    注册 2007-5-5
    专业方向  无线
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-11 11:03:27 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    请问这个软件是您编写的吗?

    我也在学python,想向您学习一下方法和方向,请帮忙加一下微信号,谢谢!

    我的微信号是:horizon2

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    horizon668
    钻石会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    公益·慈善勋章   财富勋章·神秘富豪   财富勋章·钻石王老五  
    积分 14020
    帖子 729
    威望 217316 个
    礼品券 60 个
    专家指数 -565
    注册 2009-1-9
    专业方向  无线网优
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-11 20:20:38 


    QUOTE:
    原帖由 horizon2 于 2019-3-11 11:03:27 发表

    请问这个软件是您编写的吗?我也在学python,想向您学习一下方法和方向,请帮忙加一下微信号,谢谢!我的微信号是:horizon2

    用pandas貌似也简单


    data结构如下:

    date_id cell a b c

    0 2019-01-01 cella 39 17 786

    1 2019-01-02 cella 66 569 882

    2 2019-01-03 cella 16 850 960

    3 2019-01-01 cellb 40 427 742

    4 2019-01-02 cellb 9 578 78

    5 2019-01-03 cellb 14 620 831

    6 2019-01-01 cellc 67 333 831

    7 2019-01-02 cellc 68 289 92

    8 2019-01-03 cellc 59 508 264


    取每个cell的a列top2时对应行的数据:


    df = pd.read_csv('data.csv')

    df['num'] = df['a'].groupby(df['cell']).rank(ascending=0,method='first')

    df[df.num <=2]


    共获得 1 次点评 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    菜单栏
    银牌会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    纪念勋章·七周年   纪念勋章·九周年  
    积分 4612
    帖子 846
    威望 3842 个
    礼品券 169 个
    专家指数 382
    注册 2012-3-9
    专业方向  LTE/优化分析/VBA
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-14 19:07:23 


    QUOTE:
    原帖由 horizon668 于 2019-3-11 20:20:38 发表
    用pandas貌似也简单data结构如下:date_idcellabc02019-01-01cella391778612019-01-02cella6656988222019-01-03cella1685096032019-01-01cellb4042774242019-01-02cellb95787852 ...

    pandas可以搞定

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    huming
    论坛元老
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 27659
    帖子 260
    威望 19169 个
    礼品券 18 个
    专家指数 16
    注册 2007-6-27
    专业方向  LTE
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-14 22:12:30  只看楼主 


    QUOTE:
    原帖由 FridayCai 于 2019-3-14 19:07:23 发表


    pandas可以搞定

    是的

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    shujunjie
    银牌会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 3266
    帖子 857
    威望 19152 个
    礼品券 205 个
    专家指数 -1019
    注册 2010-1-14
    专业方向  网优
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-15 14:32:44 

    会编程的不搞网优,搞网优的都没有会编程的 ,你懂这个,你就是高手中的高手.........

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    xiaoduwudi
    初级会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 365
    帖子 73
    威望 282 个
    礼品券 8 个
    专家指数 0
    注册 2014-2-26
    专业方向  移动通信
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-03-21 14:23:06 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    利用新起的编程语言,厉害!

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    相思雨312
    初级会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 325
    帖子 65
    威望 73889 个
    礼品券 0 个
    专家指数 0
    注册 2014-7-10
    专业方向  通信
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2019-04-22 17:35:14 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

     厉害,学习一下

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料
    愤怒的菊花
    高级会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 1255
    帖子 238
    威望 66713 个
    礼品券 0 个
    专家指数 -36
    注册 2007-7-23
    专业方向  11
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2021-04-23 10:16:00 


    QUOTE:
    原帖由 huming000 于 2019-3-8 20:06:14 发表
    探讨的场景:1、数据源:取出大量指标或其他需要计算统计的原始数据文件(txt、csv等类型),几十或几百个甚至更多,当前这个例子为小时级的小区指标文件;2、存在的问题,很难再短时间内对大量的数据计算出需要 ...

    牛人啊,这玩应也能整出来;

    对本帖内容的看法? 我要点评

     
    热点: 通信招聘职位 | 网络优化全集 | WCDMA精品 | TD-SCDMA学习资料 | EVDO | MGW媒体网关资料

    快速回复主题    
    标题
    内容
     上传资料请点左侧【添加附件】

    (勾选中文件为要删除文件)


    当前时区 GMT+8, 现在时间是 2024-04-24 20:10:07
    渝ICP备11001752号  Copyright @ 2006-2016 mscbsc.com  本站统一服务邮箱:mscbsc@163.com

    Processed in 0.786365 second(s), 51 queries , Gzip enabled
    TOP
    清除 Cookies - 联系我们 - 移动通信网 - 移动通信论坛 - 通信招聘网 - Archiver