python使用pyspark大数据技术解决大量数据迭代分组取TOPN的问题 - MSCBSC 移动通信论坛

huming

论坛元老

发短消息

关注Ta

积分 27659
帖子 260
威望 19169 个
礼品券 18 个
专家指数 16
注册 2007-6-27
专业方向 LTE
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#1

大中小

使用道具

发表于 2019-03-08 20:06:14 只看楼主

探讨的场景：

1、数据源：取出大量指标或其他需要计算统计的原始数据文件（txt、csv等类型），几十或几百个甚至更多，当前这个例子为小时级的小区指标文件；
2、存在的问题，很难再短时间内对大量的数据计算出需要需要的结果；
需求：取出每个月，每个小区<最大RRC连接数>的最大的三天数据和其对应的其他指标；（迭代分组取TOPN的问题）
即：
第一次分组计算：取出每个小区每天24小时中，哪个时段的<最大RRC连接数>的值最大，并记录下这个时段（即自忙时）；
第二次分组计算：以第一次分组结算的结果，作为数据源，取每个月中，每个小区<最大RRC连接数>最大的前三天对应的指标数据；
3、解决方案：

对于数据量比较大的场景，使用单机关系型数据库实现迭代分组的功能，耗时较长，有兴趣的朋友可以尝试一下，oracle里面的开窗函数可以解决此类场景的问题，但是具体性能如何，没有尝试过。单机mysql貌似没有能够有高性能的解决方案，我自己尝试过好几种写法，都无法避免索引失效导致的全表扫描问题；但无论如何，文件导入数据库的过程必然耗费大量时间。

4、业务流程：

5、代码过程落地：

6、源码：

源码.rar

7、视频说明：

链接：[url]https://pan.baidu.com/s/1cer_qm6I2AC_69AgLZuotA&nbsp[/url];

提取码：2aqj

附件下载列表：

2019-3-8 20:05:50 下载次数: 51

源码.rar (183.82 KB)

2019-3-8 23:10:02 下载次数: 27

源码.rar (183.12 KB)

2019-3-9 13:51:38 下载次数: 36

源码.rar (183.12 KB)

扫码关注5G通信官方公众号,免费领取以下5G精品资料

1、回复“LTBPS”免费领取《《中国联通5G终端白皮书》》

2、回复“ZGDX”免费领取《中国电信5G NTN技术白皮书》

3、回复“TXSB”免费领取《通信设备安装工程施工工艺图解》

4、回复“YDSL”免费领取《中国移动算力并网白皮书》

5、回复“5GX3”免费领取《 R16 23501-g60 5G的系统架构1》

6、回复“iot6”免费领取《【8月30号登载】物联网创新技术与产业应用蓝皮书——物联网感知技术及系统应用》

7、回复“6G31”免费领取《基于云网融合的6G关键技术白皮书》

8、回复“IM6G”免费领取《6G典型场景和关键能力白皮书》

共获得 1 次点评我要点评

bikerboy 威望 +30 个
· 点赞！详细.. 回复发表与：2019-3-9 10:30:17

作者的更多帖子

〓〓〓〓求助NSN的一个牢记是什么〓〓〓〓 2012-05-10

[充值威望，立即自动到帐] [VIP贵宾权限+威望套餐] 另有大量优惠赠送活动，请光临充值中心
充值拥有大量的威望和最高的下载权限，下载站内资料无忧

bikerboy

论坛元老

发短消息

关注Ta

积分 20363
帖子 548
威望 201761 个
礼品券 115 个
专家指数 -1338
注册 2008-11-11
专业方向无线
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#2

大中小

使用道具

发表于 2019-03-09 10:29:51

支持原创

对本帖内容的看法？我要点评

[立即成为VIP会员，百万通信专业资料立即下载，支付宝、微信付款，简单、快速！]

bikerboy

论坛元老

发短消息

关注Ta

积分 20363
帖子 548
威望 201761 个
礼品券 115 个
专家指数 -1338
注册 2008-11-11
专业方向无线
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#3

大中小

使用道具

发表于 2019-03-09 10:30:17

QUOTE:

原帖由 huming000 于 2019-3-8 20:06:14 发表

探讨的场景：1、数据源：取出大量指标或其他需要计算统计的原始数据文件（txt、csv等类型），几十或几百个甚至更多，当前这个例子为小时级的小区指标文件；2、存在的问题，很难再短时间内对大量的数据计算出需要 ...

点赞！

对本帖内容的看法？我要点评

大灰熊

新手上路

发短消息

关注Ta

积分 -176
帖子 91
威望 9522 个
礼品券 8 个
专家指数 -631
注册 2012-8-27
专业方向 WCDMA
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#4

大中小

使用道具

发表于 2019-03-09 11:05:11

QUOTE:

原帖由 huming000 于 2019-3-8 20:06:14 发表

探讨的场景：1、数据源：取出大量指标或其他需要计算统计的原始数据文件（txt、csv等类型），几十或几百个甚至更多，当前这个例子为小时级的小区指标文件；2、存在的问题，很难再短时间内对大量的数据计算出需要 ...

源码没法下载啊

对本帖内容的看法？我要点评

shujunjie

银牌会员

发短消息

关注Ta

积分 3266
帖子 857
威望 19152 个
礼品券 205 个
专家指数 -1019
注册 2010-1-14
专业方向网优
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#5

大中小

使用道具

发表于 2019-03-09 23:00:13

太牛逼了；谢谢

对本帖内容的看法？我要点评

JOHNY

VIP会员

发短消息

关注Ta

积分 4170
帖子 840
威望 320282 个
礼品券 54 个
专家指数 -30
注册 2010-1-18
专业方向无线网络优化
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#6

大中小

使用道具

发表于 2019-03-10 13:27:00

QUOTE:

原帖由 huming000 于 2019-3-8 20:06:14 发表

探讨的场景：1、数据源：取出大量指标或其他需要计算统计的原始数据文件（txt、csv等类型），几十或几百个甚至更多，当前这个例子为小时级的小区指标文件；2、存在的问题，很难再短时间内对大量的数据计算出需要 ...

牛逼不是一般般的

对本帖内容的看法？我要点评

[2分钟拥有VIP权限和充足威望，可下载站内任何资料] [快速找到一份高薪的通信行业职位]

horizon2

VIP会员

发短消息

关注Ta

积分 28229
帖子 1102
威望 19312 个
礼品券 66 个
专家指数 -399
注册 2007-5-5
专业方向无线
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#7

大中小

使用道具

发表于 2019-03-11 11:03:27

QUOTE:

原帖由 huming000 于 2019-3-8 20:06:14 发表

探讨的场景：1、数据源：取出大量指标或其他需要计算统计的原始数据文件（txt、csv等类型），几十或几百个甚至更多，当前这个例子为小时级的小区指标文件；2、存在的问题，很难再短时间内对大量的数据计算出需要 ...

请问这个软件是您编写的吗？

我也在学python，想向您学习一下方法和方向，请帮忙加一下微信号，谢谢!

我的微信号是：horizon2

对本帖内容的看法？我要点评

horizon668

钻石会员

发短消息

关注Ta

积分 14020
帖子 729
威望 217316 个
礼品券 60 个
专家指数 -565
注册 2009-1-9
专业方向无线网优
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#8

大中小

使用道具

发表于 2019-03-11 20:20:38

QUOTE:

原帖由 horizon2 于 2019-3-11 11:03:27 发表

请问这个软件是您编写的吗？我也在学python，想向您学习一下方法和方向，请帮忙加一下微信号，谢谢!我的微信号是：horizon2

用pandas貌似也简单

data结构如下：

date_id cell a b c

0 2019-01-01 cella 39 17 786

1 2019-01-02 cella 66 569 882

2 2019-01-03 cella 16 850 960

3 2019-01-01 cellb 40 427 742

4 2019-01-02 cellb 9 578 78

5 2019-01-03 cellb 14 620 831

6 2019-01-01 cellc 67 333 831

7 2019-01-02 cellc 68 289 92

8 2019-01-03 cellc 59 508 264

取每个cell的a列top2时对应行的数据：

df = pd.read_csv('data.csv')

df['num'] = df['a'].groupby(df['cell']).rank(ascending=0,method='first')

df[df.num <=2]

共获得 1 次点评我要点评

FridayCai 威望 +10 个
· pandas可以搞定详细.. 回复发表与：2019-3-14 19:07:23

菜单栏

银牌会员

发短消息

关注Ta

积分 4612
帖子 846
威望 3842 个
礼品券 169 个
专家指数 382
注册 2012-3-9
专业方向 LTE/优化分析/VBA
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#9

大中小

使用道具

发表于 2019-03-14 19:07:23

QUOTE:

原帖由 horizon668 于 2019-3-11 20:20:38 发表

用pandas貌似也简单data结构如下：date_idcellabc02019-01-01cella391778612019-01-02cella6656988222019-01-03cella1685096032019-01-01cellb4042774242019-01-02cellb95787852 ...

pandas可以搞定

对本帖内容的看法？我要点评

huming

论坛元老

发短消息

关注Ta

积分 27659
帖子 260
威望 19169 个
礼品券 18 个
专家指数 16
注册 2007-6-27
专业方向 LTE
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#10

大中小

使用道具

发表于 2019-03-14 22:12:30 只看楼主

QUOTE:

原帖由 FridayCai 于 2019-3-14 19:07:23 发表

pandas可以搞定

是的

对本帖内容的看法？我要点评

shujunjie

银牌会员

发短消息

关注Ta

积分 3266
帖子 857
威望 19152 个
礼品券 205 个
专家指数 -1019
注册 2010-1-14
专业方向网优
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#11

大中小

使用道具

发表于 2019-03-15 14:32:44

会编程的不搞网优，搞网优的都没有会编程的，你懂这个，你就是高手中的高手.........

对本帖内容的看法？我要点评

xiaoduwudi

初级会员

发短消息

关注Ta

积分 365
帖子 73
威望 282 个
礼品券 8 个
专家指数 0
注册 2014-2-26
专业方向移动通信
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#12

大中小

使用道具

发表于 2019-03-21 14:23:06

QUOTE:

原帖由 huming000 于 2019-3-8 20:06:14 发表

探讨的场景：1、数据源：取出大量指标或其他需要计算统计的原始数据文件（txt、csv等类型），几十或几百个甚至更多，当前这个例子为小时级的小区指标文件；2、存在的问题，很难再短时间内对大量的数据计算出需要 ...

利用新起的编程语言，厉害！

对本帖内容的看法？我要点评

相思雨312

初级会员

发短消息

关注Ta

积分 325
帖子 65
威望 73889 个
礼品券 0 个
专家指数 0
注册 2014-7-10
专业方向通信
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#13

大中小

使用道具

发表于 2019-04-22 17:35:14

QUOTE:

原帖由 huming000 于 2019-3-8 20:06:14 发表

探讨的场景：1、数据源：取出大量指标或其他需要计算统计的原始数据文件（txt、csv等类型），几十或几百个甚至更多，当前这个例子为小时级的小区指标文件；2、存在的问题，很难再短时间内对大量的数据计算出需要 ...

厉害，学习一下

对本帖内容的看法？我要点评

愤怒的菊花

高级会员

发短消息

关注Ta

积分 1255
帖子 238
威望 66713 个
礼品券 0 个
专家指数 -36
注册 2007-7-23
专业方向 11
回答问题数 0
回答被采纳数 0
回答采纳率 0%

#14

大中小

使用道具

发表于 2021-04-23 10:16:00

QUOTE:

原帖由 huming000 于 2019-3-8 20:06:14 发表

探讨的场景：1、数据源：取出大量指标或其他需要计算统计的原始数据文件（txt、csv等类型），几十或几百个甚至更多，当前这个例子为小时级的小区指标文件；2、存在的问题，很难再短时间内对大量的数据计算出需要 ...

牛人啊，这玩应也能整出来；

对本帖内容的看法？我要点评

快速回复主题
标题
内容	上传资料请点左侧【添加附件】 (勾选中文件为要删除文件) 源码.rar 源码.rar 源码.rar


	您即将访问其它网站关闭您即将访问的地址是其它网站的内容，MSCBSC将不再对其安全性和可靠性负责，请自行判断是否继续前往继续访问取消访问，关闭

共获得 1 次点评 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

共获得 1 次点评 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

对本帖内容的看法？ 我要点评

您即将访问其它网站关闭

共获得 1 次点评我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评

共获得 1 次点评我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评

对本帖内容的看法？我要点评