1. 首页
  2. Python

我用一天时间“偷了”网易云音乐50W+用户信息

没有多进程,没有任何黑科技的裸爬虫。练手用,爬虫获取到的数据皆为非敏感用户信息。

思路

在GitHub上已经有网易云音乐的node.js API(GitHub:https://github.com/Binaryify/NeteaseCloudMusicApi)。根据这个库提供的信息,可以很轻易的获取到网易云音乐获取某个用户的粉丝信息接口的参数(接口限制只能获取100个),进而继续获取这100个粉丝的粉丝…简单的几层循环嵌套就能很轻易的拿到十万级到百万级的用户数据(非敏感用户信息)。

 

参数加密流程分析

 

Python Code

common.py (需要用到的函数)

 

demo.py (主程序)

 

数据

我把demo.py放到了服务器上运行,跑到程序结束大概用了24小时左右后看了一下存储的文本有50W左右的用户数据(不含敏感信息),如下。

下面是一个格式化的json,信息的维度从UID到用户注册时间,还是比较丰富的。(非敏感用户信息)

 

人对技术要持有敬畏之心,慎用之。

原创文章,作者:keyboardman,如若转载,请注明出处:http://blog.keyboardman.fun/python/309.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注