logo资料库

如何用 Python 爬取社交网络.docx

第1页 / 共1页
资料共1页,全文预览结束
如何用 Python 爬取社交网络(如微博)? 链接: https://www.zhihu.com/question/40766600 首先考虑这个问题的解决方案以及与爬虫的关系吧。一个比较可行的方案是, 抓取所有人的关注列表及被关注列表,然后通过一个有向图连接起来,找两个人 的最短关联关系,实际上就是就图中两个节点的最短路径。考虑到我希望得到的 是仰望型的关系图,即从一个较有名气的人的关注列表出发,能否在他的关注链 上游找到自己(举例:我关注轮子哥很正常,但是轮子哥没有关注我,不过他的 关注链上有我,我希望借此找到这个链上的所有人)。所以,这个问题还可以得 到进一步的简化:只是抓取每个人的关注列表而忽略粉丝列表,存储下这个人 (Node)及与关注列表每个人的对应关系(Relationship)。 那么,对应的实现应该如何解决呢?首先要知道知乎的用户很大,即使刚才 的方案干掉了所以没有任何人关注的用户,但是有至少一个人关注的用户依旧很 多,所以不建议自己维护这样一个很大的图,Graph Database 是一个不错的选择, 这篇博客中,我将使用 neo4j 来存储节点及其关系。而对应的用户及抓取列表, 将使用 Mongo 存储。 既然找到了解决方案,那么上手开始吧。关于 neo4j 的安装及基本使用, 以及 cypher( neo4j 使用的操作语法)的入门介绍,这里将一笔略过,如果你 没有 neo4j 的使用经验,请读者自行去 neo4j 的官网阅读学习。 现在,我们将任务进一步细化: each 1. 从知乎的某个用户 x 开始,得到他的关注列表 2. 将 x 与其关注列表中的每个人 each 建立关系: x --FOLLOWING--> 3. 将关注列表还没有抓取关注列表的用户放入 Mongo 中 4. 如果 Mongo 中还有未抓取关注列表的人,重复 1 然后,对于需要查询某两个人之间的最短路径,只需要在 neo4j 的 web 终 端里使用对应的 cypher 语句即可。 分析部分至此结束,这里并不打算一步一步写出代码,代码可以参考博客中 的内容。。 最后,在这里贴两张图片吧,分别对应着轮子哥的关注链上我的位置和四万 姐的关注列表上我的位置:
分享到:
收藏