微博的可用数据集
随着微博的火爆,针对微博的研究和应用也开始火热起来。但现在网上很难找到现成的数据,
笔者整理了一些微博的免费数据集,供大家研究使用。
1.新浪微博公开数据 - http://www.datatang.com/data/11999
目前关于新浪微博的最大数据集。包括 130 多万条微博记录,经过整理处理为 TREC 格
式
2.新浪微博的认证用户列表 - http://www.datatang.com/data/13491
包括新浪微博截至到 2011 年 8 月份的认证用户,从新浪微博 API 获取的,字段较全,包
括用户名,性别,头像,地址,描述,用户 ID,认证类别等
3.新浪微博的详细用户数据 - http://www.datatang.com/data/11819
包括六万条新浪微博用户的数据,具体包括用户 id、姓名、省份、城市、注册时间、数
据采集时间、性别、是否是认证用户、好友数、粉丝数、发表的微博条数、发表的微博等。
4.Twitter 中的用户链接关系 - http://www.datatang.com/data/12039
包括 Twitter 用户之间的链接关系(follow 关系),可以用来做 social network 的研究分析