QQ空间数据获取及其数据分析.doc

资料分类:计算机信息 上传会员:abc鞠凌青 更新时间:2019-03-28
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:7474
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:本文介绍了一个基于Python及其相关技术的爬虫程序。程序的主要内容在不违反QQ空间规则和法律法规下获取一些QQ用户的QQ空间的个人信息、日志、说说等方面的数据,然后对数据进行整理、存储、展示,最后根据数据分析可能得到一些有价值的内容,例如统计好友发表说说的时间来分析用户的活跃时间,统计发表说说的工具来分析各个工具的使用量和流行趋势,统计故乡、现居地省份来分析该用户的故乡、现居地等等。

程序采用面向对象的方法实现,以Eclipse+Python+Mongodb为开发平台。系统运用Selenium、PhantomJS技术模拟登陆获取cookies,使用requests发送请求得到网页,使用正则表达式、BeautifulSoup解析、提取网页信息,综合使用抓包工具Httpfox、Fiddler和火狐浏览器自带的开发者工具分析QQ空间网页数据源。

本论文依照软件工程的开发流程,对系统的分析、设计和实现进行了阐述。在系统分析阶段,进行了系统概要设计、数据库的设计,设计了系统框架和功能模块。

 

关键词:QQ空间;爬虫;Python;Mongodb数据库

 

目录

摘要

Abstract

1 概述-2

1.1 开发背景-2

1.2 课题简介-2

1.3 项目设计目标-2

1.4 系统功能概述-3

2 系统分析-3

2.1 需求分析-3

2.1.1 功能需求分析-3

2.1.2 非功能需求分析-4

2.2 技术分析-4

2.3 系统运行环境分析-5

3 概要设计-6

3.1系统功能模块设计-6

3.2 数据库设计-6

4 系统详细设计-9

4.1 系统结构-9

4.1.1系统模块说明-9

4.1.1文件组织说明-10

4.2 系统功能模块详细设计-11

5 系统测试与运行-13

5.1 测试方法-13

5.2 运行过程-13

5.3 结果展示-16

5.4 发现的问题-20

结    论-21

参 考 文 献-22

致    谢-23

相关论文资料:
最新评论
上传会员 abc鞠凌青 对本文的描述:本课题的主要内容是使用恰当的抓取策略在不违反QQ空间规则和法律法规下获取一些QQ用户QQ空间的个人信息、日志、说说、好友等方面的信息,然后对数据进行整理、存储、展示,并根......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: