需要金币:1000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:7474 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:本文介绍了一个基于Python及其相关技术的爬虫程序。程序的主要内容在不违反QQ空间规则和法律法规下获取一些QQ用户的QQ空间的个人信息、日志、说说等方面的数据,然后对数据进行整理、存储、展示,最后根据数据分析可能得到一些有价值的内容,例如统计好友发表说说的时间来分析用户的活跃时间,统计发表说说的工具来分析各个工具的使用量和流行趋势,统计故乡、现居地省份来分析该用户的故乡、现居地等等。 程序采用面向对象的方法实现,以Eclipse+Python+Mongodb为开发平台。系统运用Selenium、PhantomJS技术模拟登陆获取cookies,使用requests发送请求得到网页,使用正则表达式、BeautifulSoup解析、提取网页信息,综合使用抓包工具Httpfox、Fiddler和火狐浏览器自带的开发者工具分析QQ空间网页数据源。 本论文依照软件工程的开发流程,对系统的分析、设计和实现进行了阐述。在系统分析阶段,进行了系统概要设计、数据库的设计,设计了系统框架和功能模块。
关键词:QQ空间;爬虫;Python;Mongodb数据库
目录 摘要 Abstract 1 概述-2 1.1 开发背景-2 1.2 课题简介-2 1.3 项目设计目标-2 1.4 系统功能概述-3 2 系统分析-3 2.1 需求分析-3 2.1.1 功能需求分析-3 2.1.2 非功能需求分析-4 2.2 技术分析-4 2.3 系统运行环境分析-5 3 概要设计-6 3.1系统功能模块设计-6 3.2 数据库设计-6 4 系统详细设计-9 4.1 系统结构-9 4.1.1系统模块说明-9 4.1.1文件组织说明-10 4.2 系统功能模块详细设计-11 5 系统测试与运行-13 5.1 测试方法-13 5.2 运行过程-13 5.3 结果展示-16 5.4 发现的问题-20 结 论-21 参 考 文 献-22 致 谢-23 |