需要金币:2000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:18081 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:近年来,随着大数据时代的来临,在互联网这个行业中,最宝贵的资源之一就是数据,尤其在当今B2C时代,数据变得更加宝贵。海量数据蕴含着巨大的研究价值,挖掘数据在互联网行业中具有重要的意义。社交网络不断普及,社交平台覆盖面越来越广,传播速度加快,存在大量直接或间接数据,在各个垂直领域都存在对目标网站的数据进行实时抓取、分析并推送给目标用户的需求。 论文阐述了网站数据抓取(网络爬虫)的原理和组成结构,介绍了基于Python的Scrapy框架的各个组成部分和控制流程,然后以4个典型的高信息价值的网站:财经博客、本地论坛、房产网站、新浪微博作为数据来源进行数据抓取和分析,开发了专门针对这些网站的垂直数据抓取和分析的网络爬虫,将正则表达式匹配到的数据存储到MySql数据库并进行数据分析。本文分析采用正则表达式匹配算法/预定关键词进行用户特征分析,基于文本聚合进行智能分类,使用标签技术智能推送关联不同分类。最后结合最新的移动互联网技术,创新地使用了Android APP客户端技术将用户需要的信息实时推送和呈现到用户手机上。 本系统也可以较方便地拓展到其他各个行业的垂直网站,通过自动数据抓取和分析并推送到目标用户手机上,信息产生最大的价值,具有很好的应用前景。
关键词 Python爬虫;数据分析;用户特征分析;移动应用开发
目录 摘要 Abstract 1 绪论-1 1.1 研究背景及意义-1 1.1.1 研究的背景-1 1.1.2 选题的来源-1 1.1.3 研究的意义-2 1.2 国内外研究现状-2 1.2.1 国内的研究现状-2 1.2.2 国外的研究现状-2 1.3 研究的重点及技术路线-3 1.3.1 本文研究的重点-3 1.3.2 技术路线-3 2 开发工具和相关技术介绍-4 2.1 开发工具简介-4 2.2 Python简介-4 2.3 Scrapy爬虫简介-5 2.4 Django框架-6 2.5 Gson解析-7 2.6 Android开源图标库MPAndroidChart-8 3 环境搭建及安装-10 3.1 基于Python抓取的环境搭建及安装-10 3.2 Android环境搭建及安装-12 4 基于Python的媒体数据抓取-13 4.1 数据抓取(网络爬虫)技术-13 4.2 媒体数据抓取-14 4.3 媒体数据存储-16 4.4 本章小结-19 5 基于Python文本聚类的文本分析-20 5.1 概述-20 5.2 数据来源及分析目标统计-20 5.3 数据相关性分析原理-22 5.4 本章小结-22 6 博客数据智能分类和博主特征分析-23 6.1 概述-23
6.2 智能分类推送之财经博客-23 6.2.1 博主头像及其他属性相关规律-23 6.2.2 不同等级博主和回复率关系规律-23 6.2.3 股票分析之博主偏好-24 6.3 基于用户模型的博主行为特征分析-24 6.3.1 博客博主行为特征模型建立-24 6.3.2 用户行为特征分析实现-25 6.4 基于股票类型博主分析-25 6.4.1 基于关键词的股票流派分类库生成-26 6.4.2 博主博文流派倾向性统计-26 6.5 本章小结-26 7 基于Android客户端系统实现-28 7.1 基于第三方授权登录注册管理模块-28 7.1.1 模块功能-28 7.1.2 界面设计-28 7.1.3 授权实现-30 7.2 面向行为属性的博客博主分析模块-33 7.2.1 模块功能-33 7.2.2 界面设计-33 7.2.3 行为分析实现-34 7.3 基于行为特征的论坛智能分类模块-37 7.3.1 模块功能-37 7.3.2 界面设计-37 7.3.3 论坛智能分类实现-39 7.4 面向楼盘的房产分析模块-40 7.4.1 模块功能-40 7.4.2 界面设计-40 7.4.3 房产分析实现-42 7.5 基于微侦探模式的用户特征分析模块-43 7.5.1 模块功能-43 7.5.2 界面设计-43 7.5.3 用户特征分析实现-45 7.6 面向用户个性偏好的微乐推商品推荐模块-43 7.6.1 模块功能-43 7.6.2 界面设计-43 7.6.3 商品推荐-44 7.7 个人中心模块-45 7.7.1 模块功能-45 7.7.2 界面设计-45 7.7.3 个人中心-46 结论-47 致谢-48 参考文献-49 |