需要金币:2000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:11392 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:本文将系统介绍网络爬虫的分类,对网络爬虫进行了逻辑分析和结构分析。在linux平台进行爬虫编写,利用python语言编写一个主题式爬虫,对招聘网站进行职位爬取并简要分析爬虫在大数据发展的作用。 为了爬取51job网站的招聘信息,编写一段主题式爬虫。先根据网页URL将网页信息进行分类解析,再对可能用到的关键词进行定义,然后再编写爬虫运用到了IF语句、TRY语句实现逻辑循环。同时也运用到了导入数据库语句,为爬取到的招聘信息及时导入数据库做保障。利用数据转存语句将爬取的职位信息及时、准确、安全的存入已建成的数据库中。用户用select语句对数据进行调用,再对数据进行接下来的数据清洗和数据分析。
关键词:大数据;网络爬虫;Python
目录 摘要 Abstract 1 绪论 1.1 研究背景-1 1.2 研究意义-1 1.3 国内外研究现状-2 1.3.1 网络爬虫相关技术的国内外研究现状-2 1.3.2 大数据技术应用研究现状-2 2 网络爬虫以及技术支持-3 2.1 大数据技术-3 2.2 网络爬虫-5 2.2.1 网络爬虫简介-5 2.2.2 通用爬虫的工作原理与用途-6 2.2.4 主题爬虫的用途和原理-8 2.3 Hadoop技术-10 2.3.1 Hadoop系统的基本架构-10 2.3.2 Hadoop分布式文件系统-11 2.3.3 Hadoop分布式计算系统-12 3 Scrapy爬虫实现与应用-13 3.1 使用Scrapy框架建立简单爬虫-13 3.1.1 Scrapy框架-13 3.1.2 选择网站-13 3.1.3 定义数据-13 3.1.4 撰写爬虫-13 3.1.5 运行爬虫-14 3.1.6 Review数据-14 3.2 实现Scrapy框架下的爬虫-15 3.3 基于Hadoop的主题式爬虫设计-17 4 主题式爬虫应用—51job网站爬取-18 4.1 爬虫构思-18 4.2 编写爬虫-18 4.2.1 设置关键字-18 4.2.2 编写爬虫主体-19 4.2.3 爬虫支持-22 4.3 运行结果-22 结论-25 致谢-26 参考文献-27 附录-28 |