Scrapy+Selenium+Phantomjs的Demo
前段时间学习了用Python写爬虫,使用Scrapy框架爬取京东的商品信息。商品详情页的价格是由js生成的,而通过Scrapy直接爬取的源文件中无价格信息。
通过Selenium、Phantomjs便能实现。下面先介绍Phantomjs。
Phantomjs
作为一个基于webkit内核的没有UI界面的浏览器,大家不必被这个名字吓到,以为是很复杂的技术,其实只是一个浏览器啦。而其中的一些点击、翻页等操作则由代码实现。Phantomjs提供javascript API接口,即我们可以通过js与webkit内核交互。
只需通过Phantomjs test.js的命令就能成功访问页面,并将js生成后的内容下载下来。
// a phantomjs example
// test...
Hello World
今天创建了自己的博客chaycao.github.io,写下这第一篇博文,取其名为“Hello World”。
“Hello World”,中文译为“你好 世界”。世界上的第一个程序就是Hello World,由Brian Kernighan创作。HelloWorld程序也常用于让新手去接触一种编程语言。
上图是我在2012年大一学习C语言时,仿照着课本编写的第一个程序。从注释上我们可以看到“20121009001”的字样,创建日期为2012年10月9号。九月份刚入学那会笔记本还没买。十一放假后才从家里拿着新笔记本回学校。
那天的一切也都历历在目。下午第二讲的C语言下课后,跃跃欲试地想用VC++6.0编写自己的第一个程序。吃过饭后回到寝室。在7点10分左右,成功安装...
共计 42 篇文章,6 页。