配置
pip install scrapy
scrapy
查看用法scrapy startproject getTiobe
新建 scrapy 项目cd getTiobe\spiders
进入该目录scrapy genspider tiobe www.tiobe.com/tiobe-index
生成该链接的爬虫文件
获取
- 获取该元素对应的 css 选择器
- 修改 parse 方法
1
2
3
4
5
6
7
8
9
10def parse(self, response):
for item in response.css('#top20 > tbody > tr'):
yield {
'rank_this-year': item.css('td:nth-child(1)::text').get().strip(),
'rank_last-year': item.css('td:nth-child(2)::text').get().strip(),
'programming_language': item.css('td:nth-child(4)::text').get().strip(),
'ratings': item.css('td:nth-child(5)::text').get().strip(),
'change': item.css('td:nth-child(6)::text').get().strip(),
'date': time.strftime('%Y/%m/%d %H:%M:%S', time.localtime(time.time()))
}
实施
在 spiders 目录下的 settings.py 设置导出 json 格式
1
2FEED_FORMAT = "json"
FEED_URI = "tiobe.json"
scrapy crawl tiobe
- 就可以在项目的目录下找到 tiobe.json 获得的数据了