由于项目需要抓取sebug的漏洞库内容,就利用scrapy框架简单写了个抓取sebug的爬虫,并存入数据库,mysql或mongodb,这里以mysql为例。

关于scrapy

Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

Scrach,是抓取的意思,这个Python的爬虫框架叫Scrapy,大概也是这个意思吧,就叫它:小刮刮吧。

不太了解scrapy的童鞋看这里:http://doc.scrapy.org/en/0.24/intro/overview.html

一图胜千言哈:

操作步骤

1,先建立个scrapy项目,会自动生成一个目录结构

Scrapy startproject sebug

2,分析下sebug的漏洞详情页面内容,在item.py定义要抓取的数据结构

3,sebug的一个URL:http://sebug.net/vuldb/vulnerabilities?start=1 遍历start可以列出所有漏洞的列表。基于CrawkSpider定义一个爬虫类,并添加相应的爬虫规则,然后引入HtmlXPathSelector解析网页,提取所需的页面内容,存入item。

爬虫规则分析

(1)URL以/vuldb/ssvid-xxx 为后缀的网页,调用回调函数处理页面内容,提取数据 

Rule(SgmlLinkExtractor(allow=('/vuldb/ssvid-(\d{1,6})$',)),callback='parse_vul')

(2)URL如/vuldb/vulnerabilities?start=xxx 的自动抓取网页链接供爬虫处理

Rule(SgmlLinkExtractor(allow=('/vuldb/vulnerabilities\?start=(\d{1,2})$',)),follow=True)

4,编写pipelines文件,把item存入mysql。

5,在setting.py中添加pipelines:

ITEM_PIPELINES = ['sebug.pipelines.SebugPipeline']

为了防止spider被BAN掉,还可以设置访问延迟和user-agent。

DOWNLOAD_DELAY = 2
RANDOMIZE_DOWNLOAD_DELAY = True
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

6,在mysql中创建对应的表结构。

Create table vulninfo (ssv varchar(10) not null,appdir varchar(20),title varchar(50),content mediumtext,publishdate varchar(50))charset=utf8;

7,运行爬虫

scrapy crawl sebugvul

8,运行截图

代码地址:

https://github.com/Hongxs/scrapy-sebug

源链接

Hacking more

...