该系统主要由两部分所构成,一是爬虫部分爬去了豆瓣图书信息,二是网站部分主要使用django框架设计开发网站。
系统目的是为通过浏览该网站,得到评分较高评论人数较多的图书。
这是豆瓣图书信息的爬虫,技术上主要是采用scrapy框架进行爬去。分析网站页面信息用的是xpath语法。并且增加了随机UA避免被反爬机制所发现。
这部分是该项目的核心部分,也就是网站。使用的是django web框架。API设计采用的是目前比较流行的web api设计方式,RESTful设计架构。部署方面使用Docker容器技术,实现一次构建,随处运行。