分布式爬虫系统架构设计
修订历史
版本号 | 作者 | 内容提要 | 发布日期 |
0.1.0 | 文明 | 设计文档 | 2020年12月31日 10:55:28 |
1 前情概述
1.1 编写目的
结合目前爬虫实际情况,结合分布式微服务概念,推出的一个新的,分布式爬虫系统架构设计。
1:提高采集效率
2:提供采集成功率
3:为整站采集,平台选品打基础
在分布式系统中,所有的服务器,框架,接口等,可以理解成动态资源。
由于系统的复杂性,编写该文档方便项目经理、开发人员、测试人员更好了解系统的技术点和技术架构。
1.2 程序框架介绍
名称 | 版本号 | 描述 |
PHP | 7.2 | 编程语言 |
swoole | 4.4.5 | 协程扩展 |
python | 3.8 | 编程语言 |
easyswoole | 3.3.2 | PHP协程框架 |
flask | 1.1.2 | 微服务应用框架 |
SCRAPY | 2.3 | 爬虫框架 |
1.3 服务器介绍
名称 | 是否支持K8S分布式扩展伸缩 | 系统 | 描述 |
国内版服务器 | 是 | centos7 | 4CPU , 内存8GB硬盘 100GB |
elasticsearch服务器 | 是 | centos7 | 4CPU , 内存8GB硬盘 100GB |
redis | 阿里云 | ||
polardb | 阿里云 |
2 系统架构
2.1 优化设计图
2.2 系统垂平架构图
2.3 业务流程图
关键字:爬虫