GitHub - HorsesElectricStick/SchoolTeacherSpider: 这是一个用于爬取中国大学网站数据的爬虫框架

爬虫通过读取表格来工作，表格内容一般如下:

学院名	网址	教师	姓名	职称	学系名	研究领域
财务管理与会计研究院	https://ifas.xmu.edu.cn/szdw/hjx.htm https://ifas.xmu.edu.cn/szdw/hjx/1.htm	//div[@class="course-detail"]/a	./../h4//text()	./../p[last()]//text()	//div[@class="container"]/h1//text()

学院名: 此列一般直接填学院名，可以在末尾以"=>"连接学系名，例如: 数理学院=>数学系。如果之后的学系名一栏不为空，则此处的学系名之后将被覆盖。
网址: 可以有多个网址，以换行符隔开，爬虫会执行一次去重操作。如必要可以使用列表生成式生成多个网址，例如: ['https://www.med.cam.ac.uk/staff/division/infectious-diseases/?fwp_paged={0}'.format(i) for i in range(2,11)]
教师:

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
.gitignore		.gitignore
__init__.py		__init__.py
config.ini		config.ini
mysql_ddl.txt		mysql_ddl.txt
readme.md		readme.md
requirements.txt		requirements.txt
utils.py		utils.py

Provide feedback