- 未加请求头时,会返回404,故添加header。
- 分析网页
http://muchong.com/f-430-1
为第一页,http://muchong.com/f-430-2
为第二页 - 使用utf-8对网页内容解码时,会出现乱码。查看网页源代码,
charset="gbk"
,故改为gbk编码。 - 通过查看元素得到标题,时间的标签和class。
- 写入markdown文件,方便打开查看。
1 | import requests |
结果展示:
打开markdown文件后,结果如下:
标题 | 链接 | 日期 |
---|---|---|
东北石油大学软件工程专业接收校内外调剂考生。 | http://muchong.com/t-14087831-1 | 2020-02-24 14:35:59 |
广西师范大学计算机与信息工程学院 陈明教授课题组招收计算机与自动化方向调剂生3名 | http://muchong.com/t-14091609-1 | 2020-02-24 14:35:01 |
【学硕】福建农林大学计算机科学与技术专业杨长才课题组招收调剂生4名 | http://muchong.com/t-14091329-1 | 2020-02-24 14:34:21 |
题目:计算机好的安全、数学、计算机等相关专业工科男(学硕)调剂信息 | http://muchong.com/t-14091711-1 | 2020-02-24 14:33:37 |
接受计算机相关专业调剂! | http://muchong.com/t-12213688-1 | 2020-02-24 13:50:25 |
2020接受考研调剂,计算机 | http://muchong.com/t-14085143-1 | 2020-02-24 13:39:40 |
济南大学智能计算与科学计算课题组拟接收计算机专业 (学术型) 硕士生调剂-预宣传 | http://muchong.com/t-14077175-1 | 2020-02-24 13:35:59 |