本文最后更新于2020年6月23日,已超过 3 个月没更新!

目前联合阅读改名息壤中文网,网址改为 xrzww.com ,用户的个人中心屏蔽了很多信息字段,该爬虫只能爬一点点数据了。 --- 2020年6月23日

一、前言

这段时间阅文的霸王合同热度很高,因阅文过分的剥削作者,导致联合阅读、大说网等网站的建立,这段时间我花了很多时间关注了 "月影梧桐" 的联合阅读网站,不得不说,虽然用的是现有的开源系统,但是从项目立项到公测只花十几天,速度真的是非常快了。在这里我得说一声:联合阅读,加油!!!

回归正题,因这几天关注联合阅读,我注册并使用了网站,发现用户的个人中心可以通过 &uid={int} 的方式访问,我灵机一动,发现可以爬点数据来用,就用php做了个非常简单的爬虫,我命名为 "联合阅读用户资料爬虫",文章底部有该爬虫 github、码云地址。

二、 联合阅读用户资料爬虫

使用到的技术

php

实现说明

非常简单的爬虫, 用 file_get_contents 来读入,然后通过 simple_html_dom 来解析,最后导出 excel 到本地。没错就这么简单,希望联合阅读稳定下来以后一定要做好反爬虫。

使用说明

爬虫通过命令行运行(php cli),运行cdm并切换到爬虫目录

爬虫目录
切换到爬虫目录

输入 php index.php(需要用到php运行环境)

运行爬虫
运行爬虫
运行爬虫
爬虫导出的 excel 表目录

GitHub、码云 地址

GitHub: https://github.com/iNuoy/lhyd-user-info-crawler

码云:https://gitee.com/inuoy/lhyd-user-info-crawler