sponsored links

ppython

爬取裁判文书网(一个很神奇的网站)

December 12
爬取裁判文书网(一个很神奇的网站)
昨天晚上爬取文书网,需要具体的文书内容,我就觉得去看看,发现这个文书网就是不简单,速度是真的慢,而且请求多次就返回502,刷新一次就卡的一批,而且他加密参数还不少,难度也相当的大...... JS加密的两个地方,首先他每个点击的连接都加密,简直丧心病狂,一般都是请求的AJAX进行加密,这个简直了. 然后我就调试一下这个加密的函数,发现需要5,6个加密的JS文件,我就全都拷贝到本地,发现还是不能运行,就放弃了,决定到网上寻找答案,发现大家爬取裁判文书网都是爬取标题,简介,时间等简要的内容,没有爬取