爬虫大佬进来看看呀

2020-03-20 10:12

vistorli2020-03-20 10:12
最近在做老师布置的无厘头任务，要我调查科研杂志里用了什么试剂。调查的网站是https://pubs.acs.org/toc/jacsat/141/51（以这个为例），我要做的就是点进去每篇文章，下载每篇文章的supporting info（下载这个不用登陆）
一篇篇下载手已经抽筋。所以想通过爬虫实现。恶补了几天爬虫知识后，以我粗鄙的爬虫技术，终于发现，这个网站是反爬的，我加了UA还是能识别我是robot。
我想请教大神帮我看看这个网站的反爬有多厉害，菜鸟级别的我还有必要花时间继续学爬虫来爬它吗，骗过他那不难？
oldkingdog2020-03-20 10:17
不难啊
vistorli2020-03-20 10:19
回复2#oldkingdog

他有部分不让爬，源码里爬下来是<meta name="robots" content="noarchive"/>，这咋弄，，我加了UA和Cookie了
鱼儿的小池塘2020-03-20 10:20
回复1#vistorli
拿ahk写个自动操作也可以啊，简单多了iOS fly ~
vistorli2020-03-20 10:25
回复4#鱼儿的小池塘

啊，这是要打开我的新世界吗，第一次听，，2天能学会吗，百度看了一下，，，听说有点难
忙碌忙碌2020-03-20 10:27
用selenium试试
vistorli2020-03-20 10:33
回复6#忙碌忙碌

有道理，试试先