爬虫大佬进来看看呀

  • v
    vistorli
    最近在做老师布置的无厘头任务,要我调查科研杂志里用了什么试剂。调查的网站是https://pubs.acs.org/toc/jacsat/141/51(以这个为例),我要做的就是点进去每篇文章,下载每篇文章的supporting info(下载这个不用登陆)
    一篇篇下载手已经抽筋。所以想通过爬虫实现。恶补了几天爬虫知识后,以我粗鄙的爬虫技术,终于发现,这个网站是反爬的,我加了UA还是能识别我是robot。
    我想请教大神帮我看看这个网站的反爬有多厉害,菜鸟级别的我还有必要花时间继续学爬虫来爬它吗,骗过他那不难?
  • o
    oldkingdog
    不难啊
  • v
    vistorli
    回复2#oldkingdog

    他有部分不让爬,源码里爬下来是<meta name="robots" content="noarchive"/>,这咋弄,,我加了UA和Cookie了
  • 鱼儿的小池塘
    回复1#vistorli
    拿ahk写个自动操作也可以啊,简单多了iOS fly ~
  • v
    vistorli
    回复4#鱼儿的小池塘


    啊,这是要打开我的新世界吗,第一次听,,2天能学会吗,百度看了一下,,,听说有点难
  • 忙碌忙碌
    用selenium试试
  • v
    vistorli
    回复6#忙碌忙碌


    有道理,试试先