[附件已上传]我来问个对码农来说很简单的问题。关于python抓简单网页上的信息
- fallor网上找了个别人写的文件,但是好像有点问题。只能识别邮箱。不过暂时能凑合用。
其实我只要固定识别email":"[email protected]"
"firstName":"Iwan","lastName":"Rxxxuw",这样的信息就可以了。好像都不用正则表达式。复制代码- # coding:utf-8
- """
- Name : email.py
- Author : GS
- Contect : [email protected]
- Time : 2019/7/8 20:23
- Desc:
- """
- import re
- f = open('test.txt', 'r',encoding='utf-8')#读取文件
- strings=f.read()#获取文件内容,到内存
- f.close()#读关闭
- matches = []
- emailRegex = re.compile(r'''(
- [a-zA-Z0-9._%+-]+ # username
- @ # @ symbol
- [a-zA-Z0-9.-]+ # domain name
- (\.[a-zA-Z]{2,4}){1,2} # dot-something
- )''', re.VERBOSE)
- for groups in emailRegex.findall(strings):
- matches.append(groups[0])
- f1 = open('test1.txt','a',encoding='utf-8')#打开新的文件
- list2 = list(set(matches))#去重
- # print(list2)
- list_nums = len(list2)#列表的数量,长度
- #循环写入文件,并换行
- for line in range(list_nums):
- f1.writelines(list2[line]+"\n")
- #关闭流
- f1.close()
=============================================
附件已经上传,我可以把网页复制下来,然后从固定文件里面把这两个信息分离出来,最好存成个Excel文件就可以了。感谢
=================================================================
诚恳的咨询大家,0基础多久能做到这样?
有一个网站,上面有不定期更新的信息。假设是名字和邮箱吧。或者我希望把固定某一部分的内容抓取下来,然后存成Excel。这样一个python小程序需要学多久才能学会啊?O基础其实是跟日常工作有点关系,其实更新频率很低。大约就是一周更新十几二十条数据吧,但是自己复制感觉好原始,能不能通过学习python来做这样一个小程序呢?
我百度了下,还有伪装什么请求主体之类的,完全看不懂。我不用抓很多数据,就是显示的那几条就行。
或者我自己Ctrl+A Ctrl+C全复制下来,用python把固定部分的信息摘出来也行。
PS:我的编程水平,全0。scratch我把低龄段做完了;python水平请看截图。有可能短期内做到这样么?提取firstname和邮箱.txt(14.44 KB)
- # coding:utf-8
- yangkghjh十分钟的事吧,不算学编程的时间
- chim你不如学去学正则表达式然后复制过来提取出来得了
因为一周更新一次 你还得手动打开你的小程序 - fallor
- zengfu这需求非要用python吗,八爪鱼或是火车头采集器几分钟搞定的事情。
- 又是一个不归路火车头即可。其它都是假简单
- xvzan算上学编程的时间大概一晚上吧
- 花菊mark iOS fly ~
- fallor
- 4color火车头吧。学什么python
- fallor
- 猫了个咪的腾讯云函数,然后用方糖推送给自己
- manhere有免费的啊
- fqxufo得看内容是html里本来就有的还是js请求后渲染的,后面一种情况复杂些
- fallor
- fqxufo
- opensesame放在任务里定时执行啊HiPDA·NG
- jckimi的确,好像就只需要个十几分钟
- wmbstx如果非要python的话,你需要学习selenium和openpyxl两个模块的用法,后一个几分钟,前一个至少几个小时
感觉没啥必要,就他们推荐的火车头就挺好 - 屋大维数据到文件是最简单的部分了。
你这个需求难不难其实在于请求这个页面的过程。里面设了反爬虫的机制,估计得研究一晚上;如果是很简单的网页,一套写完10分钟吧…… iOS fly ~ - tsql感觉直接用excel就可以吧。
- fallor
- Hisoka-J很难的老哥,我学了2年多了还没学会,一堆奇奇怪怪的问题
- fallor
- fallor回复20#屋大维
我可以直接复制数据到txt里,然后再筛选也行。因为里面有些奇奇怪怪的格式符号之类的,我复制的时候要看半天。其实手动也就几分钟,不过总觉得自己这么手动复制有点傻,要是以后数据多了还不得手抽筋啊。 - billbuff也可以学下vba来抓数据,我觉得还简单些。小尾巴~
- fallor
- wsyx87930直接抓源码然后正则提取,学习成本最低
- z16166从头撸肯定够呛。
比较好的办法是弄个现成的能跑的抓网页的代码,在那个基础上改就行 - shiyiii
- Hisoka-J回复27#fallor
吓你干啥,有些人就不适合写代码,例如我 从不稀释德味~ - linlance2000小白放弃吧,并不好搞,哪怕是火车头。。。
各种坑。。。 - shiyiii
- 屋大维你倒是上个链接啊,不然大家也不知道怎么帮你 iOS fly ~
- fallor
- fallor
- zhenyuebash 脚本几行的事儿
当然我现在是写不出来了 - fallor多谢高手。我明天试试。我现在用的那个网上那个好像有点复杂,还会选出来很短的错误邮箱需要筛选。这个看起来更有可更改性,可以改关键字之类的。
- wsyx87930我就是个业余二把刀,不怕献丑了
代码能用就行,不讲究美观 - by曲终人散你给的文档只截取的部分,正常,js几分钟就搞定了
- fallor
- kongbalala觉得后羿采集器更容易上手。