[附件已上传]我来问个对码农来说很简单的问题。关于python抓简单网页上的信息

2020-07-27 05:10

fallor2020-07-27 05:10
网上找了个别人写的文件，但是好像有点问题。只能识别邮箱。不过暂时能凑合用。
其实我只要固定识别email":"[email protected]"
"firstName":"Iwan","lastName":"Rxxxuw",这样的信息就可以了。好像都不用正则表达式。
# coding:utf-8

"""
Name : email.py

Author : GS

Contect : [email protected]

Time : 2019/7/8 20:23

Desc:

"""

import re

f = open('test.txt', 'r',encoding='utf-8')#读取文件

strings=f.read()#获取文件内容，到内存

f.close()#读关闭

matches = []

emailRegex = re.compile(r'''(

[a-zA-Z0-9._%+-]+ # username

@ # @ symbol

[a-zA-Z0-9.-]+ # domain name

(\.[a-zA-Z]{2,4}){1,2} # dot-something

)''', re.VERBOSE)

for groups in emailRegex.findall(strings):

matches.append(groups[0])

f1 = open('test1.txt','a',encoding='utf-8')#打开新的文件

list2 = list(set(matches))#去重

# print(list2)

list_nums = len(list2)#列表的数量，长度

#循环写入文件，并换行

for line in range(list_nums):

f1.writelines(list2[line]+"\n")

#关闭流

f1.close()
复制代码
=============================================
附件已经上传，我可以把网页复制下来，然后从固定文件里面把这两个信息分离出来，最好存成个Excel文件就可以了。感谢
=================================================================
诚恳的咨询大家，0基础多久能做到这样？
有一个网站，上面有不定期更新的信息。假设是名字和邮箱吧。或者我希望把固定某一部分的内容抓取下来，然后存成Excel。这样一个python小程序需要学多久才能学会啊？O基础其实是跟日常工作有点关系，其实更新频率很低。大约就是一周更新十几二十条数据吧，但是自己复制感觉好原始，能不能通过学习python来做这样一个小程序呢？
我百度了下，还有伪装什么请求主体之类的，完全看不懂。我不用抓很多数据，就是显示的那几条就行。
或者我自己Ctrl+A Ctrl+C全复制下来，用python把固定部分的信息摘出来也行。
PS：我的编程水平，全0。scratch我把低龄段做完了；python水平请看截图。有可能短期内做到这样么？

提取firstname和邮箱.txt(14.44 KB)
yangkghjh2020-07-27 05:12
十分钟的事吧，不算学编程的时间
chim2020-07-27 05:13
你不如学去学正则表达式然后复制过来提取出来得了
因为一周更新一次你还得手动打开你的小程序
fallor2020-07-27 05:17
回复2#yangkghjh

求教，没有找到合适的例子啊。能不能给我发个例子，我对着改。是不是我自己右键源码，然后都复制下来再用程序筛选就很简单了
zengfu2020-07-27 05:17
这需求非要用python吗，八爪鱼或是火车头采集器几分钟搞定的事情。
又是一个不归路2020-07-27 05:23
火车头即可。其它都是假简单
xvzan2020-07-27 05:24
算上学编程的时间大概一晚上吧
花菊2020-07-27 05:24
mark iOS fly ~
fallor2020-07-27 05:24
回复6#又是一个不归路

火车头是个啥，免费么？我先去百度下
4color2020-07-27 05:27
火车头吧。学什么python
fallor2020-07-27 05:29
回复10#4color

是我百度的那个火车头么？要钱的啊。有没有免费版之类的我就需要很少的信息
猫了个咪的2020-07-27 05:30
腾讯云函数，然后用方糖推送给自己
manhere2020-07-27 05:32
有免费的啊
fqxufo2020-07-27 05:35
得看内容是html里本来就有的还是js请求后渲染的，后面一种情况复杂些
fallor2020-07-27 05:38
回复14#fqxufo

右键源代码里面就有，我自己复制个txt然后程序只从里面找信息也行。好像正则表达式是容易点，但是我不知道怎么放到程序里面去。。。
fqxufo2020-07-27 05:39
回复15#fallor

把具体的网页地址和需求发出来，D版大佬分分钟写好
opensesame2020-07-27 05:42
放在任务里定时执行啊HiPDA·NG
jckimi2020-07-27 05:47
的确，好像就只需要个十几分钟
wmbstx2020-07-27 05:48
如果非要python的话，你需要学习selenium和openpyxl两个模块的用法，后一个几分钟，前一个至少几个小时

感觉没啥必要，就他们推荐的火车头就挺好
屋大维2020-07-27 06:13
数据到文件是最简单的部分了。

你这个需求难不难其实在于请求这个页面的过程。里面设了反爬虫的机制，估计得研究一晚上；如果是很简单的网页，一套写完10分钟吧…… iOS fly ~
tsql2020-07-27 07:18
感觉直接用excel就可以吧。
fallor2020-07-27 07:41
回复16#fqxufo

我明天上班开电脑整理下。手机写不清楚。其实就是里面有九个还是十个邮箱和名字
Hisoka-J2020-07-27 07:42
很难的老哥，我学了2年多了还没学会，一堆奇奇怪怪的问题
fallor2020-07-27 07:50
回复13#manhere

就叫火车头么？为啥百度里全是要钱的啊
fallor2020-07-27 07:52
回复20#屋大维

我可以直接复制数据到txt里，然后再筛选也行。因为里面有些奇奇怪怪的格式符号之类的，我复制的时候要看半天。其实手动也就几分钟，不过总觉得自己这么手动复制有点傻，要是以后数据多了还不得手抽筋啊。
billbuff2020-07-27 07:52
也可以学下vba来抓数据，我觉得还简单些。小尾巴~
fallor2020-07-27 07:53
回复23#Hisoka-J

你这个有点吓人了吧，两年。论坛里不是都是号称分分钟转行，培训班几个月就大厂上班了吗
wsyx879302020-07-27 08:00
直接抓源码然后正则提取，学习成本最低
z161662020-07-27 08:19
从头撸肯定够呛。

比较好的办法是弄个现成的能跑的抓网页的代码，在那个基础上改就行
shiyiii2020-07-27 08:25
回复26#billbuff

有靠谱教程吗
Hisoka-J2020-07-27 08:28
回复27#fallor
吓你干啥，有些人就不适合写代码，例如我从不稀释德味~
billbuff2020-07-27 08:35
回复30#shiyiii
你的需求不就是抓取网页数据然后保存嘛。类似的例子有用vba抓取网页里的股票数据然后再处理的，网上搜一下应该有不少，看懂后再改一下就行了。小尾巴~
linlance20002020-07-27 08:45
小白放弃吧，并不好搞，哪怕是火车头。。。
各种坑。。。
shiyiii2020-07-27 08:48
回复32#billbuff

谢谢了
屋大维2020-07-27 08:59
你倒是上个链接啊，不然大家也不知道怎么帮你 iOS fly ~
fallor2020-07-27 09:05
回复35#屋大维

网站在收藏夹里。我明天发个给大家看看
fallor2020-07-28 08:38
回复28#wsyx87930

我上传了个文件，能帮忙看看么。正则表达式应该能匹配，但是我没看明白怎么让它读文件
zhenyue2020-07-28 09:19
bash 脚本几行的事儿

当然我现在是写不出来了
fallor2020-07-28 07:25
多谢高手。我明天试试。我现在用的那个网上那个好像有点复杂，还会选出来很短的错误邮箱需要筛选。这个看起来更有可更改性，可以改关键字之类的。
wsyx879302020-07-28 07:27
我就是个业余二把刀，不怕献丑了
代码能用就行，不讲究美观
by曲终人散2020-07-28 07:31
你给的文档只截取的部分，正常，js几分钟就搞定了
fallor2020-07-28 09:09
回复42#by曲终人散

js是啥？我就装了个python。看别人代码虽然很少，但是老是用个什么库什么的就好难。
kongbalala2020-07-28 09:50
觉得后羿采集器更容易上手。