众所周知,python是写爬虫的利器,今天作者用python写一个小爬虫爬下一个段子网站的众多段子。
目标段子网站为“http://ishuo.cn/”,我们先分析其下段子的所在子页的url特点,可以轻易发现发现为“http://ishuo.cn/subject/”+数字,
经过测试发现,该网站的反扒机制薄弱,可以轻易地爬遍其所有站点。
现在利用python的re及urllib库将其所有段子扒下
import sys import re import urllib #返回html格式 def gethtml(url): page=urllib.urlopen(url) html=page.read() return html def getmessage(html): p=re.compile(r'<div class="content">(.*)</div><script type="text/javascript">') #对段子内容进行正则匹配 message=re.findall(p,html)#返回正则匹配的结果 return message fp=open('data.txt','w+') #实际范围比1~7000要大,因为时间原因这里暂定为1~7000 for i in range(1,7000): i=str(i) web=gethtml('http://ishuo.cn/subject/'+i) #该网站段子的链接特点 message=getmessage(web) message2=''.join(message)#将结果转换为字符串类型 #message2=message2.decode('utf8','strict') message2=str(message2) print message2 fp.writelines(message2+'\n') #将爬下的众多段子写入文件中 fp.close()
data.txt收录了其中爬下段子的结果:
收录的部分结果如下:
【韩寒】明明下流的人,凑一起就叫上流社会? 日子过不下去的时候,我就得向钱看!只有当日子过滋润了,我才能够向前看! 某公司一群基层员工年底聚会,没有加薪没有升职连年终奖金都被取消了,打算借酒浇愁一回。有人带了瓶酒来,大家一看那酒的名字,眼泪就都扑簌簌地往下掉开了,还有人顿时抱头痛哭了一场。那酒的名字叫老白干。 【段子】群里听到的段子,太乐了:路上听到一大叔情绪激动地打电话:对!国足进3个球了!没错!是男足!没错没错!是和韩国比赛!什么?对方?对对对!对方也是男足! 一女士向闺蜜诉说,他结婚原因:他向我求婚,我说跟我结婚,没门!我还没发昏到那程度!后来,他就用石头把我碰昏了!我就傻了,死心塌地跟他结婚了!闺蜜说:你不告他,反而跟他结婚,真是发昏了!他用什么石头碰的你呀?女士说:他用钻石! 【冷笑话】一男子提着一个皮包,挤上了公共汽车,车上人拥挤,一小偷用刀片割其皮包,窃其财物。一勇敢女子见状偷偷的提醒身边的男士,但由于紧张,说道:“先生,有人要割你的包皮”…… 【段子】外交部工作:周一表示不满;周二抗议;周三强烈谴责;周四严正交涉;周五深表遗憾。周六、周日休息。 经考证孔子是经济学家,有其语为证: 三十而立--三十两银子只能站着听课; 四十不惑--四十两就能一直问到没疑问为止; 五十知天命--五十两就能知道明天考试命题; 六十耳顺--六十两老师会说你喜欢听的话,七十而从心所欲-七十两你来不来、学习的怎么样都随便了。 班车上,坐在身边的一位美女同事睡着了,竟然打起呼噜,觉得这样很丢脸,就用手轻推她,只见她喃喃的说:不要了老公,明天吧。 【太尖锐】蒙古国是个纯内陆国,却有个海军部。中国老大哥很好奇地问:”你们连海都没有,搞什么海军部!?”蒙古人回答道:”你们不也有文化部么?!” 一女程序员征婚:SELECT * FROM 男人 WHERE 未婚=true and 有房=true and 有车=true and 条件 in (‘大方',\'绅士',\'会做家务\',\'帅气\',\'最好还能带孩子') 一资深的程序员回复:(0 row(s) affected) 【小笑话】孔子,孟子,老子三人同时在猪圈睡了一夜之后,发现母猪怀孕了,经DNA检验证明,肯定不是孔子干的,也不是孟子干的,请问,那是谁干的"font-size: large">总结以上就是本文关于Python爬虫实例爬取网站搞笑段子的全部内容,希望对大家有所帮助,感兴趣的朋友可以继续参阅本站:Python入门之三角函数全解【收藏】、python好玩的项目—色情图片识别代码分享、Python实现一个简单的验证码程序等,有什么问题可以随时留言,小编会及时回复大家的。
感谢朋友们对本站的支持!
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]