python图像爬虫包
最近在做一些图像分类的任务时,为了扩充我们的数据集,需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了"htmlcode">
pip install icrawler
下面附上我爬虫的代码:
from icrawler.builtin import BaiduImageCrawler from icrawler.builtin import BingImageCrawler from icrawler.builtin import GoogleImageCrawler #需要爬虫的关键字 list_word = ['抽烟 行人','吸烟 行人','接电话 行人','打电话 行人', '玩手机 行人'] for word in list_word: #bing爬虫 #保存路径 bing_storage = {'root_dir': 'bing\\'+word} #从上到下依次是解析器线程数,下载线程数,还有上面设置的保存路径 bing_crawler = BingImageCrawler(parser_threads=2, downloader_threads=4, storage=bing_storage) #开始爬虫,关键字+图片数量 bing_crawler.crawl(keyword=word, max_num=2000) #百度爬虫 # baidu_storage = {'root_dir': 'baidu\\' + word} # baidu_crawler = BaiduImageCrawler(parser_threads=2, # downloader_threads=4, # storage=baidu_storage) # baidu_crawler.crawl(keyword=word, # max_num=2000) # google爬虫 # google_storage = {'root_dir': '‘google\\' + word} # google_crawler = GoogleImageCrawler(parser_threads=4, # downloader_threads=4, # storage=google_storage) # google_crawler.crawl(keyword=word, # max_num=2000)
这个爬虫库能够实现多线程,多搜索引擎(百度、必应、谷歌)的爬虫,当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫,百度和谷歌的代码也在下面,只不过被我屏蔽掉了,当然也可以三个同时全开!这样的python爬虫库用起来简直不要太爽。
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
白云城资源网 Copyright www.dyhadc.com
暂无“Python大批量搜索引擎图像爬虫工具详解”评论...
更新日志
2024年12月23日
2024年12月23日
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]