博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬取知乎网页图片
阅读量:3897 次
发布时间:2019-05-23

本文共 1087 字,大约阅读时间需要 3 分钟。

#使用了selenium和urllib两种方法from selenium import webdriverimport time, reimport urllib.request as reqfrom urllib.parse import quoteimport stringdriver = webdriver.Firefox()driver.maximize_window()driver.get('https://www.zhihu.com/question/29134042')# i = 0# while i < 10:#     driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")#     time.sleep(2)##     try:#         driver.find_element_by_css_selector('button.QuestionMainAction').click()#         print("page" + str(i))#         i +=1#         time.sleep(1)#     except:#         breakresult_raw = driver.page_sourcereg = r' src="(https://[^\s]*?\.jpg)'imgre = re.compile(reg)  # 转换成一个正则对象# def get_html(url):#     page = req.urlopen(url)#     html_a = page.read()#     return html_a.decode('utf-8')# imglist = imgre.findall(get_html('https://www.zhihu.com/question/29134042'))  # 表示在整个网页过滤出所有图片的地址,放在imgList中imglist = imgre.findall(result_raw)n = 0while n < len(imglist):    i = time.time()    path = r"img\\{}.jpg".format(i)    url = imglist[n]    req.urlretrieve(quote(url,safe=string.printable), path)    n = n + 1

转载地址:http://ceben.baihongyu.com/

你可能感兴趣的文章
数据库SQL语言语法总结3---查询语句
查看>>
数据库SQL语言语法总结4---数据更新
查看>>
数据库SQL语言语法总结5---视图
查看>>
数据库SQL语言语法总结6---数据控制
查看>>
数据库SQL语言语法总结1---表操作
查看>>
Numpy中stack(),hstack(),vstack()函数详解
查看>>
基于3D卷积神经网络的行为识别
查看>>
K.function用法
查看>>
keras -- multi-loss
查看>>
pytorch数据增强的具体细节
查看>>
pytorch专题 --- load模型
查看>>
VSCode编写C++代码从零开始
查看>>
ESC ubuntu16.04 ipv6配置
查看>>
visual studio 创建 C/C++静态库和动态库
查看>>
2021-05-26
查看>>
ubuntu中配置环境变量
查看>>
ubuntu安装weditor
查看>>
Ubuntu安装NVIDIA显卡驱动
查看>>
vue-cli中实现dolist
查看>>
sass的安装
查看>>