九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
用Python爬蟲(chóng)爬取煎蛋網(wǎng)小姐姐的絕世美顏,我1T的硬盤(pán)都裝滿了

煎蛋網(wǎng)站

很多朋友都反應(yīng)學(xué) python 語(yǔ)言太枯燥,學(xué)不進(jìn)去,其實(shí)學(xué)語(yǔ)言最好的方法是自己用所學(xué)的語(yǔ)言做項(xiàng)目,在項(xiàng)目中學(xué)習(xí)語(yǔ)言的用法。今天給大家?guī)?lái)的項(xiàng)目是用 python3 爬取煎蛋網(wǎng)妹子的圖片。圖片質(zhì)量還不錯(cuò),我放兩張圖片大家感受下。

這個(gè)項(xiàng)目用了 requests + selenium + beautifulsoup 庫(kù)對(duì)網(wǎng)站的圖片進(jìn)行抓取。接下來(lái)我就,給大家一步步解析一下,怎么用 python 爬蟲(chóng)爬取圖片并下載的。

爬取結(jié)果

以上就是爬取的結(jié)果,通過(guò)運(yùn)行 meizi.py 代碼,就可以把圖片保存在我指定的目錄下,如果沒(méi)有此目錄,就用程序自動(dòng)創(chuàng)建目錄,爬取的所有圖片都保存在此目錄下。

程序構(gòu)造

程序主要是由 6 個(gè)函數(shù)組成:

  • get_html() :利用 webdriver 來(lái)請(qǐng)求對(duì)應(yīng)的網(wǎng)站。

  • get_page():解析面跳轉(zhuǎn)地址。

  • mkdir():判斷目錄是否存在,不存在就創(chuàng)建一個(gè)。

  • get_pic():提取圖片鏈接。

  • download():通過(guò)圖片鏈接下載保存。

  • main():程序執(zhí)行的主函數(shù)。

程序思路

  1. 對(duì)目標(biāo)網(wǎng)站鏈接進(jìn)行分析,找出目標(biāo)網(wǎng)站鏈接的規(guī)律。

  2. 從目標(biāo)網(wǎng)站里面提取圖片鏈接。

  3. 將圖片下載并保存在目錄中。

源代碼分析

我們通過(guò)f12調(diào)試頁(yè)面,看到圖片的鏈接,發(fā)現(xiàn)此鏈接并沒(méi)有在源代碼中,我們推測(cè),圖片應(yīng)該是通過(guò) js 加載的,對(duì)于需要 js 才能加載出來(lái)的網(wǎng)站,我們就可以利用 selenium 的自動(dòng)化測(cè)試請(qǐng)求庫(kù)來(lái)進(jìn)行加載。利用 selenium 請(qǐng)求可以模擬真實(shí)瀏覽器訪問(wèn)。

1browser = webdriver.Chrome()2wait = WebDriverWait(browser, 3)

利用 selenium 請(qǐng)求網(wǎng)頁(yè)需要下載 chrome 驅(qū)動(dòng)放在 python 安裝目錄下。

分頁(yè)鏈接分析

1def get_page():2 base_url = 'http://jandan.net/ooxx/' #第一次進(jìn)入的原始地址3 soup = BeautifulSoup(get_html(base_url), 'lxml') #解析原始地址4 current_pages=soup.select('.cp-pagenavi .current-comment-page')[0].get_text()[1:-1] #取出當(dāng)前頁(yè)面字段5 urllist = []6 for page in range(1,int(current_pages)+1):7 real_url=base_url+'page-'+str(page)+'#comments' #拼出分頁(yè)地址8 urllist.append(real_url)9 return urllist #返回所有分頁(yè)地址列表

原始鏈接 base_url = 'http://jandan.net/ooxx/',當(dāng)我們點(diǎn)擊下一頁(yè)時(shí),發(fā)現(xiàn)在原始鏈接的后面加了一段「page-52#comments」。

其中加的數(shù)字,就是表示現(xiàn)在所在的頁(yè)數(shù),通過(guò) BeautifulSoup 庫(kù)對(duì)頁(yè)面進(jìn)行解析,用選擇器提取表示頁(yè)數(shù)的字段「current-comment-page」,加入到原始鏈接中進(jìn)行拼接。

創(chuàng)建目錄

1def get_pic():2 for url in get_page():3 mkdir()4 html=get_html(url)5 soup=BeautifulSoup(html,'lxml')6 allimgs=soup.select('div .text p img')7 allimgs=re.findall('src='(.*?)'',str(allimgs))8 download(allimgs)9 print('下載完畢!')

用 os.path.exists 方法來(lái)個(gè)判斷,如果不存在此目錄就創(chuàng)建一個(gè),如果存在就忽略。

提取圖片

1def get_pic():2 for url in get_page():3 mkdir()4 html=get_html(url)5 soup=BeautifulSoup(html,'lxml')6 allimgs=soup.select('div .text p img')7 allimgs=re.findall('src='(.*?)'',str(allimgs))8 download(allimgs)9 print('下載完畢!')

用 BeautifulSoup 解析源碼,用選擇器循環(huán)提取圖片的鏈接,并調(diào)用 download() 函數(shù)下載圖片直至下載所有圖片。

優(yōu)化改進(jìn)

本次的程序還有一些不足的地方,比如利用 selenium 庫(kù)在爬取的時(shí)候非常的慢,每頁(yè)我還設(shè)置了 3 秒等待時(shí)間,這部分待優(yōu)化。還有所有頁(yè)面的圖片都保存在一個(gè)目錄下,沒(méi)有分開(kāi)保存,這部分也可以優(yōu)化。

這波教程不點(diǎn)個(gè)關(guān)注,說(shuō)不過(guò)去吧?哈哈。這個(gè)網(wǎng)站有很多福利,我只能說(shuō)大家注意身體啊。



本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
Python爬取網(wǎng)易云音樂(lè)輯的圖片、專(zhuān)輯名和專(zhuān)輯出版時(shí)間
Python+PhantomJS+selenium+BeautifulSoup實(shí)現(xiàn)簡(jiǎn)易網(wǎng)絡(luò)爬蟲(chóng)
入門(mén)爬蟲(chóng)?一文搞定!
Python 爬蟲(chóng)實(shí)戰(zhàn):駕馭數(shù)據(jù)洪流,揭秘網(wǎng)頁(yè)深處
[Python爬蟲(chóng)]使用Python爬取動(dòng)態(tài)網(wǎng)頁(yè)-騰訊動(dòng)漫(Selenium)
Python爬蟲(chóng)程序獲取百度搜索結(jié)果的標(biāo)題、描述、url。
更多類(lèi)似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服