九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
Python數(shù)據(jù)分析常用函數(shù)及參數(shù)詳解,可以留著以備不時之需

利用Python進行數(shù)據(jù)分析最核心的庫就是Pandas,可以說,掌握了Pandas庫,Python數(shù)據(jù)分析就屬于中階水平了。

在《一次簡單、完整的全流程數(shù)據(jù)分析,讓我們不再害怕Python 》一文中我們介紹了Python進行數(shù)據(jù)分析全流程的幾個主要函數(shù)。但由于實際中的分析需求可能比較復(fù)雜,就要求對數(shù)據(jù)做更加復(fù)雜的處理。

所以,我們有必要提前準(zhǔn)備一些常用的函數(shù),這些函數(shù)不用全部會,知道有這些函數(shù),并做到在我們要實現(xiàn)數(shù)據(jù)處理邏輯時,知道有什么函數(shù)可用就夠了。

為了便于學(xué)習(xí)這些函數(shù),本文按照各自類型進行了分門別類。

幾點注意事項


在介紹具體的函數(shù)時,說幾點注意事項:

  • 初學(xué)時最好習(xí)慣于寫參數(shù)名稱;
  • 根據(jù)函數(shù)的作用去理解它可以作用于哪種對象,又會返回何種對象;
  • 函數(shù)(也就是對象的方法)需要有括號,查看對象屬性沒有括號。
  • axis=i,表示i維進行變化,而其他維度不變。例如,當(dāng)i=0時,就是說行維度值進行變化,其它維度不變,這就表明是按列進行處理。

常用函數(shù)


為了便于我們掌握,我們結(jié)合數(shù)據(jù)分析的流程和其內(nèi)部函數(shù)的作用,將其分為以下幾類,具體見下圖。

(1)對象創(chuàng)建

pandas中有兩種重要對象:Series和DataFrame。前者類似一維數(shù)組,后者可看成Excel中的表格數(shù)據(jù)。后文將用df表示任意的DataFrame對象,用s表示任意的Series對象,用pd表示pandas庫。

df.duplicated(subset=['col'],keep=first) #各行是否是重復(fù)行,返回Series,keep參數(shù)為first,last,False,first意思是第一次出現(xiàn)的重復(fù)值保留。df.drop_duplicates(subset=['col'],keep=first,ignore_index=True) #根據(jù)列刪除重復(fù)行,返回刪除后的結(jié)果數(shù)據(jù)df.fillna(value=,inplace=) #用value值填充na,返回填充后的結(jié)果數(shù)據(jù)df.dropna(axis=0,how='any',inplace=False) #axis=0即行,how有‘a(chǎn)ny’和‘a(chǎn)ll’兩個選項,all表示所有值都為NA才刪除df.drop(labels=0,columns=['col1'],axis=0,) #刪除指定列,也可以刪除行,axis作用不大 df.rename(index={'row1':'A'},columns={'col1':'A1'}) df.replace(to_replace=np.nan,value=0,inplace=False) #替換df值,前后值可以用字典表,{1:‘A', '2':'B'}

(2)數(shù)據(jù)讀取

數(shù)據(jù)讀取重點掌握以下三種。

pd.read_table(filename, sep='\t', header=0, index_col=None,……)#要讀取的文件名稱是必須輸入的參數(shù),其余為可選項,header為要選取哪一行作為列名稱,默認(rèn)第一行pd.read_csv(filename, sep=',', header=0, index_col=None,……) #與上面的函數(shù)用法大致相同pd.read_excel(filename,sheet_name=0, header=0,index_col=None,……) #從Excel文件讀入數(shù)據(jù),增加了sheet_name參數(shù)的選項,代表要讀取第幾個工作表的數(shù)據(jù)

(3)數(shù)據(jù)描述

在讀完數(shù)據(jù)后,我們要先查看數(shù)據(jù)的整體情況。

df.info() #查看數(shù)據(jù)框基本信息,包含多少行和列,每列什么類型等等df.descirbe() #查看數(shù)據(jù)的整體描述,統(tǒng)計的是數(shù)值型列df.head(n) #查看前ndf.tail(n) #查看后ndf.count(axis=0) #非空值個數(shù),返回Series,0為按列統(tǒng)計,1為按行統(tǒng)計df.isna()#返回每個元素是否是缺失值的bool數(shù)據(jù)框df.isnull()#返回每個元素是否是空值的bool數(shù)據(jù)框df.columns#返回Index類型的列的集合,因為列名稱是屬性,所以沒有括號df.dtypes#每一列的數(shù)據(jù)類型df.index#行索引名,返回Index類型的索引的集合df.shape#返回(行數(shù),列數(shù))格式的元組df.values#值的二維數(shù)組,返回numpy.ndarray對象s.nunique()#返回唯一值個數(shù)s.unique()#唯一值數(shù)據(jù),返回array格式

(3)數(shù)據(jù)篩選

數(shù)據(jù)篩選的本質(zhì)無外乎就是根據(jù)行和列的特性來選擇滿足我們需求的數(shù)據(jù),掌握這些基本的篩選方法就可以組合復(fù)雜的篩選方法。

df['col1']#選擇某一列,返回的是Series類型df[['col1']]#選擇某一列,返回的是DataFrame類型df[df['col1'] > 1] #選取滿足條件的行,df['col']>1返回的還是一個數(shù)據(jù)框,只是每個值為booldf.query('col1 > 1') #這種方法也可選取滿足條件的行df.loc[m:n] #按照行索引選取m~n行,注意是包含ndf.loc[m:n,'col1':'coln']#注意loc函數(shù)的參數(shù)都是索引名df.iloc[m:n] #獲取從m~n-1行,iloc函數(shù)代表的是位置,即參數(shù)都是數(shù)字,代表第幾行第幾列df.select_dtypes(include=None, exclude=None) #按照數(shù)據(jù)類型選擇列df.isin(values=) #數(shù)據(jù)框中數(shù)據(jù)是否存在于values中,返回的是DataFrame類型

(4)數(shù)據(jù)清洗

數(shù)據(jù)清洗主要是一些重復(fù)值、缺失值和索引名稱等問題的處理。

df.duplicated(subset=['col'],keep=first) #各行是否是重復(fù)行,返回Series,keep參數(shù)為first,last,False,first意思是第一次出現(xiàn)的重復(fù)值保留。df.drop_duplicates(subset=['col'],keep=first,ignore_index=True) #根據(jù)列刪除重復(fù)行,返回刪除后的結(jié)果數(shù)據(jù)df.fillna(value=,inplace=) #用value值填充na,返回填充后的結(jié)果數(shù)據(jù)df.dropna(axis=0,how='any',inplace=False)#axis=0即行,how有‘a(chǎn)ny’和‘a(chǎn)ll’兩個選項,all表示所有值都為NA才刪除df.drop(labels=0,columns=['col1'],axis=0,) #刪除指定列,也可以刪除行,axis作用不大 df.rename(index={'row1':'A'},columns={'col1':'A1'}) #重命名行索引和列名稱df.replace(to_replace=np.nan,value=0,inplace=False) #替換df值,前后值可以用字典表示,如{'a':‘A', 'b':'B'}df.columns=pd.MultiIndex.from_tuples(indx) #構(gòu)建層次化索引

(5)數(shù)據(jù)處理

數(shù)據(jù)處理的范疇很廣,包含數(shù)據(jù)的統(tǒng)計匯總,也包含數(shù)據(jù)的轉(zhuǎn)換,做這一塊時腦中要同時進行抽象處理,便于查看邏輯是否有錯。

pd.merge(df1, df2, on='col1',left_on='col1',right_on='col2',how='inner',sort=False) #how有outer,left,right選項,默認(rèn)inner,suffixes表示在相同的列名添加后綴pd.concat([df1,df2,df3], axis=0,join='outer',ignore_index=False,keys=['x','y','z'])#按行或是按列拼接多個數(shù)據(jù)框或Series,axis=0為按列拼接,即增加在行下面,key添加層次化索引df1.append(df2,ignore_index=False)#可為df也可為s,按列添加,即添加行,ignor_index=False意思是都按照原先的行索引值df.stack(level=-1,dropna=True) #列旋轉(zhuǎn)成行,也就是列名變?yōu)樾兴饕?,原索引變成多層索引?level表示選取哪個索引進行轉(zhuǎn)換,-1表示最內(nèi)層的索引,0表示第一層索引df.unstack(level=-1,fill_value=None) #行轉(zhuǎn)列,默認(rèn)從最內(nèi)層索引開始df.pivot_table(index=['col1','col2'],values=['col3'],columns=['col4'],aggfunc='count')#類似于Excel中的數(shù)據(jù)透視表,index表示選擇行,column是選擇列,values是進行函數(shù)計算的列df.groupby(['col1'])#根據(jù)列對數(shù)據(jù)框進行分組,返回分組對象df.groupby(['col1'])['col2'].count()#表示根據(jù)col1列進行分組,統(tǒng)計col2列的行數(shù)。這種方式是最為常用的統(tǒng)計匯總方法df.agg({'col1':'count','col2':'sum'},axis=0) #agg是聚合的別名,表示對不同列用不同函數(shù)進行統(tǒng)計,返回Series對象df.sort_values(by='col1',axis=0,ascending=True, inplace=False, na_position={'last','first'})#按照某一列對數(shù)據(jù)框進行排序df.apply(lambda x :x.max()-x.min(),axis=0)#默認(rèn)參數(shù)axis=0,表示按列對數(shù)據(jù)進行操作df.applymap(lambda x : 1 if x>0 else 0)#對數(shù)據(jù)框每一個數(shù)據(jù)進行操作,返回DataFrame格式s.map(lambda x : 1 if x>0 else 0)#對Series的每一個數(shù)據(jù)進行,不能對DataFrame操作s.value_counts()#對Series中數(shù)據(jù)進行分類匯總pd.cut(s,bins=[-np.inf,0,np.inf],labels=list('abc')) #bins為左開右閉區(qū)間,將Series數(shù)據(jù)進行分類df.where(df<0,0) #與numpy的where函數(shù)有不同,后面的值表示不滿足條件的賦值為0,滿足的話就不變pd.date_range(start='2020-01-01',end='2020-02-01',periods=,freq='D')#periods為期數(shù),注意不要沖突,freq為類型,種類有很多,默認(rèn)是天,M為月尾,MS為月初

結(jié)語


函數(shù)還有很多,但都不太常見了。我們平時學(xué)習(xí)的時候可以養(yǎng)成記筆記的好習(xí)慣,即把出現(xiàn)的函數(shù)記下來,分門別類地匯總在一起,等記不清時就可以直接在匯總中查找了,閑暇時也可以瞅一瞅,這樣次數(shù)多了后就會慢慢全部記住了。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
一起學(xué)習(xí)Python常用模塊——pandas
pandas實用手冊
快樂學(xué)習(xí)Pandas入門篇:Pandas基礎(chǔ)
Pandas 中文API文檔
首次公開,用了三年的 pandas 速查表
總結(jié)了這67個pandas函數(shù),完美解決數(shù)據(jù)處理,拿來即用!
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服