備案號(hào):遼ICP備19007957號(hào)-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
學(xué)習(xí)關(guān)于探索性數(shù)據(jù)分析(EDA)的一切,這是一種用于分析和總結(jié)數(shù)據(jù)集的方法。這篇文章為大家講解探索性數(shù)據(jù)分析的目的是什么?美國(guó)課程輔導(dǎo)
一、什么是探索性數(shù)據(jù)分析?
探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)科學(xué)家用于分析和調(diào)查數(shù)據(jù)集并總結(jié)其主要特征的方法,通常使用數(shù)據(jù)可視化方法。它有助于確定如何最好地操作數(shù)據(jù)源以獲得所需的答案,使數(shù)據(jù)科學(xué)家更容易發(fā)現(xiàn)模式、發(fā)現(xiàn)異常、測(cè)試假設(shè)或檢查前提條件。
EDA主要用于查看數(shù)據(jù)在形式建模或假設(shè)測(cè)試任務(wù)之外可以揭示什么,并提供對(duì)數(shù)據(jù)集變量及其之間關(guān)系的更好理解。它還可以幫助確定您正在考慮進(jìn)行數(shù)據(jù)分析的統(tǒng)計(jì)技術(shù)是否合適。探索性數(shù)據(jù)分析最初是由美國(guó)數(shù)學(xué)家約翰·圖基(John Tukey)在1970年代開發(fā)的,至今仍然是數(shù)據(jù)發(fā)現(xiàn)過(guò)程中廣泛使用的方法。
探索性數(shù)據(jù)分析在數(shù)據(jù)科學(xué)中為什么重要?
EDA的主要目的是在做任何假設(shè)之前查看數(shù)據(jù)。它有助于識(shí)別明顯的錯(cuò)誤,更好地理解數(shù)據(jù)中的模式,檢測(cè)異常事件或異常事件,找到變量之間的有趣關(guān)系。
數(shù)據(jù)科學(xué)家可以使用探索性分析來(lái)確保他們產(chǎn)生的結(jié)果對(duì)任何期望的業(yè)務(wù)結(jié)果和目標(biāo)都是有效的。EDA還通過(guò)確認(rèn)他們提出了正確的問(wèn)題,幫助利益相關(guān)者。EDA可以回答有關(guān)標(biāo)準(zhǔn)偏差、分類變量和置信區(qū)間的問(wèn)題。一旦EDA完成并得出見解,其特征就可以用于更復(fù)雜的數(shù)據(jù)分析或建模,包括機(jī)器學(xué)習(xí)。
二、探索性數(shù)據(jù)分析工具
使用EDA工具可以執(zhí)行的特定統(tǒng)計(jì)功能和技術(shù)包括:
聚類和降維技術(shù),用于創(chuàng)建包含許多變量的高維數(shù)據(jù)的圖形顯示。
對(duì)原始數(shù)據(jù)集中每個(gè)字段進(jìn)行單變量可視化,同時(shí)提供摘要統(tǒng)計(jì)信息。
允許您評(píng)估數(shù)據(jù)集中每個(gè)變量與目標(biāo)變量之間關(guān)系的雙變量可視化和摘要統(tǒng)計(jì)信息。
多變量可視化,用于繪制和理解數(shù)據(jù)中不同字段之間的相互作用。
K均值聚類是一種無(wú)監(jiān)督學(xué)習(xí)的聚類方法,根據(jù)每個(gè)組的中心點(diǎn)與數(shù)據(jù)點(diǎn)之間的距離將數(shù)據(jù)點(diǎn)分配到K組,即聚類數(shù)。距離最近的數(shù)據(jù)點(diǎn)將被聚集在同一類別下。K均值聚類通常用于市場(chǎng)分割、模式識(shí)別和圖像壓縮。
預(yù)測(cè)模型,例如線性回歸,使用統(tǒng)計(jì)和數(shù)據(jù)來(lái)預(yù)測(cè)結(jié)果。
三、探索性數(shù)據(jù)分析的類型
有四種主要類型的EDA:
1. 單變量非圖形。這是數(shù)據(jù)分析的最簡(jiǎn)單形式,被分析的數(shù)據(jù)僅包含一個(gè)變量。由于它是單一變量,因此不涉及原因或關(guān)系。單變量分析的主要目的是描述數(shù)據(jù)并找到其中存在的模式。
2. 單變量圖形。非圖形方法不能提供數(shù)據(jù)的完整圖像,因此需要圖形方法。常見的單變量圖形包括:
- 莖葉圖,顯示所有數(shù)據(jù)值和分布形狀。
- 直方圖,每個(gè)柱代表一定值范圍的頻率(計(jì)數(shù))或比例(計(jì)數(shù)/總計(jì)數(shù))。
- 箱線圖,以圖形方式描繪最小、第一四分位、中位數(shù)、第三四分位和最大值的五數(shù)總結(jié)。
3. 多變量非圖形:多變量數(shù)據(jù)來(lái)自多個(gè)變量。多變量非圖形EDA技術(shù)通常通過(guò)列聯(lián)表或統(tǒng)計(jì)學(xué)來(lái)顯示數(shù)據(jù)的兩個(gè)或多個(gè)變量之間的關(guān)系。
4. 多變量圖形:多變量數(shù)據(jù)使用圖形來(lái)顯示兩個(gè)或多個(gè)數(shù)據(jù)集之間的關(guān)系。最常用的圖形是分組的條形圖或柱狀圖,其中每個(gè)組代表一個(gè)變量的一個(gè)水平,每個(gè)組內(nèi)的每個(gè)條形代表另一個(gè)變量的水平。
其他常見的多變量圖形包括:
- 散點(diǎn)圖,用于在水平和垂直軸上繪制數(shù)據(jù)點(diǎn),以顯示一個(gè)變量受另一個(gè)變量影響的程度。
- 多變量圖,是因子和響應(yīng)之間關(guān)系的圖形表示。
- 趨勢(shì)圖,是隨時(shí)間繪制的數(shù)據(jù)的折線圖。
- 泡沫圖,是在二維圖上顯示多個(gè)圓圈(泡沫)的數(shù)據(jù)可視化。
- 熱力圖,是通過(guò)顏色來(lái)描繪數(shù)據(jù)的圖形表示。
四、探索性數(shù)據(jù)分析工具
用于創(chuàng)建EDA的一些常見數(shù)據(jù)科學(xué)工具包括:
1. Python:一種解釋性的、面向?qū)ο蟮木幊陶Z(yǔ)言,具有動(dòng)態(tài)語(yǔ)義。其高級(jí)內(nèi)置數(shù)據(jù)結(jié)構(gòu),與動(dòng)態(tài)類型和動(dòng)態(tài)綁定相結(jié)合,使其非常適合快速應(yīng)用程序開發(fā),以及用作腳本或粘合語(yǔ)言將現(xiàn)有組件連接在一起。Python和EDA可以一起使用,以識(shí)別數(shù)據(jù)集中的缺失值,這對(duì)于決定如何處理機(jī)器學(xué)習(xí)中的缺失值至關(guān)重要。
2. R:一種用于統(tǒng)計(jì)計(jì)算和圖形的自由軟件環(huán)境的開源編程語(yǔ)言,由R基金會(huì)支持。在數(shù)據(jù)科學(xué)中,R語(yǔ)言廣泛用于開發(fā)統(tǒng)計(jì)觀察和數(shù)據(jù)分析。
海馬課堂專業(yè)課程輔導(dǎo)做出以下新改變啦:
?試聽課全面升級(jí),不滿意退50%,
?課程輔導(dǎo)產(chǎn)品升級(jí),贈(zèng)送考前保障呦
?輔導(dǎo)不滿意可以隨心退!
海馬課堂,3500+嚴(yán)選碩博學(xué)霸師資,針對(duì)學(xué)生的薄弱科目和學(xué)校教學(xué)進(jìn)度,匹配背景相符的導(dǎo)師,根據(jù)學(xué)生情況進(jìn)行1V1專屬備課,上課時(shí)間靈活安排,中英雙語(yǔ)詳細(xì)講解課程中的考點(diǎn)、 難點(diǎn)問(wèn)題,并提供多方位的課后輔導(dǎo),輔助學(xué)生掌握全部課程知識(shí),補(bǔ)足短板。
閱讀原文:http://cheshan.cn/news/17453_60.html
版權(quán)作品,未經(jīng)海馬課堂 highmarktutor.com 書面授權(quán),嚴(yán)禁轉(zhuǎn)載,違者將被追究法律責(zé)任。
24h在線客服



備案號(hào):遼ICP備19007957號(hào)-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
hmkt088