備案號:遼ICP備19007957號-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號創(chuàng)業(yè)大廈A座18層1801室
學(xué)習(xí)關(guān)于探索性數(shù)據(jù)分析(EDA)的一切,這是一種用于分析和總結(jié)數(shù)據(jù)集的方法。這篇文章為大家講解探索性數(shù)據(jù)分析的目的是什么?美國課程輔導(dǎo)
一、什么是探索性數(shù)據(jù)分析?
探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)科學(xué)家用于分析和調(diào)查數(shù)據(jù)集并總結(jié)其主要特征的方法,通常使用數(shù)據(jù)可視化方法。它有助于確定如何最好地操作數(shù)據(jù)源以獲得所需的答案,使數(shù)據(jù)科學(xué)家更容易發(fā)現(xiàn)模式、發(fā)現(xiàn)異常、測試假設(shè)或檢查前提條件。
EDA主要用于查看數(shù)據(jù)在形式建模或假設(shè)測試任務(wù)之外可以揭示什么,并提供對數(shù)據(jù)集變量及其之間關(guān)系的更好理解。它還可以幫助確定您正在考慮進(jìn)行數(shù)據(jù)分析的統(tǒng)計技術(shù)是否合適。探索性數(shù)據(jù)分析最初是由美國數(shù)學(xué)家約翰·圖基(John Tukey)在1970年代開發(fā)的,至今仍然是數(shù)據(jù)發(fā)現(xiàn)過程中廣泛使用的方法。
探索性數(shù)據(jù)分析在數(shù)據(jù)科學(xué)中為什么重要?
EDA的主要目的是在做任何假設(shè)之前查看數(shù)據(jù)。它有助于識別明顯的錯誤,更好地理解數(shù)據(jù)中的模式,檢測異常事件或異常事件,找到變量之間的有趣關(guān)系。
數(shù)據(jù)科學(xué)家可以使用探索性分析來確保他們產(chǎn)生的結(jié)果對任何期望的業(yè)務(wù)結(jié)果和目標(biāo)都是有效的。EDA還通過確認(rèn)他們提出了正確的問題,幫助利益相關(guān)者。EDA可以回答有關(guān)標(biāo)準(zhǔn)偏差、分類變量和置信區(qū)間的問題。一旦EDA完成并得出見解,其特征就可以用于更復(fù)雜的數(shù)據(jù)分析或建模,包括機(jī)器學(xué)習(xí)。
二、探索性數(shù)據(jù)分析工具
使用EDA工具可以執(zhí)行的特定統(tǒng)計功能和技術(shù)包括:
聚類和降維技術(shù),用于創(chuàng)建包含許多變量的高維數(shù)據(jù)的圖形顯示。
對原始數(shù)據(jù)集中每個字段進(jìn)行單變量可視化,同時提供摘要統(tǒng)計信息。
允許您評估數(shù)據(jù)集中每個變量與目標(biāo)變量之間關(guān)系的雙變量可視化和摘要統(tǒng)計信息。
多變量可視化,用于繪制和理解數(shù)據(jù)中不同字段之間的相互作用。
K均值聚類是一種無監(jiān)督學(xué)習(xí)的聚類方法,根據(jù)每個組的中心點(diǎn)與數(shù)據(jù)點(diǎn)之間的距離將數(shù)據(jù)點(diǎn)分配到K組,即聚類數(shù)。距離最近的數(shù)據(jù)點(diǎn)將被聚集在同一類別下。K均值聚類通常用于市場分割、模式識別和圖像壓縮。
預(yù)測模型,例如線性回歸,使用統(tǒng)計和數(shù)據(jù)來預(yù)測結(jié)果。
三、探索性數(shù)據(jù)分析的類型
有四種主要類型的EDA:
1. 單變量非圖形。這是數(shù)據(jù)分析的最簡單形式,被分析的數(shù)據(jù)僅包含一個變量。由于它是單一變量,因此不涉及原因或關(guān)系。單變量分析的主要目的是描述數(shù)據(jù)并找到其中存在的模式。
2. 單變量圖形。非圖形方法不能提供數(shù)據(jù)的完整圖像,因此需要圖形方法。常見的單變量圖形包括:
- 莖葉圖,顯示所有數(shù)據(jù)值和分布形狀。
- 直方圖,每個柱代表一定值范圍的頻率(計數(shù))或比例(計數(shù)/總計數(shù))。
- 箱線圖,以圖形方式描繪最小、第一四分位、中位數(shù)、第三四分位和最大值的五數(shù)總結(jié)。
3. 多變量非圖形:多變量數(shù)據(jù)來自多個變量。多變量非圖形EDA技術(shù)通常通過列聯(lián)表或統(tǒng)計學(xué)來顯示數(shù)據(jù)的兩個或多個變量之間的關(guān)系。
4. 多變量圖形:多變量數(shù)據(jù)使用圖形來顯示兩個或多個數(shù)據(jù)集之間的關(guān)系。最常用的圖形是分組的條形圖或柱狀圖,其中每個組代表一個變量的一個水平,每個組內(nèi)的每個條形代表另一個變量的水平。
其他常見的多變量圖形包括:
- 散點(diǎn)圖,用于在水平和垂直軸上繪制數(shù)據(jù)點(diǎn),以顯示一個變量受另一個變量影響的程度。
- 多變量圖,是因子和響應(yīng)之間關(guān)系的圖形表示。
- 趨勢圖,是隨時間繪制的數(shù)據(jù)的折線圖。
- 泡沫圖,是在二維圖上顯示多個圓圈(泡沫)的數(shù)據(jù)可視化。
- 熱力圖,是通過顏色來描繪數(shù)據(jù)的圖形表示。
四、探索性數(shù)據(jù)分析工具
用于創(chuàng)建EDA的一些常見數(shù)據(jù)科學(xué)工具包括:
1. Python:一種解釋性的、面向?qū)ο蟮木幊陶Z言,具有動態(tài)語義。其高級內(nèi)置數(shù)據(jù)結(jié)構(gòu),與動態(tài)類型和動態(tài)綁定相結(jié)合,使其非常適合快速應(yīng)用程序開發(fā),以及用作腳本或粘合語言將現(xiàn)有組件連接在一起。Python和EDA可以一起使用,以識別數(shù)據(jù)集中的缺失值,這對于決定如何處理機(jī)器學(xué)習(xí)中的缺失值至關(guān)重要。
2. R:一種用于統(tǒng)計計算和圖形的自由軟件環(huán)境的開源編程語言,由R基金會支持。在數(shù)據(jù)科學(xué)中,R語言廣泛用于開發(fā)統(tǒng)計觀察和數(shù)據(jù)分析。
海馬課堂專業(yè)課程輔導(dǎo)做出以下新改變啦:
?試聽課全面升級,不滿意退50%,
?課程輔導(dǎo)產(chǎn)品升級,贈送考前保障呦
?輔導(dǎo)不滿意可以隨心退!
海馬課堂,3500+嚴(yán)選碩博學(xué)霸師資,針對學(xué)生的薄弱科目和學(xué)校教學(xué)進(jìn)度,匹配背景相符的導(dǎo)師,根據(jù)學(xué)生情況進(jìn)行1V1專屬備課,上課時間靈活安排,中英雙語詳細(xì)講解課程中的考點(diǎn)、 難點(diǎn)問題,并提供多方位的課后輔導(dǎo),輔助學(xué)生掌握全部課程知識,補(bǔ)足短板。
閱讀原文:http://m.brains-tank.com/news/17453_60.html
版權(quán)作品,未經(jīng)海馬課堂 highmarktutor.com 書面授權(quán),嚴(yán)禁轉(zhuǎn)載,違者將被追究法律責(zé)任。
24h在線客服



備案號:遼ICP備19007957號-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號創(chuàng)業(yè)大廈A座18層1801室
hmkt088
中文字幕不卡线| 91综合网站| 亚洲AV不卡免费观看| 日本欧美77| 欧美性爱数据列表-第22页-久久精品国产精品国产精品,久久综合亚洲欧美成人,久 | 国产丰满AV少妇| 91亚洲精品视频观看| 久久久999成人| 制服丝袜在线视频| 国产黄色一级片| 欧美一区精品在线| 成人性生活不卡在线播放| 亚洲色欲AV成人无码久久精品| www.91 在线| 亚洲天天干| 九色 自拍 网曝 在线| 性欧美日本老| 欠久久久久久久久久久免费视频| 久久久久久久久久久久久久久久久本日 | 久色视频在线观看| 色一区二区| 少妇特黄A一区二区三区| 91免费黄片视频| 999久久精品区| 美女自慰喷水精品www.久久久| 日韩一级片在线观看| 国产91成人视频免费入口| 九一蜜桃自拍网| 亚洲国内精品不卡| 国产超碰在线| 手机在线日韩不卡成人AV| 亚洲熟女91| 国产三级片在线免费观看| www168.国产大片| 久久久 极品| 日韩三级黄片| 91精品网无码| 女人性生活99久久一区二区三区| 免费操逼网站| 91首页在线精品| 国产一区高清视频您正在观看《成人免费在线观看视频您正在观看《老年人一级黄 |