備案號(hào):遼ICP備19007957號(hào)-1
聆聽(tīng)您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
分析大型數(shù)據(jù)需要綜合運(yùn)用數(shù)據(jù)處理、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和領(lǐng)域知識(shí)等技術(shù)和方法。悉尼大學(xué)DATA2001就是一門(mén)關(guān)于這個(gè)的課程,這篇文章為大家簡(jiǎn)單介紹一下大型數(shù)據(jù)分析。
一、課程概覽
本課程側(cè)重于有效探索和分析大型數(shù)據(jù)集的方法和技術(shù)。一個(gè)城市的行人事故熱點(diǎn)在哪里?根據(jù)用戶在旅游網(wǎng)站上發(fā)布的信息,哪些是最受歡迎的旅游地點(diǎn)?結(jié)合和分析來(lái)自不同來(lái)源和數(shù)據(jù)庫(kù)的數(shù)據(jù)的能力對(duì)于研究和行業(yè)的知情決策都至關(guān)重要。學(xué)生將學(xué)習(xí)如何從關(guān)系型、半結(jié)構(gòu)型、時(shí)間序列型、地理空間型、圖像型和文本型等數(shù)據(jù)科學(xué)項(xiàng)目中常見(jiàn)的各種數(shù)據(jù)模型中攝取、組合和匯總數(shù)據(jù)。
除了通過(guò)使用相關(guān) Python 庫(kù)加強(qiáng)編程技能外,本課程還將向?qū)W生介紹使用 SQL 進(jìn)行聲明式數(shù)據(jù)處理的概念,以及在關(guān)系數(shù)據(jù)庫(kù)中分析數(shù)據(jù)。學(xué)生將獲得來(lái)自社交媒體、交通、健康和社會(huì)科學(xué)等領(lǐng)域的數(shù)據(jù)集,并在小型使用案例中學(xué)習(xí)基本的探索性數(shù)據(jù)分析和挖掘技術(shù)。課程還將進(jìn)一步讓學(xué)生了解分析海量數(shù)據(jù)所面臨的挑戰(zhàn),例如在多臺(tái)計(jì)算機(jī)之間分割和分配數(shù)據(jù)和計(jì)算以處理 "大數(shù)據(jù) "的想法。
二、分析數(shù)據(jù)集的 6 個(gè)步驟
1.清理數(shù)據(jù)
數(shù)據(jù)整理又稱數(shù)據(jù)清理,是指從數(shù)據(jù)集中發(fā)現(xiàn)并糾正或消除不準(zhǔn)確或重復(fù)記錄的過(guò)程。在數(shù)據(jù)整理過(guò)程中,您將把原始數(shù)據(jù)轉(zhuǎn)換成更有用的格式,為分析做好準(zhǔn)備。
在開(kāi)始分析之前,必須先清理數(shù)據(jù)。如果您要向業(yè)務(wù)團(tuán)隊(duì)展示您的研究結(jié)果,這一點(diǎn)尤為重要,因?yàn)闃I(yè)務(wù)團(tuán)隊(duì)可能會(huì)將數(shù)據(jù)用于決策目的。團(tuán)隊(duì)需要確信他們是根據(jù)可靠的信息源采取行動(dòng)的。
2.確定正確的問(wèn)題
完成清理過(guò)程后,您可能會(huì)對(duì)最終數(shù)據(jù)集產(chǎn)生很多疑問(wèn)。通過(guò)分析可以挖掘出很多潛力。
確定您希望通過(guò)分析回答的最重要問(wèn)題。這些問(wèn)題應(yīng)易于測(cè)量,并與特定業(yè)務(wù)問(wèn)題密切相關(guān)。如果分析請(qǐng)求來(lái)自業(yè)務(wù)團(tuán)隊(duì),請(qǐng)他們提供明確的細(xì)節(jié),說(shuō)明他們希望了解什么、期望了解什么以及如何使用這些信息。您可以利用他們的意見(jiàn)來(lái)決定哪些問(wèn)題在分析中優(yōu)先考慮。
3.將數(shù)據(jù)細(xì)分
將數(shù)據(jù)集細(xì)分為更小、更明確的組別通常很有幫助。對(duì)數(shù)據(jù)進(jìn)行細(xì)分不僅可以使您的分析更易于管理,而且還能使分析保持在正確的軌道上。
例如,如果您想回答有關(guān)特定部門(mén)績(jī)效的問(wèn)題,您就需要按部門(mén)對(duì)數(shù)據(jù)進(jìn)行細(xì)分。這樣,您就能深入了解您所關(guān)注的群體,并確定每個(gè)群體之間可能存在的任何關(guān)系。
4.將數(shù)據(jù)可視化
數(shù)據(jù)分析最重要的部分之一是數(shù)據(jù)可視化,它是指創(chuàng)建數(shù)據(jù)圖形表示的過(guò)程。數(shù)據(jù)可視化將幫助您輕松識(shí)別任何趨勢(shì)或模式以及明顯的異常值。
通過(guò)創(chuàng)建引人入勝的可視化數(shù)據(jù)表示,您還能有效地向關(guān)鍵利益相關(guān)者傳達(dá)您的發(fā)現(xiàn),他們可以迅速?gòu)目梢暬瘮?shù)據(jù)中得出結(jié)論。
您可以使用多種數(shù)據(jù)可視化工具來(lái)自動(dòng)生成數(shù)據(jù)集的可視化表示,如 Microsoft Excel、Tableau 和 Google Charts。
5.使用數(shù)據(jù)回答問(wèn)題
在對(duì)數(shù)據(jù)進(jìn)行清理、整理、轉(zhuǎn)換和可視化之后,重新審視您在數(shù)據(jù)分析過(guò)程開(kāi)始時(shí)提出的問(wèn)題。解釋您的結(jié)果,并確定數(shù)據(jù)是否有助于您回答最初的問(wèn)題。
如果結(jié)果沒(méi)有定論,請(qǐng)嘗試重新檢查分析過(guò)程中的前一個(gè)步驟。也許你的數(shù)據(jù)集太大,應(yīng)該進(jìn)一步細(xì)分,也許有一種不同類型的可視化更適合你的數(shù)據(jù)。
6.補(bǔ)充定性數(shù)據(jù)
最后,在分析即將結(jié)束時(shí),請(qǐng)記住數(shù)據(jù)集只是拼圖的一部分。
將定量研究結(jié)果與定性信息結(jié)合起來(lái)至關(guān)重要,您可以使用問(wèn)卷、訪談或推薦信來(lái)獲取定性信息。雖然數(shù)據(jù)集能夠告訴您發(fā)生了什么,但定性信息往往可以幫助您了解發(fā)生這種情況的原因。
海馬課堂專業(yè)課程輔導(dǎo),2100+嚴(yán)選碩博學(xué)霸師資,針對(duì)學(xué)生的薄弱科目和學(xué)校教學(xué)進(jìn)度,匹配背景相符的導(dǎo)師,根據(jù)學(xué)生情況進(jìn)行1V1專屬備課,上課時(shí)間靈活安排,中英雙語(yǔ)詳細(xì)講解課程中的考點(diǎn)、 難點(diǎn)問(wèn)題,并提供多方位的課后輔導(dǎo),輔助學(xué)生掌握全部課程知識(shí),補(bǔ)足短板。
閱讀原文:http://cheshan.cn/news/14747_62.html
版權(quán)作品,未經(jīng)海馬課堂 highmarktutor.com 書(shū)面授權(quán),嚴(yán)禁轉(zhuǎn)載,違者將被追究法律責(zé)任。
24h在線客服



備案號(hào):遼ICP備19007957號(hào)-1
聆聽(tīng)您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
hmkt088