備案號(hào):遼ICP備19007957號(hào)-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
comp9313是新南威爾士大學(xué)(UNSW)大數(shù)據(jù)管理這門課程。大數(shù)據(jù)管理是對(duì)大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的組織、管理和治理。
一、課程指南
本課程介紹了管理大數(shù)據(jù)所涉及的核心概念和技術(shù)。主題包括:大數(shù)據(jù)和大數(shù)據(jù)分析的特點(diǎn)、存儲(chǔ)系統(tǒng)(如HDFS、S3)、操作大數(shù)據(jù)的技術(shù)(如MapReduce、流媒體、壓縮)、編程語言(如Spark、PigLatin)、查詢語言(如Jaql、Hive)、數(shù)據(jù)庫系統(tǒng)(如noSQL系統(tǒng)、HBase)和典型應(yīng)用(如推薦系統(tǒng)、降維、文本分析)。
二、管理大數(shù)據(jù)的首要挑戰(zhàn)
大數(shù)據(jù)通常是復(fù)雜的--除了其數(shù)量和種類之外,它通常還包括流數(shù)據(jù)和其他類型的數(shù)據(jù),這些數(shù)據(jù)是以高速創(chuàng)建和更新的。因此,處理和管理大數(shù)據(jù)是復(fù)雜的任務(wù)。對(duì)于數(shù)據(jù)管理團(tuán)隊(duì)來說,大數(shù)據(jù)部署所面臨的最大挑戰(zhàn)包括以下幾點(diǎn):
1.處理大量的數(shù)據(jù)。大數(shù)據(jù)集不一定要大,但它們通常是大的,而且在許多情況下,它們是巨大的。此外,數(shù)據(jù)經(jīng)常分散在不同的處理平臺(tái)和存儲(chǔ)庫中。通常所涉及的數(shù)據(jù)量的規(guī)模使其難以有效地管理所有的數(shù)據(jù)。
2.修復(fù)數(shù)據(jù)質(zhì)量問題。大數(shù)據(jù)環(huán)境通常包括尚未清理的原始數(shù)據(jù),包括來自不同源系統(tǒng)的數(shù)據(jù),這些數(shù)據(jù)的輸入或格式可能不一致。這使得數(shù)據(jù)質(zhì)量管理成為團(tuán)隊(duì)的挑戰(zhàn),他們需要識(shí)別和修復(fù)數(shù)據(jù)集中的數(shù)據(jù)錯(cuò)誤、差異、重復(fù)輸入和其他問題。
3.整合不同的數(shù)據(jù)集。與管理數(shù)據(jù)質(zhì)量的挑戰(zhàn)類似,大數(shù)據(jù)的數(shù)據(jù)整合過程也很復(fù)雜,因?yàn)樾枰獙⒉煌瑏碓吹臄?shù)據(jù)拉到一起用于分析。此外,由于大數(shù)據(jù)的多樣性和處理速度,傳統(tǒng)的提取、轉(zhuǎn)換和加載(ETL)整合方法往往不適合大數(shù)據(jù)。
4.為分析應(yīng)用準(zhǔn)備數(shù)據(jù)。高級(jí)分析的數(shù)據(jù)準(zhǔn)備可能是一個(gè)漫長的過程,而大數(shù)據(jù)使其更具挑戰(zhàn)性。原始數(shù)據(jù)集往往必須為個(gè)人應(yīng)用進(jìn)行整合、過濾、組織和即時(shí)驗(yàn)證。大數(shù)據(jù)系統(tǒng)的分布式性質(zhì)也使收集所需數(shù)據(jù)的工作更加復(fù)雜。
5.確保大數(shù)據(jù)系統(tǒng)能夠按需擴(kuò)展。大數(shù)據(jù)工作負(fù)載需要大量的處理和存儲(chǔ)資源。如果大數(shù)據(jù)系統(tǒng)的設(shè)計(jì)不能提供所需的處理能力,這將對(duì)大數(shù)據(jù)系統(tǒng)的性能造成壓力。不過,這是一個(gè)平衡的行為:部署容量過剩的系統(tǒng)會(huì)給企業(yè)增加不必要的成本。
6.管理大數(shù)據(jù)集。如果沒有足夠的數(shù)據(jù)治理監(jiān)督,來自不同來源的數(shù)據(jù)可能不會(huì)被協(xié)調(diào),敏感數(shù)據(jù)可能會(huì)被收集和使用不當(dāng)。但是,由于大數(shù)據(jù)環(huán)境所包含的非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),加上經(jīng)常包含的外部數(shù)據(jù)源,治理大數(shù)據(jù)環(huán)境會(huì)帶來新的挑戰(zhàn)。
三、大數(shù)據(jù)管理的最佳實(shí)踐
大數(shù)據(jù)管理做得好,為成功的分析計(jì)劃奠定了基礎(chǔ),有助于推動(dòng)企業(yè)更好地進(jìn)行商業(yè)決策和戰(zhàn)略規(guī)劃。以下是大數(shù)據(jù)項(xiàng)目中應(yīng)采用的最佳實(shí)踐清單,以使其步入正軌:
1.先期制定詳細(xì)的戰(zhàn)略和路線圖。企業(yè)應(yīng)首先創(chuàng)建一個(gè)大數(shù)據(jù)戰(zhàn)略計(jì)劃,定義業(yè)務(wù)目標(biāo),評(píng)估數(shù)據(jù)需求,并繪制應(yīng)用程序和系統(tǒng)部署圖。該戰(zhàn)略還應(yīng)該包括對(duì)數(shù)據(jù)管理流程和技能的審查,以確定需要填補(bǔ)的任何空白。
2.設(shè)計(jì)并實(shí)施一個(gè)堅(jiān)實(shí)的架構(gòu)。一個(gè)精心設(shè)計(jì)的大數(shù)據(jù)架構(gòu)包括支持?jǐn)?shù)據(jù)管理活動(dòng)的各層系統(tǒng)和工具,從攝取、處理和存儲(chǔ)到數(shù)據(jù)質(zhì)量、集成和準(zhǔn)備工作。
3.保持對(duì)業(yè)務(wù)目標(biāo)和需求的關(guān)注。數(shù)據(jù)管理團(tuán)隊(duì)必須與數(shù)據(jù)科學(xué)家、其他分析師和業(yè)務(wù)用戶緊密合作,確保大數(shù)據(jù)環(huán)境滿足業(yè)務(wù)對(duì)信息的需求,以實(shí)現(xiàn)更多的數(shù)據(jù)驅(qū)動(dòng)決策。
4.消除互不相干的數(shù)據(jù)孤島。為避免數(shù)據(jù)整合問題,并確保相關(guān)數(shù)據(jù)可用于分析,大數(shù)據(jù)架構(gòu)的設(shè)計(jì)應(yīng)不含孤島式系統(tǒng)。它還提供了連接現(xiàn)有數(shù)據(jù)孤島作為源系統(tǒng)的機(jī)會(huì),以便它們可以與其他數(shù)據(jù)集相結(jié)合。
5.在管理數(shù)據(jù)方面要靈活。數(shù)據(jù)科學(xué)家通常需要為機(jī)器學(xué)習(xí)、預(yù)測(cè)分析和其他類型的大數(shù)據(jù)分析應(yīng)用定制操作數(shù)據(jù)的方式--在某些情況下,他們希望分析全套原始數(shù)據(jù)。這使得數(shù)據(jù)管理和準(zhǔn)備的迭代方法變得至關(guān)重要。
6.將強(qiáng)大的訪問和治理控制落實(shí)到位。雖然治理大數(shù)據(jù)是一個(gè)挑戰(zhàn),但它是必須的,同時(shí)還有強(qiáng)大的用戶訪問控制和數(shù)據(jù)安全保護(hù)。這部分是為了幫助企業(yè)遵守?cái)?shù)據(jù)隱私法,規(guī)范個(gè)人數(shù)據(jù)的收集和使用,但管理良好的數(shù)據(jù)也可以帶來更高質(zhì)量和更準(zhǔn)確的分析。
以上就是關(guān)于comp9313大數(shù)據(jù)管理課程指南的全部內(nèi)容,海馬課堂專業(yè)課程輔導(dǎo),2100+嚴(yán)選碩博學(xué)霸師資,針對(duì)學(xué)生的薄弱科目和學(xué)校教學(xué)進(jìn)度,匹配背景相符的導(dǎo)師,根據(jù)學(xué)生情況進(jìn)行1V1專屬備課,上課時(shí)間靈活安排,中英雙語詳細(xì)講解課程中的考點(diǎn)、 難點(diǎn)問題,并提供多方位的課后輔導(dǎo),輔助學(xué)生掌握全部課程知識(shí),補(bǔ)足短板。
閱讀原文:http://cheshan.cn/news/10868_62.html
版權(quán)作品,未經(jīng)海馬課堂 highmarktutor.com 書面授權(quán),嚴(yán)禁轉(zhuǎn)載,違者將被追究法律責(zé)任。
24h在線客服



備案號(hào):遼ICP備19007957號(hào)-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
hmkt088