備案號(hào):遼ICP備19007957號(hào)-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
在新南威爾士大學(xué)(UNSW)攻讀數(shù)據(jù)分析或統(tǒng)計(jì)相關(guān)專業(yè)的學(xué)生,對(duì)MATH5836課程一定不陌生。作為統(tǒng)計(jì)與數(shù)據(jù)科學(xué)方向的重要課程,它不僅考察學(xué)生的理論基礎(chǔ),更重視實(shí)際應(yīng)用能力。許多同學(xué)在學(xué)習(xí)過程中會(huì)遇到“計(jì)算量大、代碼多、邏輯復(fù)雜”的問題。下面海馬課堂整理出一些學(xué)習(xí)技巧,幫助大家更高效地掌握課程內(nèi)容。

越來越多的企業(yè)需要分析龐大的數(shù)據(jù)集,以確定其中有用的結(jié)構(gòu)。為此,近來開發(fā)了一系列統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法。本課程涵蓋數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的關(guān)鍵技術(shù)、理論背景和應(yīng)用。主題包括線性和邏輯回歸、神經(jīng)網(wǎng)絡(luò)、貝葉斯神經(jīng)網(wǎng)絡(luò)、聚類和降維、集合學(xué)習(xí)等方法,還介紹了深度學(xué)習(xí)。在 Python 和 R 等編程環(huán)境中,將使用新興的機(jī)器學(xué)習(xí)工具和庫來說明這些方法。
MATH5836主要涉及概率建模、隨機(jī)過程、以及在實(shí)際數(shù)據(jù)分析中的應(yīng)用。課程通常包含講座、實(shí)驗(yàn)課(lab)和項(xiàng)目報(bào)告。
在開學(xué)初期,建議先仔細(xì)閱讀Course Outline,明確Assessment結(jié)構(gòu)(quiz、assignment、project、final exam等)。了解每一項(xiàng)評(píng)估的比重,有助于合理安排學(xué)習(xí)時(shí)間。
很多同學(xué)容易忽略的部分是每周的實(shí)驗(yàn)課(lab)。雖然lab分?jǐn)?shù)占比不高,但它往往直接對(duì)應(yīng)期末考試中的計(jì)算或編程題。
掌握每次lab的代碼邏輯,比單純看講義更能提升實(shí)戰(zhàn)能力。
MATH5836的計(jì)算部分通常使用R語言或Python。
對(duì)于不熟悉編程的學(xué)生,建議從課程提供的示例代碼入手,而不是盲目刷題。理解每一行代碼的含義,比“背代碼”更重要。
可以在課后整理一個(gè)“函數(shù)筆記”,記錄常用命令和寫法,例如rnorm()、glm()、ggplot()等。
此外,UNSW官方的Learning Centre和Stats Help Desk也會(huì)不定期舉辦編程輔導(dǎo)工作坊,可以多加利用。
統(tǒng)計(jì)類課程的難點(diǎn)往往在于理論與實(shí)際應(yīng)用的結(jié)合。
建議每完成一章內(nèi)容,就嘗試自己構(gòu)建一個(gè)小案例,比如用真實(shí)數(shù)據(jù)集驗(yàn)證課堂上學(xué)到的模型。
通過實(shí)際操作,理解如Maximum Likelihood Estimation (MLE)、Hypothesis Testing等概念的應(yīng)用方式。
此外,組建學(xué)習(xí)小組是非常有效的方式。
與同學(xué)討論時(shí),嘗試從不同角度解釋同一個(gè)問題,這不僅能加深理解,還能在面對(duì)復(fù)雜題目時(shí)獲得新的思路。
讓我們仔細(xì)看看 CRISP-DM 的每個(gè)階段:
開始時(shí),首先要問以下問題:我們的目標(biāo)是什么?我們要解決什么問題?解決問題需要哪些數(shù)據(jù)?
如果不清楚要挖掘的正確數(shù)據(jù),項(xiàng)目可能會(huì)產(chǎn)生錯(cuò)誤、不準(zhǔn)確的結(jié)果,或無法回答正確問題的結(jié)果。
一旦確定了總體目標(biāo),就需要收集適當(dāng)?shù)臄?shù)據(jù)。數(shù)據(jù)必須與主題相關(guān),通常來自銷售記錄、客戶調(diào)查和地理位置數(shù)據(jù)等各種來源。這一階段的目標(biāo)是確保數(shù)據(jù)正確包含所有必要的數(shù)據(jù)集,以實(shí)現(xiàn)目標(biāo)。
準(zhǔn)備階段是最耗時(shí)的階段,包括三個(gè)步驟:提取、轉(zhuǎn)換和加載,也稱為 ETL。首先,從各種來源提取數(shù)據(jù)并存入暫存區(qū)。然后,在轉(zhuǎn)換步驟中:清理數(shù)據(jù)、填充空集、刪除重復(fù)數(shù)據(jù)、解決錯(cuò)誤并將所有數(shù)據(jù)分配到表格中。最后一步是加載,將格式化后的數(shù)據(jù)加載到數(shù)據(jù)庫中使用。
數(shù)據(jù)建模涉及相關(guān)數(shù)據(jù)集,并考慮采用最佳統(tǒng)計(jì)和數(shù)學(xué)方法來回答目標(biāo)問題。有多種建模技術(shù)可供選擇,如分類、聚類和回歸分析(稍后將詳細(xì)介紹)。在同一數(shù)據(jù)上使用不同模型來解決特定目標(biāo)的情況也很常見。
模型建立并測(cè)試完成后,就需要評(píng)估它們?cè)诨卮饦I(yè)務(wù)理解階段確定的問題時(shí)的效率。這是一個(gè)人為驅(qū)動(dòng)的階段,因?yàn)轫?xiàng)目負(fù)責(zé)人必須確定模型輸出是否充分滿足其目標(biāo)。如果不能,可以創(chuàng)建不同的模型,或準(zhǔn)備不同的數(shù)據(jù)。
一旦數(shù)據(jù)挖掘模型被認(rèn)為準(zhǔn)確并成功地回答了目標(biāo)問題,就該投入使用了。部署的形式可以是可視化演示或分享見解的報(bào)告。它還可以促成行動(dòng),如制定新的銷售戰(zhàn)略或?qū)嵤┙档惋L(fēng)險(xiǎn)的措施。
總體而言,UNSW的MATH5836課程不僅是對(duì)統(tǒng)計(jì)與數(shù)據(jù)分析知識(shí)的系統(tǒng)訓(xùn)練,更是一次實(shí)踐能力與邏輯思維的全面考驗(yàn)。掌握扎實(shí)的數(shù)學(xué)基礎(chǔ)、熟練的編程技能,以及對(duì)數(shù)據(jù)挖掘流程的深刻理解,是順利拿下高分的關(guān)鍵。
閱讀原文:http://cheshan.cn/news/14451_62.html
版權(quán)作品,未經(jīng)海馬課堂 highmarktutor.com 書面授權(quán),嚴(yán)禁轉(zhuǎn)載,違者將被追究法律責(zé)任。
24h在線客服



備案號(hào):遼ICP備19007957號(hào)-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
hmkt088