文|投稿
最近,在網路上看到一個問題:「數據分析師需要注重哪方面的電腦技能培養?」
問題的背景是這樣的:
某高校通信專業出身,畢業後在營運商工作了7年多,先後從事通信網路運維、規劃工作,近兩年負責營運商數據分析(網路部門,偏向業務分析)。
由於職業發展瓶頸,從去年11月計劃跳槽,花了半年時間學習統計學基礎、SQL、Python等。
近期跳槽到互聯網產品部門,從事互聯網產品(APP)的數據分析師,支撐產品部門的數據分析(偏向業務分析,不負責數據倉庫、ETL等偏向IT工作)。工作內容差異較大,包括分析的顆粒度、工作方式(例如自己寫shell腳本跑數)、工作內容,因此緊急提升linux(shell編程)、SQL等技能,且加快對業務的熟悉,但仍感覺亞歷山大。
個人想繼續往數據分析方向發展,也深知數據分析包括電腦科學、統計學、業務等三個部分內容,目前比較欠缺的應該是電腦科學,請問對於想往數據分析師(數據科學)方向發展,電腦科學方面的技能能否給些提升建議?
今天也是想借這個問題,系統回答下「數據分析師」的職業發展,也是最近在思考的。
根據我近10年的工作經驗,包括在甲方IT部任職商業智慧BI專案經理和運營部任職業務分析經理,乙方Data Analytics專案(EDW/BI/Big Data/AI Machine Learning)諮詢和專案實施經驗,按照由易到難的進階步驟,我覺得應該掌握這些技能:
基礎篇
1、首先是Excel
貌似這個很簡單,其實未必。Excel不僅能夠做簡單二維表、複雜嵌套表,能畫折線圖/Column chart/Bar chart/Area chart/餅圖/雷達圖/Combo char/散點圖/Win Loss圖等,而且能實現更高級的功能,包括透視表(類似於商業智慧BI的多維分析模型Cube),以及Vlookup等複雜函數,處理100萬條以內的數據沒有大問題。最後,很多更高級的工具都有Excel插件,例如一些AI Machine Learning的開發工具等。
2、掌握SQL Server或者Oracle的SQL語句
雖然你是業務分析師,但如果取數據能少依賴於IT資訊人員和IT工具(比如BI的多維分析模型,有時候並不能獲取你想要的數據),對於做業務分析,無疑是如虎添翼,我曾經見過華為的會計能寫七層嵌套的SQL語句,很吃驚。包括join,group by, order by,distinct,sum,count,average,各種統計函數等。
3、掌握視覺化工具
比如商業智慧BI,如Cognos/Tableau/FineBI等,具體看企業用什麼工具。這些工具做視覺化非常方便,特別是分析報告能含這些圖,一定會吸引高層領導的眼球,一目了然了解,洞察業務的本質。另外,作為專業的分析師,用多維分析模型Cube能夠方便地自定義報表,效率大大提升。
From FineBI
別忘了我們的FineReport,它本身是一個通用的報表工具和資料視覺化工具。因為其強大的資料整合性能,再結合其10多年來成熟的視覺化元件,FineReport可以製作各類資料視覺化大屏。FineReport的圖表都是自主研發的HTML5圖表,擁有60多種圖表樣式,具有優秀的動態效果和強大的交互體驗。使用時能夠根據需求設定各類特性,並且在手機端,LED大屏也能自我調整展示。
總結:至此,掌握以上技能的80%,可以算是一個合格的分析師了。這個階段的數據分析師,需要既懂得如何利用工具處理數據,也要懂得業務場景,能分析解決基本的問題。這裡還是要強調一點,數據分析師最重要的是熟悉業務,最好是懂。懂業務,分析邏輯就會清晰一般,而且也能排除大部分無用的嘗試。長期以往對於了解的業務,比對一下數據就知道問題出在哪裡了。
之後,如果是要深鑽技術,甚至往數據科學家方向上發展。
進階篇
1、系統的學好統計學
純粹的機器學習講究演算法預測能力和實現,但是統計一直就強調「可解釋性」。比如說,針對今天某企業股票發行就上升20%,你把你的兩個預測股票上漲還是下跌的model套在你的公司例子上,然後給你的上司看。統計學就是這樣的作用。
數據探勘相關的統計方法(多元Logistic回歸分析、非線性回歸分析、判別分析等)
定量方法(時間軸分析、概率模型、優化)
決策分析(多目的決策分析、決策樹、影響圖、敏感性分析)
樹立競爭優勢的分析(通過項目和成功案例學習基本的分析理念)
資料庫入門(數據模型、資料庫設計)
預測分析(時間軸分析、主成分分析、非參數回歸、統計流程控制)
數據管理(ETL(Extract、Transform、Load)、數據治理、管理責任、元數據)
優化與啟發(整數計劃法、非線性計劃法、局部探索法、超啟發(模擬退火、遺傳演算法))
大數據分析(非結構化數據概念的學習、MapReduce技術、大數據分析方法)
數據探勘(聚類(k-means法、分割法)、關聯性規則、因子分析、存活時間分析)
其他,以下任選兩門(社交網路、文本分析、Web分析、財務分析、服務業中的分析、能源、健康醫療、供應鏈管理、綜合行銷溝通中的概率模型)
風險分析與營運分析的電腦模擬
軟體層面的分析學(組織層面的分析課題、IT與業務用戶、變革管理、數據課題、結果的展現與傳達方法)
2、掌握AI Machine Learning演算法,會用工具(比如Python/R)進行建模。
傳統的商業智慧BI分析能回答過去發生了什麼?現在正在發生什麼?但對於未來會發生什麼?必須靠演算法。雖然像Tableau、FineBI等自助式BI已經內置了一部分分析模型,但是分析師想要更全面更深度的探索,需要像Python/R的數據探勘工具。另外大數據之間隱藏的關係,靠傳統工具人工分析是不可能做到的,這時候交由演算法去實現,無疑會有更多的驚喜。
其中,面向統計分析的開源編程語言及其運行環境「R」備受矚目。R的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行視覺化的高品質圖表生成功能,並可以透過簡單的命令來運行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴展機制,透過匯入擴展包就可以使用標準狀態下所不支持的函數和數據集。R語言雖然功能強大,但是學習曲線較為陡峭,個人建議從python入手,擁有豐富的statistical libraries,NumPy ,SciPy.org ,Python Data Analysis Library,matplotlib: python plotting。
最後,怎麼說呢,無論何時業務分析、數據分析還是數據科學,他的價值體現還是在於商業價值。數據人才到最後的發展也一定是要往企業運營VP、戰略參謀者身居。比如,數據戰略家可以使用IT知識和經驗來制定商業決策,數據科學家可以結合對專業知識的深入理解使用IT技術開發複雜的模型和演算法,分析顧問可以結合實際的業務知識與分析經驗聚焦下一個行業爆點。
所以需要你具備溝通、組織、管理能力和商業思維,這就不只局限於某個崗位了,需要你站在更高位的角度思考,為企業謀福利。同時也要思考,拿著「數據分析」這張牌,如何在公司發揮價值,用數據驅動企業營運,這是要思考的。
學習資源推薦
書籍
深入淺出Python 作者:Paul Barry
Python機器學習 作者:Sebastian Raschka, Vahid Mirjalili
Python:網路爬蟲與資料分析入門實戰 作者: 林俊瑋,林修博
Python資料科學學習手冊 作者:Jake VanderPlas
精通大數據!R 語言資料分析與應用 作者:Jared P. Lander
R 錦囊妙計 作者:Paul Teetor
R語言實戰 作者:(美)卡巴科弗
數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目 作者: 賽斯‧史蒂芬斯—大衛德維茲
演算法圖鑑:26種演算法 + 7種資料結構,人工智慧、數據分析、邏輯思考的原理和應用全圖解 作者: 石田保輝,宮崎修一
小數據獵人:發現大數據看不見的小細節,從消費欲望到行為分析,創造品牌商機 作者: 馬汀.林斯壯
赤裸裸的統計學 作者:(美)惠倫
課程
Google MLCC:
Google企業內部員工訓練課程。MLCC 課程約15小時,包括互動課程、研究人員講座以及40多個操作練習,當然也會在裡面推廣TensorFlow。
除了中英文字幕外,還有中文發音,但很恐怖還是聽英文的就好。此課程目的是讓一般人都可以學習ML,相對吳恩達的課程,內容親切、操作性高。
吳恩達的史丹佛_CS229 :
網易公開課的資源,有中英文字幕,一共20集,每一集約1小時。學習這門課你需要有稍微強的線性代數及統計學的基礎。
如果你還想通過一些學習資源提升自己的資料技能,推薦你瀏覽這篇文章:
資料人必備:資料庫,SQL,Tableau,FineReport,Power BI教學資源大全
獲得帆軟最新動態:數據分析,報表實例,專業的人都在這裡!加入FineReport臉書粉絲團!
相關文章:
喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!