報表心得雜談 | FineReport-最強大動態報表與BI商業智慧軟體

報表雜談

資料分析是一個龐大的工程,有的時候過於抽象且依賴經驗。本文是軟妹對學習和實踐資料分析的一個總結,希望提供一種通用的資料分析思路,並在分析思路的每個步驟中介紹相關的分析演算法及其應用場景,對於演算法只做淺層次的介紹,待讀者在實際使用中自行深入瞭解。 本文主要針對剛剛接觸資料分析或者面對一堆資料不知道如何下手的讀者,經驗豐富的資料分析師們可以略讀。同時,本文介紹的分析思路由於筆者的經驗和知識有一定的局限性,希望讀者在分析中合理參考。 在進行資料分析之前,首先應該做好以下準備: 一、熟悉業務、瞭解資料來源 這一點是資料分析的前提。資料分析,除了我們面對的資料之外,更多的是這些資料背後隱藏的各種業務。例如當我們看到使用者的消費記錄時,它可能不僅僅是收銀系統購買商品,還包含了為了會員系統的滿減而做的湊單,活動管理系統的開業折扣商品,或者是推薦系統的推薦商品。對於業務深入的瞭解,有助於更好的發現分析的維度,快速鎖定問題和原因。 二、明確分析的目的 資料分析不是模型演算法和視覺化的堆砌,而是有目的地發現某種現象,支撐某些決策。所以在分析之前,一定要明確自己分析的目的,切忌照搬其他的專案的分析內容,或者隨意組合手上的分析模型演算法,這樣會導致分析結果華而不實。 三、多視角觀察 要想達到某種分析目的,需要從多個視角觀察資料,這樣不僅可以對資料整體有個全面的瞭解,也有助於發現潛在的資訊。例如當我們需要找出潛在的會員的時候,最直接的當然是消費比較多但還不是會員的人。但從促銷活動的角度看,那些熱衷購買打折商品的人很大概率也是潛在的會員,因為加入會員他們會獲得更多的折扣,這是他們希望的。同時,從推薦系統的角度看,那些對推薦系統推薦的商品滿意的人,也不太會拒絕你推薦他加入會員。 做好準備工作後,接下來就進入正題,開始分析: 一、它是什麼? 資料分析一定是針對某一些物件的,就像消費記錄針對的是某一店鋪。那首先要做的,就是通過資料來描述這一物件。就像瞭解一個人一樣,首先要瞭解他是個怎樣的人,然後便是他的特點,比如我的一位朋友是個學霸,他的特點就是每晚學習到12點,每科成績基本滿分。所以,主要從兩個方面關注一個物件,整體描述和特徵: 基礎統計 統計是最直接的方法,而且應用起來也很簡單。常用的方法有總和、平均數、最大最小值、中位數、方差、增長率、類型占比、分佈、頻率頻次等等。這裡不多做介紹。 聚類 “物以類聚,人以群分”,聚類屬於非監督學習,聚類可以將一組資料分成多個類別,每個類別內部的資料相似,但兩個類別之間相異。聚類有助於發現資料分佈上的特點,可以大量減少分析的資料量。比如在軌跡分析和預測中,通過聚類,我們會發現某個人主要出現在三個地方,宿舍周圍、食堂周圍、教學樓周圍,那麼當我們預測他在哪的時候,就可以從對無數經緯度座標的分析變成對三個地點的分析。 特徵分析 特徵工程是很龐大,正如描述的那樣,資料和特徵決定了機器學習的上限,而模型和演算法只能逼近這個上限而已。特徵工程包含了特徵提取和特徵選擇,由於其演算法眾多且比較複雜,這裡不一一介紹。特徵分析首先要明確分析的單位,包括時間、空間和類型等等。就像軌跡預測中,分析每十分鐘的所在地要比分析每秒鐘的經緯度座標要實際得多,而分析每小時的所在地又太過粗糙。然後就是特徵提取,特徵提取的演算法有很多,線性的PCA(主成分分析)、LDA(線性判別分析)、ICA(獨立成分分析),文本的F-IDE、期望交叉熵,圖像的HOG、LBP等。特徵分析的主要目的是降維、減少冗餘,提高存儲計算能力。舉個不太恰當的例子,比如我們要描述二氧化碳的化學特性,有顏色、氣味、酸性、鹼性、氧化性、還原性、熱穩定性等等,同樣一氧化碳也一樣,那這時候我們把這些特性降維到C和O上,那麼認為由C和O的組成的一氧化碳和C和2個O組成的二氧化碳有相似的特性,都是無色無味的氣體。 二、它發生了什麼? 它發生了什麼包涵正常和異常,而我們通常會更加關注異常,這裡也著重於異常分析。它發生了什麼與它是什麼在分析思路和方法上是一致的,只是針對不同的階段,比如時間上本月與上月。對於異常分析,主要有兩部分,發現異常和推送預警。推送預警比較簡單,只要注意預警的級別和推送的人。而異常發現,除了能直接觀察的異常,比如我們的學霸這次居然有一科沒及格,更多的需要注意暗物質。所謂暗物質,就是無法直接觀測的現象和關聯。還是拿我們的學霸君說,這次他依舊像往常一樣全部考了滿分,這是正常的,然而我們發現他這次考試的複習時間只有以往的一半,這就不正常了,而我們又發現這次考試題目很簡單,所以這又正常了?錯,它依舊是異常,因為考試前學霸君並不知道考試的難度,所以對於複習時間減半依舊是異常。所以,重要的事說多遍,一定要熟悉業務和多視角觀察。 在異常判斷的時候,通常會根據具體的業務設置一些係數,通過這些係數的突變來發現潛在的異常。回到剛剛那個例子,我們可以簡單的用成績與複習時間的比值作為係數。這些係數在軌跡分析中尤為重要,例如我們要分析一個人的軌跡是否異常,首先會看他是否出現在從來沒去過的地方,如果沒有,第二步則用一個軌跡的向量去分析。例如通過聚類,我們的學霸君主要出現在教室、圖書館、寢室三個地方,每個地方呆的時間假設都是每天8小時,那這時候就形成一個(8,8,8)的向量,而今天學霸的向量是(2,2,20),通過計算兩個向量的距離來發現異常,通常是歐式距離和余弦距離。 三、為什麼發生? 每當發生什麼的時候,我們都會問一句為什麼?為什麼是對資料的深層次挖掘與診斷,精確的問題診斷有利於正確的決策。一般可以用到以下的方法: 趨勢、同比環比 這是很簡單的方法,既觀察其過去和其他週期的情況,這裡不多介紹。 下鑽 下鑽絕對是最常用且有效的找原因的辦法,既一層層抽絲撥繭,直到找到最根源的原因。只是在下鑽的過程中,一定要注意下鑽的區域和方向,就像挖井一樣,並不是隨便找個地方向任何方向打下去就會出水的。就拿某商場的銷售額下降來說,要找出銷售額下降的原因,首先會想到去找那些銷量減少最多的商品,比如我們發現咖啡減少最多,為什麼咖啡減少呢,因為氣溫變高,人們更偏愛冷飲了。但是對比去年前年,每年這個時候咖啡都會減少,而取而代之的是冷飲的增加,它恰好彌補了咖啡的減少。所以這時我們需要變化思路,去尋找那些以往銷量很好而當下銷量很少的產品。而為了不犯上述的錯誤,我們可以分為多個層次下鑽,既一開始只關注大的分類的變化,如服裝、飲食等等,再從變化較大的類開始繼續下鑽。 相關分析 相關分析是對不同特徵或資料間的關係進行分析,發現業務的關鍵影響和驅動因素。例如時間到春運了,車票就不好買了一樣。相關分析常用的方法有協方差、相關係數、回歸和資訊熵等,其中相關係數和回歸也可以用於下面將會提到的預測。其中相關是回歸的前提,相關係數表示了兩個變數有關係,而回歸則表示兩個變數是何種關係。其中相關係數與回歸也可以延伸到典型相關分析(多元)與多元回歸。例如經典的“啤酒和尿布”,如果想要知道啤酒銷量為什麼增加,可以分析下它與尿布銷量的相關性。 四、它還會發生什麼? 它還會發生什麼就是純粹的預測了,預測的演算法有很多,但也並不是說所有的預測都需要借助難以理解的演算法。比如萬精油的趨勢、增長率、同比環比、基本概率等,有的時候就很能說明問題。但在這裡,還是介紹一些常用的預測方法: 特別的點 對於即時性和連續性要求不高的預測,這絕對是最省心省力的辦法,但是這與具體的業務深度掛鉤,所以,重要的事說多遍,一定要熟悉業務和多視角觀察。比如,我有件事情必須要給我的領導當面彙報,然而他經常不在辦公室,不是在開會就是去現場了,或者正在哪見某個客戶,然而清楚的是,他每天早上8:30-9:00之間一定會來公司打卡,那我只要這段時間在打卡機旁候著就一定能見上他一面。 分類與回歸 分類與回歸都是通過已知的資料構建和驗證一個函數f,使得y=f(x),對於未知的x,通過f預測y,不同在於回歸的輸出是連續的而分類的輸出是離散的。例如,我們預測明天的溫度是回歸,而預測明天是下雨天還是晴天則是分類。分類方法有邏輯回歸、決策樹、支援向量機,而回歸一般會用到線性回歸。 當然,預測演算法還有很多,比如隱瑪律可夫(HMM),最大熵,CRF等等,這裡也不做過多的介紹。只是需要根據預測的資料的具體情況選擇正確的方法,這些可以從我們的演算法工程師們那裡得到很好的建議,當然前提是我們要將資料的特點和需要預測的東西準確的告訴他們。 五、該怎麼辦? 該怎麼辦是資料分析的最終目的。大多數情況下,當知道了問題出在哪,為什麼出這個問題的時候,都知道接下來該怎麼辦了。那麼接下來就介紹一些即使知道哪出問題了也不知道該怎麼辦的時候可以用的方法: 擬合與圖論 這是在做路線規劃的時候最常用的,比如某商場頻發商品被偷的事件,我們發現有幾個地方的商品特容易被偷,那可以將這些地方串連起來,擬合成一條巡邏的路線給保安。同樣,也可以通過構建圖並用求最短路徑的演算法(Dijkstra、Floyd等)構建巡邏的路徑。 協同過濾 協同過濾屬於是利用集體智慧的辦法,就像那個經典的面試題一樣,當你遇到一個誰也沒遇到過的問題時,你該怎麼辦?那就是問那些比你更厲害的人他們會怎麼辦。協同過濾最多的是用在推薦引擎之中,一般的方式是尋找一個使用者的n個相似用戶,然後推薦給這個用戶他相似使用者喜歡的產品,或者找到當前使用者喜歡的前n個物品,然後挑選出和這n個物品相似的m個物品推薦給當前用戶。即使不用在推薦,它的思想也很容易延伸在其他方面,比如一個新手偵探不知道這個案件怎麼破,那可以去看看柯南君類似的案件破案的步驟。 還有一種情況,也是資料分析師很常見的。就是當拿到資料,卻完全沒有目的,也就是探索性分析。這種情況借助資料分析工具,做一些大致的探索性分析,看一下資料趨勢,逐步深入。 對於公司而言,探索性分析的工具主要是報告和BI。 一個完美的例子是FineReport,它可以生成各種複雜的報告,以及用於資料視覺化的大螢幕。在報告和商業智慧的基礎上,可以增加預警系統,如提醒異常指標,使領導者只需關注這些指標,而不必查看所有指標,以節省時間,提高效率。 如有必要,我們可以查看相應的報告或BI表示,這是企業探索性分析的應用方法之一。 免費試用FineReport10.0> 以上介紹的,是資料分析中的一個常規思路和可以用到的一些常規的方法。希望對妳們有所幫助,同時,不恰當的地方,也煩請批評指導(可以在臉書留言呀)。最後再次強調,資料分析不是演算法與視覺化的堆砌,需要我們對業務深入的瞭解。 如果您還想獲得更多的知識與技巧,成爲一個更好的資料型人才,不要忘記追蹤我們的臉書呀! 熱門閱讀: 我是如何入門並成爲資料分析師的? 資料分析人的福利:20個免費開放資料源 資料分析師需要掌握的35個商業模型(一) 資料分析師需要掌握的35個商業模型(二),可快速套用!

要想快速出報表,快速取數,快速做業務分析就需要開放的報表或BI分析工具,FineReport就是其中之一。

大型傳統企業,通常都面臨業務系統資料孤島、各板塊專業化程度高、多流程銜接交叉、資料不統一不完整不開放等問題。在搭建好實體層面hadoop資料平臺的基礎上,如何以業務流程為導向梳理資料走向,達成資料價值轉化輸出? 接到這個任務,真是摸著石頭過河。不知道是否有類似經驗的朋友,可以分享一下經驗或感悟? 這個問題,是所有傳統企業在數位化轉型過程中都會面臨的,帆軟也是做了數千家企業的數位化轉型方案,其中大多是傳統企業,深諳其道。所以也是借這個問題,系統的理一下。 在講如何做之前,先來分析一下背景: 問題一:業務系統資料孤島、各板塊專業化程度高 這是典型資料孤島問題:業務系統很多,系統之間的資料不連通,造成資訊壁壘。 這樣的問題要著重主資料管理,制定標準規則。 問題二:資料不統一不完整不開放 資料來源管道多,責任不明確,資料填報缺失這些都是品質差的問題。 這樣的問題要著重資料治理,性能優化上可以採取分散式資料庫。 問題三:以業務流程為導向梳理資料走向 這背後暗藏的現實可能是: 業務部門需求轟炸,IT部門成為一個取數機; 指標零散,業務和IT都不知道分析什麼; 報表不成體系,有些報表冗餘。 這也是很多企業的共性問題。 問題四:希望達成資料價值轉化輸出 因為問題三的原因,IT疲於業務需求,應付各種報表,資料沒有很好形式展現,也無法對業務決策產生幫助。相應的,IT部門也無法對業務產生顯性價值。 要讓資料服務於業務,落地產生價值,具體該怎麼做? 基於hadoop資料平臺,先拋架構! 第一步:構建一個完善的資料環境 主資料管理 定標準 所需標準有編碼規則,命名原則、劃分原則、共用原則。 標準規劃:根據企業實際情況確定實施範圍,並根據優先順序和難易度制定計劃。可以通過調查問卷、現場訪談、收集文檔等手段進行調研標準的內容:資料分佈、資料流程向、服務規則等,形成調研報告。 標準設計:在方法論的指導下,完成資料標準設計和定義工作,如數據業務描述定義、類型長度定義、其他資訊定義。 實施映射:將已定義的資料標準與業務系統、業務應用進行映射,注明兩者的關係及影響的應用。 標準執行:借助專業的工具實現標準落地檢查。 維護增強:隨著業務發展,資料標準需要不斷的修訂和完善,並有效的持續維護改進。 搭平臺 將各業務中可能流通共用的主資料的名稱和標準統一起來。 控制關鍵環節流轉 包括主資料管理的關鍵環節、合理排布關鍵環節處理順序、安排責任崗位或部門對應關鍵環節。 資料品質 第二步:開展業務分析 分析什麼資料,如何回饋給業務,這些都已轉化成指標來解決指標梳理需要和業務部門一同進行。可以通過訪談和調研梳理各業務層級關注的指標,從基層到高層。也可以將企業已有的SCOR、計分卡等績效體系或者已有的業務分析體系,轉化成可說明情況的指標。 指標梳理清楚後,從每一條業務線出發。這塊業務對企業目標負責的關鍵成果是什麼(KPA)——每一個KPA又可以用什麼維度來衡量(KRA)——最後落實到基層的關鍵行動指標是什麼(KPI),最後所有業務匯總,形成一個全指標體系。 梳理報表體系 梳理完指標體系後,大致也就知道每個業務部門需要分析什麼資料了。資料通常以報表的形式呈現,報表就都相當與資料落地的產品,有主題有規劃的分析。 基礎查詢類報表:來自於基層業務和日常工作,功能作用于某一項具體的工作,比如銷售業績查詢、商品庫存查詢、在途庫存查詢、採購訂單查詢等。使用者在工作需要時,會通過查詢此類報表,來得到自己想要的資料,以支撐自己的工作。 經營報表:用於日常管理,其功能不單作用于某項具體的工作,而是覆蓋相關部門或某部門管理的一個工作模組。例如店長業績管理看板、庫存管理、異常店鋪管理等。這類報表基於日常管理工作,通過查看這類報表來監控所負責業務的當前狀態,發現問題,這類報表就屬於決策輔助了。(如下方財務部門的資料監控) 戰略報表:這個就用於高層集團事物的管理,比如老闆們關注的每日盈利狀況,專案進度監控等等。這類報表通常以駕駛艙的形式展現,用於企業全域監控。 建立分析體系 到這裡就是資料分析的範疇了,不同於日常管理經營類報表單方面的展現,這裡更注重某一塊業務問題,通過分析資料比如來縮減供應鏈成本、通過分析市場環境制定市場策略等。通常在傳統企業的應用有智慧製造、大資料行銷、供應鏈優化、市場活動ROI分析、新零售業務提升、使用者畫像和客戶標籤等等。 這需要資料部門主動找活幹,去為業務創造價值,因此更具針對性和主動性。 總結 至此,關於原問題,我覺得可以從第二步開始展開,先以當下業務流程為導向,梳理指標體系,進而梳理報表體系。 工具上,需要一個具有開放性的報表/BI系統來支撐,需要滿足的需求: ① 要能連接各系統資料,打通資料壁壘 ② 能支撐底層的hadoop大資料平臺架構,具有良好的資料處理性能 ③ 前端視覺化美觀,做報表方便,具有一定分析功能。(看臉的世界,美而有用,業務才認同) 如果需要找靠譜的做資料管理的公司,我覺得帆軟有報表產品FineReport,有BI工具FineBI,還有十幾家行業的專項方案,是不二選擇。您可以體驗個人免費版,點擊這裏! […]

在目前的大數據趨勢中,數據的大屏視覺化成為大家所推崇的一種互動展示模式。如果我們能夠早一些了解和掌握這方面的技術,相信對我們的未來將會非常有幫助! 我們知道,通過報表工具實現大屏展示可以通過單張報表、多張報表 Dashboard 布局或者多張報表頁面布局等方式實現。 那麼,如何能設計出優秀的 dashboard 呢? 下面是國外的著名的視覺化專家 Stephen Few 在 2012 年舉辦的 Dashboard 圖表設計競賽中列出的關於優秀的 dashboard 應該具有的特徵: 這裡我對這些特徵進行了翻譯以供參考,如有不準確的請指正。 根據上面的評分標準,你所做的大屏資料視覺化圖表及格了嗎? 對於 dashboard 來說,如果需要完美的展現效果,是需要技術人員,UI 設計人員,以及業務人員協調工作完成的。而作為程序開發人員,如何在沒有美工的情況下,做出能上得了檯面的 dashboard 效果呢? 上面的標準說得比較概括,下面介紹一下我使用報表工具FineReport實際做 dashboard 時所考慮的具體因素。掌握FineReport製作dashboard的技巧,基本上就掌握了製作大屏的軟技能,剩下的就是性能、硬體等問題了。 1. 確定使用者 了解使用者,有助於把握好要顯示的 kpi 以及資料的邏輯分解。大多數情況下,dashboard是給領導管理層看的,所以更多展示經營層面的營運指標。 2. 布局 人的閱讀習慣是從做到用從上到下的,而中間位置又是最能吸引關注的,所以重要內容應該放在最上面或者中間。如下圖,我們可以在這個頁面頂端直接展現重要的指標資訊,這種布局是目前眾多以營運人員為對象的報表系統最喜歡使用的結構,整體數字指標一目了然,可以讓閱讀者在幾秒內把握全局資料,是一種閱讀報表時間投入產出比很高的方式。 3. 背景 在不同場景下,背景色為深色(藍,藍綠,黑)時投放到大屏的展現效果較好。同時,為了顯示的內容更加清晰,字的顏色應該反差較大,因此文字多為淺色。 另外,除了使用背景顏色外,還可以使用背景圖片,加上這樣的深色調圖片,不止酷炫,而且科技感十足。 4. 配色 下面是從網路搜尋到的比較常用的配色方式: FineReport也內置了很好的顏色搭配: 具體的 RGB 值可以通過取色軟體獲取,網上這樣的資源有很多, 聊天軟體在截屏的時候也會顯示 RGB 的值。 5. 圖形化 通過使用 Echarts.js, G3,hicharts […]

資料要多久整理好?」 「報表什麼時候出來」 「來,這張報表幫我做個分析」 …… 相信這些話,是表哥表姐最不想聽到的「魔咒」吧! 小編当初剛大學畢業,作爲一名新手來説,統計資料是每天的工作標配。可別人十幾分鐘就能輕鬆搞定的事情,我常常需要幾個小時才能勉強完成。 剛開始,我以為自己只是不熟練,多做幾次就好了。可悶頭苦練了一個周,我還是全組最慢的那個,每天被催到懷疑人生。 「就差你的了,複製粘上,再統計一下就好啦,怎麼搞得這麼慢!」漸漸地,我察覺到,領導開始質疑我的工作能力了。 我也一肚子苦水啊,好歹我也算半個開發,會寫sql,會java,明明是BI工程師,卻被招來每天忙活Excel這個破軟體,簡直懷疑人生。 如何快速高效的製作企業數據報表呢,請教了很多大大,要麼碼程式碼開發,要麼開源用/現成的報表軟體。 果然用報表軟體是絕佳的選擇,自從部署了FineReport報表 – 專業的企業級Web報表工具後,整個報表開發部,只要敲幾下鍵盤,點幾下滑鼠,就輕鬆地把整個表格順利完成。全過程自動化,視覺化非常酷炫,科技就是生產力啊! 這麼好的神器,當然要推薦給大家! 要問什麼是報表工具?那我們先説説什麼是報表。 查一下google……簡單的說,報表就是用表格、圖表等格式來動態顯示資料。可以用公式表示為:「報表 = 多樣的格式 + 動態的資料」。 而報表工具呢?就是幫助使用者做報表的工具,幫助用來展現自己輸入的資料,更多時候是將數據庫中的數據,以客戶想要的方式即報表的形式展現出來。 報表的必要性,應該是不用討論了。只要有企業,就會產生報表,最普通不過的就是財務報表了,還有各種計劃報表,成本核算報表,成本分析報表。無論在政府監管、企業營運還是一般的組織管理模式中,上級的監督考核、下級的彙報請示、平級的協同交流,都需要定時或不定時地傳遞一些報表,然後以這些報表為基礎進行分析統計。 對應到資訊化工程的軟體開發項目中,報表功能也就是必不可少的了。而今天,我們要討論的,是要不要報表工具的問題,也就是用報表工具還是寫程式碼來實現報表,這才是個問題。 對於萬能的程序員來說,沒有什麼問題是一百列程式碼解決不了的,如果有,那就再來一百列……只不過,面對翻臉比翻書還快的需求、對外觀樣式的吹毛求疵、越來越複雜的報表格式和內在資料關係、越來越多需要維護的報表數量,尤其還不得不去修改隔壁老王寫的千百萬列程式碼時, 估計千言萬語都會化成一句:專業的事還是讓專業的人去干吧。沒錯,報表工具就是專業的,而且可以專業到讓業務人員實現做報表,甚至構建快速系統。 以一個簡單的例子來講解。 假設我們要做一張羅列所有學生資訊的報表: 很簡單是不是?讓我們這些程序員擼起袖子馬上干,就從熟悉的 java 開始吧…… 首先是通過數據源,連接資料庫提取數據。 [codesyntax lang=”php”] public static void main(String[] args) throws IOException, ParseException{_showTable_(, , , , );}public static DefaultTableModel getTableModel(String driver, String url, String user, String pwd, […]

2019年最新30個資料視覺化工具,趕緊收藏,記得點贊!

最近FineReport新出了幾款插件,能線上預覽檔案,能做GIS數據地圖,還能叢集R語言!這還是我認識的報表工具?

這篇文章中筆者將從一位負責企業級產品安全模塊設計的專案經理的角度,為大家提供一些建議。

先舉兩個例子吧,分別是我和朋友Eric的分析師之路。 Eric碼農轉行,雖半路出家,但如今管得了資料倉儲,寫得了模型,還能獨立設計資料標準和模型管理流程,業務水平僅次於部門leader;我呢,統計學出身,經歷了幾次跳槽轉行之後,才最終走上資料分析師之路。 這兩個例子我想說明什麼?首先,資料分析師入門不難,其次,你需要明確自己的需求。在走資料這條路之前,如果你對資料分析有所了解,試問自己是更適合做偏技術的,從資料建模、資料探勘演算法;還是偏向和業務打交道,重點用資料推進業務的角色。前者未來會成為資料科學家,後者更多會走向營運、戰略管理崗。 但在初期起步和成長階段,該掌握的基礎還是要掌握的。 資料分析起步 非常簡單,就是——多接觸資料! 然後呢? 沒了! Eric說他自己是從記資料開始的。 記資料一方面是為了應付領導的提問,另一方面也是在培養資料的敏感度。確實,分析的源頭一般是某些指標有了明顯的變動,熟悉每天的交易資料或使用者資料能讓你一眼就看出問題在哪裡,哪些資料有關聯,然後再做分析。 我剛開始大部分時間都在取數,做報表,還要和業務扯皮。久而久之也就理解了資料背後的業務含義,指標意義。 萬事開頭難,但一旦資料分析有了動力,就要開始完善自己的知識體系,這也是真正入門的開端。 完善資料分析的知識體系 接下來就需要一步步邁入門路中,首先,你得掌握基本的計算機知識和統計學知識,同時,也要熟悉公司的業務,明確自己的現有水平,並朝目標邁進。 1、基本的計算機知識和統計學知識 資料庫+SQL語言 一些常用的資料庫如Oracle、SQL Sever、DB2、MySQL,這些資料庫或者說日常接觸的資料庫都要有所了解,懂最常用的就好,最重要的還是要會寫SQL。 數學/統計學知識 一些基本的數學統計方法如描述性統計、多元統計分析、回歸分析等,重要性不言而喻。方差分析、回歸分析、因子分析、聚類分析等等,這些作為入門多多少少都要會一些,雖然有可能不會全用到,但一旦用時方恨少。 資料分析+視覺工具 資料分析視覺化工具很寬泛。首推Excel,中小公司很依賴,熟練使用資料透視表,這是必備技能。中大型公司可能用報表工具或者BI來做報表,但有了SQL+Excel的基礎,這些工具上手都很快。python/R技能也要學習,俗話說「技多不壓身!」,構建模型很需要,雖然基礎資料工作大多不需要,但後期構建模型離不了,求職時掌握一門很加分。 2、熟悉業務知識 資料分析師要與公司的各業務打交道,所以清晰掌握業務內容指標等在工作時會讓你得心應手。 如,你可能需要知道這個指標由哪些資料構成?資料統計的口徑是什麼?資料怎麼取出來?這個指標對於行業的意義是什麼,處於什麼範圍分別對應什麼樣的情況,是好還是壞,然後慢慢摸索這個指標層面多維度的規律,如何設定最合理等。 基礎的計算機知識和統計知識以及業務知識,幫助你建立起完善的知識體系。在熟悉了本領域的內容後,做進一步的深入就會容易得多。 做進一步提升 要想進一步提升,自我的認知很重要。 先明確自己的位置,設立合理合適的目標,再一步步走過去。 對於自己的水平認知,可以藉助知乎上@任明遠的自問問題: 1、你了解你所整理的資料的來源嗎?是自己公司的業務資料,還是與合作夥伴交換的資料?是自己公司相關部門採集的,還是從第三方獲取的?獲取過程中,具體的指標和邏輯是什麼? 2、這些資料是真實的嗎?採集和整理過程中會不會出現什麼問題?技術上的邏輯和業務上的邏輯是不同的概念,有沒有技術上沒有瑕疵,但並不符合業務邏輯的資料流程? 3、到你手裡的資料經過了什麼處理?你又做了什麼處理?為什麼他們和你要做這些處理? 4、誰需要你的資料?你處理後的資料流向哪裡?他們用資料做什麼?這些資料最終又拿去做了什麼?比如,為客戶做了什麼服務,公司發布了什麼內容,或向管理層證明了什麼KPI,或支持了哪個部門的評估? 5、你做整理的周期是什麼?為什麼是這樣的周期? 6、公司有其他的部門在處理其他的資料嗎?是什麼樣的資料?和你有什麼關係?為什麼這些資料要分開處理? 7、近一年,你自己的電腦上應該已經積累了不少資料,試試做個分析,從一段較長的時間來看,你負責的這一塊資料發生了什麼變化?為什麼會有這個變化?和公司的產品、經營、業務有關,還是和行業有關?具體怎麼有關? 在對自己有了清晰的認識後,以下從三個方面給大家一些小tips: 業務 1.業務為核心,資料為王 了解整個產業鏈的結構 制定好業務的發展規劃 了解衡量的核心指標 有了資料必須和業務結合才有效果。所以這個階段必須要對資料敏感,要在工作中不斷積累培養資料驅動業務的意識,簡而言之就是用資料指導業務,幫助業務發展壯大。 所以需要懂業務的整體概況,摸清楚所在產業鏈的整個結構,對行業的上游和下游的經營情況有大致的了解。然後根據業務當前的需要,指定發展計劃,從而歸類出需要整理的資料。最後一步詳細的列出資料核心指標(KPI),並且對幾個核心指標進行更細緻的拆解,當然具體結合你的業務屬性來處理,找出那些對指標影響幅度較大的影響因子。前期資料的收集以及業務現況的全面掌握非常關鍵。 2.思考指標現狀,發現多維規律 熟悉產品框架,全面定義每個指標的營運現狀對比同行業指標,探勘隱藏的提升空間 拆解關鍵指標,合理設置營運方法來觀察效果 對核心用戶,單獨進行產品用研與需求探勘 業務的分析大多是定性的,需要培養一種客觀的感覺意識。定性的分析則需要藉助技術、工具、機器。而感覺的培養,由於每個人的思維、感知都不同,只能把控大體的方向,很多資料元素之間的關係還是需要通過資料視覺化技術來實現。 3.規律驗證,經驗總結 發現了規律之後不能立刻上線,需要在測試機上對模型進行驗證。 技能 1. Excel需要更精鑽 […]

如何給年終報告貼金?如何確保資訊準確的同時,讓人一目了然,甚至眼前一亮?「好圖勝眼前,擅用視覺化」本文將分享如何用視覺化來做工作資料彙報。全文乾貨很多,建議收藏後慢慢品讀,對日常工作分析和彙報大有裨益!