報表心得雜談 | FineReport-最強大動態報表與BI商業智慧軟體

報表雜談

關於數據分析,這裡想站在更大卻更為實際的角度講一下。 這裡要講的數據分析可能並不是某一個細小的事件,更多的是站在一項業務上去考慮,流程和工作量都要更為龐雜些。 數據分析的方法論 講方法論之前,先思考什麼情況需要數據分析?通常情況下是當領導或者自己發現某個問題,比如這一陣銷售額低迷,存貨量居高不下,客戶流失率只增不減……這樣的一個一個問題,可以稱之為「點」。於是,第一時間對比自己的目標,這個月的銷售額是要達到多少多少萬,但是目前的問題是完全不符合自己的KPI的,所以會促使你去分析原因,找到解決的措施。問題與目標對接,兩點成為一「線」。撇開流程,在業務外,是否有外部因素影響到了數據,這也是需要考慮的,一條直線和直線外一點,構成「面」,這裡就強調分析問題要全面。多面成體,如果說能夠考慮到影響目標結果的各個因素點,那麼體則是從多面角度出發,能夠從「旁觀者」的角度看待整個分析「體」,更多的是強調全局觀。 以上就是針對實際業務的一個分析方法論,要形成體,一方面要梳理組織架構,讓數據在各個環節流程上流通起來,另一方面則需要一套行之有效的方法體系,指導日常的運營分析,而這個方法論就是我要提出的「點、線、面、體,四位一體方法論」。 點 點,這裡是指業務上的痛點或high點,進一步可理解為業務發展異常點或進階發展點,未來業務拓展關鍵點和BOSS關注點等。在數據上則體現為業務發展趨勢中的波峰、波谷和數據離散點。 點是我們在數據運營中首先要關注的地方,是整個數據運營分析中的起點和基礎點,也是「點、線、面、體」四位一體方法論中最基礎的元素,是整個數據運營進程的擴展點。例如我們平時在網站或APP分析過程中,發現某一天的訪客數明顯低於正常水平,那麼是什麼原因導致這個異常點出現呢?又比如當月的銷售量,某日的銷售量明顯低於其他什麼原因引起的?此時的這個點就是我們數據運營的切入點。 點的發現關鍵在於數據的統計整理,形成規範,找出規律和切入點。比如我關注流量這一指標,通過可視化分析工具將各時段的流量數據抽取出來,前端做成一個dashboard界面,利用時間和查詢控制項供自助查詢。 線 兩點成一線,推己及人,將業務中的異常點和我們日常運營目標有效的結合起來,就能形成一條清晰的數據運營分析線。除此之外,在數據運營數據積累過程中,隨著時間的推進,也能形成一條它自己的「時間序列曲線」,進而在分析過程中實現數據的時間價值。線的分析是實現數據與數據關聯的過程,是看趨勢的過程,是實現數據的時間價值與串聯識別價值的過程。 另一方面,線的分析是維度分析的基礎,思考問題的開始,這個過程有如數據在資料庫中實現上下鑽取、OLAP分析的過程。理解線的分析,一方面通過對運營目標的分析,來反思影響這一目標的各指標權重影響,簡單點說,哪個因素髮生變化會對銷售量產生巨大影響,那這個指標的權重就越大,需要控制好。另一方面,比如分析流量在某一天下滑對月度銷售額的影響,從流量下滑這一點出發,到對目標結果影響這一點關聯分析的過程。一個是從結果出發分析影響因素,一個是從過程出發預測對關注目標的影響。「線」的分析在數據分析操作上體現在分析模型的建立,各指標的關聯。 面 面在「直線」分析的基礎上將外部影響因素「點」考慮進來,形成對目標分析更周詳的考慮。面的分析一線與多點的考慮,面比較點和線多的是輻射的影響與考量,是點、線分析整合的基礎上引入了運營場景的考量,並將不同數據運營過程場景化,簡單的講,一個場景就代表一個面。 理解面的分析方法,應從應用場景方面考量,考量各方影響因素。因為「面」,所以有了數據的角色化、場景化。 同樣是銷售的分析,對內受一些列因素影響,比如營銷力度、人員分布。但放到市場環境中也會受到來自同行或者同產業鏈的輻射影響。有些企業會將市場環境因素納入到分析監控中。 體 多面成體。如果說面是考慮到了影響店與目標結果的各個因素,那麼體則是從多面角度出發,能夠從「旁觀者」的角度看待整個分析「體」,更多的是強調全局觀,是對整個分析體系的認知,是對點、線、面的全面整合,是完成的數據運營體系。 點、線、面、提「四位一體」方法論是一個層層遞進的過程,是對運營業務場景分析從簡單到複雜的過程,從局部到全局的過程,是利用數據運營的思維方法。 業務分析的流程 明確分析目的→梳理業務形成分析思路→搭建分析指標體系→收集數據→處理數據→製作分析模板→視覺化管理。 明確分析目的&梳理業務 分析要有目的有方向。是對現在面對的某個問題分析,還是梳理整體的業務現狀,抑或是對未來某個指標的預測監控。簡單來講,就是解惑、監控、預測,目的是提效、增益。 明確目的後,需要梳理思路,怎麼梳理?如果是分析近一個月銷售額普遍下降的原因點,就要從下至上,還原整個事情進展的過程。購買環節涉及成交量、客單價和折扣率,然後還要分各類產品;瀏覽環節涉及瀏覽量、PV/UV;用戶維度還有流失率、活躍度、復購率等等,把分析目的分解成若干個不同的分析要點,然後針對每個分析要點確定分析方法和具體分析指標。 搭建分析指標體系 搭建分析指標體系就是分析整個「體」,將分析框架的體系化,明確每個點都是什麼指標,任何一個分析路徑都能對應到指標(當然現實是不會有這麼完美的體系的)。 以電商為例,遵循「人貨場」的思維邏輯。常用的業務分析場景有銷售、商品、渠道、競品、會員等等,而商品可進一步細分為商品的庫存、商品的利潤以及關聯銷售分析。在整個業務分析體系中,確保體系化,即先分析什麼,後分析什麼,使得各個分析點之間具有邏輯聯繫,使分析結果具有說服力。 如何取數? SQL是最基本的資料庫語言,無論從什麼資料庫、數據倉庫、大數據分析平台取數,都需要掌握。 Hive和Spark都是基於大數據的,Hive可以將結構化的數據文件映射為一張資料庫表,通過類SQL語句快速實現簡單的MapReduce統計。 清洗和處理數據 原始數據來自於各個業務系統,指標口徑對不上,總會出現不一致、重複、不完整(感興趣的屬性沒有值)、存在錯誤或異常(偏離期望值)的數據。這些都可以通過 數據清洗:去掉雜訊和無關數據 數據集成:將多個數據源中的數據結合起來存放在一個一致的數據存儲中 數據變換:把原始數據轉換成為適合數據挖掘的形式 數據歸約:數據立方體聚集,維歸約,數據壓縮,數值歸約,離散化和概念分層等 製作模板&視覺化展示 分析模板多用excel或者報表製作工具。如果業務部分有設立數據分析崗或者集團有特定的數據中心團隊,會通過搭建商業智慧BI系統平台來完成針對性的業務分析。 使用常規Excel或者傳統報表工具,可以將做成的圖表貼至PPT中,涉及Excel的高級功能,就需要學習VBA和數據透視表,但Excel適合已經處理好的成品數據。一旦涉及大數據量或頻繁鏈接資料庫,一些帶有介面的數據視覺化工具或報表工具就比較適合。

文 | 傅一平 源自:與數據同行 一個企業的IT部門有業務和分析系統之分,這裡就叫作OLTP和OLAP吧,IT部門一般算是業務部門的乙方,而IT部門的OLAP系統則是OLTP系統的乙方,因為OLAP系統處於OLTP的下游,一般可用性要求也不高,在傳統企業內,CRM掛了是天大的事情,但同樣的事情發生在BI商業智慧等OLAP系統上則可以容忍很長時間。 傳統企業的OLAP系統側重對內支撐,除了必須的生產報表,不是必需品,更多像是奢侈品,有了可能好一點,沒有影響也不大,比如精準行銷。 隨著大數據時代到來,企業對內數據化、精益化運營的要求越來越高, OLTP系統迫切需要OLAP的分析力,OLAP則需要嵌入到OLTP流程中發揮價值,兩者相互滲透,我中有你,你中有我,OLTP與OLAP系統融合的趨勢將越發明顯。 同時,很多企業開始推進大數據價值變現, OLAP系統的地位就發生了根本變化,即OLAP系統越來越跟企業的直接價值創造相關,比如以前OLAP掛了,只要對內部客戶做些解釋也許就能消化影響,現在則會造成外部客戶投訴,在阿里等企業大數據平台掛了肯定是不可想像的事情。 相信每年阿里雙11前大數據平台運維的人會很忙,即使如實時大屏數字顯示這類都需要強大的運維保障能力,而很多企業搞大型行銷活動往往只關注OLTP系統的穩定,OLAP系統的運維人員會悠閑的多,這是數字化企業和非數字化企業的差距。 DT的趨勢不會改變,無論是對內還是對外,打造一個健壯的大數據運維體系必不可少,由於OLAP與OLTP特點不一樣,不是簡單的照搬OLTP系統的運維方式就可以了,需要走出自己的路,這裡分享一下筆者最近關於大數據運維的一些思考。 1、數據運維的組織架構 筆者經歷過很多種BI系統運維組織架構,一種是開發和運維縱向一體化,BI沒有交維動作,開發人員直接為維護負責,在長達6-7年的時間,筆者所在的BI團隊就是這種模式,每個人按照業務條線進行劃分,為這個業務條線的所有數據負責。 這種運維的效率其實是很高的,對於個人的鍛煉價值也很大,既做需求,也做開發,更做維護,還要會交流,但其最大的問題就是缺乏標準,處理過程不透明,無法進行運維承諾,規模很難擴大。 第二種就是開發和運維完全分離,即橫向切割,很多企業發展到一定階段,系統越來越龐大,IT部門為了保障系統穩定製定了大量的標準化規範和流程,為了確保運維管理的集中高效執行,運維團隊必須從開發中剝離出來,傳統的觀點認為開發和運維的職責存在天然的衝突,需要實現制衡。 從筆者的經歷看,這種BI運維模式,從短期來看有效果,但長期看,存在著很多弊端,總體來講,並不是最好的運維模式。 開發和運維要實現理想的交接,前提是交接的東西標準化程度要高,能夠說得清楚,告訴你這個東西不會變形成其他東西,因此,越穩定,越容易封裝的東西越容易交接,也即越容易維護。 OLTP很多時候是有這個特點的,但OLAP系統則完全不同,OLTP能清楚的說清楚提供了多少種服務,這些服務之間的關係如何,也即組合是可以窮舉的,但數據的指標和維度是如此之多,相互之間的組合關係是無窮的,數據封裝本身就是個偽命題,數據要交維需要的是對於業務和數據的深入理解,而不是告訴維護這張表交給你管理,數據維護最大的一類工作數據質量稽核需要程式碼級別的溯源能力。 因此,BI要實現理想交維往往只有一種可能,維護人員跟開發人員具備同樣的技能,君不見核查數據問題基本是要開發參與的,只懂封裝的數據運維人員除了能監控、告警、作業調度啟停一下,可做的事情很少,因此,這種淺層次的運維到底有多大的價值? 隨著數據交維的東西越來越多,運維人員會疲於奔命,很多溝通協調工作只是為了轉述問題,一個問題的解決流程會拉的很長,這種運維模式滿意度其實很難提升,同時運維人員的專業技能也很難獲得增長。 第二種模式短期來看的確有效,因為其通過復用OLTP已有的機制、流程經驗來獲得價值,但長期是有致命缺陷的,其缺乏成長性,筆者一直認為運維是系統改進的核心驅動力,而不是由項目規劃人員指東打西,很多時候,規劃人員提出的東西跟解決運維的實際問題相差甚遠,誰對這個系統有真正發言權呢?也許,專業能力最強的人員應該放到運維,而不是開發、規劃或項目,如果穩定是企業最核心的工作的話。 第三種模式,筆者認為是均衡模式,維護要有的放矢,提倡中台類的系統、產品或數據進行交維,創新、探索、變動類的系統或數據不用交維,誰做的誰自己管去。 何謂中台類的系統或數據,就是企業真正沉澱下來的資產,成熟一個,納入一個,比如基礎平台、標籤庫、基礎模型、融合模型等, 對於這類系統或數據,要求能提出合理的監控和告警要求並部署,運維團隊要確保能自行處理大多數的故障,要能提出持續優化的建議,在未來系統改進上具有主導發言權。 2、故障分級和故障升級流程 運維最核心的就是故障管理流程,這裡從應用分級,故障等級,升級流程等方面給出一個實踐案例。 首先,數據運維涉及平台、應用和數據等管理對象,這些對象又可以根據重要性劃分為核心、重要及一般三個等級,以下是一個劃分示例,供參考: 每個企業應該根據自身實際劃分等級,諸如BDI是基礎平台,掛了數據就沒法採集進來了,因此是最重要,這裡劃分為核心等級,數據類里有重要和一般之分主要是這些數據跟重要應用相關,必須劃分為同一個等級,這個時候血緣分析就很重要,需在知道哪些數據跟這個應用相關從而判定這個數據的重要等級,體現的是數據和應用一體化的思想,數據變現事關直接收入,因此這裡也劃分為重要等級。 這張表的設計其實涉及了很多的原則,包括平台保障原則,收入優先原則,數據與應用一致性原則,表也是需要動態維護的,每次納管一個平台、數據或應用,就應該同步更新。 其次,就到故障的具體分級了,我們將其劃分為灰、藍、黃、橙及紅五個層級,首先要考慮時間維度,即異常的持續時間,以下是一個示例: 時間維度顯然還不足以表示故障的嚴重程度,還需加上影響範圍,這裡特別增加了數據完整性這個影響指標,因為如果數據大範圍的延遲,我們也認為是個較大的故障,即使沒有一個投訴: 有了這些判定標準,維護在出現故障時就有章可循,可以根據這些標準明確最後的故障等級,然後依據不同的故障等級走不同的升級流程。 最後,是一個故障處理升級流程示例,明確了什麼時刻需要做什麼事: 以下是故障簡訊發送對象的一個示例,故障嚴重的時候,需要讓老闆知道: 3、數據採集保障 BDI(數據採集平台)當前採集介面2000多個,其中分鐘/小時/月介面400多個,日介面1500個,日介面中重要介面300多個,採集介面涉及155個數據源(庫),複雜度是比較高的,必須根據介面重要性及時間要求進行及時性保障。 以下是一個示例:2點前完成58%的「重要」級介面,4點前完成78%,6點前完成85%,8點前完成88%,12點前完成100%,鑒於集群計算性能時有波動,數據採集及時性保障目標設定各時段達成率90%以上,再不重要的介面,也要有個保障底線,用數據來說話,很多企業的數據幾個月沒採集都不知道,是由於缺乏明確的保障要求。 數據準確性方面也類似,每個數據介面採集設置數據量波動性檢查、空值檢查等。 4、數據作業保障 我們將大數據模型和應用數據的生成都納入到DACP管理,包括融合模型、挖掘模型和數據應用大作業共計762個,其中月作業189個,日作業573個,日作業中重要級作業333個,根據作業重要性及時間要求進行及時性保障,其中4點前完成15% 的「重要」級作業,8點前完成65%,12點前完成85%。 針對重要應用涉及的作業,設置了應用結果數據的質量檢查機制,以便提前發現問題,這裡針對所有變現類應用的數據做了波動性等告警設置,做這個事情主要是由於對外變現出現了多次數據異動客戶投訴的情況,因此盡量做到末雨綢繆,雖然不能解決所有問題,但能做一步算一步。 5、平台保障 基礎平台牽一髮而動全身,企業已經將大數據處理平台納入私有雲統一運維體系,其他諸如採集平台和數據管理平台,必須具備高可用,並能在短時間內進行容災切換,這是運維的底線。 在大數據運營剛開始的時候,我們在數據管理上還是側重於去解決採集、建模等問題,往前沖的比較多,在創新上花了不少心思,但隨著運營深入,運維逐步成為數據管理最為核心的工作,因為如果沒有這個健壯的「1」,所有的工作都將失去意義。 談一點體會 和我們走過的路一樣,很多企業BI的運維仍然像個羞答答的姑娘,很多沒有明確規範,比如每個介面的及時率要求,很多雜亂無章,比如不知道某個數據的影響大小,很多規範沒有真正落地,比如投訴的統一歸口,大多時候還是需求或開發人員去直面業務人員的問題。 雖然其實處理的效率也不錯,但作為管理者心是不安的,因為很多投訴變得沒有痕迹,很多問題已經被掩蓋,意味著很難去評價真實的運維水平,也意味很難去提升,數據管理者就這樣被過頂傳球了。 數據運維最怕的也不是出事情,而是完全的事務驅動,總是去救火,投更多的人去救火,卻很少有人能從運維的角度提出真正的問題和改進要求,這個可比救火難多了, 100個介面的時候,如果我們不去做規劃和管理,到1萬個介面的時候,可能已經來不及了,所謂積重難返。 大數據是新的機會,對於運維也是重新的開始,未來的挑戰很大,與大家共勉吧。

文 | 帆軟數據應用研究院 陳明明 績效管理無處不在,大到集團的戰略規劃,小到平時的周報、日報。既然企業都有績效管理,為什麼要對績效進行數字化管理?如何使用IT手段在績效中發揮數據價值? 一、績效管理數字化的意義 拿行銷模塊對上述兩個問題進行解答。績效管理是對目前狀況的反思和展望,反思現有績效體系下遇到的問題,並對績效體系進行優化,它反應的不僅是一個結果,更是對過程的監控。績效管理自身所具有的性質要求數據具有準確性、即時性、全面性。 準確性主要是行銷部門之間、行銷與財務等之間數據的展現方式、統計方式的統一(避免呈遞的報告數據不一致,樣式不統一,減輕管理層壓力); 即時性分為兩個方面,一個是保障員工隨時可以查看自身業績完成進度,對異常指標進行預警(預警可以分為正激勵和負激勵);二是在會議、彙報時能夠快速出報告(避免「頭重腳輕」,重點在問題的分析和展望,而不是每次為了做出精美的圖表而頭疼)。一張圖來說明績效數字化管理前後的變化; 全面性重在保障。 1. 從人員角度,保障激勵效應的正確執行,該獎勵的獎勵、該處罰的處罰 2. 從部門、區域角度,保障整體目標的正確預估(雖然銷售額同比增長了百分之20,但是市場份額擴大了百分之40,此時就應該理性判斷目標的設定和市場之間的關係)。 公開性重在公平,也是對獎懲機制的加深影響,有利於員工橫向和縱向對比,加深自身能力的提高,積极參与到績效考評中。 二、需要明確的幾個點 在進行績效管理數字化之前,需要明確三個影響方面:企業現有績效管理的模式、影響績效的因素、績效管理的方法。對上述三個問題的分析能夠幫助我們發現企業績效管理問題,對症下藥,切實解決企業業務問題。 不管是企業資訊人員自行實施,還是外部人員實施,都不宜用一套固有的績效管理體系直接使用。績效管理體系一定是基於企業現階段的發展狀況所設定的,跟隨企業的發展而不斷變化的,盲目套用容易導致「水土不服」。篇幅原因,簡單介紹下大眾的績效管理體系,方便大家與自身企業對照: (1).粗放式指標管理體系,與薪酬和崗位不掛鉤,重點在把控企業的經營狀況; (2).調研式管理體系,此類主要為人力牽頭對業務部門進行考核,考核範圍眾多,重在檢查評比,對業績考核弱; (3).評價式管理體系,表現為各層級對人員的工作和能力進行評價,主要應用於國企和事業單位,代表為360度考核評價體系; (4).目標式管理體系,體現為指標和薪酬、崗位掛鉤,基本為行銷部門績效管理的主流。其他管理體系,如:阿米巴管理體系(阿米巴經營80%失敗,稻盛和夫的這套理念沒那麼容易落地! 阿米巴經營平台方案)。 其中,績效管理的方法如上圖,PDCA循環:計劃、實施、檢查、糾正,下文會詳細介紹。 績效管理的影響因素中,員工能力是最核心、影響最大的因素,通過培訓和學習可以不斷的提高;外部環境和內部資源屬於客觀原因,不是企業可以完全控制或者是短時間改變的;激勵效應不管是從管理角度和數據化的角度,都有很大的空間可以提升。同時激勵效應對上述三個方面均會起到積極作用,人員的積極性提高有助於自身能力的提升,積極從內外部資源獲取資源。所以,在PDCA循環的設計過程中,激勵效應是其中重要的因素。 三、績效管理如何發揮數據的價值? 不管企業的績效管理是否成體系,都有他自身存在的意義,我們使用數據不是來創造一個新的管理體系,而是對原有系統的還原和優化。調研業務遇到的問題,通過數據的途徑進行優化。根據諮詢和項目實踐來看,企業績效管理的實施主要分為以下四步: 計劃:從集團到個人層層分解,對考核標準、權重、考核指標、考核方式達成統一見解 執行:此階段更側重於過程和人員積極性的調動,經常以報告和會議的方式舉行) 檢查:對階段性績效進行考評,實行獎懲 糾正:對整體績效體系進行優化,分為兩個部分,對計劃的整體變更、對數據展現方式的優化)。其中激勵效應貫穿於整套體系,同時激勵效應也是我們實行數據管理的重點。 以下主要以帆軟FineReport報表製作與BI商業智慧軟體在生產型企業行銷績效管理實踐為例進行介紹,企業可以根據自身績效管理的方式有選擇性的實施。 1.計劃 計劃階段側重對企業數據全面性展示,為企業將要做出的計劃提供數據的支持。計劃階段數據展現的全面性是由計劃設定的精細度而定。舉個例子,國內某大型油漆塗料行銷KPI指標設定為:行銷部門的計劃主要是從兩大模塊:主體、附屬。 主體:部門、區域、個人的層層遞進; 附屬:產品、門店、經銷商。 其中銷售額、行銷費用、附屬都對主體負責,同時產品、經銷商、門店也有自身的一套指標考核體系。有條件的客戶在提供數據時候,可以加上同行業的對標分析、同類型產品的市場佔有率分析等。在這個階段有三忌: (1)忌蜻蜓點水,如上圖,行銷費用中的市場費用沒有繼續細分,但是為了行銷部門計劃設定的準確性,我們還要繼續把指標細分展示。如:市場費用還可以劃分為會議、活動、廣告、門店建設、禮品物料等。 (2)忌用力過猛,在沒有諮詢和實施進場的情況,最好根據自身企業的績效體系進行製作。 (3)忌計劃數據不足,這時上述兩點的好處就體現出來了,協調行銷部門對計劃數據進行填報,為後續的實施部分做準備。 2.執行 執行階段側重數據的準確性和及時性,實現對員工的激勵和自我激勵。執行階段的數據展現按照時間維度劃分可以分為對標激勵、KPI報告、會議復盤三個模塊。其中對標激勵主要通過員工間業務指標的橫縱向對比,實現自我激勵(指標詳細、根據企業自身來設定);KPI報告側重於監管,企業、部門、區域、人員層層遞進,從而實現對企業行銷管理從上之下的監管;會議復盤側重於優化和信息的整合,通過對市場、產品維度的分析,分析現有行銷的發展是否合理,通過對案例的分析成功和失敗的經驗,實現對知識的分享和系統的優化。 3.檢查 檢查階段側重數據的公開性,促進員工積极參与到績效管理中。實際操作中此步基本為上級的評價和KPI獎勵的落地執行,此時要注意兩個問題。 一、上級的評價入口的設定影響到評價的頻率,評價不應該是在最終考核的時候才做出來應付工作的,而是貫穿在業務活動中的。所以要根據企業自身的習慣,設定好評價填報入口。 二、KPI獎懲的宣傳問題,宣傳的力度會影響到業務人員對整個體系的認同度和自我激勵的實行效果,所以要提前設定獎懲的公開展示體系,比如:大屏、特殊信息推送等。 4.糾正 糾正階段是對整體績效考核的調整,貫穿整個體系中,是保障整個體系跟隨企業和市場的發展而不斷進步的必備手段。整個系統的優化可以細分為兩個部分:對計劃的整體變更(一般為KPI指標的變化)、對數據展現方式的優化(模版樣式、展示渠道等)。模版的優化可以根據業務人員使用頻率和反饋建議來不斷進行改進;指標體系的變更就回到了計劃階段,此時在經過了一個循環過程中,除了計劃階段可以提供的支持,我們還可以對指標預警的數據進行收集,供業務人員參考,從而優化指標體系。

「一千人眼裡有一千個哈姆雷特」,說明每個人對事情的理解都存在差異。而數據分析師在工作中,對於自己的想法和理解,不可避免會有一定程度的依賴。所以培養數據分析師規範的思維邏輯,至關重要。 分析流程 首先咱們來梳理一下數據分析的流程: 1.明確分析目的和思路:在進行數據分析之前,首先考慮的應該是「為什麼要展開數據分析?我要解決什麼問題?從哪些角度分析數據才系統?用哪個分析方法最有效?」,而不是「這此分析需要出多少頁報告?打算用高級分析演算法試試…」這樣的思維方式。只有明確了分析目的和思路,數據分析的方向才不會跑偏,才能得出有意義的結論。 2.數據收集:明確了分析目的,接下來就是開工收集數據了。數據的來源有很多種,例如原始數據(第一手數據)、資料庫(第二手數據)、公開出版物、互聯網、市場調查等。公司普遍都有資料庫,常用於公司業務等方面的分析;《世界發展報告》、《中國人口統計》等是很常用的公開出版物,具有一定的權威性。利用國家統計局網站、政府機構網站、傳播媒體網站等,是最常用的互聯網獲取數據方式。 3.數據處理:包括數據清洗、轉換、分組等處理方法。我們拿到的數據,通常情況下是不可直接使用的,比如數據有丟失、重複、有錄入錯誤或存在多餘維度等情況。只有經過處理後的數據才可以使用。 4.數據分析:在明確分析思路的前提下,選用適合的分析方法對處理後的數據進行分析。 5.數據展現:將分析結果用圖表來展現。這也是需要花費一番功夫的,比如你想展示本月的網站用戶轉化率情況,可以選擇柱形圖,但為了體現每階段用戶流失情況,以漏斗圖展示更為直觀貼切。所以數據展現階段,你需要思考「採用這個圖表,能否清晰的表達出分析結果?我想表達的觀點是否完全展示出來了?」 6.報告撰寫:將數據分析的整個過程和結果,以書面的形式向他人說明。需要將分析目的、數據來源、分析過程、分析結論和建議等內容展現在報告中。 工具選用 數據分析工具可以分為這樣幾類: Excel; 報表工具 BI工具 R、Python、Matlab等數據分析語言 以上,Excel範圍最廣,適合新上手使用。報表製作工具和BI系統工具企業商用較多;R、Python之類適合有編程基礎的數據分析師使用,開源的。 Excel不用多說,熟練掌握數據透視表,掌握常用的公式,懂一點開發,會寫一些vlookup。 報表工具形同Excel,用來做dashboard很方便,好處就在於簡單,數據透視、圖表製作這些功能封裝好的。譬如FineReport,整個過程就是連數據,設計模板,web展示。圖表是內設好的或者開發對接Hcharts/Echarts/D3圖標庫,一般內置的圖表以及夠用了。 BI商業智慧就是更高級的報表工具,圖表、控制項什麼的都是拖拽實現。整個分析的過程包括數據清洗、轉換、分組等處理方法,以及數據分析。相比報表工具,報表系統更著重於短期的運作支持,而BI則關注長期的戰略決策,甚至更著重於商業趨勢和業務單元的聯繫而非具體的數據和精確度本身。BI並不是用來代替著眼於日常運做的報表系統的。 需要避免的數據分析三大誤區 數據分析的三大誤區,看看你有沒有踩中。 1.無明確的分析目的,完全為了分析而分析 與數據分析流程的第一步相同,分析目的要明確,你需要思考的是:採用什麼方法才能達到分析的目的,到底哪種圖表才能完全展現你想要表達的意圖,這幾個分析維度是否全面,是否可以支撐分析結論等等,是自然而然的進行相應的問題分析。 2.不懂業務、不懂管理,分析結果空洞化 許多剛入行的新手們,對於銷售、企業運營等業務層面的東西,並不十分精通。比如領導需要一份本季度銷售報告,如果僅僅利用統計知識進行同比、環比等維度分析,那麼在你的報告中,一定沒有領導想看到的信息。領導想看到什麼呢?如果你懂業務和管理,你就會知道,利用分析模型:4P、用戶使用模型、SWOT等模型進行下切,找出本季度銷量好或者不好的原因,具體到哪一個部門或哪個人的責任 。並站在更高的角度,從全局來看:本年的銷量情況佔比如何,發展趨勢是否在預計範圍內。並提出結合業務的合理化建議,供領導參考。 3.看中高級演算法,不在乎是否合適 每個演算法都有其優勢和局限性,在進行數據分析時,應該選擇可以快速、準確的計算、得出結論的演算法。正所謂「白貓黑貓,捉到老鼠就是好貓」。 好了,以上就是數據分析師應具備的分析思維。希望你我共同努力,在數據分析師的道路上,不斷升級打怪,修鍊自我,朝著專家領域進發!

每年的雙十一,天貓都會在整點時刻直播戰績,可怕的戰績背後,不知道大家是否留意到背後展示的大屏,簡直酷炫吊炸天。 所謂大屏,顧名思義就是一個很大很大的屏。 舉個例子,Dashboard儀表板可能大家有所了解,就是將一些業務的關鍵指標以數據視覺化的方式展示。而大屏就是將Dashboard展示到一塊或多塊LED大屏上。經常用在公司的展覽中心、老闆的辦公室,還有城市交通控管中心、交易大廳等等。一般怎麼清楚怎麼來,怎麼酷炫怎麼搞。譬如電視劇《人民的名義》里就有這樣一幕: 很大的屏 !!! 前幾天,有位番薯(帆軟的粉絲)在帆軟論壇發了個生產大屏的帖子,自己用FineReport報表與商業智慧軟體做了個大屏的模板,引發了很大反響。 也是應於這樣的契機,這裡拋磚引玉,圍繞如何製作的美而實用的大屏,講講帆軟的經驗。 1、布局排版 大屏首先是要服務於業務,讓業務指標和數據合理的展現。由於往往展現的是一個企業全局的業務,一般分為主要指標和次要指標兩個層次,主要指標反映核心業務,次要指標用於進一步闡述。所以在製作時給予不一樣的側重。 這裡推薦幾種常見的版式。 上面幾個版式不是金科定律,只是通常推薦的主次分布版式,能讓信息一目了然。實際專案中,不一定使用主次分布,也可以使用平均分布,或者可以二者結合進行適當調整。比如下圖所示,指標很多很多,存在多個層級的,就根據上面所說的基本原則進行一些微調,效果會很好。 附上幾個典型的主次分布的報表大屏效果給大家看下,是不是看上去更加清晰呢,不會讓人有找不到重點的感覺。 2、配 色 合理的布局能讓業務內容更富有層次,合理的配色能讓觀看者更舒適。配色的學問很複雜,這裡就先講一講背景色。背景色又分為整體背景以及單個元素的背景,無論是哪一個,都遵從兩點基本原則:深色調&一致性。 之所以選擇深色調,主要是為了避免視覺刺激。參加過大型會議的童鞋應該有感受,如果演示PPT是淺色系的,投放到大屏上後會比較刺眼,尤其是前排童鞋簡直在遭罪受。下圖是兩個管理儀錶板頁面深淺色對比,看圖片也許看不出來,感興趣的可以找公司的大屏硬體測試測試,看看哪個更讓人眼睛看著舒服。 整體背景深色系,可選的餘地還是很多的,但是配起來能讓多數人都覺得好看的還是以深藍色係為主,如下所示是幾個推薦的配色方案。這幾個深色配色,是我們調研下來最常用的背景設置。大家如果去網上搜羅好看的大屏或者駕駛艙頁面效果,很多都是這幾個色系裡頭的。 當然,背景不一定要用顏色的,也可以用圖片。圖片的使用依舊遵從整體深色的原則,同時搭配其他一些現實特性可以讓整體看著更有科技感。推薦使用一些帶有星空、條紋、漸變線、點綴效果之類的圖片。 單個元素的背景,首先是要和整體背景色系保持一致性,避免突兀。另外一個小技巧,就是透明度的使用。根據實際項目經驗,這裡極其推薦大家為單個的組件元素搭配一些透明色,透明度設置在10%上下為宜,具體以實際效果微調。如下幾個模板,組件增加透明效果後,整體效果有質的提升。 3、點 綴 細節影響感官體驗,在大屏展現上,細節也會極大的影響整體效果。通過適當給元素、標題、數字等添加一些諸如邊框、圖畫等在內的點綴效果,能幫助提升整體美觀度。 如下圖所示銷售駕駛艙大屏,頂部的標題通過左右兩個對稱線條進行點綴,各個組件的細分標題通過不規則漸變色圖片進行點綴,另外每個組件都搭配使用了簡潔的邊框以提升層次感。 比如下面圖所示大屏,給組件及其標題增加一些不規則的漸變色邊框,讓整體看上去更富有科技感。 如下圖所示的航空大屏,給元素增加一些飛機圖標、圖畫之類的擬物效果,讓大屏更真實生動。 4、動 效 動效的範圍很廣,可以從很多角度解讀,最好的參照就是PPT的動畫特效,比如前文所提的背景動畫、刷新的載入動畫、輪播動畫、圖表的閃爍動畫、地圖的流向動畫等等,都屬於動態效果的範疇。前文說過,動效的增加能讓大屏看上去是活的,增加觀感體驗。但過分的動效極其容易喧賓奪主,讓觀看者的眼球不知道往哪裡聚焦,反而喪失了業務展現價值。這個度很難把握,既要平衡酷炫效果,又要突出內容。 列舉幾個製作的大屏動態示例demo。 如下圖所示銷售大屏,核心指標車輛總價值以數字顯示,通過FineReport報表與BI系統的數據監控功能,動態刷新數值。 再如下圖所示IT運維大屏,中間地圖上模擬的呼吸動畫,底部的滾動消息等。 如下圖所示金融大屏的輪播動畫,藉助輪播效果,來實現同一個位置滾動播放不同的指標內容,避免平鋪展開所有指標把大屏界面擠滿。 再比如這個銷售駕駛艙,通過邊框動畫、地圖流向動畫,來增加大屏展示的整體活力。 5、總 結 從布局、背景、點綴邊框、動效等幾個方面,簡單介紹了一些大屏展現頁面製作的基本方法。其實不難發現很多環節都是相通或交叉的,比如單個元素的背景色,往往會和一些邊框一起使用;比如一些動態效果,可能是背景或者邊框本身的GIF動畫。 大屏展現作為數據可視化的一個典型使用場景,其涵蓋的知識太多太多了,一個完整的大屏項目從開始調研到實施交付可能需要開發工程師、專案經理、視覺工程師、UI工程師、硬體工程師等等眾多專業人員的參與。 帆軟作為國內領先的商業智慧及分析平台提供商,也一直致力於為客戶提供更好的數據分析和數據視覺化落地指導,我們後續會在公眾號及論壇陸續發布更多的交流文章。如果您有關於大屏數據視覺化方面的任何需求、建議,歡迎和我們討論;也非常希望能看到更多番薯分享自己相關領域的經驗和知識,大家共同成長。 更多好文推薦: 【生產和庫存】分析生產和庫存,靠這一套指標就夠了! 真正的數據分析師都做些什麼? 書單 | 從入門到精通,數據分析不得不看的10本「好書」! 從事數據分析的你,如何做好職業規劃? 【銷售】銷售真的可以精準預測,只要你這樣分析! 4大案例分析金融行業的大數據應用 資料分析人的福利:20個免費開放資料源 【戰略】打敗競品第一步,做好競品分析!

資料經濟時代,大數據成為企業在市場上競爭的關鍵。大數據已經不只是一個議題,更是面對未來競爭環境必須採用的手段,搶先抓住大數據所帶來的成長契機,才能擁有領先對手的競爭優勢。但是面對多元類型和數量的數據、多變的數據分析應用場景,以及不同的資金和技術水平,不同企業如何避免盲目跟風,真正挖掘數據價值,讓數據成為推動企業提效降本、增強競爭力的動力? 數據分析平台的搭建從規模上分類,確定企業現狀非常重要 行業大型的知名企業,本身的大數據系統架構已經完善,數據分析平台(報表製作/商業智慧軟體)在整個系統架構下的角色定位為「工具」更合適,發揮工具易用、高效開發、交互性強,穩定等優點。 中小型企業從成本上考慮,並沒有成熟的架構以及大量的投入。對於整合數據,構建數據中心報表BI系統,我們可以進行合理規劃,控制整個專案建設和運維成本,從而能夠達成更好的效果。 不同規模企業採用不同系統架構 我們以零售業中的鞋服行業做例子。在這個行業中,對於各個分店的有效管理,如何構建合理高效的報表中心變得非常關鍵。它從架構上分為分店管理系統(ERP和POS)及資料庫、伺服器和應用層客戶端。系統架構如圖: 1、分店管理系統及資料庫。分店使用管理系統管理本店進銷存業務及相關管理工作,並定期按需將各個分店數據上傳至雲端伺服器。 2、伺服器。構建伺服器集群。數據分散在不同的伺服器主機上可以並行存取,提高了數據的存取速度。伺服器負責存儲分店採集的各種數據,並以這些數據為基礎構建數據倉庫。再部署帆軟數據分析平台,將處理結果給返回客戶端,供業務層和決策層使用。 3、應用層客戶端。應用層客戶端分為決策和統籌管理兩部分。決策層根據所獲得的報表、圖形和走勢圖等來支援其決策。設置一個統籌管理的職能部門,統籌各分店統一促銷,暢銷商品管理和會員行為分析。企業通過雲改變了以前處理數據和接入數據的方式,數據更集中,數據一致性更強,數據質量提高,分店之間的聯繫更緊密更便捷,在這種環境下,企業的決策依據將更準確。 4、伺服器的構建。架構如圖,ETL工具通過遠程訪問。各個分店的伺服器完成數據收集的任務,收集的數據是最原始的數據不做處理,先存儲在數據中心。數據中心為基礎資料庫,數據中心集中了所有分店的數據。數據上傳完成後繼續對數據進行ETL處理,並將處理後的數據存入到數據倉庫。數據分析應用程序根據客戶端的請求調用數據倉庫中的數據進行處理,並將結果返回給請求客戶端,同時將常用的分析按計劃定期自動分析並將結果保存到預定義分析結果模塊中。每個分店和總部的管理層都有接入雲的許可權,雲端數據共享。作為總部,可以監控各個分店的運營情況,作為分店可以及時了解其他分店的運行情況,借鑒經驗並制定銷售策略。 3種技術實現方式 包含數據倉庫、ETL、數據分析平台。 數據倉庫(DataWarehouse,DW)是一個收集、組織、儲存和共享歷史數據的系統,其中數據ETL工具(選開源工具的話,可以用Kettle)。支援多種類型的數據源,還可以將資料庫檔案下載到本機進行ETL工作。PDI分為兩個步驟,一個叫Transformation,另一個叫job,可以設定這些轉換的執行時間和頻率,這一點對於數據倉庫的自動化更新是很有幫助。 數據採集與分析 每個分店有各自的分店管理系統及資料庫,根據中央伺服器要求將需要的數據進行上傳。對於零售業來說,需要上傳的數據主要包括銷售數據、會員數據、商品數據、庫存數據、調研數據等。需要預定義所需採集的數據,包括數據的類型、數據結構。對於資料庫的數據,資料庫名稱、表名稱、表欄位都採取統一格式和名稱。對於文本型數據也要統一格式,或以xml方式儲存。伺服器收集各個分店管理資料庫的數據並對每個分店的數據標記以區分。統一標準數據可很大程度地提高數據採集的質量和後續處理效率。 對於除了分店以外的數據源,如商業共享數據平台等,需要根據實際情況設計相應介面和採集方法,帆軟數據分析平台內置採集數據功能,可以非常方便根據業務情況定製數據採集模塊。 數據的分析工作在按照數據倉庫對數據的要求並選擇合適的工具對不同類型的數據進行處理,然後儲存到數據倉庫中。隨著時間的推移,數據中心的數據量會不斷增加,運用大數據分析軟體是非常有必要的。大數據工具的主要特點是通過伺服器集群中的主機並行處理數據,將一個龐大的任務分解為小任務處理。 應用程序部署到雲端以後,客戶端通過瀏覽器調用相應的功能,只需將結果返回給客戶端,在客戶端進行數據分析結果的展現。針對鞋服業的數據分析可以包括多個方面,比如:銷量分析、客戶購買偏好分析、商品關聯分析、精準推送服務等等。 文 | 帆軟數據應用研究院 賈強

受本人背景和知識水平所限,本答案局限性如下(包括但不限於): 1. 更適用於中大型公司; 2. 更適用於網際網路公司; 3. 可能更適用於美國的工作環境。 個人以為,一個三年工作經驗的數據分析師應該具備以下方面的能力:對技術的掌握,對產品的理解,對數據的敏銳性,數據和產品之間互相轉化的能力,分析思維的廣度、深度和速度,數理統計的能力,溝通的能力,輔導新人的能力,面試把關的能力。 以下分開來說,同時舉例的時候假設這個數據分析師是知乎這個APP產品的,目的是為了增長活躍用戶。 1、對技術的掌握 不一定需要非常高深的技術,但是基本的一定要過關。比如針對網際網路行業的數據分析,SQL是一定要過關的。在這基礎之上,掌握公司慣用的BI工具或者報表製作工具,譬如帆軟系列;Python / R 可以提高長期的工作效率,但在初期並不一定需要。 簡單來說,技術能力決定了一名數據分析能力的下限,而對產品和業務的理解則決定了上限。 如果缺乏技術的支援,那就只能去當 CEO 了。 就好比在電影 Margin Call 里,底下的小兵負責分析數據,各種模型預測金融危機什麼時候會發生。 而對於 CEO 來說,他的任務就是猜。 2、對產品的理解 數據分析的目的是為了改進產品。如果缺乏對產品的理解,那麼技術再好,也有可能像是無頭蒼蠅到處亂撞。 或者是變成 data dump,提供一堆一堆的圖表,但其中有互相什麼關聯,能說明什麼問題,提供什麼樣的建議,卻並沒有好的想法。 如果是初入行的話,這還是問題不大的。 因為新人可以有老闆帶著,或者是老人帶著,但是如果想要更進一步,那就必須能夠自己獨立的做項目。 尤其是在網際網路行業更是如此,除了新人之外,對大多數人的基本要求都是能單兵作戰,不需要詳細的指導。 同時在很多情況下,問題是很開放性的,對於如何解決並沒有一個非常固定的套路,或者是因為這完全就是一個新的問題,或者因為不同產品之間套路無法直接套用,需要做大量的調整和創新。 比如這裡面增長的例子,哪些是可以借用於知乎的,哪些是需要調整的,哪些是完全不適用的? 3、對數據的敏銳性 對數據的敏銳性體現在兩方面,一是在結果還不是那麼清晰的時候,甚至根本就沒有什麼數據的時候,能夠大致感覺往哪個方向深挖是更有可能出成果的;二是在數據出問題的時候,能夠反應出來,及時找出原因。 比如做知乎這個app的數據分析,目的是為了增長活躍用戶,可以做的地方有很多,比如增加獲新、增加內容、增加用戶關注話題數、增加用戶關注人數等等。一個經驗豐富的老司機可以快糙猛的大概估算一下各個方面的機會有多大,大致的實施難度如何,風險是大是小,產品哪些方面是有缺陷可以改進的。 另一方面,是人就會犯錯,最大的區別在於有的人可以很好的糾錯,而有的人則需要別人提醒,還有的人即使別人提醒了也反應不過來。 4、數據和產品之間互相轉化的能力 在網際網路行業,多數時候問題是很不清晰的,比如說問題可能是2017年新用戶留存遠差於2015年的用戶,如何解決? 對數據分析師來說,並不會有一個詳細的單子來告訴你都有哪些步驟,而是需要自己靈活處理。 一方面這些問題本身就比較新,雖然會有一個大致的套路,比如 AARRR 模型,解決增長需要先解決留存等等;然而再往下具體的時候,套路就沒有那麼固定了,因為不同的產品之間可以差別很大。 即使像是 Quora 和知乎這樣理應非常類似的產品,也可能因為一些或大或小的差異,導致給分析數據也帶來差別。 比如 Quora 的 upvote 並不完全代表贊同,而更多帶有傳播的意味。 而對於知乎來說,點贊即是贊同,傳播只是副產品而已。 如果只懂數據不懂產品的話,很容易進入一個誤區,要麼產品/業務方追著問數據,要麼沒活兒干。 […]

今天的文章中,我們將重點討論在數據科學研究中,數據分析問題的四種類型:描述、診斷、預測和規定。 在與數據科學領域的年輕數據分析師們交談時,我經常問他們,什麼是他們所認為數據科學家最重要的技能,他們給出的答案五花八門。 我告訴他們的答案是,數據科學家最重要的技能是將數據轉化為清晰而且意義明確的見解。這是一個經常被忽視的能力,瑞典統計學家Hans Rosling正是因此而聞名。 談到這個話題有必要談論一下幫助人們理解數據分析在形成有價值的見解過程中的角色的作用的工具。 其中一種工具就是分析的四維範例。 簡單來說,數據分析可以分為四個主要類別,我將在下面做出詳細解釋。 1.描述:發生了什麼事? 這是最常見的數據分析形式。在商業領域,它為分析人員提供了業務中關鍵指標和措施的。 每月損益表正是這樣的一個例子。 類似地,數據分析師可以通過大量的客戶數據,了解客戶的統計信息(例如我們的客戶中30%是個體經營者),這種可以被歸類為「描述性分析」。 利用有效的可視化工具能夠增強描述性分析的信息。 FineReport 2.診斷:為什麼會發生? 數據分析的下一步是解析性描述。 在對描述性數據進行評估時,診斷分析工具將使分析師具備深入分析的能力,從而剝離問題的根本原因。 精心設計的商業智慧信息儀錶板包含讀取時間序列數據(即多個連續時間點的數據),並具有數據過濾和挖掘的能力,可進行此類分析。 比如查看數據地圖,我發現江蘇的市場銷售額較高,想知道是什麼原因?於是點擊該省份,能定位到各類產品的銷售數據和響應的合作客戶數據。 3.預測:將來會發生什麼? 預測分析是為了預報。 無論是將來發生事件的可能性,預測可量化的數量還是估計可能發生事件的時間點,這些都是通過預測模型完成的。 預測模型通常利用各種可變數據進行預測。組件數據的變異性將與可能預測的關係(例如,一個較老的人,他們對心臟病發作的敏感程度越高,我們會說年齡與心臟病發作風險呈線性相關)。然後將這些數據一起編譯成分數或預測。 處在一個巨大不確定性的世界中,預測可以幫助人們做出更好的決定。預測模型是許多領域中最重要的模型。 4.規範:我需要做什麼? 在價值和複雜性方面的下一步是規範性模式。 規範模型利用對發生的事情的理解,為什麼發生了這種情況以及各種「可能發生的」分析,以幫助用戶確定採取的最佳行動方案。 規定性分析通常不僅僅是一個單獨的行動,而且實際上是其他一些行動。 一個很好的例子是交通應用程序能夠幫助您選擇最佳路線回家,並考慮每個路線的距離,每個路上可以行駛的速度,以及當前的交通限制。 另一個例子是製作考試時間表,保證所有學生的時間表不存在衝突。 因此,雖然不同形式的分析可能為企業提供不同數量的價值,但它們都具有自己的用處。

近年來,人們對信息的關注已不僅限於數據本身,而是通過一系列統計工具及分析手段去挖掘其背後隱藏的價值,從而帶來諸如減人增效、輔助決策的效果。 傳統的電子電氣製造業是典型的人口密集型生產行業,企業轉型離不開自動化和信息化,而其中物流、信息流、資金流的整合是必不可少的過程,這就需要通過制定有效的管理手段並輔以強大的數據分析工具來實現。 很多人不明白自己企業當前階段需要什麼程度的數據分析工作,這就會導致數據分析平台搭建出來後,沒人用、不好用、沒價值的尷尬情況,明明花費了很多人力物力,但最後效果卻不盡如人意,基層業務部門反饋不好用,領導也不關注,項目爛尾甚至失敗都是可能的。 是否認識到這些誤區? 誤區一:以多取勝。有些企業在建設數據分析平台時,從業務部門獲取到大量的分析指標,開發出成百上千張分析報表,並沒有從實際使用者的角度去考慮,容易導致使用者的精力分散。 比如生產車間主任要看某一車間昨日的生產情況,可能就要從產能報表、質量報表、工時效率報表、庫存報表等繁多的報表中去尋找自己關心的某一車間某一產品某一工單的信息,費時費力,甚至覺得還不如以前Excel報表方便。 誤區二:單打獨鬥。電子電氣製造行業的數據分析平台,往往涉及到多個業務部門的數據,包含採購、生產、倉儲、物流、銷售在內的供應鏈流程,以及研發、財務、人事等技術或支撐部門,現在很多企業的一些部門會單獨建設某一模塊的數據分析工作,過於強調各個業務部門的獨立性,往往會忽略管理者的使用場景。 比如企業總裁想看目前公司的產銷存情況,他可能要從生產、倉儲、銷售三個部門的報表中找數據,而且還要自己做對比等分析,不能快速的幫助他獲取想要的管理數據和分析結果,他主觀上可能就覺得這個平台比較雞肋。 誤區三:依賴工具。對於大多數企業來說,擁有一款強大的數據分析工具可以事半功倍,但是過分的依賴工具和強調工具的作用會讓管理工作懈怠下來。做數據分析工作必須包含管理的理念在其中。從經驗來看,像帆軟這類的數據分析平台,其意義在於輔助管理決策,而其價值在於可以將一些戰略化、口號化的管理理念進行分解可執行化。 比如某一企業的階段性戰略目標是降低成本,在分析庫存成本時,通過分析往年產銷存情況以及期初期末庫存和安全庫存,調整最佳平衡點、優化庫存結構、提高周轉效率、縮小庫存空間,來達到降低庫存成本的目的。 是否充分了解使用者的需求? 現在很多企業會從客戶需求的角度去創造產品,其實我們做數據分析工作也應該這樣。筆者這裡分析了10個行業,總結了32家企業數據平台建設的成敗經驗,考慮企業各職能層級的工作性質,將數據分析工作分為三個層次,逐層遞進、相互補充。 1、基層。一般基層的使用者大多是銷售員、採購員、生產班組長之類的業務人員,由於大多數業務流程是在各個業務系統中完成的,所以數據分析平台對於他們來說,主要是起到數據補錄和數據查詢的作用(基層使用者多數不會分析或者不需要分析,所以在基層開發分析報表作用不大)。 其中數據補錄是用來彌補老舊的業務系統中缺失的數據項,數據查詢不只是業務系統查詢內容的遷移,更重要的是基礎信息的整合。如果一項反覆工作涉及多個業務系統的查詢操作,那麼將這些數據整合到統一的平台上來查詢可以極大的提高工作效率。 基層報表可以按照業務流程或工種性質來分類,這樣更符合他們的使用習慣,所以對基層報表製作的開發重心是提高工作效率。 2、中層。在不同規模的企業中中層人員可能是某一業務部門負責人、部門中某一模塊的負責人,他們對業務系統的依懶性相對基層人員來說是比較低的,他們更關注匯總的數據、整體的情況以及趨勢,傳統的彙報模式已無法滿足他們對數據準確性以及分析靈活性的要求,所以在中層按照關鍵指標模塊化來分類分析報表是更明智的選擇。 例如將生產分為工單、庫存、物流、設備、質量、成本等模塊,每個模塊可能涉及一個或多個業務流程的信息。 絕大多數的分析類報表是在中層使用的,通過對比、預警、監控等方法去發現部門工作中的問題,所以對中層報表的開發重心是讓管理有理有據。 3、高層。對於企業的決策者和領導者來說,他們更關注結果,關注他們制定的企業戰略方針有沒有被很好的細化和落實下去,所以按照戰略目標的分解和量化來分類報表是很有必要的,報表所展示的信息一定不能脫離企業的戰略目標,否則領導不會關注,開發人員白忙活。 高層領導不會關心太細化的指標,他們要的是以幾個指標就能掌控全局,所以高層報表不能太多,以3~6張為宜,比如行銷情況總覽報表中應體現銷售總額、利潤、計劃按時達成率、庫存總額、銷售效率等指標。 決策者所處的位置讓他們沒有精力去關注到所有部門的實時情況,可以通過監控、排名等分析手段來輸出壓力並傳達給相應負責人,例如對生產班組或銷售小組做top/last分析。 以上我們得出結論,對高層報表的開發重心是弱化分析、結果導向、壓力輸出。 是否了解數據分析的價值 ? 一個完善的企業級數據分析平台的價值是不可估量的,由於其數據來源於各個業務系統,所以其價值有時很容易和業務系統的價值混淆在一起,無法很好的量化。 之前和國內一大型家電企業CIO聊過這個話題,他基於其公司採用的的帆軟數據分析平台總結了以下幾點價值: 1、打通數據壁壘,實現信息透明。底層搭建數倉,統一數據編碼,將多個業務系統數據進行整合,加強部門間信息互通,實現層級間信息垂直透明,促進協作共贏的良好工作氛圍。 2、提高工作效率,促進業務增值。代替傳統手工報表,減少人為干涉錯誤,提高數據準確性;人效分析,提高生產效率,節約人力成本;產銷存平衡分析,縮短周轉周期,提高庫存周轉率、銷售轉化率,促進業務不斷增值。 3、數據驅動產品,引導創新改良。維修數據分析,反饋質量問題,促進生產、工藝或設計改良;客戶需求反饋分析,定位目標功能,引導產品創新。 4、輔助管理預測,提高決策成功率。銷售預測分析,輔助市場決策,提高投入產出比;採購預測分析,輔助物料訂單管理,提高物料周轉率,防止供應商過多備料、物料獃滯。 5、內外數據整合,提升市場競爭力。競品分析、價格帶分析、客戶滿意度分析,作為企業調整戰略目標的參考依據,及時抓住市場機會,提升市場競爭力。 筆者認為其中最大的價值在於能將各個業務系統的價值更高效更直觀的體現出來,它提供的是一種分析手段、管理思路和決策方法,而這也正是現在大多數企業所急需的。對於企業,如何讓高層管理決策、輸出壓力;讓中層有據管理,對高層負責;讓基層量化任務,精準執行?我們可以從管理角度來搭建數據分析平台,讓數據分析展現的數據驅動業務管理流程的前進。數據分析平台的搭建方法經驗,有機會整理成文字分享出來,或者和大家當面交流。 如果將數據比作海洋,那麼各個業務系統就是輕舟、船舶,而數據分析平台則是船槳、發動機。 文 | 帆軟數據應用研究院 任敏

在經分(經營分析)的年代,數據倉庫推倒重來了幾遍,構建了很多的專題項目,經歷了上萬次取數,和成百上千的報表製作,但在支撐了當初的業務發展的同時,到底給如今的企業留下了多少資產? 也許是培養了一代又一代的數據人員,如今有的成為數據專家,有的轉型業務人員,有的晉陞為領導,有的離職踏上新的崗位,為企業服務的合作夥伴也由此獲得快速成長,很多也成了龐然大物。 但這個夠嗎? 顯然不夠,但很多企業現有的數據歷史底蘊就是這些了吧,老系統遲早要倒,新系統還是要建,但老系統的好基因卻很難留下來,這一代的數據倉庫與上一代數據倉庫一般不能說是演進,而是重來,或者是靠著個人的經驗撐起整片天,又如10年前筆者用邏輯回歸實現的飛信潛在模型,現在只能到歷史的PPT中去尋找其蹤影了,反應了同樣的道理。 想向新人介紹一下歷史,囧於歷史沒什麼好說的,也沒什麼好展示的,說明了傳承的不夠,曾經滄海難為水,其實可以做的更好。 那麼問題的核心在哪裡? 答案就是數據中台,今天就來談一談。 廣義的數據中台包括了數據技術,比如對海量數據進行採集、計算、存儲、加工的一系列技術集合,對於大多企業,這些能力是能夠買到的,因此無所謂積澱,要積澱大多也是別人的積澱,而不是企業的,當然自主研發的除外,比如阿里的ODPS等。 筆者提的數據中台要更往上走,包括數據模型,演算法服務,數據產品,數據管理等等,這些服務跟企業的業務有較強的關聯性,是這個企業獨有的且能復用的,比如企業自建的2000個基礎模型,300個融合模型,5萬個標籤,這些就是筆者說的中台,它是企業業務和數據的沉澱,其不僅能降低重複建設,減少煙囪式協作的成本,也是差異化競爭優勢所在。 為什麼數據中台如此重要呢,筆者概括大致有以下四個原因: 1、回歸服務的本質-數據重用 今天的浙江行動已經將2000個基礎模型作為所有數據服務開發的基礎,這些基礎模型做到了「書同文,車同軌」,無論應用的數據模型有多複雜,總是能溯源到2000張基礎表,這奠定了數據核對和認知的基礎,最大程度的避免了「重複數據抽取和維護帶來的成本浪費。」 曾經企業的數據抽取就有多份,報表一份,數據倉庫一份,地市集市一份,無論是抽取壓力、維護難度及數據一致性要求都很高。 同時,統一的基礎模型將相關業務領域的數據做了很好的匯聚,解決了數據互通的訴求,這點的意義巨大,誰都知道數據1+1>2的意思。 2、數據中台需要不斷的業務滋養 在企業內,無論是專題、報表或取數,當前基本是煙囪式數據生產模式或者是項目制建設方式,必然導致數據知識得不到沉澱和持續發展,從而造成模型不能真正成為可重用的組件,無法支撐數據分析的快速響應和創新。 究其原因是模型建設往往是項目式的建設方式,一旦項目結束,在面對業務提出更多需求時,項目模型團隊可能已經撤離了,或者考核指標早已經隨著項目結束,模型提供者在主觀上沒有太大的積極性去滿足新的需求,如果當初模型的擴展性設計的不好,或者時間太緊,或者系統穩定的需要,往往導致有心無力滿足新的需求,結果是數據模型無法再擴展,成為事實上穩定的但無用的模型。 其實,業務最不需要的就是模型的穩定,一個數據模型如果一味追求穩定不變,一定程度就是故步自封,這樣的做法必然導致其他的新的類似的數據模型產生,當越來越多的模型都採用自建的方式滿足需求時,意味著老的數據模型就可能要離開歷史舞台了,而留下的是割裂的成千上萬的模型,也就失去了模型知識沉澱的可能,曾經做過一張幾百個欄位的萬能寬表,由於太大後來就沒人敢去動它,隨著新的業務不斷增加,這張寬表的價值卻越來越低直至退出歷史舞台。 數據模型不需要「穩定」,而需要不斷的滋養,只有在滋養中才能從最初的欄位單一到逐漸成長為企業最為寶貴的模型資產。 其實標籤也一樣,做過不少異動標籤或離網模型,曾經效果不錯,隨著公司轉型流量經營,原來以語音異動判斷為主的這類標籤開始難以適應變化,但後續已經沒人能改得動它,這個標籤也就退出了歷史舞台,退出的可不僅僅是一個標籤,這個標籤承載的所有的既有經驗也就被廢棄掉了,想想這些標籤當初花了多大的代價做成就會感覺非常可惜。 再以報表為例,企業報表成千上萬的原因往往也是沒有沉澱造成的,針對一個業務報表,由於不同的業務人員提出的角度不同,會幻化出成百上千的報表,如果有報表中台的概念,就可以提出一些基準報表的原則,比如一個業務一張報表,已經有的業務報表只允許修改而不允許新增,自然老報表就會由於新的需求而不斷完善,從而能演化成企業的基礎報表目錄,否則就是一堆報表的堆砌,後續的數據一致性問題層出不窮,管理成本急劇增加,人力投入越來越多,這樣的事情在每個企業都在發生。 3、數據中台是培育業務創新的土壤 企業的數據創新一定要站在巨人的肩膀上,即從數據中台開始,不能總是從基礎做起,數據中台是數據創新效率的保障。 搞過機器學習的都知道,沒有好的規整數據,數據準備的過程極其冗長,這也是數據倉庫模型的一個核心價值所在,比如運營商中要獲取3個月的ARPU數據,如果沒有融合模型的支撐,得自己從賬單一層層匯總及關聯,速度可想而知。 很多合作夥伴的數據科學家到一個企業水土不服,除了業務上不熟悉外,往往還面臨著數據準備的困境,取數的高難度導致他難以快速的去驗證想法,企業想藉助外力去搞數據創新有時成了一廂情願。 標籤也一樣,企業打造標籤可並不僅僅是做幾個標籤那麼簡單,它需要打造的是一個標籤服務平台,要能最大限度的規範標籤的格式,接入方式,組合方式,調用方式等等,只有這樣,基於標籤的二次快速創新才有可能,企業每發布一個新的標籤,就意味著新增了一種能力,這才是數據知識的真正傳承。 比如當常駐地模型發布成為標籤平台的一個標籤後,以後凡是涉及到常駐地判斷的都可以直接調用,這極大降低了關於用戶位置數據準備的成本。 在如今的互聯網時代,企業都在全力謀求轉型,轉型的關鍵是要具備跟互聯網公司一樣的快速創新能力,大數據是其中一個核心驅動力,但擁有大數據分析軟體還是不夠的,數據中台的能力往往最終決定速度,擁有速度意味著試錯成本很低,意味著可以再來一次。 4、數據中台是人才成長的搖籃 記得筆者剛進企業的時候,要獲得成長一是靠人帶,二是找人問,三是自己登陸各種系統去看源代碼,這樣的學習比較支離破碎,其實很難了解全貌,無法知道什麼東西對於企業是最重要的,獲得的文檔資料也往往也是過了時的。 現在有了數據中台,很多成長問題就能解決,有了基礎模型,新人可以系統的學習企業有哪些基本數據能力,O域數據的增加更是讓其有更廣闊的視野,有了融合模型,新人可以知道有哪些主題域,從主題域切入去全局的理解公司的業務概念,有了標籤庫,新人可以獲得前人的所有智慧結晶,有了數據管理平台,新人能清晰的追溯數據、標籤和應用的來龍去脈,所有的知識都是線上的,最新的,意味著新人的高起點。 更為關鍵的是,數據中台讓新人擺脫了在起步階段對於導師的過渡依賴,能快速的融入團隊,在前人的基礎上進行創新。 數據中台天然的統一,集成的特性,有可能讓新人打破點線的束縛,快速構築起自己的知識體系,成為企業數據領域的專家。 當然,數據中台的建立不是一蹴而就的,每個企業都應該基於實際打造獨有的中台能力,在這個過程中,需要遵循一些原則: 首先,企業的組織架構及機制需要順勢而變,比如以前負責數據的部門或團隊往往缺乏話語權,面對業務需求往往是被動的接受的角色,這讓一切數據中台的想法化為泡影,需要為數據中台團隊授權。 其次,要改變工作方式,現在很多企業的數據團隊的主要工作內容就是項目管理、需求管理等等,當一個項目完成後又投入到下一個項目,做好一個需求後又開始負責下一個需求,這樣的工作確實非常鍛煉人的組織、協調能力,但這樣能力的提升與工作時間的長短並不是呈線性增長的,雖然增加了項目和需求管理經驗,但並不能在某一個專業領域得到知識和經驗的沉澱,隨著時間的流逝,越來越多的人會失去最初的工作積極性和創造性,事實上,數據人員只有深入的研究業務、數據和模型,端到端的去實踐,打造出數據中台,才是最大的價值創造,才能使得持續創新成為可能。 第三,數據中台的團隊要從傳統的支撐角色逐步向運營角色轉變,不僅在數據上,在業務上也要努力趕超業務人員,中台人員要逐步建立起對於業務的話語權,不僅僅是接受需求的角色,更要能提出合理的建議,能為業務帶來新的增長點,比如精確行銷。 DT時代,接下來整個社會會進入開放共享的時代,致力於大數據變現的企業最大的價值就是將這些核心數據能力進行對外開放的運營,到那個時代,數據中台將成為企業最為寶貴的資產。 從個人的角度講,將自己的貢獻幻化為中台能力,能夠持續的為公司創造價值,這是值得驕傲的事情。 文 | 傅一平