說道“數據分析”一詞,大家應該并不陌生,數據分析從字面上來理解,就是對數據做出分析然后得出一個結論,看起來淺顯易懂,下面我們把這個詞語分開得到的是“數據”與“分析”。“數據”的范圍就很廣泛了,小到一個計量數字,大到成億級別的數據匯總,都可以稱為數據;“分析”一詞并不難理解,以智慧思維的方法對某一事物做出合理的解釋,給出結論是為分析,一般會用到數學上的分析方法,比如統計學或者概率論等等。
”的時代。就拿我們自己舉例子,比如你的購物習慣、你的喜好等等,這些都會組成數據,對你購物習慣的分析會幫助購物平臺更精準的推薦商品,這只是數據分析應用的冰山一角,它還可以應用到金融領域、交通領域、畜牧業等等。
隨著數據規模越來越龐大,單靠人力重復的腦力勞動已經無法跟上行業的發展態勢,人類的智慧應該更多應用于決斷與選擇層次,而讓數據分析成為人類的一種輔助工具,可以幫助決策者更明確做出預期判斷與預測,這也是促使 Python 語言快速走紅的原因。
圖1:數據分析2) 數據分析的目的從上面介紹可以看出,數據分析并不是一個新興的概念,只是伴隨著時代的發展,或者更準確的講是互聯網的浪潮的發展,推動它逐漸演化成了一個行業,行業的從業人員稱為“數據分析師”,從業者的主要職責就是不斷從雜亂無章的的數據挖掘出存在價值的有效信息,再通過所研究它們并找出內在規律,這些信息的最終的目的是輔助人們做出決策,管理科學上有一個專業名詞就是“不斷尋找最優解”的過程。
在實際應用中,數據分析可幫助人們做出判斷,以便采取適當行動。數據分析是有組織有目的地收集數據、分析數據,使之成為信息的過程。例如設計人員在開始一個新的設計以前,要通過廣泛的設計調查,分析所得數據以判定設計方向。
圖2:數據分析3) 數據分析的定義綜上所述我們給出數據分析的定義:數據分析指用適當的統計、分析方法對收集來的大量數據進行分析,將它們加以匯總和理解并消化,以求最大化地開發數據的功能,發揮數據的作用。數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
1) 啤酒與尿布的故事“啤酒與尿布”的故事產生于 20 世紀 90 年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難于理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過后續調查發現,這種現象出現在年輕的父親身上,他們在購買尿布的同時,往往會順便買啤酒犒勞自己,這就是上述情況出現的原因。
沃爾瑪發現了這一獨特的現象,開始嘗試將啤酒與尿布擺放在相同的區域的促銷手段,從而提高了這兩件商品銷售收入,這就是“啤酒與尿布” 故事的由來。在這個案例中可以發現,通過研究顧客的購物習慣,發現了購物人群對商品的需求性,商家發現后做出相應的調整策略,從而實現了增加利潤的目的,兩個毫無關聯的商品通過數據分析的手段,挖掘出來了潛藏的商機,這是精準營銷典型案例。2) 股票走勢預測一入股市深似海,玩過股票的朋友對此深有體會,股票的走勢預測也是通過數據分析的手段完成的,通過預測結果提供給持股人參考意見。這里的預測結果并不是無中生有,亦或是是空穴來風,而是經過準確的數據分析之后得出的結論。
現在市面上各種股票分析軟件很多,它們就是通過對某支股票之前漲跌數據經過分析后,給出合理的意見,有最近一年的、最近一周的、最近三天的,數據分析的越多得出結論越趨于合理。當然股票行情由于存在的影響因素居多,比如企業并購、管理層更換、國家政策等等,所以股票的數據分析最終只能是一種參考而已,最終的決定權還在持股人手里,但是這種對于股票的數據分析無疑給玩股票的人提供了更多有效信息。
圖4:股市預測3. 數據分析的方法通過上面的介紹,大家對于數據分析有了基本的認識,那么應該如何進行數據分析呢?數據分析的常用方法有哪些呢?我們進行簡單的了解。1) 數據分析大致過程數據分析過程的主要由識別信息需求、收集數據、分析數據以及評價并改進數據分析的有效性組成。
明確需求,這是確保數據分析過程有效的首要條件,可以為收集數據、分析數據提供清晰的目標,在這個階段要確定哪些因素影響最終的結論,比如對一個 app 的用戶進行分析,會包括對新增用戶、活躍用戶、啟動次數、留存率的分析。收集數據要有目的性,數據要確保真實、全面與充分,比如你要統計平均身高,如果你收集身高 180cm 或者150cm,那就會造成數據偏差。2) 數據分析常用工具我們將如何進行數據分析的方法作為關注的重點,數據的分析最終結果會以直觀可視化的形式展現出來,比如柱狀圖、曲線趨、概率分布圖等等,形式有很多種,這里面就涉及到諸多的數學知識。
現在市面上有很多軟件,可以幫助我們很快的形成可視化的結果,比如大家都熟悉的 Excel,還有一些親民類的軟件諸如 Origin、SPSS software、 Tableau、PowerBI 等,它們都是數據分析的得力助手,但它們的不足也是顯而易見的:操作繁瑣,復用性差,功能相對局限單一。而對于程序猿來說主要使用 Python、Matlab、R 語言進行數據分析軟件的開發或者從事數據分析的工作。3) 數據分析常用方法
還有諸多種分析方法,比如回歸分析、聚類分析等等,我們把它們當成一種模型最合適不過了,因為這些模型也是在數學方法的基礎上提煉出來,經過不斷驗證才形成的,所以你不必糾結不理解原理,只要記住它們的使用場景以及使用流程就可以了。記住你不是科研工作者,你要做就是“拿來主義”,只要解決了你所遇到的問題,又何必鉆牛角去研究那些科學家歷經 n 多年推導論證出來的公式呢。