統計軟體SPSS和R

最近,我對於SPSS越來越不滿。很想要把它給甩了,但是它卻像水蛭一樣吸著我的血卻怎麼甩也甩不掉。

SPSS是一套一般性的統計軟體,跟它類似的統計軟體有SAS、Stata、和R。SAS是一般企業界和學術界最廣泛使用的統計軟體,但是在學教育的人當中使用率卻不是那麼高。原因在於用SAS作統計分析需要做比較多的程式編碼,這對於很多學教育的人來說是一大困難。SPSS正好彌補了這方面的需要。SPSS並不是最強大的統計軟體,但是它具有最容易上手的使用者介面。因此,很多教初階統計的教授很喜歡用SPSS。因為這樣他們就不用花太多的時間教學生怎麼寫程式。就在這樣的背景之下,我從碩士班一路讀到博士畢業,SPSS是我唯一聽過和用過的統計軟體。

博士畢業之後我到Indiana University的NSSE工作,正好NSSE也是用SPSS,所以我便得心應手的繼續使用SPSS。三年在NSSE的工作經驗讓我對SPSS的熟悉度大幅的提升,我也可以非常熟練的透過SPSS syntax來執行各種統計分析而不需要用到下拉式的選單。很自然的,我對SPSS的依賴也越來越深。

也是在NSSE工作的時候我遇到了來自不同背景的研究員和分析師。我的一位具有公共行政背景的同事告訴我他以前學的統計軟體是Stata。他說Stata的功能比SPSS強大許多,但是要上手比較難。後來我又遇到很多在Institutional Research (IR)這個領域工作的人用SAS。根據SAS使用者的說法,SAS在處理大型數據資料的效率比SPSS好很多。聽到這個消息曾經讓我很想要學SAS,因為我做研究的資料檔案動輒就是幾百MB,甚至有上GB的。這些SPSS資料檔在我的電腦上光是開啟就是一筆時間。整個研究做下來有很多時間都浪費在等待電腦跑結果上。但是因為同事間沒有人用SAS,所以我遲遲沒有對SAS下手。

在NSSE工作的時候我也聽說了R這套開放源碼的統計軟體。當時的我之所以會對R有興趣是因為它是開放源碼(open source),所以是免費的。其他三套統計軟體都是天價:SPSS基本版要價美金$700,如果再加上其他常用的附加功能,$2,000恐怕是少不了的。SAS要價一年美金$8,100,不要懷疑,你沒有看錯,八千一百大洋是一套SAS一年的使用費。Stata稍微好一點,美金$1,595。

統計軟體賣的這麼貴的結果就是除非學校或是公司出錢,否則很少有人買的起這些軟體。這對當時還在NSSE上班的我來說沒有差,反正NSSE有的是錢,幾千塊美金對他們來說是不痛不癢。但是我來到UNT之後卻發現當教授跟當研究員真是不同。UNT只提供我SPSS的基本版,如果我需要其他附加功能(像是處理missing data的模組)那我就需要自己想辦法生錢來買。再者,我教的研究所課程常常需要學生做統計分析。雖然學校的電腦室都裝有SPSS,但是我的學生大部分都是上班族,住的離學校又遠(我有一個學生通勤單程就要3個小時,這還不包括塞車的時間),因此為了寫作業特別跑一趟學校的電腦室對很多學生來說是不切實際的。結果為了寫作業很多學生只好自己買一套SPSS裝在家裡的電腦上。不幸的是SPSS的學生版功能太有限,沒有辦法做到我要他們做的分析,所以我的學生只好花大錢買SPSS。這實在不是我所願意的。

最後一項我對SPSS不滿的地方是有太多高階統計的分析它做不出來。一些資料處理的方法像是multiple imputation和Heckman correction,或是高階的統計分析像是SEM、HLM…等等,SPSS都做不出來。結果是我必須另外花錢買一套軟體來做SEM,然後又是另外一套軟體專門來做HLM。這些錢都不是學校給的,是我要自己想辦法的。

就是在這樣的情況之下我開始接觸R。之前提過R是一套開放源碼的免費軟體。然而在IR領域很少有人用R,美國大學中的IR通常不是用SAS就是用SPSS,因此我在NSSE的時候雖然聽過R但是沒有接觸過。當了教授之後才發現在學術界用R的人還真不少(大概是因為很多教授都跟我有同樣的處境)。由於使用R的學術界人士非常的多,因此R的統計功能非常的強大。幾乎只要可以想的出來的統計分析R都可以做的出來。當然,這背後還有一個原因是它的開放源碼,因此任何人都可以幫R設計外加模組。R還可以做出其他統計軟體做不出來的圖形化報表(見下圖)。

既然R這麼的強大又免費,為什麼用的人大多侷限在學術界呢?原因很簡單,因為它要上手實在不是那麼容易。R不像SPSS只要用下拉式選單就可以完成大部分的分析,一切R的操控都是透過程式化的指令來進行。這意味著要學R先得學習用以操作R的S語言。我想很多學教育的人可能看到這裡就已經打退堂鼓了。我呢?我希望有一天我可以完全的用R來取代我電腦裡的SPSS、AMOS、和HLM。但是在那一天來到之前,我還是得繼續倚靠SPSS來完成我的研究。

最後是我最近在學R的時候參考的幾本書。我在Amazon.com買了好幾本R的書,也在我們學校的圖書館借了好幾本。我發現統計的教科書要嘛是寫得很好:易懂又教你實際操作,要不然就是寫的很爛:充滿各種專業術語跟符號但是又解釋的不清不楚。對於跟我一樣在學R的人,我推薦以下幾本書:

Introductory Statistics with R (Statistics and Computing)