200 Countries, 200 Years, 4 Minutes – The Joy of Stats

This is how you communicate statistics to public. I wish that I can be this good.

NCES/NSF Summer Data Policy Institute – Day 4

第四天,我累了。該是準備回家的時候了。以下是今天的行程:

7:30 – 8:30 a.m. 早餐
8:30 – 9:15 a.m. Mid-week evaluation of Institute & Development of Small Groups
9:15 – 10:45 a.m. Survey of Doctorate Recipients Findings on International Collaboration
10:45 – 11:00 a.m. 休息
11:00 a.m. – 12:30 p.m. Delta Cost Project
12:30 – 1:30 p.m. 午餐
1:30 – 5:00 p.m. NELS, ELS, and HSLS綜覽與示範
6:30 p.m. Joint Dinner at hotel with T-T-T group

今天上午的兩堂課是兩個研究人員來介紹他們使用NCES和NSF的資料庫所做的研究。第一堂的講員講的是他如何使用SDR來研究學術界的國際合作關係。我個人覺得這個人的研究方法有一些問題,所以我對他的研究結果不是很有興趣。

第二堂的講員來自Delta Cost Project。他們使用IPEDS的資料經過運算和調整之後來分析大學的財務運作狀況。這個研究者的研究方法比第一個嚴謹許多,而且在教育政策的制定和運作上應該有很大的用處。I like it!

午餐之後我們花了一個下午學習NCES的另外三個長期性的追蹤調查:National Education Longitudinal Study of 1988 (NELS:88)、Education Longitudinal Study of 2002 (ELS:02)、和High School Longitudinal Study of 2009 (HSLS:09)。我對於這三個資料庫很有興趣,因為這三個長期性的追蹤調查從學生高中時期開始追蹤他們到高中畢業,上大學,然後到就業。如果沒有上大學的也會繼續追蹤他們高中畢業之後做了些什麼事情。這些資料對於研究者來說是非常有用的資訊,因為研究人員可以分析是什麼因素讓高中生決定升學或是不升學,還有什麼因素影響學生在大學裡的學業表現,以及他們畢業之後的就業情況。

NELS和ELS跟昨天學到的BPS和B&B不一樣的地方是NELS和ELS都有開放給公眾下載的資料檔案。這意思是說我可以把這些檔案下載作為教學的工具,讓我的學生有機會學習怎麼樣使用聯邦政府的教育資料庫。

另外一個不同的地方是NELS和ELS是屬於NCES下的中小學教育組所管轄的,前幾天學到的IPEDS, BPS, 和B&B則是高等教育組的產品。由於這些資料庫是由不同的單位所發展跟管理的,因此他們所用的線上管理工具也不同:IPEDS有IPEDS Data Center,BPS和B&B有PowerStats,而ELS和NELS則有eDAT。我不能理解同樣都是NCES的資料庫,他們為什麼不能整合一下他們的管理工具呢?這麼多種不同的資料管理工具讓我們這些使用者很困擾。

這幾天學了這些教育資料庫我還有一個感想就是美國人真的對於教育資料的收集非常的肯花錢和用心。你看他們有這麼多長期追蹤研究的資料庫還有全國將近7,000所大專院校的各種校園資料。這些資料對於政策制定和教育研究真的非常的有幫助。不知道台灣的教育部是不是也肯做這樣的投資。

晚餐時間我們跟另外一個也在這裡參加NCES訓練的團體一起吃晚餐。正好在這個團體受訓的其中一位是我在讀博士班時候的好朋友,所以我們便聊了一下近況,順便討論我們準備一起從事的研究。

統計軟體SPSS和R

最近,我對於SPSS越來越不滿。很想要把它給甩了,但是它卻像水蛭一樣吸著我的血卻怎麼甩也甩不掉。

SPSS是一套一般性的統計軟體,跟它類似的統計軟體有SAS、Stata、和R。SAS是一般企業界和學術界最廣泛使用的統計軟體,但是在學教育的人當中使用率卻不是那麼高。原因在於用SAS作統計分析需要做比較多的程式編碼,這對於很多學教育的人來說是一大困難。SPSS正好彌補了這方面的需要。SPSS並不是最強大的統計軟體,但是它具有最容易上手的使用者介面。因此,很多教初階統計的教授很喜歡用SPSS。因為這樣他們就不用花太多的時間教學生怎麼寫程式。就在這樣的背景之下,我從碩士班一路讀到博士畢業,SPSS是我唯一聽過和用過的統計軟體。

博士畢業之後我到Indiana University的NSSE工作,正好NSSE也是用SPSS,所以我便得心應手的繼續使用SPSS。三年在NSSE的工作經驗讓我對SPSS的熟悉度大幅的提升,我也可以非常熟練的透過SPSS syntax來執行各種統計分析而不需要用到下拉式的選單。很自然的,我對SPSS的依賴也越來越深。

也是在NSSE工作的時候我遇到了來自不同背景的研究員和分析師。我的一位具有公共行政背景的同事告訴我他以前學的統計軟體是Stata。他說Stata的功能比SPSS強大許多,但是要上手比較難。後來我又遇到很多在Institutional Research (IR)這個領域工作的人用SAS。根據SAS使用者的說法,SAS在處理大型數據資料的效率比SPSS好很多。聽到這個消息曾經讓我很想要學SAS,因為我做研究的資料檔案動輒就是幾百MB,甚至有上GB的。這些SPSS資料檔在我的電腦上光是開啟就是一筆時間。整個研究做下來有很多時間都浪費在等待電腦跑結果上。但是因為同事間沒有人用SAS,所以我遲遲沒有對SAS下手。

在NSSE工作的時候我也聽說了R這套開放源碼的統計軟體。當時的我之所以會對R有興趣是因為它是開放源碼(open source),所以是免費的。其他三套統計軟體都是天價:SPSS基本版要價美金$700,如果再加上其他常用的附加功能,$2,000恐怕是少不了的。SAS要價一年美金$8,100,不要懷疑,你沒有看錯,八千一百大洋是一套SAS一年的使用費。Stata稍微好一點,美金$1,595。

統計軟體賣的這麼貴的結果就是除非學校或是公司出錢,否則很少有人買的起這些軟體。這對當時還在NSSE上班的我來說沒有差,反正NSSE有的是錢,幾千塊美金對他們來說是不痛不癢。但是我來到UNT之後卻發現當教授跟當研究員真是不同。UNT只提供我SPSS的基本版,如果我需要其他附加功能(像是處理missing data的模組)那我就需要自己想辦法生錢來買。再者,我教的研究所課程常常需要學生做統計分析。雖然學校的電腦室都裝有SPSS,但是我的學生大部分都是上班族,住的離學校又遠(我有一個學生通勤單程就要3個小時,這還不包括塞車的時間),因此為了寫作業特別跑一趟學校的電腦室對很多學生來說是不切實際的。結果為了寫作業很多學生只好自己買一套SPSS裝在家裡的電腦上。不幸的是SPSS的學生版功能太有限,沒有辦法做到我要他們做的分析,所以我的學生只好花大錢買SPSS。這實在不是我所願意的。

最後一項我對SPSS不滿的地方是有太多高階統計的分析它做不出來。一些資料處理的方法像是multiple imputation和Heckman correction,或是高階的統計分析像是SEM、HLM…等等,SPSS都做不出來。結果是我必須另外花錢買一套軟體來做SEM,然後又是另外一套軟體專門來做HLM。這些錢都不是學校給的,是我要自己想辦法的。

就是在這樣的情況之下我開始接觸R。之前提過R是一套開放源碼的免費軟體。然而在IR領域很少有人用R,美國大學中的IR通常不是用SAS就是用SPSS,因此我在NSSE的時候雖然聽過R但是沒有接觸過。當了教授之後才發現在學術界用R的人還真不少(大概是因為很多教授都跟我有同樣的處境)。由於使用R的學術界人士非常的多,因此R的統計功能非常的強大。幾乎只要可以想的出來的統計分析R都可以做的出來。當然,這背後還有一個原因是它的開放源碼,因此任何人都可以幫R設計外加模組。R還可以做出其他統計軟體做不出來的圖形化報表(見下圖)。

既然R這麼的強大又免費,為什麼用的人大多侷限在學術界呢?原因很簡單,因為它要上手實在不是那麼容易。R不像SPSS只要用下拉式選單就可以完成大部分的分析,一切R的操控都是透過程式化的指令來進行。這意味著要學R先得學習用以操作R的S語言。我想很多學教育的人可能看到這裡就已經打退堂鼓了。我呢?我希望有一天我可以完全的用R來取代我電腦裡的SPSS、AMOS、和HLM。但是在那一天來到之前,我還是得繼續倚靠SPSS來完成我的研究。

最後是我最近在學R的時候參考的幾本書。我在Amazon.com買了好幾本R的書,也在我們學校的圖書館借了好幾本。我發現統計的教科書要嘛是寫得很好:易懂又教你實際操作,要不然就是寫的很爛:充滿各種專業術語跟符號但是又解釋的不清不楚。對於跟我一樣在學R的人,我推薦以下幾本書:

Introductory Statistics with R (Statistics and Computing)