統(tǒng)計(jì)學(xué)在社會(huì)學(xué)中的應(yīng)用,1950-2000——一個(gè)簡(jiǎn)要的回顧

統(tǒng)計(jì)學(xué)方法在社會(huì)學(xué)中的運(yùn)用已經(jīng)成功地走過(guò)了半個(gè)世紀(jì),它對(duì)提高社會(huì)學(xué)這門學(xué)科的科學(xué)研究水平做出了巨大的貢獻(xiàn)。根據(jù)研究者所使用的數(shù)據(jù)類型的不同,我將戰(zhàn)后統(tǒng)計(jì)學(xué)方法在社會(huì)學(xué)中的應(yīng)用過(guò)程分為三個(gè)層疊的時(shí)期。第一代統(tǒng)計(jì)方法起于1940年代晚期,研究者主要運(yùn)用交互表(cross-tabulations)的方法,同時(shí)對(duì)關(guān)聯(lián)測(cè)量 (measures of association)和對(duì)數(shù)線性模型(log-linear models)傾注了許多心血,可以說(shuō)這是社會(huì)學(xué)對(duì)統(tǒng)計(jì)學(xué)貢獻(xiàn)最大的一個(gè)領(lǐng)域。

 

第二代統(tǒng)計(jì)方法始現(xiàn)于1960年代,這一時(shí)期的研究者主要面對(duì)的是個(gè)體層次的調(diào)查數(shù)據(jù),同時(shí)他們將注意力集中在具有線性結(jié)構(gòu)關(guān)系(LISREL)的因果模型和事件史分析(event history analysis)上。第三代統(tǒng)計(jì)方法在1980年代晚期就已經(jīng)初現(xiàn)端倪,研究者所處理的數(shù)據(jù)已經(jīng)不能簡(jiǎn)單地歸入上文所述的任何一個(gè)范疇。一方面是因?yàn)檫@些數(shù)據(jù)都具有與眾不同的形式,比如文本和口述,另一方面是因?yàn)樵谂c空間的和社會(huì)網(wǎng)的數(shù)據(jù)聯(lián)系時(shí),依賴性已經(jīng)成為一個(gè)至關(guān)重要的方面。盡管有許多新的挑戰(zhàn),但用統(tǒng)計(jì)學(xué)方法研究這一領(lǐng)域的條件已經(jīng)成熟,最近,幾個(gè)主要的研究機(jī)構(gòu)已經(jīng)開始在統(tǒng)計(jì)學(xué)和社會(huì)科學(xué)領(lǐng)域展開新的探索。

1 引言

為了紀(jì)念千禧年的來(lái)臨,美國(guó)統(tǒng)計(jì)學(xué)會(huì)月刊(Journal of the American Statistical Association)刊登了一個(gè)由大約50篇短文組成的連載,每篇短文都著力概括統(tǒng)計(jì)學(xué)中的某一領(lǐng)域在即將過(guò)去的一個(gè)世紀(jì)所取得的進(jìn)展。這一計(jì)劃的初衷在于將統(tǒng)計(jì)學(xué)中一些最優(yōu)秀的成果做一總結(jié),并且突出未來(lái)研究中的具有潛力的領(lǐng)域。我寫作了有關(guān)統(tǒng)計(jì)學(xué)在社會(huì)學(xué)中應(yīng)用的那篇論文(Raftery,2000)。其他幾篇相關(guān)的論文或許會(huì)對(duì)那些對(duì)社會(huì)學(xué)方法論感興趣的讀者有幫助,這些文章涵蓋了列聯(lián)表(contingency table),對(duì)數(shù)線性模型(Fienberg,2000),因果推理在社會(huì)科學(xué)中的應(yīng)用(Sobel,2000),人口學(xué)(Xie,2000),政治學(xué)方法論(Beck,2000),計(jì)量心理學(xué)(Browne,2000),經(jīng)驗(yàn)方法在法律科學(xué)中的應(yīng)用(Eisenberg,2000)等諸多領(lǐng)域。

  在我這篇論文的初稿問世后,許多同事都對(duì)我的文章發(fā)表了評(píng)論,其中有許多評(píng)論正確地指出了我在文章中不慎遺漏的該領(lǐng)域的一些重要發(fā)展。然而,由于美國(guó)統(tǒng)計(jì)學(xué)會(huì)月刊給我的篇幅有限,我不可能將這些遺漏的部分全部補(bǔ)充進(jìn)來(lái)。幸運(yùn)的是,社會(huì)學(xué)方法論(Sociological Methodology)編輯Michael Sobel和Mark Becker請(qǐng)我撰寫一篇在此基礎(chǔ)上有所擴(kuò)展的專題論文,或許這篇論文能夠?yàn)檫@一不斷發(fā)展的研究領(lǐng)域提供一個(gè)更為合適的概括。

  社會(huì)學(xué)起源于十九世紀(jì)中期,孔德(他首先引進(jìn)了“社會(huì)學(xué)”一詞),馬克思,韋伯和涂爾干圍繞著工業(yè)革命后新出現(xiàn)的社會(huì),寫下了一系列具有奠基意義的著作。社會(huì)學(xué)從一開始就使用了定量的研究方法?椎,這位學(xué)科的奠基人,清晰的意識(shí)到這門學(xué)科應(yīng)該以統(tǒng)計(jì)數(shù)據(jù)為基礎(chǔ)。而涂爾干的《自殺論》更是成為了廣泛運(yùn)用統(tǒng)計(jì)數(shù)據(jù)的典范。

  然而,在二戰(zhàn)以前,可供研究的數(shù)據(jù)都顯得支離破碎,統(tǒng)計(jì)方法也比較簡(jiǎn)單,僅僅停留在描述性統(tǒng)計(jì)的層次上。經(jīng)過(guò)仔細(xì)的考證Camic和Wilson(1994)認(rèn)為,F(xiàn)ranklin H. Giddings是美國(guó)定量社會(huì)學(xué)之父。Giddings于1894年在哥倫比亞獲得社會(huì)學(xué)教授職務(wù),1931年逝世,他將社會(huì)學(xué)界定為研究集體層面社會(huì)現(xiàn)象的一門學(xué)科。他認(rèn)為在很大程度上社會(huì)學(xué)中的統(tǒng)計(jì)分析是將諸多的個(gè)體分成不同的類別,同時(shí)發(fā)現(xiàn)每一類別的平均特征。從現(xiàn)代統(tǒng)計(jì)學(xué)角度來(lái)看,缺乏對(duì)變化的考察是他著作的一個(gè)最為顯著的特征。

  從那以后,研究用的數(shù)據(jù)變得越來(lái)越復(fù)雜,同時(shí)統(tǒng)計(jì)方法也在不斷發(fā)展,以適應(yīng)數(shù)據(jù)分析的需要。這時(shí)期的統(tǒng)計(jì)學(xué)方法的發(fā)展,有許多是要?dú)w因于社會(huì)學(xué)家而非統(tǒng)計(jì)學(xué)家的努力。Clogg(1992)以及他文章的評(píng)論者們有力的論證并且記述了這一點(diǎn)。這種情況部分反映了一個(gè)事實(shí),即致力于研究社會(huì)學(xué)問題的統(tǒng)計(jì)學(xué)家的數(shù)量相對(duì)較少。更多的統(tǒng)計(jì)學(xué)家傾向于關(guān)注藥物學(xué),工程技術(shù)以及生物科學(xué)方面的問題。這或許反映了在二十世紀(jì)后半期不同學(xué)科間研究資金分布的不平衡狀況。然而,最近有跡象表明這一情況正在發(fā)生變化,我將在本文的結(jié)尾論述這個(gè)問題。

  在過(guò)去的五十年中,社會(huì)學(xué)總的趨勢(shì)是向更為嚴(yán)格、清晰的假設(shè);更大更詳細(xì)的數(shù)據(jù)集合發(fā)展;為了擬合數(shù)據(jù),統(tǒng)計(jì)模型變得越來(lái)越復(fù)雜;主要社會(huì)學(xué)期刊所發(fā)表文獻(xiàn)的統(tǒng)計(jì)分析水平也在不斷提高。統(tǒng)計(jì)方法在社會(huì)學(xué)領(lǐng)域成功地走過(guò)了半個(gè)世紀(jì),使得該學(xué)科研究的科學(xué)水平有了極大的提高。

  社會(huì)學(xué)中廣泛的使用了各種各樣的統(tǒng)計(jì)學(xué)方法和統(tǒng)計(jì)模型。在這里,我將集中考察那些由社會(huì)學(xué)家發(fā)展的,直接由社會(huì)學(xué)問題所引致的,或者首先在社會(huì)學(xué)期刊上發(fā)表的那些統(tǒng)計(jì)學(xué)成就。許多其它的方法,比如邏輯斯蒂回歸等適用于有限數(shù)量的因變量的方法,雖然也廣泛的應(yīng)用于社會(huì)學(xué)研究,但是他們是首先在其他的學(xué)科中為解決其學(xué)科自身的問題而發(fā)展出來(lái)的。有鑒于此,盡管這些方法很重要,但我們?cè)谶@里也僅對(duì)他們做一簡(jiǎn)要介紹。

  對(duì)于從計(jì)量經(jīng)濟(jì)學(xué)而不是從統(tǒng)計(jì)學(xué)中引入到社會(huì)學(xué)研究中的統(tǒng)計(jì)方法,本文省略了與其相關(guān)的討論。這或許對(duì)從另一個(gè)角度來(lái)討論這一問題有所幫助。計(jì)量經(jīng)濟(jì)學(xué)對(duì)社會(huì)學(xué)方法論產(chǎn)生了非常重要的影響,甚至有些人說(shuō)這種影響比來(lái)自統(tǒng)計(jì)學(xué)本身的影響更為強(qiáng)大,但是在這里除了個(gè)別情況,我將不對(duì)這種重要的影響發(fā)表評(píng)論。

  為了避免引起爭(zhēng)論,我將根據(jù)社會(huì)學(xué)中不同的統(tǒng)計(jì)方法所針對(duì)的數(shù)據(jù)類型,而不是根據(jù)這些方法本身對(duì)他們加以分類。我將區(qū)分出戰(zhàn)后統(tǒng)計(jì)學(xué)在社會(huì)學(xué)中應(yīng)用的三個(gè)不同的階段。每一階段的劃分都是根據(jù)他們通常所適用的數(shù)據(jù)類型做出的:交互表,單位水平的統(tǒng)計(jì)數(shù)據(jù),以及種種新的數(shù)據(jù)形式。就像現(xiàn)實(shí)中的代際一樣,這三代統(tǒng)計(jì)方法前后層疊,而且它們之間的界限也并非十分明晰。雖然這些方法代表著不同的成熟水平,甚至關(guān)于他們的起點(diǎn)也并沒有一個(gè)統(tǒng)一的界定,但是今天這些方法都依然保持著活力。

  在二戰(zhàn)后開始的這一時(shí)期,社會(huì)學(xué)家們所使用的許多數(shù)據(jù)都是在調(diào)查和普查的基礎(chǔ)上以交互表的形式呈現(xiàn)的。我在文中所要討論的第一代統(tǒng)計(jì)方法就是以這種方式處理數(shù)據(jù)的。通常說(shuō)來(lái),這類交互表都只包含很少的變量,例如性別,年齡組以及職業(yè)分類。社會(huì)流動(dòng)表可以稱得上是這種方法中的經(jīng)典之作。這一領(lǐng)域或許是社會(huì)學(xué)家對(duì)統(tǒng)計(jì)學(xué)貢獻(xiàn)最大的地方。實(shí)際上,我們可以說(shuō)是社會(huì)學(xué)家們主導(dǎo)了這一分支領(lǐng)域,他們發(fā)展出來(lái)的這些方法已經(jīng)超出了社會(huì)學(xué)領(lǐng)域滲透到其他的學(xué)科的研究工作當(dāng)中。Schuessler(1980)所作的調(diào)查在很大程度上反映了第一代方法所取得的成就。

  1960年代早期,社會(huì)學(xué)家已經(jīng)不必再依賴于計(jì)數(shù)的交互表了,來(lái)自含有多個(gè)變量調(diào)查的個(gè)體層次的數(shù)據(jù)越來(lái)越容易獲得。計(jì)算能力也已經(jīng)發(fā)展到能夠輕而易舉地處理這些數(shù)據(jù)的水平。第二代的統(tǒng)計(jì)方法正是針對(duì)處理這類數(shù)據(jù)而發(fā)展出來(lái)的。Blau和Duncan的有廣泛影響力的著作美國(guó)的職業(yè)結(jié)構(gòu)(The American Occupational Structure),為這一代的統(tǒng)計(jì)方法披上了金色的外衣,而1969年《社會(huì)學(xué)方法論》(Sociological Methodology)以及1972年《社會(huì)學(xué)方法與研究》(Sociological Methods and Research)等發(fā)表窗口的建立,更為這一方法增光添色。Edgar Borgatta一手創(chuàng)立了這兩份刊物,當(dāng)他創(chuàng)立第二份刊物時(shí),《社會(huì)學(xué)方法論》已經(jīng)遠(yuǎn)不能滿足日益增多的投稿和發(fā)表的需要了。這些發(fā)展標(biāo)志了社會(huì)學(xué)定量研究方法的新時(shí)代的到來(lái)。

1980年代晚期,社會(huì)學(xué)家們勾畫了一個(gè)雄心勃勃的計(jì)劃,就是對(duì)那些難以符合標(biāo)準(zhǔn)交互表和數(shù)據(jù)矩陣要求的數(shù)據(jù)類型進(jìn)行統(tǒng)計(jì)分析(盡管在有些情況下,這些數(shù)據(jù)也可以被強(qiáng)行歸入這些類別中)。這些數(shù)據(jù)包含了文本(text)或敘述(narrative),以及依賴性很強(qiáng)的數(shù)據(jù),比如社會(huì)網(wǎng)的數(shù)據(jù)和具有空間參照特性的數(shù)據(jù)。這其中還包含了一些含有多類型變量的數(shù)據(jù)集,比如衛(wèi)星圖片,人種學(xué)的紀(jì)錄和其他一些定量測(cè)量數(shù)據(jù)。第三代的統(tǒng)計(jì)方法正是為了處理諸如此類的數(shù)據(jù)而發(fā)展出來(lái)的;蛟S是每一個(gè)新事物的優(yōu)點(diǎn),迄今為止,這一代方法保持著它們的活力,包含了大量的令人激動(dòng)的想法和進(jìn)展,但是他們還未形成前兩代統(tǒng)計(jì)方法所具有的成熟、完備的形式。

  我對(duì)社會(huì)學(xué)中所應(yīng)用的統(tǒng)計(jì)學(xué)方法的分類是根據(jù)不同方法所處理的數(shù)據(jù)類型做出的,而不是以方法本身的類型為標(biāo)準(zhǔn),但這并不意味著目前研究生課程的編排有什么問題;蛟S為了訓(xùn)練的方便和有效,社會(huì)學(xué)的主要方法傾向于按照不同的類別組織在一起,比如回歸模型(regression model),有限因變量模型(limited dependent variable model),對(duì)數(shù)線性模型(log-linear model),結(jié)構(gòu)方程模型(structural equation model),事件史分析等等。然而,我發(fā)現(xiàn)要分辨統(tǒng)計(jì)學(xué)方法以往的發(fā)展趨勢(shì)以及構(gòu)想未來(lái)的發(fā)展,從最初引致這些方法產(chǎn)生的數(shù)據(jù)的類型入手或許是一條捷徑。

  過(guò)去的五十年間,我們已經(jīng)走過(guò)了一條漫長(zhǎng)的道路。今天,許多社會(huì)學(xué)研究都是以巨大的高質(zhì)量的調(diào)查樣本為基礎(chǔ)進(jìn)行再分析的。他們較多的利用在公共基金資助下收集的或者是對(duì)研究者公開的數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)通常都有著5000到20000,甚至更大的樣本規(guī)模。這為復(fù)證結(jié)果提供了一條簡(jiǎn)便的道路,同時(shí)也有助于社會(huì)學(xué)建立起可以與自然科學(xué)或醫(yī)藥科學(xué)相媲美甚至高于這些學(xué)科的科學(xué)標(biāo)準(zhǔn);蛟S受以上因素的影響,社會(huì)統(tǒng)計(jì)學(xué)在最近成為了一個(gè)迅速擴(kuò)展的研究領(lǐng)域,許多重要的研究機(jī)構(gòu)也都在最近幾年開始了他們對(duì)這一領(lǐng)域的探索。