學術堂首頁 | 文獻求助論文范文 | 論文題目 | 參考文獻 | 開題報告 | 論文格式 | 摘要提綱 | 論文致謝 | 論文查重 | 論文答辯 | 論文發表 | 期刊雜志 | 論文寫作 | 論文PPT
學術堂專業論文學習平臺您當前的位置:學術堂 > 經濟學論文 > 計量經濟學論文

機器學習對于經濟學應用研究的適用性

時間:2020-04-22 來源:機器學習在經濟學中的應用研究[J 作者:劉麗艷,朱成全 本文字數:13119字

  摘    要: 機器學習以數據、文本、圖片等現實經驗信息為研究對象,通過計算機與人工智能相結合的算法進行深度挖掘,對經驗現實進行建模與預測。因其對高維、復雜、大樣本數據的模型選擇和預測優勢,應用于經濟學研究,尤其是微觀經濟學、能源經濟和金融市場領域。機器學習在數據發現與變量創造、預測、因果推斷、政策評估、理論檢驗等領域有較好的應用,但其在經濟學應用研究中的作用與局限是值得注意的問題。

  關鍵詞: 機器學習; 經濟研究; 方法論; 作用與局限;

  Abstract: As a field concerning data-driven algorithm,Machine Learning takes real experience information such as data,text,and pictures as research objects,and performs deep mining through algorithms combining computers and artificial intelligence to model and predict empirical reality. Due to its model selection and prediction advantages for high-dimensional,complex and large sample data,it is generating new opportunities for innovative research in economics,especially in the fields of microeconomics,energy economy and financial markets. Machine learning has a good application in the fields of data discovery and variable creation,prediction,causal inference,policy evaluation, and theoretical testing,but its role and limitations in applied economics research are also noteworthy.

  Keyword: machine learning; economic research; economics methodology; capabilities and limitations;

  隨著人工智能的興起,機器學習(Machine Learning)最初作為人工智能的一個分支,在各個領域迅速崛起,其對巨量、復雜信息的處理、預測能力和基于數據科學的各種算法體系,使其成為數字經濟時代的創新驅動力之一。互聯網及大數據模式下的經濟活動促使了更多高維、復雜經驗數據的產生,機器學習在科學研究領域的應用為新范式下的經濟研究提供了新型的研究方法,進而促使經濟學研究由當前的線性、低維、有限樣本、抽象模型向非線性、高維、大樣本、復雜模型的轉向。經濟學實證研究及計量經濟學模型理論研究中對機器學習的應用及相關文獻的出現,是這次轉向的主要標志。2016年美國經濟學年會上,蘇珊·艾西(Susan Athey)1首次提出機器學習方法對經濟研究的影響,進一步引發了學界對機器學習的廣泛關注。應用機器學習進行實證研究的英文文獻主要出現于微觀經濟學、能源經濟學和金融市場領域,隨著近兩年機器學習算法的不斷開發,機器學習也開始嘗試應用于宏觀領域的失業、通貨膨脹等問題。但應用機器學習進行經濟學實證研究的中文文獻還非常少,仍處于初始起步階段。

  機器學習范式作為一種新興數據驅動的模型體系,引起經濟學界廣泛關注。機器學習模型體系與傳統的數理統計及計量經濟學模型方法有何不同,其適用領域及在具體應用實踐中的作用如何?本文致力于對以上問題作出回答,并嘗試從更宏觀的方法論層面來理解機器學習范式的本質及其在經濟研究中的作用與局限。
 

機器學習對于經濟學應用研究的適用性
 

  一、機器學習的內涵界定

  機器學習的內涵較為廣泛,目前對機器學習的內涵有多種界定,包括廣義的和狹義的兩方面。廣義的機器學習認為,機器學習是計算機科學的一些分支領域的集合,也是機器一系列在計算機科學、工程學、統計學尤其是社會科學中發展和使用。由于機器學習算法廣泛應用于不同學科,不同領域或學科對機器學習的界定也不同。2狹義的機器學習則來自各個學科對機器學習的分別界定。如計算機科學認為,機器學習是數據科學的核心,是現代人工智能的本質,機器學習簡單來說就是涵蓋了統計推斷的人工智能。工業和工程學等領域認為,機器學習是對能基于現有經驗自動改進計算機算法的研究[1](P1-2),這種算法對人工智能的發展具有關鍵的促進作用。統計學認為,機器學習是從數據中挖掘出有價值的信息,是更高層次、更智能化的數據挖掘方法。統計學對機器學習三個層次的劃分是基于計算機視覺理論創始人馬爾(Marr)關于計算機視覺的三級論定義的,他并將機器學習分為初級、中級和高級三個層次。[2](P19-45)初級機器學習是獲取數據和提取數據特征;中級機器學習是數據處理與分析,包括應用問題導向的模型和方法的應用,也就是數據挖掘,但機器學習的數據挖掘更強調問題導向,重在提出和發展模型、方法及算法,并探討其背后的數學原理或理論基礎;高級機器學習是通過統計推斷而達到某種智能與認知。統計學認為,機器學習和數據挖掘具有相同的本質,只是數據挖掘更偏向于數據端,而機器學習則偏向于智能端。計量經濟學認為,機器學習是一種應用計量經濟學研究方法[3],是傳統計量經濟學研究方法在數據處理與預測領域的一種進步,是大數據背景下計量經濟學回歸分析及預測方法的發展,機器學習基于計算機的算法,其本質是對計量經濟學工具箱的一種豐富。經濟學認為,機器學習是一個領域,旨在開發應用于數據集的算法,這些算法主要集中于回歸(預測)、分類和聚類任務,分為有監督機器學習和無監督機器學習兩類:有監督的機器學習是在樣本數據或向量預先設定好“標簽”(一系列的預先假定,如分類的標準)的前提下,總結出樣本向量的映射關系,如正則化回歸和分類;無監督的機器學習是在沒有對樣本數據或向量設定任何“標簽”的情況下,從數據中識別出其內部蘊含關系的一種“挖掘”工作3,聚類是典型的無監督機器學習。

  從機器學習的算法出現及其學科應用來看,機器學習具有計算機與人工智能的學科背景,涵蓋部分統計學學科內容,研究方法具有高度兼容性,可應用于各個領域、學科門類,對機器學習泛泛的廣義界定或基于某個領域、學科門類的狹義界定,都是不恰當的。因此,基于對機器學習的研究對象、學科主旨、學科特點和方法論基礎,我們對機器學習的內涵作出如下界定:機器學習是旨在通過數據、文本、圖片等現實經驗信息,通過計算機算法來進行深度挖掘,進而對經驗現實進行建模及預測的一門科學。機器學習強大的數據、文本、圖片處理功能,基于計算機和人工智能的深度挖掘功能和基于數據、文本、圖像等高度復雜經驗信息的模型選擇及預測功能,使其廣泛應用于現實世界的各個領域,并與各個領域現有研究方法相結合,演化并生成了適合各個領域獨特研究的系列機器學習算法,并伴隨著各領域的發展而不斷進化生成新的算法體系,這使得機器學習成為一門以多學科交叉共融為其首要特點的經驗科學。

  從機器學習本身的學科特征看,機器學習以現實的經驗信息為研究對象,以計算機和人工智能相結合的算法為研究方法,以數據科學、人工智能為算法邏輯基礎,以對現實復雜的經驗信息進行系統化表達與準確預測為學科宗旨,以多領域的交叉共融的高度兼容性和進步性為學科特點。

  從機器學習學科的方法論基礎看,機器學習以邏輯實證主義為其方法論基礎,以數據導向的研究模式為其研究范式,以模型與經驗信息的一致為其模型體系的特征。

  二、機器學習對于經濟學應用研究的適用性

  (一)經濟研究領域的機器學習

  機器學習的研究方法主要包括有監督機器學習和無監督機器學習兩類。經濟學研究領域,有監督機器學習通常需要使用一組特征或變量(X)來預測結果(Y),具體操作就是將數據集分為訓練集和測試集,訓練集用來發現映射關系,測試集則用來檢驗訓練集中總結出的映射關系。訓練集中的觀測變量是設定了“標簽”(假定)的,通過構造X的估計值μx(μx=E[Y|X=x])的一個估計量,在獨立數據集中估計Y的真實值,這里假定觀測是獨立的、訓練集與測試集中的X與Y具有相同的聯合分布。有監督的機器學習方法主要包括回歸和分類,兩者主要特點是,回歸算法中的“標簽”一般是連續的值,而分類算法中的標簽一般是離散的值。回歸,如預測房屋價值或油價,一般要根據房屋地理位置、房屋條件等標簽或市場行情、油價歷史波動等標簽,這里的房屋價值或油價是連續的數值。分類,如垃圾郵件篩選,標簽為(1,-1),分別表示垃圾郵件和非垃圾郵件,是非連續的。這里的回歸指正則化回歸,如套索估計(LASSO)、嶺回歸和彈性網,分類包括隨機森林、回歸樹、支持向量機(SVM)、神經網絡、矩陣分解等[4],有監督機器學習還包括模型平均方法等。這里,套索估計、嶺回歸等作為高維回歸方法,已經開始在經濟研究中受到較大關注。

  無監督機器學習主要涉及尋找具有相似變量的觀測聚類,也可解釋為“降維”,常用于視頻、圖像或文本樣本。典型的無監督機器學習模型是對系列觀測的一種分區,分區沒有“標簽”的監督,只有某些聚類特征,如每個子區間中的元素在某種度量方式上具有相似特征,概率向量或權重向量也可作為聚類特征,根據概率向量和權重向量進行分區。4無監督機器學習將所有經驗信息輸入系統化為樣本信息,以數據驅動的方式,在巨大的信息中識別并挖掘出有用信息,進而創造出可用于經濟分析的解釋變量或被解釋變量。經濟學研究中常用的無監督機器學習包括K-平均算法、主題建模、社區發現等。

  (二)機器學習與統計學、計量經濟學

  經濟學領域中,機器學習的應用常會與統計學、計量經濟學相混淆,因而,首先將機器學習與統計學、計量經濟學相對照,有利于我們更好地了解機器學習及其在經濟學研究中的獨特適用性。

  作為多學科的交叉與融合,機器學習與統計學在很多研究內容上都有重合。拉瑞·瓦瑟曼(Larry Wasserman)認為:“這兩門學科(機器學習和數理統計)關心的是同一件事,即我們能從數據中學到什么”,并指出統計學中的評估、分類器、數據點、回歸與分類、協變量、響應理念可分別對應于機器學習中的學習、假設、用例、有監督學習、特征、標記理念,認為兩個學科的這些詞匯在含義上是等同的。[5]機器學習和統計學都致力于從數據中獲取信息或規律,但是,這兩門學科的研究方法卻具有本質的區別。首先,機器學習源于計算機科學與人工智能,它更多地關心如何構建一個系統去分析數據,也更注重模型的預測效果;源于數學的統計學是以數據為基礎,利用數學方程式來探究變量變化規律,更注重模型的可解釋性。其次,機器學習并不必須對有關變量之間的潛在關系提出先驗假設,只需通過算法識別數據中潛在規律,并應用規律于新數據進行預測;統計學則必須了解數據的生成過程、分布規律、估計量的統計特征和期望參數的類型。最后,機器學習對復雜數據處理的能力,使其可適用于高維數據和復雜的高維模型,統計建模通常適用于相對低維的數據和低維模型。

  與計量經濟學相比,機器學習旨在產生準確可行的預測,而計量經濟學旨在建立可靠的因果關系。計量經濟學的主要目的是揭示變量間的因果關系,如μx或Pr(Y=k|X=x)估計量的結構或表達,重點探討其他條件不變的前提下,變量X變化對Y的影響。相比之下,機器學習旨在對經驗數據(數據)或經驗事實(文本、圖像)做出準確的模型選擇和預測,重點不是估計量的結構,而是最小化預測結果與真實結果之間的偏差,實現更為精確的擬合與預測。

  雖然機器學習與統計學、計量經濟學側重點不同,但這并不妨礙機器學習與其他兩個框架的協同,這種協同與互補使機器學習在經濟學的應用研究中獨具適用性。首先,發現數據方面,機器學習可以發現數據,進而用于創造計量模型估計中的被解釋變量(Y)。如Athey等在研究西班牙谷歌新聞的關閉對消費者閱讀新聞類型的影響時,將被閱讀的不同類別新聞份額設定為被解釋變量,應用無監督學習對新聞進行分類,使用網絡理論中的社區檢測技術進行分析。[6]其次,模型設定與選擇方面,機器學習適用于復雜、高維的大數據分析,與計量經濟學相結合,可以構建高維的復雜計量模型,機器學習的模型選擇方法也可用于規避不當的計量模型設定。最后,模型估計方面,計量經濟學模型應用機器學習技術可以估計更逼近經驗現實的復雜模型。如可以使用機器學習方法,對超多種商品進行分析,研究消費者對商品組合的偏好,進而探討幾萬種組合可能性。

  (三)機器學習的優勢與實現

  機器學習最突出的優勢在于對大樣本、高維度數據的處理與預測,其靈活的功能形式能夠適應不同的數據結構,更好地預測樣本。有監督的機器學習算法致力于獲取對Y的更好預測,如基于N個樣本的觀測特征X來預測Y,機器學習會設定損失函數L(y^,y),并在數據中找到具有較低期望預期(E(y,x)[L(y^,y)])的損失函數f^,用于樣本的預測。如一個住房調查的應用研究顯示,套索、回歸樹、隨機森林、機器學習集成法等機器學習方法樣本內與樣本外的預測都更優于普通最小二乘法,在中等規模樣本和有限變量的情況下機器學習的預測仍保有優勢。[7]

  此外,機器學習的模型檢驗范式主要采用交叉驗證法,K折交叉驗證法的應用最為廣泛。交叉驗證的基本思路是在數據量不足的情況下,通過切分給定數據集,將數據集重新組合為訓練集與測試集,重復使用數據進行訓練、測試和模型選擇。交叉驗證即使在小樣本下都顯示出良好的性能,對于大樣本,有效性就更為凸顯。

  三、機器學習在經濟學中的應用

  (一)數據發現與變量創造

  隨著網絡與人工智能的發展,經濟學研究尤其是微觀經濟學研究日趨大數據化,機器學習可以處理高維非常規數據、圖像和文本信息,進而發現新數據、創造新變量。如機器學習對衛星圖像的處理就提供了有意義的經濟數據,不僅可以科學探討夜間燈光度與經濟產出之間的關系[8],還可以根據衛星圖像來預估未來農產品產出規模[9],引出了一系列關于衛星數據的經濟增長研究。

  在缺乏相對可靠的經濟產出數據的情況下,新數據顯得尤為重要,尤其是對發展中國家貧困問題的研究,機器學習提供了大量的可追蹤數據。[10]機器學習還可以通過識別文本信息來提供新數據來源。如通過識別網上消費者對產品或服務的在線文本評價來獲得相關消費者消費偏好的數據信息,也可通過在線評價數據來對餐廳的受歡迎程度、衛生達標程度等進行預測。[11]

  機器學習還可以用來創造新變量,如研究西班牙谷歌新聞的關閉對消費者閱讀新聞類型的影響,這里被閱讀的不同類別新聞占比是被解釋變量。[6]使用無監督機器學習創建變量還有一個優點,就是不需要解釋變量,如樣本分割法的模型設定與調整,與傳統的計量經濟學基于解釋變量來調整模型設定不同,樣本分割的模型調整是基于一個樣本的,進而會減少解釋變量與被解釋變量之間“偽回歸”問題的產生。

  (二)預測

  機器學習的宗旨是獲得準確的預測。與統計學不同,機器學習不需對函數形式、變量間的相互作用和參數的統計分布來做先驗假定,機器學習更注重的是對結構化和非結構化數據做出準確預測。這使得機器學習算法更適用于能源價格的預測。因為能源商品價格具有非線性、滯后依賴、非平穩性和波動性聚類等復雜特性,這使得簡單的傳統模型預測具有挑戰性,機器學習方法在處理復雜的內部動態時具有更高的靈活性,因而具有更卓越的預測性能。支持向量機(SVM),人工神經網絡(ANN)和遺傳算法(GA)是能源經濟學研究中最常用的方法,用于預測能源商品價格、預測或模擬能源消費及需求。為了提高預測的準確性,多種機器學習算法被組合使用,如基于經驗模式分解(EMD)的神經網絡集成學習(NNEL)方法。

  機器學習與傳統計量經濟學方法的結合成為經濟學應用機器學習進行預測的一個趨勢,如動態非線性自回歸模型(NARX),集合經驗模式分解模型(EEMD),由最小二乘支持向量機模型(Least Square SVM)和粒子群優化模型(PSO)結合產生的LSSVM-PSO模型,廣義自回歸條件異方差模型(GARCH)等,都是機器學習與計量經濟學模型的結合使用。此外,傳統的計量經濟學時間序列向量自回歸(VAR)模型也與隨機森林相結合使用,可以克服原來VAR模型中的弱點,提高預測能力。

  此外,幾種機器學習方法混合起來使用也是一種新趨勢。混合使用會顯著提高預測的準確性,也具有更高的通用性和實用性。如螢火蟲算法(FA)與最小二乘SVR(LSSVR)混合使用形成的FA-LSSVR算法,統計上證實FA-LSSVR模型比其他機器學習算法單獨使用,或比現有傳統計量經濟模型、AI模型,在預測的精確性方面更有優勢。[12]

  機器學習方法強大的樣本外預測能力,對異構數據和大規模數據的處理能力,如深度學習(DL)對異構數據的處理能力,對數據質量的低敏感度的處理,使得機器學習在經濟研究中具有“更好地讓數據說話”的功能。

  (三)因果推斷

  有監督機器學習的模型選擇是以對測試樣本的最優擬合為基礎的,其目標是準確預測。因此,機器學習用于因果推斷,需要改變原有的目標函數。因果推斷是經濟學應用研究的重要方面,近兩年,機器學習也越來越多地被應用于因果推斷。

  機器學習用于因果推斷的一個方面是處理效應,包括非混淆假設下平均處理效應的估計和處理效應異質性的估計。[13]正則化回歸的雙選方法是機器學習最早應用于因果推斷的算法,用于處理存在多個協變量、結果模型“稀疏”的情況,最近雙重機器學習算法也被用來估計非混淆假設下的平均處理效應。

  因果樹(causal trees)和因果森林(causal forests)被應用于處理效應異質性的估計,這里異質性指的是觀察到的協變量的異質性。因果樹算法應用于經濟學田野實驗,產生了關于異質性的可信的和可解釋的結果。因果樹也與計量經濟學方法結合使用,如與高斯混合模型(GMM模型)共同使用,用于建立GMM模型中異質性的分類樹。因果森林本質上是基于不同樣本的因果樹的均值,某種角度上可以被看作為一種最近鄰匹配方法,技術上是通過構建漸進正太性獲得用于預測的隨機森林,再將結果拓展到因果推斷。近年來,因果森林框架又拓展至模型的非參數異質性,這里的“模型”指所有可通過GMM方法進行參數估計的模型,這種“廣義隨機森林”[14]可以作為傳統方法的替代方法,如局部廣義矩方法或局部最大似然法。

  機器學習還可以應用于矩陣完成和結構模型,進行因果關系的探討。當觀測數據矩陣存在缺失,如地區或時期數據缺失,機器學習方法可以使用兩個或多個低秩矩陣來逼近存在數據缺失的復雜矩陣。結構模型中,機器學習算法可應用于消費者選擇領域中,大數據條件下的貝葉斯類模型估計。

  四、機器學習在應用中需注意的問題

  為了更好地理解機器學習在經濟研究中的地位和作用,我們將機器學習置于更宏大的框架——經濟學方法論框架下,客觀認識機器學習在經濟學研究中的方法論本質,進而從一個更清晰的視閾來看待機器學習范式在經濟研究中的作用與局限,以便更科學地使用機器學習研究方法。

  (一)機器學習的方法論本質

  1. 方法論基礎上,機器學習是邏輯實證主義的一種深化

  機器學習在經濟學研究中的應用,究其方法論實質,是與計量經濟學同源的邏輯實證主義方法論。5邏輯實證主義認為,源于經驗數據的歸納推理是知識的重要來源,知識是由數學、邏輯學思維和經驗觀測組成,人類對知識的認知應以經驗事實為基礎、運用邏輯工具將其體系化,進而從現有體系推演出新的結論,并以經驗觀測的方式進行驗證。機器學習以觀測數據、文本或圖片等經驗觀測信息為研究對象,以計算機和人工智能相結合的邏輯算法為研究方法,具體操作時將觀測分為訓練集和測試集,訓練集針對觀測進行推理歸納,測試集針對歸納結果進行檢驗。從具體應用方式及過程來看,機器學習研究范式是對邏輯實證主義的再現。

  同時,機器學習更是邏輯實證主義在人工智能和大數據時期的一種深化。首先,從研究對象來看,機器學習能夠處理更大規模、更復雜情況的經驗觀測,相對于計量經濟學或數理統計模型方法,機器學習對經驗觀測的處理更具優勢,其模型選擇更逼近經驗現實;其次,從對知識認知的體系化過程來看,機器學習也是以經驗事實為基礎并運用邏輯工具將其體系化,但機器學習對經驗事實的觀測、推理和歸納,是基于計算機和人工智能的結合,是對復雜經驗事實(數據)的推理、歸納和運算,是數學、邏輯學思維的高度體系化。最后,機器學習采用交叉驗證的方式,即將原始觀測分成訓練集和測試集,將訓練集歸納的結果在測試集進行檢驗,多次劃分,循環驗證,是邏輯實證主義經驗觀測驗證的深化。

  2. 研究范式上,機器學習是數據導向研究范式的一種優化

  機器學習對經驗信息(數據、文本或圖像)的處理,是通過計算機及人工智能將經驗信息系統化為數據信息,并以數據為驅動,基于經驗數據的模型選擇及預測是機器學習的突出優勢。機器學習這一特征,與計量經濟學及數理經濟學的研究范式一致,同屬于數據導向的研究范式。數據導向的研究范式強調“讓數據說話”,將數據關系作為模型設定基礎,并根據數據關系決定其所表述的經濟主體之間的關系。但數據僅是經濟活動主體之間現實關系的映射,是結果而非原因,只有在充分分析經濟主體現實關系的基礎上探討數據關系,才能準確地確定模型形式。因此,經濟學研究又轉向了理論與數據綜合的關系導向研究范式。6

  將機器學習置于經濟學研究范式的發展歷程來看,可以較為明顯地判斷出,機器學習屬于數據導向的研究范式,其諸多算法在發現數據、創造變量、更好地圍繞大規模復雜數據進行模型選擇方面的貢獻,是對數據導向研究范式的一種偏向數據端的優化。同樣,也可較明顯地發現,機器學習研究范式體系里缺少了相應的“理論”及“關系”部分的分析內容。

  3. 模型體系上,機器學習是模型與經驗數據的一致

  基于現實復雜、高維、動態數據進行模型選擇,在模型體系方面,機器學習的模型體系充分體現了模型與經驗數據的一致。模型方法一直是經濟學應用研究中的主要方法,模型體系中,經濟模型與經濟理論、經驗現實的“三位一體”是經濟學模型方法科學性的重要體現。模型是真實世界的結構表示,修辭學清楚地對理論模型與經驗模型作出了界定,理論模型代表理論,經驗模型代表真實世界,科學的經濟研究模型,要求理論模型與經驗模型一致,經驗模型與數據一致,也就是理論、模型與經驗現實三者的一致。[15](P121-122)機器學習的模型體系中,數據更加大規模化、復雜化,模型更加高維化,模型選擇取決于數據特征。因此,機器學習模型體系中,模型與數據的一致性要高于數理經濟學和計量經濟學中的模型方法,基本實現了模型與經驗數據的一致。但這里也存在一個較為明顯的方面,科學的經濟學模型體系要求模型與經濟理論、經驗現實的“三位一體”,機器學習模型體系中缺少了經濟理論這一部分。

  (二)機器學習的作用與局限

  從機器學習方法論的本質可見,機器學習模型最大的優勢體現在強大的數據端功能上,可以更好地“讓數據說話”,可以基于對更大規模、更復雜的數據建立更貼近經驗現實的模型體系,更好地發揮經驗數據的映射作用。經濟模型是經濟活動經驗現實的似真與近律,數理統計模型和計量經濟學模型基于經驗數據的建模過程中,從可能機制到經驗模型推導的過程并不正式、經驗模型與經驗數據生成過程也并不嚴格一致,模型方法存在著方法論上固有的非精確性。[16]傳統的數理統計模型和計量經濟學模型對復雜數據的處理能力相對較低,使其模型與經驗現實的似真程度也就相對較低。機器學習則在這方面獨具優勢,進而模型體系在經濟研究中能更好地逼近經驗現實。

  機器學習在方法論本質上的優勢,同時也是其方法論層面固有的局限。從方法論基礎來看,邏輯實證主義的顯著特征體現在重視觀測和證實,但反對因果、不重視解釋。[17](P139-150)對經驗數據的重視和復雜觀測的處理能力是機器學習毋庸置疑的優勢,但邏輯實證主義的不足在機器學習范式上也體現得較為明顯:首先,先驗假設方面,機器學習沒有像統計學或計量經濟學那樣重視假設,導致對數據生成過程方面的探討不夠充分,雖然決策樹之類的算法能夠識別每個特征的影響以及特征之間的線性和非線性關系,但還有一些機器學習方法,如人工神經網絡(ANN)和支持向量機(SVM),仍是“黑盒子”范式,與更透明的線性回歸模型相比,其結果的獲得過程更難以理解。其次,因果關系方面,因果關系不是機器學習探討的重點,這也是其與計量經濟學較明顯的差異。最后,模型可解釋性方面,機器學習不重視模型可解釋性,這是其與統計學較大的差異。

  從研究范式和模型體系來看,機器學習的研究范式和模型體系中都缺少了經濟研究中的核心內容:經濟理論。對于經濟研究而言,理論的高度決定了研究的高度。數理模型或計量模型對經濟理論的探討主要通過基于經濟理論的先驗假定、理論模型設定和因果影響(參數)的估計來實現的。機器學習通過開發新算法和與傳統計量經濟學方法相結合,來探討因果推斷問題,但機器學習對因果推斷的探討偏重于算法的創新,因果關系或結構關系的研究還未成為機器學習范式的主要內容。同時,機器學習仍偏重于數據驅動環節,其模型體系暫時還未實現經驗數據、模型與經濟理論的“三位一體”。對于經濟學應用研究,需要明確的是,無論在研究的方法論層面還是具體實踐層面,思想相比于工具都是更重要的。

  因此,在應用機器學習研究范式之前要先確定研究的目的是什么,是預測、解釋還是因果關系,如果是后兩者,則在使用機器學習范式的同時,更應致力于了解經濟活動背后的可能理論體系,了解數據所映射的經濟現實中真實經濟主體之間的關系,使機器學習范式在更好的發揮“數據端”作用的同時,進一步提升機器學習研究范式的科學性。

  (三)應用中的一些具體問題

  在理解機器學習范式的方法論本質,進而明了其在經濟研究中的作用與局限的基礎上,具體應用時,還應注意一些細節問題,了解機器學習算法的優缺點,以便正確地使用機器學習范式,確保其研究結果的科學性與可信性。

  關于機器學習范式中經濟理論的缺位,機器學習模型體系缺少經濟理論的指導和先驗假定的約束。經濟思想的探討是經濟研究的核心,數量經濟研究的主旨之一是通過數量的精確性來解釋、闡述和證明理論及思想的正確性,從這一角度來說,機器學習范式是一種工具,一種說明、闡釋和證偽的工具。因此,在應用機器學習進行經濟研究時,不能舍本逐末,只專注于算法的創新而忽視研究要展示的主題和思想。理論的高度決定研究的高度,講清楚問題與機制也需要有經濟理論,因此,使用機器學習算法,應注重理論與實證的結合。

  關于機器學習結果的精確性,幾乎所有的機器學習或深度學習都存在一定程度的誤判率,誤判率幾乎是無法消除的,只能在使用過程中盡可能地正確使用每種方法,將誤判率降到最低;傳統機器學習中回歸、分類這些算法里都有一個要把獲取到的數據集分成訓練集和測試集的過程。用訓練集數據來做訓練、歸納關系,用測試集數據來做驗證、避免過度擬合,訓練集與測試集的樣本量劃分,通常會按總樣本量的8∶2或7∶3進行劃分,沒有確定的標準,劃分上主觀性較強,一定程度上可能會影響機器學習結果的精確性。

  關于機器學習模型的可解釋性,在具體應用時常會在模型的可解釋性和過度擬合的風險之間進行權衡,當模型包含變量相對樣本大小過多時就會有過度擬合問題。[3]存在過度擬合問題時,選用模型在訓練集的擬合良好程度會明顯優于其在獨立測試集的擬合表現。具體應用時可以使用交叉驗證方法來避免過度擬合問題,或通過最小化均方誤差來確定模型的復雜程度,或是對多種不同模型取平均,有時是對每個子樣本進行估計(如隨機森林)。

  關于機器學習的穩健性,機器學習算法專注于非線性和動態特性,這也使得它們在模型設定和訓練集估計方面不那么穩健。因此具體應用中,在設置和校準機器學習算法時需要特別注意這個問題,因為數據集中的任一微小變化可能會導致不同的結果。由于此屬性,建議應用機器學習進行模型設定和模型選擇時,進行多種模型設定檢驗和穩健性檢驗,使用驗證數據集校準模型,并且只有在校準模型后,才使用測試數據集對其進行評估。

  關于機器學習的樣本要求,機器學習算法通常需要大樣本對大量觀察進行適當地訓練和測試,尤其是復雜模型。對樣本的要求,也是在宏觀經濟學等領域應用機器學習的一個主要限制,宏觀經濟領域的觀測數量相對有限,通常是50到100個觀測的樣本量。機器學習需要充分的數據來對數據分布特征進行正確地表示,不過當數據相對不足時,幾種機器學習方法的混合使用,可以一定程度上降低數據缺乏引發的模型選擇風險。[18]此外,還應將經濟理論作為模型變量的選擇指南,尤其是宏觀經濟領域的研究,如通貨膨脹、失業等問題及數據頻率不高時的能源消費問題的研究,在模型選擇時更應注重經濟理論。

  關于機器學習在經濟研究應用中的趨勢,機器學習方法與計量經濟學模型方法、數理統計學模型方法雖然源自不同分支,但三者之間的差距正在不斷縮小,呈現出顯著的相互學習和借鑒的趨勢,機器學習方法正與傳統計量經濟學方法相結合,互相補充,應用于經濟學應用研究。大數據及人工智能提供了前所未有的數據量和不斷創新的研究方法,隨著數據科學的發展,未來三者之間的聯系將會更加緊密,甚至逐漸通過互補而趨同。同時,由于機器學習在經濟學應用研究中的進一步使用,經濟學研究內容上也將更具包容性,更趨向于跨學科或多學科交叉研究。

  參考文獻

  [1] Mitchell T. Machine Learning[M]. New York:McGraw Hill Higher Education,1997.
  [2] Marr,D. Vision:A Computational Approach[M]. San Francisco:Freeman&Co,1982.
  [3] Sendhil Mullainathan and Jann Spiess. Machine Learning:An Applied Econometric Approach[J]. Journal of Economic Perspectives,2017(2).
  [4] H. R. Varian. Big Data:New Tricks for Econometrics[J]. The Journal of Economic Perspectives,2014(2).
  [5] Larry Wasserman. Thoughts on Statistics and Machine Learning[EB/OL]. https://normaldeviate.wordpress.com/,2013-12-16.
  [6] S Athey,M M Mobius and J Pal. The Impact of Aggregators on Internet News Consumption[EB/OL]. https://www.gsb.stan ford.edu/gsb-cmis/gsb-cmis-download-auth/406636,2017-10-31.
  [7] Ludwig,Jens,Sendhil Mullainathan and Jann Spiess. Machine Learning Tests for Effects on Multiple Outcomes[EB/OL].https://ui.adsabs.harvard.edu/abs/2017arXiv170701473L/abstract,2017-07-10.
  [8] Henderson,J Vernon,Adam Storeygard and David N Weil. Measuring Economic Growth from Outer Space[J]. American Economic Review,2012(2).
  [9] Lobell,David B. The Use of Satellite Data for Crop Yield Gap Analysis[J]. Field Crops Research,2013(143).
  [10] Jean,Neal,Marshall Burke,Michael Xie,W Matthew Davis,David B Lobell and Stefano Ermon. Combining Satellite Imagery and Machine Learning to Predict Poverty[J]. Science,2016(353).
  [11] Kang,Jun Seok,Polina Kuznetsova,Michael Luca,and Yejin Choi. Where Not to Eat? Improving Public Policy by Predicting Hygiene Inspections Using Online Reviews[EB/OL]. https://www.aclweb.org/anthology/D13-1150,2013-10-10.
  [12] Tang,L,Wang,Z,Li,X,Yu,L,Zhang,G. A Novel Hybrid FA-Based LSSVR Learning Paradigm for Hydropower Consumption Forecasting[J]. Journal of Systems Science&Complexity,2015(5).
  [13] S Athey and G W Imbens. The State of Applied Econometrics:Causality and Policy Evaluation[J]. The Journal of Economic Perspectives,2017(2).
  [14] S Athey,J Tibshirani,and S Wager. Generalized Random Forests[EB/OL]. https://ui.adsabs.harvard.edu/abs/2016arXiv161001271A/abstract,2018-05-10.
  [15]劉麗艷.計量經濟學方法論研究[M].北京:人民出版社,2014.
  [16]劉麗艷.計量經濟學精確性研究[J].財經問題研究,2014(8).
  [17] Hacking,I. Logic of Statistical Inference[M]. Cambridge:Cambridge University Press,1965.
  [18] Dietterich,TG.. Ensemble Methods in Machine Learning[EB/OL]. https://link.springer.com/chapter/10.1007/3-540-45014-9_1,2000-12-01.

  注釋

  1蘇珊·艾西(Susan Athey),斯坦福大學經濟學院教授,第一位獲得克拉克獎的女性經濟學家,機器學習應用研究領域的重要學者。
  2蘇珊·艾西認為,對于機器學習的探討涉及很多領域和方面,人們可以寫一整篇文章來探討機器學習的概念;認為機器學習和和人工智能之間也有非常多的重合領域,是否涵蓋統計學內容是二者的重要的區別。具體請參閱:Susan Athey.The Economics of Artificial Intelligence:An Agenda.Chicago:University of Chicago Press,2019,pp.510.
  3(1)過程中除了設置一些必要的“超參數”(Hyper-parameter)以外,不對樣本做任何映射關系標記甚或過程干預。
  4(1)也并不是所有的降維都涉及聚類,比較傳統的如主成分分析方法也可以用來降維,較新的方法包括矩陣分解(用兩個低維矩陣去近似一個更大的矩陣),矩陣范數正則化,分層泊松分解和神經網絡等。
  5(1)機器學習的方法論基礎,本質上是與數理統計、計量經濟學同源的,數理統計和計量經濟學也是產生于邏輯實證主義的方法論基礎。
  6(1)關系論導向研究范式強調理論與數據的結合,強調應以現實中經濟主體之間的關系為導向進行模型設定。具體請參見馮燮剛、李子奈:《經濟學的關系論轉向》,《經濟學動態》2006年第7期。

    劉麗艷,朱成全.機器學習在經濟學中的應用研究[J].天津師范大學學報(社會科學版),2020(02):51-58.
    相近分類:
    • 成都網絡警察報警平臺
    • 公共信息安全網絡監察
    • 經營性網站備案信息
    • 不良信息舉報中心
    • 中國文明網傳播文明
    • 學術堂_誠信網站
    国色天香社区视频在线观看-草蜢视频在线观看www 免费追剧大全电视剧网站影视大全
    #耿直真香哥黑化卖惨# 甄嬛传 扬名立万 许家印为恒大注入超70亿续命资金 中美元首会谈重点内容 中国共产党第三个历史决议全文发布 中美元首是否达成新共识?中方回应 得知母亲出事男子在地铁痛哭 北京冬奥火炬宣传片获金花环奖 国足战澳大利亚大名单:4归化在列 美人鱼 速度与激情9 房价上涨城市创七年新低 拐点来了? 意大利错失直接晋级世界杯资格 动保组织向上饶信州区申请信息公开 嘉南传 国际人士热议中共十九届六中全会 中国共产党第三个历史决议全文发布 加拿大一枝黄花到底是什么? 扬名立万 美人鱼 大连现超级传播者26人在同一传播链 甄嬛传 24岁救人牺牲消防员获批为烈士 速度与激情9 周冠宇成为中国首位F1车手 国际人士热议中共十九届六中全会 大连现超级传播者26人在同一传播链 胡锡进谈中美元首会晤 印度首都准备封城 林丹世界排名被正式移除 加拿大一枝黄花到底是什么? 星辰大海 蜘蛛侠:英雄归来 周冠宇成为中国首位F1车手 寻梦环游记 长津湖 国足最新出线概率0.08% 俄方回应卫星碎片危及国际空间站 甄嬛传 得知母亲出事男子在地铁痛哭 国际人士热议中共十九届六中全会 周冠宇成为中国首位F1车手 浦发银行回应近3亿存款莫名被质押 罗永浩吐槽苹果文案没文化 两个女人 国足战澳大利亚大名单:4归化在列 俄方回应卫星碎片危及国际空间站 夜色暗涌时 男子写80页PPT拯救爱情却离婚 大连现超级传播者26人在同一传播链 林丹世界排名被正式移除 甄嬛传 扬名立万 扫黑风暴 房价上涨城市创七年新低 拐点来了? 国足战澳大利亚大名单:4归化在列 林丹世界排名被正式移除 国际人士热议中共十九届六中全会 林丹世界排名被正式移除 怒火·重案 意大利错失直接晋级世界杯资格 周冠宇成为中国首位F1车手 动保组织向上饶信州区申请信息公开 寻梦环游记 国际人士热议中共十九届六中全会 中美元首是否达成新共识?中方回应 扫黑风暴 国足战澳大利亚大名单:4归化在列 国足战澳大利亚大名单:4归化在列 中美元首是否达成新共识?中方回应
    新巴尔虎右旗| 漠河县| 深泽县| 中山市| 麦盖提县| 尉犁县| 独山县| 亳州市| 牙克石市| 隆子县| 甘泉县| 澎湖县| 宁强县| 隆德县| 诸暨市| 白朗县| 贵阳市| 泾阳县| 盐津县| 澄城县| 西吉县| 北票市| 永平县| 江达县|