内生性问题: 微观和宏观经济学研究中的关键因果识别问题

正文

关于下方文字内容,作者:徐锦, 厦门大学王亚南经济研究院,通信邮箱:jinxu0209@hnu.edu.cn

Hill, A. D., Johnson, S. G., Greco, L. M., O’Boyle, E. H., & Walter, S. L. (2021). Endogeneity: A Review and Agenda for the Methodology-Practice Divide.
Affecting Micro and Macro Research. Journal of Management, 47(1), 105–143.
An expanding number of methodological resources, reviews, and commentaries both highlight endogeneity as a threat to causal claims in management research and note that practices for addressing endogeneity in empirical work frequently diverge from the recommendations of the methodological literature. We aim to bridge this divergence, helping both macro and micro researchers understand fundamental endogeneity concepts by: (1) defining a typology of four distinct causes of endogeneity, (2) summarizing endogeneity causes and methods used in management research, (3) organizing the expansive methodological literature by matching the various methods to address endogeneity to the appropriate resources, and (4) setting an agenda for future scholarship by recommending practices for researchers and gatekeepers about identifying, discussing, and reporting evidence related to endogeneity. The resulting review builds literacy about endogeneity and ways to address it so that scholars and reviewers can better produce and evaluate research. It also facilitates communication about the topic so that both micro- and macro-oriented researchers can understand, evaluate, and implement methods across disciplines.

目录

Part0:Abstract

1.背景:

(1)内生性问题对研究过程中的因果推断产生很大影响;
(2)实证中内生性问题的相关实践与理论指导存在差异;
(3)内生性问题相关术语较多,不同学科,不同领域存在差异。

2.主要内容:

(1)讨论了内生性产生的四大原因,并整理了相关术语;
(2)通过整理大量不同领域文献,总结学者们在研究过程中对内生性问题有怎样的理解和应用,而不是单纯的讨论他们具体用了哪些方法;
(3)针对不同原因产生的内生性提供解决的“工具箱”;
(4)为缩小内生性实证和理论间的gap提供建议。

3.论文目的:

打破领域壁垒,探讨学者们如何以普遍理解的形式来讨论内生性的存在,具体类型、解决办法以及如何预防等问题。

Part1:Basic information

内生性是指回归模型中的自变量和残差项存在相关性,它会导致估计量有偏。随机试验可以将不同水平的预测变量随机分配,在大样本及更多理想化条件下,预测变量会与忽略的因素不相关,因此可以避免内生性的产生。但是在实证研究中,有很多经济问题不能进行随机试验,因此需要对内生性进行讨论。

1.内生性的四大原因:

(1)遗漏变量(遗漏在回归扰动项内的解释变量与回归中的变量相关);
(2)联立方程误差(因变量、自变量互为因果,且y影响x的路径被忽略);
(3)测量误差(观测值与真实值存在测量误差,自变量的测量误差会导致内生性);
(4)选择(包括样本选择和处理方式选择),
例如:Y=股票增值X=收购:
处理方式的选择:收购的公司可能比未收购的公司处于更强的竞争地位;
样本的选择:但我们只能收集可以收集收购报告的公司的数据。
Table1和2详细介绍了内生性图解、描述、同义词以及具体实例。

2.实证研究中的问题:

1.“药物错用”

内生性是一种疾病(问题),会产生估计量有偏等问题。各种药物(方法)可以治疗该疾病,因此随着人们对该疾病的日益关注,越来越多的人正在使用这些药物来治疗已知的问题或减少对该疾病的担忧。医学专家(即方法学家)研究了各种药物的使用方式,发现它们经常被错误地使用。因此,许多被认为是“治愈”的论文实际上没有治愈,因为不恰当地使用了治疗内生性的方法。随后,未来的研究可能会以“未经修改的”论文为基础,以类似的方式应用该方法,不仅会积累有偏见的发现,还会传播不正确的做法。

2.领域不通

不同的领域关注同一个问题使用的术语不同,这导致领域间的交流存在困难。

Part2:The cause of endogeneity and corresponding solutions

讨论内生性的具体原因十分重要:
(1)许多办法只适用于解决特定原因的内生性;
(2)在同一研究中,不同的原因会导致同一个变量产生内生性;
(3)内生性可能发生在多个预测变量和结果变量之间。
本节旨在针对不同原因产生的内生性,归纳总结出一个特定的“方法工具箱”。

Cause 1: Omitted Variables Endogeneity

Solution 0:添加遗漏变量

这种解决办法存在问题:
(1)潜在的遗漏变量可能是无限的,添加遗漏变量的工作的时长和工作量是有限的。因此无论是设计方面(收集大量的替代变量会受限于你的研究范围与时间),还是分析原因方面(或许添加遗漏变量会导致其他问题的出现),直接添加遗漏变量行不通;
(2)量化所关心的遗漏变量不一定总是可行的。例如,可能无法直接的观察到工人的真实水平,或者一个公司的真实状况。
Table1 Depictions and Descriptions of Endogeneity

Table 2 The Four Causes of Endogeneity

Solution 1: Design

S1.1: random distribution

学者可以将研究主体随机分配到实验组(treatment group)和对照组(control group)中从而解决遗漏变量导致的内生性。随机分配可以确保在一个理想状态下(即大样本、有效操作等),所有遗漏变量均匀分布在两组(这样,predictor 不会受到随机扰动项的系统性影响)。
例如,如果可以将员工(公司)【研究主体】随机分配到不同的工作满意度水平(公司声誉)【the level of x】,我们可以合理地假设所有遗漏变量(例如,报酬、员工能力;市场份额,公关能力)在实验组中均匀分布,这样x和u之间不存在系统性的关系,从而消除了遗漏变量的造成的内生性。

S1.2: the stable omitted variable

有的时候可以在遗漏变量比较稳定的情况下定义样本。例如,如果遗漏变量是员工(公司)能力,研究设计可以选择同时晋升的员工(或同水平公司),这样可以认为能力变量遗漏的影响在员工(公司)之间无显著差异,因此不会影响结果。这种“not dissimilar”的思想其实为前面提到的随机分配样本到控制组和对照组的思想奠定了基础。
综上,该方法的关键是:提前预测最重要的遗漏变量,衡量可能的情况,并设计样本以减少无法衡量的变量的方差。

Solution 2: Control and proxy variables

是放任不管遗漏变量,还是用代理变量控制?这取决于代理变量与遗漏变量的吻合度,这自然又是一个主观问题。Frank(2000)与Pan and Frank(2003)构建了一种判断方法,可以估计出遗漏变量造成的偏误程度是否改变统计推断,称为混淆变量的影响阈值(Impact threshold of a confounding variable, ITCV)。ITCV有助于理解遗漏变量问题在研究中是否严重,也可当作判定控制变量多寡的原则性手段。但需要注意的是,ITCV改变了研究的重点,将研究的目光聚焦于统计推断的显著性,而不再关注估计量的无偏性。

Solution 3: Fixed effects

如果遗漏变量无法获得或不能观测到,但理论或实证表明它在一个组内是恒定的或随着时间的推移是不变的,那么估计一个具有个体或群体固定效应的模型可以解决这个问题。固定效应控制住个体异质性,即误差项中不随时间变化的部分。例如,领导风格(对一个行业的看法)对于所有拥有相同主管的工人(公司)(在行业中)可能是相同的。如果是这样,主管(行业)的固定效应将解决这一问题。同样,如果研究人员有纵向数据,并且有理论或证据表明遗漏变量(例如,工人能力、企业能力)不会随时间发生显著变化,那么个人或企业固定效应将解决这一问题。但需要注意:固定效应不能根除随时间变动的内生性因素;另外,固定效应只能估计组内效应,不能估计组间效应。为此,Bliese et al.(2020)提出:控制住组内均值的随机效应模型可以代替固定效应模型,并可以同时得到组内效应和组间效应的无偏估计。

Solution 4: Instrumental variables

工具变量z需要同时满足外生性(y)与相关性(x)的假设。实际研究中,外生性的假设无法直接证明,需要研究背景的理论支撑;与x的相关性必须是强相关,弱工具变量会造成更大的偏误。工具变量的选取可以(1)找内生变量中外生随机的部分,(2)使用内生变量的滞后项。二者都需要研究背景支撑。
近年来的一些新方法指出,在联立方程模型的框架内,我们可以找到模型中隐含的工具变量(model-implied instrumental variable, MIIV),从而无需额外寻找新的外生工具变量。然而,这意味着更强的模型假定。因此MIIV只能在特定研究中发挥作用。

Cause 2: Simultaneity

以下对面板数据和序列相关数据产生的内生性讨论解决方案。

Solution 1: Design.

实验性试验通过操纵预测变量来解决同时性问题。当研究人员可以在理想的实验环境中分配或以其他方式操纵控制组而非对照组的x水平时,y的变化可归因于操纵,而不是y对x的同时影响(假设有足够的样本量和缓解对内部有效性的所有威胁)。如果研究人员能够围绕外部事件(即自然发生的与拟议模型无关的事件)设计问题来模拟真实的实验,一些准实验设计提供了解决方案。
例如,假设一家公司因成为最佳工作场所而获得意外认可。随后的媒体关注可能会提高员工满意度(公司声誉),因此,比较事件前后的工作(公司)绩效可能会消除同时性偏差。这类真正的实验通常是不可行的,外部事件可能很少,因此研究人员通常必须使用分析技术进行因果推断。
如果观测数据不是自相关的,纵向设计也提供了解决方案;因此,任何分析都应使用声音诊断(超出范围)。尽管超出了我们的范围,West和Hepworth(1991:626)提供了一本不错的入门书,他们都指出忽略自相关(因此假设x和y之间没有串行依赖)“会导致所有显著性测试和有偏估计的标准偏差”,并比较了各种规格测试的优点。与所有技术一样,我们再次强调证明其应用的合理性(Wooldridge,2010)。

Solution 2: Instrumental variables.

方法与遗漏变量下的思路一样,即对每个内生变量选取至少一个工具变量。但仍值得注意的是,工具变量的选取必须结合理论背景与统计检验。

Cause 3: Measurement Error Endogeneity

测量误差导致内生性在实证中出现较少,这可能是由于绝大多数的计量模型只有当测量误差不存在时才是合意的。如果已知测量误差的起因,那么这一问题本质上就转化成遗漏变量问题。相关解决方案如下。

Solution 1: Design.

避免测量误差内生性的主要设计原则是使用无系统偏差的测量。如果收集了主要数据,通常的方法是使用经过验证的测量工具(Greco、O'Boyle、Cockburn和Yuan,2018)和减少虚假相关性的调查设计(例如,改变标度锚,按时间进行单独测量;Podsakoff、MacKenzie和Podsakoff,2012)。如果使用archival data档案数据,则适用类似原则;措施应具有良好的有效性(即,测量其打算测量的内容,而不是其他内容),并应采取措施减少设计引起的错误。虽然档案数据可能会限制研究人员处理设计某些方面的能力,但其一个优点是它通常允许使用多种现有度量。多个度量可以提供证据,证明结果不是由于给定度量中的错误造成的,假设这些度量具有收敛有效性(例如,Bromiley,Rau,&Zhang,2017;Hill,Kern,&White,2012,2014)。
虽然实验设计在许多方面是可取的,但并不排除测量误差的内生性。例如,如果研究人员在实验中操纵工作满意度(公司声誉)对工作绩效(公司绩效)的影响,那么结果y可能无法很好地衡量,例如绩效是否作为单个任务的绩效来操作,或者是否通过与主管或外部评级相关的错误来操作。如果y的未测量部分(即u)与操纵的预测变量x相关,则内生性仍然存在。

Solution 2: Account for measurement error.

现有的方法可以通过像SEM一样直接建模来解决测量误差,但这些技术通常仅适用于潜在变量模型(更常见于微观,但适用于宏观;Bergh等人,2016;Shake,Ketchen,Hult,&Kacmar,2004)。SEM和相关方法的一个好处是,研究人员可以建立指标和潜在变量之间残差的相关性模型;然而,方法学家强调,需要为这样做构思出强有力的先验理由,以便于利用机会(例如,Cole、Ciesla和Steiger,2007;Cortina,2002;Landis、Edwards和Cortina,2009)。另一种技术是标记变量(Williams&O'Boyle,2015),它要求使用理论上不相关的变量,用相同或类似的量表、效价、参照物等测量。由于其与预测因子x和结果y的关系假设为零,因此任何观察到的协变量都假设为CMV的函数。由于标记变量是外生的,因此方法方差将被处理,或“共变”这在功能上与工具变量的外生要求相同。如上所述,使用多个度量来解决度量中的限制可能会提供证据,证明如果度量收敛,估计的关系对度量误差是稳健的。
选择偏误分为样本自选择与选择性处理两种机制。样本自选择指的是:观测到的样本已经经过非随机的筛选;而选择性处理指的是:解释变量的大小非随机生成,而是内生处理的结果。

Cause 4a: Selection Into Sample

Solution 1: Design.

随机分配的研究参与者可以抵消样本选择中的内生性问题,但这种设计并不是无故障的(Krause&How-ard,2003)。例如,即使参与者被随机挑选到一家公司接受培训,员工也都被挑选到了该公司,因此,培训对绩效的影响表明,只有被选入该公司的在职人员,而不是全部潜在员工(例如,使用本科生代表在职成年人是一种常见的批评;这两个群体的影响可能不相等)。同样,随机研究的损耗可能是非随机的。如果个体以非随机的方式自我选择进入或退出治疗或控制,那么内生性可能仍然是一个问题。

Solution 2: Heckman selection model.

如果无法随机选择样本,则需要另一种方法。例如,Heckman(1976)将女性工人的工作时间和工资与男性工人进行了比较。本研究中的一个内生性问题是,选择工作或不工作并非随机的(同样,报告工作满意度的员工和拥有公开财务数据的公司可能不代表随机样本)。许多因素可能导致女性选择工作(公司选择公开上市),这意味着观察到的数据并不完全代表女性(公司),只有女性选择工作(公司选择公开上市)。如果未测量的因素(例如,工人的家庭或个人因素、企业的行业或财务因素)影响二元选择,也影响焦点结果(例如,工资、工作或企业绩效),存在着一个内生性问题,不能简单地通过包括未测量的因素来解决(没有关于选择不工作的女性或选择私营企业的女性工资的数据,因此这些变量对于一部分人口是不可观察的)。因此,我们只能对我们能够观察到的员工(或公司)估计工作满意度(公司声誉)如何影响工作(公司)绩效。重要的是要将这一原因与内生性的其他原因区分开来,因为样本代表了人群,并且可以获得全部结果(例如,我们可以观察工会和非工会成员的工资和工作表现,或上市公司和私营公司的公司表现;缺少的是导致预测值水平自我选择的因素)。
Heckman选择模型类似于工具变量法,解决了因特定样本选择问题而产生的忽略变量偏差(Certo等人,2016;Clougherty等人,2016)。在Heckman模型中,第一阶段probit模型估计进入采样条件的可能性,并导出第一阶段预测值的变换(逆Mills比率,或IMR),以表示进入样本的选择风险。在感兴趣的第二阶段模型中使用IMR可以提供选择风险的估计,从而对结果的预测值产生一致的估计。与工具变量法一样,需要第三个变量w(称为排除限制),该变量w应影响样本中存在的概率(即,与第一阶段概率相关),但“排除”,因此得名于基于w不影响结果的理论逻辑的第二阶段模型(Wooldridge,2010)。那么,在这里,研究人员必须依赖于理论,也应该评估潜在的假设;Shaver(1998)、Hamilton和Nickerson(2003)、Certo等人(2016)和Clougherty等人(2016)进行了深入的讨论。

Cause 4b: Selection of Treatment

Solution 1: Design

与样本内生性的选择一样,将参与者随机分配到治疗条件可以抵消理想情况下治疗关注点的选择;然而,这种设计并不是无故障的。特别是,在确定有意义的治疗水平(例如,培训量)的同时,将有意义的参与者分配到不同的治疗水平往往不切实际;反过来,得出的结论可能只适用于这些级别(例如,一小时的培训与五小时的培训),而不是更广泛的(例如,通常更多的培训)。因此,确定可能或自然发生不同治疗或治疗水平的设计,有助于解决治疗内生性问题的选择。

Solution 2a: Omitted variable techniques

我们首先考虑什么时候有一种治疗方法不是随机分配的,因此是被选择的。如果选择的内生预测变量不是二分法的,而是连续的(例如,教育年限或广告支出)或顺序的(例如,拥有大专、学士或硕士学位的工人或选择收购、合资或绿地的公司),这类似于省略的内生变量,并且上面讨论的所有解决方案都是适当的。

Solution 2b: Heckman treatment model

如果内生解释变量是二元离散型的,用2SLS与IV法不甚恰当,而应采用Heckman处理模型。该模型的第一阶段关注是否处理的预测值,其他部分与Heckman选择模型类似。Heckman处理模型有几点需要注意:首先,对于二元内生选择模型,处理效应的估计系数有多种可能的解释。如果处理机制不同,不同的处理效应系数可能都会不同。如:员工培训的处理效应既可以解释为员工从培训中的收益,也可以解释成未参加培训者如果参加培训的潜在收益——这两者不一定相同。而对于多元离散选择,则需要单独设计处理模型并对处理效应仔细考察。

Solution 2c: Estimating average treatment effects

对于二元处理的自选择问题,很多方法都在估计平均处理效应。这些方法可以归纳为两类:一类是用DID的方法计算处理组参与者的处理效果相较于控制组潜在处理效果的差异;另一类是用合成控制方法(包括匹配,倾向值方法,广义精确匹配等),在保证处理组与控制组具有相似性的基础上进行比较。总的而言,这些方法并不能解决内生性,而是向人们证明内生性不足为虑。

Solution 3: Regression discontinuity designs (RDDs)

解决二分法选择的最后一种方法是RDD(断点回归),它可以被视为一种准实验方法。RDD的基本思想是,可能存在现有的环境条件,这些条件会创建一个任意的阈值或截止点,可以近似随机分配。在所有被忽略的变量上(类似于随机分配),刚好低于阈值和刚好高于阈值的观察值应该大致相等,但研究人员根据高于或低于任意阈值的跌倒情况将其归类为不同的治疗组。回到我们的培训示例,如果员工是根据较差的绩效评级选择参加培训的,那么只有那些评级为5分制的2.5分或以下的员工被派往培训,研究人员可能会认为,评分为2.4分的员工有资格接受培训,而评分为2.6分的员工没有资格接受培训,在功能上表现相同。因此,我们可以像在真实实验中一样,在受过训练的人群与未受过训练的人群中测试训练的效果。在选择治疗效果周围要包括的单位数量时,RDD可能会出现并发症以及与接受治疗者和未接受治疗者的污染相关的问题。

The Possibility of Multiple Causes of Endogeneity

一项研究也可能同时存在多种内生性。首先,某一解释变量可能存在遗漏变量、测量误差等多种导致内生的因素;其次,不同的解释变量可能都具有内生性。在这两种情形下,解决某一内生性因素并不保证解决其他的内生性因素。尤其需要注意的是,任一变量的内生性会导致所有解释变量的系数均出现偏误。因此,研究者需要回到研究背景去挨个儿识别所有变量的所有内生性成因。

Part3:Current status of papers dealing with endogeneity and difficulties

本文梳理了管理学实证文献中对内生性的处理方式。本研究首先以内生性为关键词,对2014-2018年间管理学顶刊中的实证文献做了归纳(如Academy of Management Journal, Administrative Science Quarterly, Journal of Management, Journal of Applied Psychology, Strategic Management Journal等),收集了涉及内生性讨论的所有文献共435篇。
本文发现,实证文献往往会主动指出内生性的存在,但总是声称内生性已得到解决或不影响结果。在提及内生性的文献中,有58.2%提供了解决方法,30.1%使用了稳健性检验,其中只有1.5%文献在处理内生性后结果与基准回归不同。延长文献整理范围、拓宽关键词识别范围等稳健性操作也没能改变上述现象。
相较于实证文献在内生性处理方法上有意无意的滥用,评论性文章则对这一趋势进行了批评。本文发现,在210篇使用工具变量的文献中,有150篇进行了解释,但大多数并未指出内生性具体来源与工具变量的合理性。内生性处理方法的滥用会导致学者在解决内生性时有意选取不影响基准结果的处理方法,从而在研究发表上形成“内生性不影响结果”的不良趋势。
为了进一步探究学者如何解释内生性成因,本文根据此前的分类(遗漏变量,互为因果,测量误差,选择偏误)对收集的文献进行归纳。从结果看,提及次数最多的内生性成因讨论是选择偏误,占到文献量的32.1%;第二多的为“仅笼统讨论内生性”,占到了24.8%。
有几点值得注意。首先,近几年的很多文献把内生性的讨论单独放到附录里,本文认为:解决内生性是研究中的重要部分,不应排除在正文以外。其次,很多文献通过参考引用前人研究,以证明自己处理内生性方法得当。但这一方面会导致我们难以确定内生性处理方法得当的文章比例,另一方面也会导致前人研究在方法论上的潜在错误不断重复放大。而本文通过回顾有关内生性处理方法的计量方法论文献,发现管理学顶刊上相关理论资料其实不少,但学者往往热衷于引用前人实证研究,却不去追根溯源参考最原初的计量理论。因此上文对方法论的整理总结,为解决相关问题提供帮助。

Part4:Recommendations to Bridge the Methodology-Practice Gap

前文通过梳理大量文献,回顾了学者们目前如何在实证中讨论和处理内生性,针对不同原因导致的内生性整理了特色“工具箱”,整合了内生性在不同领域中术语的同义词,为不同领域间内生性的交流提供便利。本节将针对内生性处理上理论与实践脱节的问题,提供相关建议。

Clear Diagnosis of Endogeneity

处理内生性的第一步在于识别内生性的存在与成因。本文给出三点想法:首先,学者应按照此前总结出的内生性成因分类逐次判断,为之后针对性的处理内生性做铺垫。其次,学者在讨论内生性时应当规范专业术语,并避免对研究设计的内生性作笼统表述,而是更具体的说明内生性成因。再者,学者要在不同术语之间建立起思维联系,如omitted variable也称left out variable或missing variable。这能增进不同领域学者间的沟通探讨。
而对审稿人来说,在审稿时也应强调关注具体的内生性问题,并避免投稿人选用不恰当的内生性处理手段。总而言之,审稿投稿双方应该在内生性的问题上有具体沟通,而不能空谈。

Justify the Technique Used to Address Endogeneity

参考以往实证文献的内生性处理经验有一定作用,但仅仅依赖这种做法、而不去参考计量理论文本是不足的。其一,前人实证文献在实证研究上可能本身就存在瑕疵,或在方法论上已经过时;其二,内生性处理方法的选择依赖于特定的研究背景,正如一项研究中使用的工具变量不一定适用另一项研究。以下给出4点建议,帮助研究者证明内生性处理方法是否适当。
首先,如果处理内生性的方法错误,还不如不处理内生性,否则可能问题更严重,因此需要先考虑处理内生性是否必要。其次,一旦确定了内生性的成因,需要参考计量方法论文本,而不能仅通过引用前人实证文献为本研究背书。只有这样才能避免研究者不断重复放大前人研究中的谬误与不足。再者,在选取合意的内生性解决方案时,需要在文章里清楚阐述该方法的前提假设。最后,研究者需要提供有关内生性处理的具体细节,帮助他人明白该方法的充分必要性。
另外,审稿人应当要求投稿人清晰阐述研究中的内生性来源,并在结果汇报中具体呈现。如果文章容量有限,应当要求投稿人以附录形式展示相应内容。

Transparency in the Prognosis of Results

在汇报结果时,应当完整呈现处理内生性的统计检验过程,这样才能帮助后续研究者在前人研究的基础上进步。

A Final Recommendation

投稿审稿双方需要记住的最后一点是:任何研究都无法彻底消除所有内生性可能。各项研究都有其各自侧重点,也会从不同角度去讨论内生性,这也是为什么我们希望用不同的研究设计对同一项课题进行反复探讨,这样才能保证该课题的内生性处理是全面的。

本文转自微信公众号“计量经济圈”。