为什么研究者又爱又恨结构模型? 经济学里的双刃剑.

结构模型的优劣势
经济学里,结构模型常被称为高大上的研究工具——上手难、代价高,却依然吸引了大量学者为它埋头苦干。
为什么?
因为它能做的事,是很多简单方法根本无法替代的。
但另一方面,批评者也毫不留情地指出,它识别难、依赖假设、算力消耗大,简直就折磨研究者的艺术。
这篇文章,就带你一次性看清楚结构模型的三大优势与三大劣势,并特别聊聊一个颇具争议的话题,外部效度(external validity)。
Galiani, S., & Pantano, J. (2022). Structural models: Inception and frontier (NBER 28698). National Bureau of Economic Research.
下面,我们来综合讨论结构模型的优势与不足,并单独聊一个更具争议性的话题,外部效度。在一些研究语境下,外部效度甚至被视为结构方法的一大亮点,但这一点并非毫无争议。
结构模型的优势
结构模型通常被认为门槛高、难度大。相比之下,更简单的实证方法不仅编程和计算成本低,而且结论直观、透明。那么,既然更简单的方法如此便利,为什么研究者仍愿意投入大量时间和精力去估计结构模型呢?原因在于它具有三大核心优势,这些优势是其他方法难以替代的:
a.预测新环境下的行为
结构模型可以帮助我们推演个体或群体在尚未发生的新环境或新政策下会如何反应。这种政策模拟能力,是许多简单方法无法实现的。
b.分解机制的作用
它不仅告诉我们结果是什么,还能识别并量化驱动结果的关键机制,从而回答为什么会这样。
c.衡量福利影响
通过将政策或环境变化转化为个体的货币化福利变化,结构模型能为政策制定者提供更直观的成本收益判断。
这三点正是结构模型最独特、最有价值的地方。
1.新环境下的前瞻性评估
在某些情况下,研究问题的答案就是一组结构参数本身。例如,研究者可能关心效用函数中的某个特征,或者生产函数中某种投入要素的生产率。在这种情况下,估计得到的参数就能直接回答研究问题。
但更多时候,研究者更关注的是在不同环境下,尤其是在政策变化时,个体或决策者会如何调整行为。一旦模型的核心要素被估计出来,就可以利用结构模型方便地评估这些政策或环境变化的影响。
通常,这类政策评估需要模拟那些进入个体决策过程但研究者无法直接观测的隐性因素。反事实实验的核心就是考察:在新的环境下,个体的选择和结果Y会与基准情境有何不同。
所谓基准环境,是指生成用于估计模型的数据时,决策者所处的实际环境。以我们讨论的模型为例,基准环境对应一个没有税收和转移支付的假想人群。一旦掌握了模型结构,就可以评估,如果引入复杂的劳动所得税和转移支付体系,该人群的劳动供给会发生怎样的变化。
具体操作上,只需设定一个新的预算约束,将相关税收和转移支付因素纳入即可,
2.机制分析
结构模型的另一个重要优势在于,它能够评估不同渠道或机制在决策中所起的作用。
举例来说,在前面讨论的劳动供给模型基础上,我们可以加入儿童发展因素。在这个扩展模型中,个体不仅关心自身的消费和闲暇,还关心孩子的发展水平Q。可以设定一个儿童发展生产函数,其中Q取决于母亲陪伴孩子的时间t_Q以及她在市场上购买的有助于孩子发展的商品
。
修改后的效用函数为,
。
此时需要增加一个新的偏好参数,用以刻画母亲在消费、闲暇和孩子发展之间的权衡。时间约束也随之调整为,
。
同时,引入孩子发展的生产函数,
。
如果研究者能够获得
等额外数据,就可以估计这个扩展模型。这样一来,不仅可以模拟某项福利补贴对儿童发展的整体影响,还能进一步拆解效果:有多少是来自母亲额外购买的发展商品
,又有多少是来自她因福利补贴减少劳动供给、增加陪伴时间的行为变化。
3.衡量福利效应
结构模型的一个重要优势在于,它能够将个体对环境变化的偏好量化为货币价值。
设
为与前述简单劳动供给模型相关的间接效用函数。这个函数V可以通过最优劳动时间反推出最优闲暇l和消费c,然后代入直接效用函数U()得到。
一旦结构模型估计完成,就可以利用估计得到的效用函数U来计算间接效用V。进一步地,我们可以将用于估计的数据对应的现状或基准环境记作e_0。
对于一个新的环境
,每个个体的支付意愿
,可以通过以下方程求得,

换句话说,
表示,为了让个体在新环境
下获得的效用与基准环境
相同,他愿意放弃的收入(或需要获得的补偿)金额。
外部效度(external validity)
下面单独讨论外部效度问题,因为学界对于它是否可以被视为结构模型的优势存在争议。实际上,通常人们所称的结构模型的外部效度,往往需要被谨慎看待,并加以适当限定。
结构选择模型(structural choice models)
过去有一种普遍看法,认为结构模型的一个额外优势就是它具有较强的外部效度。然而,当偏好存在不可观测异质性时,这种看法并不完全成立。
举个例子,考虑前文的劳动供给模型,假设K=2,即存在两类人群,一种是懒惰型(k=1),另一种是勤奋型(k=2)。在计量经济学家的视角下,每个个体的真实类型是不可直接观测的。因此,每个人有概率Pr(k=1)属于懒惰型,有概率Pr(k=2)=1-Pr(k=1)属于勤奋型。
一旦存在偏好异质性,结构模型所能恢复的,仅是样本所代表总体的偏好分布。假设在估计样本中发现,懒惰型与勤奋型在总体中均匀分布,但这并不保证在另一总体中也同样成立。事实上,越来越多的研究表明,不同总体之间的偏好差异可能很大。Falk等(2018)的研究显示,不同国家之间,甚至同一国家内部,在与结构参数相关的指标上(如贴现因子、风险厌恶程度、利他主义和社会偏好)存在显著差异。
因此,即便模型在估计总体中识别良好,它在另一总体中预测政策效果时仍可能不准确,尤其当该总体的懒惰型/勤奋型分布未知或不同。
一种可行的做法是,假设不同总体的不可观测异质性可以通过可观测变量来刻画。在这种情况下,可以用外生变量X参数化不可观测类型的分布Pr(k|X)。如果能够获取新地点的X数据,就可以推算出该地不可观测类型的分布,从而为已估计的结构模型提供一定程度的外部效度。
总体上,结构模型确实可以提供一定的外部效度,但其适用范围比传统观点所宣称的要有限。尤其是当结构参数中不可观测异质性较为重要时,把外部效度视为结构模型的优势就比较困难。这类模型通常可以预测同一总体在新的反事实环境下的行为,但可能无法预测不同总体在相同环境下的行为(更别提完全不同环境),因为这些总体的异质性分布未知。
需要强调的是,这一问题之所以凸显,是因为我们使用了允许不可观测异质性的更现实模型。如果反而假设估计总体中每个人的参数都相同(或认为所有差异都可由可观测变量解释),就很容易错误地推断其他总体也具有相同参数,从而误以为模型具备外部效度。换句话说,不考虑不可观测异质性,并不能真正解决问题,只是掩盖了问题的存在。
时间维度的外部效度
同样地,即便是在同一总体内,结构模型能否准确外推到不同时间段(也就是样本之外的时期)也是不确定的。传统观点认为,结构模型原则上可以做到这一点,但实际上,任何方法(无论是否结构化)都无法自动识别样本之外的时间效应。
举个例子,假设个体对工作的隐性厌恶程度可能会受到某些宏观冲击影响,而这些冲击会改变总体在不同时间点享受闲暇的机会,
在这种情况下,如果我们在时间t上估计了结构模型,它通常无法在另一个时间点t'上准确预测行为(只要
)。
事实上,这也是为什么控制时间效应的事后评估方法(如双重差分法)如此受欢迎,尽管这些方法并不具备结构模型前文讨论的优势。
因此,我们的观点是:即便一个结构模型在样本内识别良好,它在逻辑上成立,但一旦被外推到另一个时间点(无论是过去还是未来),只要存在未知且不同的时间效应,就可能无法准确预测个体行为。
处理效应的结构模型
有一类重要的结构模型,把结果方程和个体如何选择参与某项具有异质性效应的处理(treatment)的决策机制结合起来。这类处理选择的结构模型通过模拟个体在不同处理情境下可能的结果,可以构建完整的边际处理效应(MTE)曲线。
正如Heckman和Vytlacil(1999、2001、2005)指出的,一旦得到了MTE,就可以用它来估计研究总体中的任何处理效应。人们常常担心Imbens和Angrist(1994)提出的局部平均处理效应(LATE)参数,因为它依赖于特定的二元工具变量,其外部效度可能有限。具体来说,LATE可能无法准确反映以下效应:总体的平均处理效应(ATE)、实际接受处理人群的平均处理效应(ATT),或在某一政策诱导下可能选择接受处理的人群的平均处理效应。我们对这种担忧表示认同。
因此,一个常见的观点是,既然结构化的处理效应模型在理论上可以恢复整个MTE曲线,即使只依赖一个二元工具变量,也能够估计同一总体、同一时间下的任何处理效应,而不仅仅局限于Z-服从者(Z-compliers)的LATE。这意味着,相比仅依赖最小结构假设的传统Wald估计,结构方法在一定程度上确实提供了更强的外部效度。
需要注意的是,正如Kline和Walters(2019)指出的,把结论推广到服从者子群体以外的人群,通常依赖于外推。而这种外推又高度依赖于对函数形式的假设,而这些假设的有效性可能存在疑问。也就是说,即便只是在一个有限范围内,比如在同一总体、同一时间、同一地点,将结论推广到Z-服从者以外的子群体,所谓的外部效度也必须建立在维持函数形式假设的前提下。
换句话说,虽然非结构化方法下的LATE估计可能确实缺乏外部效度,但如果结构化的处理选择和处理效应模型想要突破仅限于服从者的范围,往往必须依赖一些潜在可疑的函数形式或分布假设。
总之,我们认为,结构模型最适合用来预测同一总体在相同时间、相同地点,面对另一种反事实环境时的行为或结果。而实现这一目标,通常需要依赖函数形式假设,因为这些假设是进行外推的必要条件。
结构模型的劣势
关于结构模型的价值,学界的讨论往往存在偏颇,支持者强调其优势,而反对者则集中指出其缺陷。这里主要提供一个更为平衡、理性的评述。在介绍了结构方法的独特优势之后,现在有必要明确其不足之处。本节的一些观点参考了Angrist和Pischke(2010),他们对结构方法提出了直率的批评。
识别问题
在这些模型中,要在Matzkin(2007,2013)所定义的严格计量意义下,正式证明可识别性是非常困难的。正如前面讨论的,早期结构研究很少提供正式的识别证明。即便不考虑这一点,另一个问题是,实证识别往往依赖一些未经过严格检验的排除性限制(exclusion restrictions)。
相比之下,那些使用有说服力工具变量估计LATE或采用固定效应模型的论文,通常会花大量篇幅论证识别假设的有效性。而在一些早期结构研究中,排除性限制往往没有得到充分重视,有时仅在脚注或附录中顺带提及,甚至未被明确报告。在这种情况下,提出一个对识别至关重要的排除性限制,更像是一个形式化步骤,而不是决定整体实证策略的核心经验性挑战。
举例说,在一个简单的二元选择劳动供给模型中,需要存在一个变量,它能够影响工资但不影响闲暇偏好。早期结构文献可能认为教育可以扮演这样的角色,即影响工资,却不影响对工作的厌恶感。这样的假设在当时可能未引起质疑,但对于近年来强调非结构方法的研究者来说,这种假设显得难以接受。
不过,我们认为,这并不是结构方法本身的根本缺陷,而是学界对什么算作有效排除性限制设定了更高的标准。事实上,正如“前沿进展: 准自然实验方法与结构估计方法的整合, 你的论文也可以这样借鉴.”讨论的,现代结构方法完全可以通过结合实验性或准实验性变异的识别来源来满足这一更高标准。
函数形式(functional form)
结构模型通常被认为高度依赖参数化的函数形式。虽然理论上存在一些非参数结构模型的研究,但大多数实证工作仍然采用严格的参数化设定。实际上,即便在少数可以实现完全非参数识别的情况下,研究者在实际估计中往往仍会使用参数化形式来设定效用函数、生产函数以及随机结构,而不一定会检验这些参数化假设是否与理想数据条件下可识别的非参数结构一致。
即便手中拥有理想数据,可以进行非参数估计,一旦所关心的反事实问题超出了数据支持范围,研究者仍不得不采用参数化设定。原因在于,非参数方法对于数据支持范围之外的结构保持沉默,无法为外推提供任何信息。
因此,为了进行外推而施加函数形式约束几乎成为结构方法的内在特点。不过,在“前沿进展: 准自然实验方法与结构估计方法的整合, 你的论文也可以这样借鉴.”,我们讨论了如何利用实验性或准实验性的外生变异,对模型进行外部验证,并在某些情况下帮助选择更合理的函数形式。
计算复杂性(computational complexity)
最后,虽然这种情况正在逐步改善,但咱们群友都知道,估计结构模型通常需要从零编写程序,很少能直接依赖通用软件包。这一过程非常耗时,主要包括,a)编写代码;b)调试程序;c)运行模型;以及d)修改模型尝试新的设定。
这些繁琐工作不仅会占用研究者用于思考经济问题和寻找更多外生变异来源的时间,也限制了进行广泛敏感性分析的可能性。因此,批评者常常质疑(而这种质疑确有道理)研究结果在模型细节稍作调整后是否仍稳健。这种高复杂性几乎是结构方法的固有特征。虽然有人尝试开发通用软件包以适应不同应用,但由于结构模型通常高度专业化,这类通用代码很难捕捉某一具体应用的独特细节,因此并未被广泛采用。
尽管如此,学界仍在不断探索更高效的估计方法。比如,前面提到的条件选择概率(CCP)估计方法就是一种尝试。Eberwein和Ham(2008)展示,在用最大似然法估计动态离散选择结构模型时,使用解析导数(analytic derivatives)替代数值导数(numerical derivatives)可以显著节省计算时间。他们还指出,解析导数在调试代码时非常有用,因为它能更容易发现程序错误。
