LiZeC的博客

通用性的代价是抽象

统计回归与计量经济学笔记

经济学
2017-08-05

多元回归参数的含义

表示在其他参数都不变的情况下, 这一参数改变一个单位对解释变量的影响

普通最小二乘法

利用一组数据求出回归参数的估计值的最常用方法
普通最小二乘法使得一个特定样本的残差平方和最小
调整的判定系数, 可以一定程度抵消一部分因为自由度降低导致R方变大的问题
- 不应该将此系数最大作为优化目标
- 是否添加一个变量, 应该有理论和逻辑支持, 而不是根据调整的判定系数确定

回归分析的一般步骤

查阅文献, 建立理论模型
- 查阅文献是必备的步骤
- 应该从前人的基础上开始
确定模型, 选择解释变量和函数形式
- 确定解释变量, 以及如何测量解释变量
- 确定函数形式
- 确定随机误差项的性质
对参数符号做出假定
- 通过参数符合, 可以在后续过程中对模型进行简单的检验
- 提前决定符号也有助于后续的假设性检验
- 效果不确定的参数符号可以先不确定, 待后续进行进一步的解释
搜集、检查和整理数据
- 首先需要选择尽可能多的样本数据, 从而能尽可能抵消随机误差
- 对数据要进行一定的检查, 如数据是否在合理的范围内,
估计和评价方程
- 通过软件计算得到方程的参数
- 通过相关的假设检验方法对参数合理性进行评价
结果报告

虚拟变量

对于某种只能取特定离散值的变量, 例如性别, 季节等可以采用虚拟变量
以性别为例, 可以令X=0表示男, X=1表示女
通常两个对立事件使用一个虚拟变量, 从而避免完全多重共线性

古典假设

回归模型是线性的, 模型设定无误且含有误差项
误差项均值为0
所有解释变量与误差项都不相关
误差项观测值互不相关
误差项具有同方差（不存在异方差性）
任何一个解释变量都不是其他解释变量的完全线性函数（不存在完全多重共线性）
误差项服从正态分布
满足1-5的假设的误差项称为古典误差项, 如果还满足7, 则称为古典正态误差项

古典假设的常用符号

图片, 待补充

古典原假设和备择假设

原假设是研究者不希望出现的情况
备选假设是研究者希望出现的情况
对于不同的检验方法, 有单侧检验和双侧检验
通过是否拒绝原假设来进行检验

两类错误

第一类错误：拒接了正确的原假设
第二类错误：接受的错误的原假设

判定规则

比较样本统计量与预先设置的临界值
可以通过比较产生两类错误的损失来设置临界值

t检验

通过比较产生两类错误的损失来设置临界值
如果不能确定损失, 不妨取5%的显著水平
t值越大, 显著性越强

p值

在原假设为真的情况下, t统计值的临界值大于等于样本数据t值的概率
p值是一个概率值, 范围在0到1之间
p值越小, 越有理由拒绝原假设

t检验的步骤

建立原假设和备选假设
选择一个显著水平, 确定临界值
对方程进行回归, 得到t估计值
对t估计值和临界值进行比较
- 确定t估计值的绝对值是否大于临界值
- 确定t估计值的符号与预先的假设是否一致

t检验的局限性

t检验不能检验理论有效性
- 一个变量显著不能说明模型一定有效, 还是需要理论和逻辑支持
- 一个变量不显著可以考虑是否不需要添加这个变量
t检验不能检验重要性
t检验不是针对总体的检验
- 数据量越大, t值越趋向于无穷, 进而失去意义

置信区间

通过t检验可以计算一个参数在一定置信水平下的区间范围
可以作为t检验的补充分析

F检验

F检验是对多个参数共同显著性的检验
F检验将原假设的条件带入方程中, 比较两个方程的差异程度, 从而说明这些参数的效果
对于通常的方程的F检验, 就相当于比较回归方程和样本均值函数的差异程度
如果存在相互关联的虚拟变量（如季节）, 则应该将这些变量视为整体, 进行F检验

解释变量的选择

尽量少的选择解释变量
选择变量尽量从理论上获得支持, 而不是从统计显著性上获得支持

不应该根据变量的效果设置方程, 应该根据理论设置方程, 否则容易导致方程只能在当前样本上具有良好效果
可以通过考察残差大致的了解遗漏变量可能的形态

不相干变量的判断和控制

四个重要原则

理论：变量的含义是否模糊不清, 从理论上是否合理
t检验：变量的被估参数在预期下是否显著
调整的判定系数R方：变量加入以后, 方程的整体拟合优度是否得到改善
偏误：变量加入方程以后, 其他变量的参数是否发生显著改变

对上述原则的分析

如果加入的参数不能满足上述条件, 则基本可以断定这个变量是一个无关变量
反之, 如果不能同时满足上述条件, 那么就应该谨慎的考虑是否添加这个变量
但无论如何, 从理论上判断是最有力的, 任何统计方式都不能否认理论上证明存在关系的变量
注意： 如果在理论上可以确定一个变量确实应该作为解释变量, 即使它不满足上述四个原则, 也应该试图解释为什么这个变量不显著, 而不是简单删除

设定搜索

搜索原则

在选择变量, 方程形式或其他类似问题时, 尽可能多的依据理论, 而不是统计结果
最小化待估方程的数量
在注释或附录中, 展示所有待估的备选模型

变量选择的一个原则

应该选择哪些变量应该放入方程
不能因为一个变量没有拒绝的理由, 就将其放入方程, 所有放入的变量本身应该由充分的理由
如果长时间对数据进行严刑拷打, 数据也会屈打成招

数据挖掘

通过组合不同的参数来寻找最优的方程, 然后装作从未进行过测试, 几乎可以肯定是最差的方案
可以适当的组合参数, 但是一定要使用另外的数据集进行测试

敏感性分析

通过将多个可能的回归方程进行分析, 从而推论不同的形式不显著影响结果的分析

其他高级检验方法

拉姆齐回归设定偏误检验（Ramsey RESET test）
- 可用于帮助研究者对是否存在设定偏误进行判断
Akaike信息准则
Bayesian信息准则

多重线性和时间序列的相关问题

最后更新： 2024年04月18日 13:26

版权声明：本文为原创文章，转载请注明出处

原始链接： https://lizec.top/2017/08/05/%E7%BB%9F%E8%AE%A1%E5%9B%9E%E5%BD%92%E4%B8%8E%E8%AE%A1%E9%87%8F%E7%BB%8F%E6%B5%8E%E5%AD%A6%E7%AC%94%E8%AE%B0/