多元回归参数的含义

  • 表示在其他参数都不变的情况下, 这一参数改变一个单位对解释变量的影响

普通最小二乘法

  • 利用一组数据求出回归参数的估计值的最常用方法
  • 普通最小二乘法使得一个特定样本的残差平方和最小
  • 调整的判定系数, 可以一定程度抵消一部分因为自由度降低导致R方变大的问题
    • 不应该将此系数最大作为优化目标
    • 是否添加一个变量, 应该有理论和逻辑支持, 而不是根据调整的判定系数确定

回归分析的一般步骤

  1. 查阅文献, 建立理论模型
    • 查阅文献是必备的步骤
    • 应该从前人的基础上开始
  2. 确定模型, 选择解释变量和函数形式
    • 确定解释变量, 以及如何测量解释变量
    • 确定函数形式
    • 确定随机误差项的性质
  3. 对参数符号做出假定
    • 通过参数符合, 可以在后续过程中对模型进行简单的检验
    • 提前决定符号也有助于后续的假设性检验
    • 效果不确定的参数符号可以先不确定, 待后续进行进一步的解释
  4. 搜集、检查和整理数据
    • 首先需要选择尽可能多的样本数据, 从而能尽可能抵消随机误差
    • 对数据要进行一定的检查, 如数据是否在合理的范围内,
  5. 估计和评价方程
    • 通过软件计算得到方程的参数
    • 通过相关的假设检验方法对参数合理性进行评价
  6. 结果报告

虚拟变量

  • 对于某种只能取特定离散值的变量, 例如性别, 季节等可以采用虚拟变量
  • 以性别为例, 可以令X=0表示男, X=1表示女
  • 通常两个对立事件使用一个虚拟变量, 从而避免完全多重共线性

古典假设

  1. 回归模型是线性的, 模型设定无误且含有误差项
  2. 误差项均值为0
  3. 所有解释变量与误差项都不相关
  4. 误差项观测值互不相关
  5. 误差项具有同方差(不存在异方差性)
  6. 任何一个解释变量都不是其他解释变量的完全线性函数(不存在完全多重共线性)
  7. 误差项服从正态分布
    满足1-5的假设的误差项称为古典误差项, 如果还满足7, 则称为古典正态误差项

古典假设的常用符号

图片, 待补充


古典原假设和备择假设

  • 原假设是研究者不希望出现的情况
  • 备选假设是研究者希望出现的情况
  • 对于不同的检验方法, 有单侧检验双侧检验
  • 通过是否拒绝原假设来进行检验

两类错误

  • 第一类错误:拒接了正确的原假设
  • 第二类错误:接受的错误的原假设

判定规则

  • 比较样本统计量与预先设置的临界值
  • 可以通过比较产生两类错误的损失来设置临界值

t检验

  • 通过比较产生两类错误的损失来设置临界值
  • 如果不能确定损失, 不妨取5%的显著水平
  • t值越大, 显著性越强

p值

  • 在原假设为真的情况下, t统计值的临界值大于等于样本数据t值的概率
  • p值是一个概率值, 范围在0到1之间
  • p值越小, 越有理由拒绝原假设

t检验的步骤

  1. 建立原假设和备选假设
  2. 选择一个显著水平, 确定临界值
  3. 对方程进行回归, 得到t估计值
  4. 对t估计值和临界值进行比较
    • 确定t估计值的绝对值是否大于临界值
    • 确定t估计值的符号与预先的假设是否一致

t检验的局限性

  1. t检验不能检验理论有效性
    • 一个变量显著不能说明模型一定有效, 还是需要理论和逻辑支持
    • 一个变量不显著可以考虑是否不需要添加这个变量
  2. t检验不能检验重要性
  3. t检验不是针对总体的检验
    • 数据量越大, t值越趋向于无穷, 进而失去意义

置信区间

  • 通过t检验可以计算一个参数在一定置信水平下的区间范围
  • 可以作为t检验的补充分析

F检验

  • F检验是对多个参数共同显著性的检验
  • F检验将原假设的条件带入方程中, 比较两个方程的差异程度, 从而说明这些参数的效果
  • 对于通常的方程的F检验, 就相当于比较回归方程和样本均值函数的差异程度
  • 如果存在相互关联的虚拟变量(如季节), 则应该将这些变量视为整体, 进行F检验

解释变量的选择

  • 尽量少的选择解释变量
  • 选择变量尽量从理论上获得支持, 而不是从统计显著性上获得支持

不应该根据变量的效果设置方程, 应该根据理论设置方程, 否则容易导致方程只能在当前样本上具有良好效果
可以通过考察残差大致的了解遗漏变量可能的形态

不相干变量的判断和控制

四个重要原则

  1. 理论:变量的含义是否模糊不清, 从理论上是否合理
  2. t检验:变量的被估参数在预期下是否显著
  3. 调整的判定系数R方:变量加入以后, 方程的整体拟合优度是否得到改善
  4. 偏误:变量加入方程以后, 其他变量的参数是否发生显著改变

对上述原则的分析

  • 如果加入的参数不能满足上述条件, 则基本可以断定这个变量是一个无关变量
  • 反之, 如果不能同时满足上述条件, 那么就应该谨慎的考虑是否添加这个变量
  • 但无论如何, 从理论上判断是最有力的, 任何统计方式都不能否认理论上证明存在关系的变量
  • 注意: 如果在理论上可以确定一个变量确实应该作为解释变量, 即使它不满足上述四个原则, 也应该试图解释为什么这个变量不显著, 而不是简单删除

设定搜索

搜索原则

  • 在选择变量, 方程形式或其他类似问题时, 尽可能多的依据理论, 而不是统计结果
  • 最小化待估方程的数量
  • 在注释或附录中, 展示所有待估的备选模型

变量选择的一个原则

  • 应该选择哪些变量应该放入方程
  • 不能因为一个变量没有拒绝的理由, 就将其放入方程, 所有放入的变量本身应该由充分的理由
  • 如果长时间对数据进行严刑拷打, 数据也会屈打成招

数据挖掘

  • 通过组合不同的参数来寻找最优的方程, 然后装作从未进行过测试, 几乎可以肯定是最差的方案
  • 可以适当的组合参数, 但是一定要使用另外的数据集进行测试

敏感性分析

  • 通过将多个可能的回归方程进行分析, 从而推论不同的形式不显著影响结果的分析

其他高级检验方法

  • 拉姆齐回归设定偏误检验(Ramsey RESET test)
    • 可用于帮助研究者对是否存在设定偏误进行判断
  • Akaike信息准则
  • Bayesian信息准则

多重线性和时间序列的相关问题

最后更新: 2024年04月18日 13:26

版权声明:本文为原创文章,转载请注明出处

原始链接: https://lizec.top/2017/08/05/%E7%BB%9F%E8%AE%A1%E5%9B%9E%E5%BD%92%E4%B8%8E%E8%AE%A1%E9%87%8F%E7%BB%8F%E6%B5%8E%E5%AD%A6%E7%AC%94%E8%AE%B0/