多元回归参数的含义
- 表示在其他参数都不变的情况下, 这一参数改变一个单位对解释变量的影响
普通最小二乘法
- 利用一组数据求出回归参数的估计值的最常用方法
- 普通最小二乘法使得一个特定样本的残差平方和最小
- 调整的判定系数, 可以一定程度抵消一部分因为自由度降低导致R方变大的问题
- 不应该将此系数最大作为优化目标
- 是否添加一个变量, 应该有理论和逻辑支持, 而不是根据调整的判定系数确定
回归分析的一般步骤
- 查阅文献, 建立理论模型
- 查阅文献是必备的步骤
- 应该从前人的基础上开始
- 确定模型, 选择解释变量和函数形式
- 确定解释变量, 以及如何测量解释变量
- 确定函数形式
- 确定随机误差项的性质
- 对参数符号做出假定
- 通过参数符合, 可以在后续过程中对模型进行简单的检验
- 提前决定符号也有助于后续的假设性检验
- 效果不确定的参数符号可以先不确定, 待后续进行进一步的解释
- 搜集、检查和整理数据
- 首先需要选择尽可能多的样本数据, 从而能尽可能抵消随机误差
- 对数据要进行一定的检查, 如数据是否在合理的范围内,
- 估计和评价方程
- 通过软件计算得到方程的参数
- 通过相关的假设检验方法对参数合理性进行评价
- 结果报告
虚拟变量
- 对于某种只能取特定离散值的变量, 例如性别, 季节等可以采用虚拟变量
- 以性别为例, 可以令X=0表示男, X=1表示女
- 通常两个对立事件使用一个虚拟变量, 从而避免完全多重共线性
古典假设
- 回归模型是线性的, 模型设定无误且含有误差项
- 误差项均值为0
- 所有解释变量与误差项都不相关
- 误差项观测值互不相关
- 误差项具有同方差(不存在异方差性)
- 任何一个解释变量都不是其他解释变量的完全线性函数(不存在完全多重共线性)
- 误差项服从正态分布
满足1-5的假设的误差项称为古典误差项, 如果还满足7, 则称为古典正态误差项
古典假设的常用符号
图片, 待补充
古典原假设和备择假设
- 原假设是研究者不希望出现的情况
- 备选假设是研究者希望出现的情况
- 对于不同的检验方法, 有单侧检验和双侧检验
- 通过是否拒绝原假设来进行检验
两类错误
- 第一类错误:拒接了正确的原假设
- 第二类错误:接受的错误的原假设
判定规则
- 比较样本统计量与预先设置的临界值
- 可以通过比较产生两类错误的损失来设置临界值
t检验
- 通过比较产生两类错误的损失来设置临界值
- 如果不能确定损失, 不妨取5%的显著水平
- t值越大, 显著性越强
p值
- 在原假设为真的情况下, t统计值的临界值大于等于样本数据t值的概率
- p值是一个概率值, 范围在0到1之间
- p值越小, 越有理由拒绝原假设
t检验的步骤
- 建立原假设和备选假设
- 选择一个显著水平, 确定临界值
- 对方程进行回归, 得到t估计值
- 对t估计值和临界值进行比较
- 确定t估计值的绝对值是否大于临界值
- 确定t估计值的符号与预先的假设是否一致
t检验的局限性
- t检验不能检验理论有效性
- 一个变量显著不能说明模型一定有效, 还是需要理论和逻辑支持
- 一个变量不显著可以考虑是否不需要添加这个变量
- t检验不能检验重要性
- t检验不是针对总体的检验
- 数据量越大, t值越趋向于无穷, 进而失去意义
置信区间
- 通过t检验可以计算一个参数在一定置信水平下的区间范围
- 可以作为t检验的补充分析
F检验
- F检验是对多个参数共同显著性的检验
- F检验将原假设的条件带入方程中, 比较两个方程的差异程度, 从而说明这些参数的效果
- 对于通常的方程的F检验, 就相当于比较回归方程和样本均值函数的差异程度
- 如果存在相互关联的虚拟变量(如季节), 则应该将这些变量视为整体, 进行F检验
解释变量的选择
- 尽量少的选择解释变量
- 选择变量尽量从理论上获得支持, 而不是从统计显著性上获得支持
不应该根据变量的效果设置方程, 应该根据理论设置方程, 否则容易导致方程只能在当前样本上具有良好效果
可以通过考察残差大致的了解遗漏变量可能的形态
不相干变量的判断和控制
四个重要原则
- 理论:变量的含义是否模糊不清, 从理论上是否合理
- t检验:变量的被估参数在预期下是否显著
- 调整的判定系数R方:变量加入以后, 方程的整体拟合优度是否得到改善
- 偏误:变量加入方程以后, 其他变量的参数是否发生显著改变
对上述原则的分析
- 如果加入的参数不能满足上述条件, 则基本可以断定这个变量是一个无关变量
- 反之, 如果不能同时满足上述条件, 那么就应该谨慎的考虑是否添加这个变量
- 但无论如何, 从理论上判断是最有力的, 任何统计方式都不能否认理论上证明存在关系的变量
- 注意: 如果在理论上可以确定一个变量确实应该作为解释变量, 即使它不满足上述四个原则, 也应该试图解释为什么这个变量不显著, 而不是简单删除
设定搜索
搜索原则
- 在选择变量, 方程形式或其他类似问题时, 尽可能多的依据理论, 而不是统计结果
- 最小化待估方程的数量
- 在注释或附录中, 展示所有待估的备选模型
变量选择的一个原则
- 应该选择哪些变量应该放入方程
- 不能因为一个变量没有拒绝的理由, 就将其放入方程, 所有放入的变量本身应该由充分的理由
- 如果长时间对数据进行严刑拷打, 数据也会屈打成招
数据挖掘
- 通过组合不同的参数来寻找最优的方程, 然后装作从未进行过测试, 几乎可以肯定是最差的方案
- 可以适当的组合参数, 但是一定要使用另外的数据集进行测试
敏感性分析
- 通过将多个可能的回归方程进行分析, 从而推论不同的形式不显著影响结果的分析
其他高级检验方法
- 拉姆齐回归设定偏误检验(Ramsey RESET test)
- 可用于帮助研究者对是否存在设定偏误进行判断
- Akaike信息准则
- Bayesian信息准则
多重线性和时间序列的相关问题
最后更新: 2024年04月18日 13:26
版权声明:本文为原创文章,转载请注明出处