为什么要虚拟自变量?

如题所述

1. 在应用logistic回归之前,需要分析资料是否适合该模型。自变量与因变量之间的关系是关键,logistic回归要求自变量与logit(y)线性相关,即与ln(P/1-P)相关。
2. 对于二分类因变量,虚拟变量可帮助揭示更多信息。例如,一个二分类自变量x(四分类:1,2,3,4)与二分类因变量y的关系,若直接分析,p值为0.07,无统计学意义。但转换为虚拟变量后(x2, x3, x4),p值分别为0.08,0.05和0.03,显示了不同分类的统计学意义。
3. 当自变量与y的关系不明确时,使用虚拟变量可减少误差。如果虚拟变量间的比值(OR)显示线性关系,原始的分类可以直接用于分析。
4. 虚拟变量在logistic回归中非常有用,可以帮助发现隐藏的信息。
5. 样本量的估计在研究中非常重要,尤其是在统计学要求高的场合。简单的研究有成熟的公式来估算样本量,但对于复杂的研究,如logistic回归,通常采用经验法。
6. Logistic回归需要较大的样本量以保证结果的可靠性,通常每个结局至少需要10例样本。如果研究因素之间存在多重共线性或其他问题,可能需要更多样本。
7. 尽管没有权威的logistic回归样本量估计方法,但可以通过经验、分析过程细节或专家建议来确定样本量。
温馨提示:答案为网友推荐,仅供参考
相似回答