显示带有标签的帖子 可靠性. 显示所有帖子
显示带有标签的帖子 可靠性. 显示所有帖子

2011年5月18日,星期三

研究领域:SEM模型和因果v效应指标模型中的可靠性悖论




对于IQs Corner的类比读者。博客独裁者增加了斜体字强调。

Hancock,G.R.和Mueller,R.O.(2011)。协方差结构模型中评估结构关系时的可靠性悖论。 教育心理测评,71(2)306-324。

通常使用两步过程来评估数据 –变量路径模型的模型拟合,第一步处理模型的测量部分,第二步处理模型的结构部分。不幸的是,即使模型的测量部分的拟合是完美的,评估结构部分内的拟合的能力也会受到因子质量的影响。–测量模型中的可变关系。 结果是测量质量较差的模型似乎具有更好的数据 –模型拟合,而质量测量结果较好的模型似乎数据较差–model fit。当前文章说明了不同类别的拟合指标之间的这种现象,讨论了由于测量质量问题而导致的相关结构评估问题,并认可了与测量模型隔离的评估模型结构部分的补充建模步骤。



Hardin,A.M.,Chang,J.C.J.,Fuller,M.A.,&Torkzadeh,G.(2011年)。形成性测量与学术研究:寻找测量理论。 教育心理测评,71(2),281-305



尽管似乎在应用中缺乏一致性,但使用因果指标来形成潜在结构的度量似乎正在上升。任何学科的学者不仅有责任在其研究领域内提高理论知识,而且有责任解决威胁到其发展的方法论问题。本着这种精神,当前的研究追溯了因果指标从其在因果建模中的起源到如今在结构方程模型中的使用。 这篇评论的结论表明,与效果(反射)指标不同的是,其今天的应用基于经典测试理论。’因果(形成性)指标的应用基于证明其实际应用的研究,而不是基于支持其使用的心理计量学理论。作者认为,缺乏理论导致了围绕其实施的困惑。最近的研究对形成性测量的潜在结构的一般性提出了质疑。在当前的研究中,作者讨论了固定重量复合材料的使用可能是采用因果指标的一种方式,以便将它们推广到其他环境的方法。更具体地说,他们建议使用荟萃分析原理来确定可用于生成固定重量复合材料的最佳因果指标权重。最后,作者解释了如何在基于组件和基于协方差的统计包中实现这些固定权重的组合。在学术研究中使用因果指标的含义被用来集中这些讨论。


-使用我的Kevin McGrew的iPad使用BlogPress的iPost

2011年3月27日,星期日

行动计划应用心理计量学101报告#10: "Just say 没有"平均智商子测验分数

心理学家应该从事计算实践吗 简单算术平均值 来自不同IQ电池内或不同电池之间的不同子测试(伪合成)的两个或多个比例或标准分数? 乔尔·施耐德博士 和我, 凯文·麦格鲁博士 说“没有。”

在其报告中包括简单的假复合评分或根据此类评分做出解释和建议的心理学家是否有专业责任来提醒心理报告的接收者(例如律师,法院,父母,特殊教育人员,其他心理健康人员)练习者等),如果简单的伪合成分数是他们某些陈述的基础,他们的陈述中可能存在的错误数量?我们相信 ”。”

简单的伪复合 分数与基于规范的分数(即由测试发布者/作者提供的具有规范的综合分数(例如Wechsler言语理解指数)相比)包含大量错误来源。尽管他们具有直觉上的吸引力,但这种吸引力掩盖了分数中隐藏的错误来源-错误的数量是心理变量的组合。

行动计划应用心理计量学101报告#10 解决了假复合分数中涉及的心理计量问题。

在该报告中,我们提供了建议和资源,使用户可以在被认为重要且与个人评估结果的解释相关的情况下,从心理上计算合理的假复合材料。

最后,了解简单的伪综合评分的错误来源为从业人员提供了一个机会,使他们可以了解实践中经常观察到的悖论现象,在这种情况下,基于规范或心理计量合理的伪综合评分通常高于(或低于)子测试分数组成复合材料。 “总数不等于各部分的平均值通过基于三角学的有趣的视觉解释,从概念上,统计上解释了现象。



抽象

智力测验系列的出版商和作者基于两个或多个单独的子测验提供基于规范的综合分数。在实践中,临床医生经常基于无法使用基于规范的综合评分的测试组合来形成假设。此外,随着Cattell-Horn-Carroll(CHC)理论作为智能的共识心理计量学理论的出现,临床医生现在更加频繁“crossing batteries”形成代表广泛或狭窄CHC能力的复合材料。超越简单“eye-balling”在子测试组中,临床医生有时会计算子测试标定或标准分数(伪复合)的算术平均值。这种做法遭受严重的心理测量缺陷,并可能导致错误的诊断和决策。解释了伪综合评分的问题,并提出了适当计算特殊综合评分的建议。


-使用我的Kevin McGrew的iPad使用BlogPress的iPost

产生者: 标签生成器





2011年1月1日,星期六

道格·德特曼博士's字节:心理计量学可靠性







另一个 道格·德特曼博士's 情报 通过tes.

可靠性 是一致性。如果在重复应用中提供相同的测量,则该测量是可靠的。测量是一种尝试估算真实分数或潜在特征的值的尝试。如果可以精确地测量该真实分数或潜在特征值,则只要特征保持不变,该测量将在每次测量时提供相同的值。但是,测量从来都不是完美的。总是会有一些错误。要了解任何测量的准确性,都需要知道测量中的误差量。

与智能发现许多重要关系的原因之一是它们高度可靠。

所有好的科学都始于可靠的测量。正如巴甫洛夫所说,控制
您的条件,您将看到订单。这就是为什么可靠性如此重要并且
可能值得比这里给予更多的关注
.

-使用我的Kevin McGrew的iPad使用BlogPress的iPost



2009年7月8日,星期三

应用心理测验设计G部分:心理测验/技术统计分析:外部

第七  在系列中 应用测试开发的艺术与科学 现在可用。

第七 模块(G部分: 心理/技术统计分析:  External)现已发布,可以通过SlideShare访问。

此外,我进行了一些新的编辑和添加 到以前的演示文稿(A-F部分)....因此,如果您查看了以前的模块,则可能需要再次访问它们。

这是 第七 系列 的PPT模块说明了使用当代方法(例如,理论驱动的测试规范,IRT-Rasch缩放等)在认知能力领域进行心理测验的过程。这些演示本质上仅是概念性的,而非统计性的。反馈表示赞赏。

可以在博客的左侧窗格的标题下跟踪该项目。 应用测试开发测试开发系列。

第一 模块(A部分:规划,开发框架&域/测试规范蓝图)之前已发布,可以通过SlideShare访问。

第二 模组 (B部分:测试和项目开发) 之前已发布,可通过SlideShare访问。

第三 模块(C部分-使用Rasch缩放技术)之前已发布,可以通过Slideshare访问。

第四 模块(D部分-制定规范[标准化]计划)之前已发布,可以通过Slideshare访问。

第五 模块(E部分-计算规范和派生分数)之前已发布,可以通过Slideshare访问。

第六 模块(F部分-心理/技术统计分析: 内部)之前已发布,可以通过Slideshare访问。

你是 强烈 鼓励按顺序查看它们,作为概念,概念和想法的图形表示等,从头到尾地相互依存。

现在就这样。 我将来可能会修改并添加更多材料-但这是目前的“基本”材料集。

Technorati标签: , , , , , , , , , , , , , , , , ,



2009年7月7日,星期二

应用心理测验开发系列:F部分–心理计量/技术统计分析:内部

第六 在系列中 应用测试开发的艺术与科学 现在可用。

第六 模块(F部分-心理/技术统计分析:  Internal) 现在可用。

此外,我还进行了一些编辑和添加(特别是摘要 “工具,技巧和麻烦”“高级主题” 幻灯片)到以前的演示文稿(A-E部分)。

这是 第六 系列 的PPT模块说明了使用当代方法(例如,理论驱动的测试规范,IRT-Rasch缩放等)在认知能力领域进行心理测验的过程。这些演示本质上仅是概念性的,而非统计性的。反馈表示赞赏。

可以在博客的左侧窗格的标题下跟踪该项目。 应用测试开发测试开发系列。

第一 模块(A部分:规划,开发框架&域/测试规范蓝图)之前已发布,可以通过SlideShare访问。

第二 模组 (B部分:测试和项目开发) 之前已发布,可通过SlideShare访问。

第三 模块(C部分-使用Rasch缩放技术)之前已发布,可以通过Slideshare访问。

第四 模块(D部分-制定规范[标准化]计划)之前已发布,可以通过Slideshare访问。

第五 模块(E部分-计算规范和派生分数)之前已发布,可以通过Slideshare访问。

你是 强烈 鼓励按顺序查看它们,作为概念,概念和想法的图形表示等,从头到尾地相互依存。

享受...更多。

Technorati标签: , , , , , , , , , , , , , , , , ,



2008年10月24日,星期五

随着时间的推移,WJ测试的可靠性

“测试不会一次到另一次改变:人们会改变。某些特征可能会有相当大的变化,而其他特征则相对很少。重新测试研究评估的是人们变化的趋势,而不是测试质量的某些方面。不能反映人类特征的这种变化的测试将是对这些特征的不敏感衡量”(McGrew,Werder,&伍德考克(199) 99)。

结束了 国家航空航天局 Listserv 嘎ry Canivez博士 在回答有关K-ABC和WJ得分变化的帖子时提出以下问题-“有人对WJ或KABC-2评分的长期稳定性有参考吗?我会对此类研究的参考感兴趣。”

报告中有一项非常复杂的重测研究。 WJ-R技术手册 (麦格鲁·沃德& 鹬, 1991) (点击这里查看/下载)。不幸的是,它在测试技术手册中……购买测试后,常常会忽略该文档。可以在以下文章中找到其他信息。

  • McArdle,J.J.,FerrerCaja,E.,Hamagami,F.,&Woodcock,R.W。(2002)。在整个生命周期内对多种智力能力的增长和下降进行纵向比较结构分析。发展心理学,38(1),115-142。 (点击查看)
我敦促从业心理学家阅读这些报告。是的..它们很难消化。他们没有报告简单的重测相关性。相反,它们是复杂的研究设计,旨在识别和划分随时间变化的测试分数差异的来源。某些测试的分数会随着时间变化...这就是您想要的...因为它反映了 性状变异....一些特征会随着时间而改变(就像我们的体重随着时间而改变...不幸的是,朝上使用)。通过测试测得的其他特征随着时间的推移更加稳定...因此,分数的变化可能会较小。

然后,当然,一个人的 (浓度,焦虑,疲劳等)在任何测试时刻都可能影响测试性能...并且测试对这些状态(例如Gsm,Gs)的敏感度可能会反映这些临时状态的波动。这反映了 状态方差...这并不是该措施的问题...该措施可以准确反映该人当时的行为。不幸的是,学校的心理学家(以及其他进行心理测试的人)通常接受测量培训,只谈论简单的测试-再测试可靠性研究和结果....这对我们的职业不利。我们需要更好地了解我们的仪器。正确设计的重测研究(重测间隔可变)可以帮助您识别和区分测试分数差异的不同来源,并将其分配给稳定或不稳定的变化分数差异的适当来源。

请特别阅读WJ-R技术手册摘录。这是我在本文中包含的两个来源中最易读和易懂的内容。

Technorati标签: , , , , , , , , , , , ,