
测试开发人员(包括我,博客独裁者)是否越来越夸大了智能测试电池?
根据Frazier和Youngstrom在著名杂志上的“新闻报导”文章 情报,当代测试开发人员(及其出版公司) “没有充分衡量他们据称要衡量的因素的数量。" 以下是参考引用和摘要(带有文章的链接)。
根据Frazier和Youngstrom的说法,他们的调查目的是: “本文提出了几种力量影响了这一趋势,包括:越来越复杂的智力理论(Carroll,1993; 弗农,1950),商业测试出版商希望为临床医生提供具有更大解释价值的评估工具,出版商希望包括较小的能力因素可能只对研究人员感兴趣,并且严重依赖于自由的统计标准来确定测试所测量的因素数量,后一种假设在本研究中通过比较几种统计标准来确定测试的数量来进行经验评估。当前和历史上相关的认知能力系列中存在的因素。”
作为其中一个电池的合著者 (WJ III) 我对本研究进行了分析,尤其是测量了调查中最多因素的电池,我不得不对本手稿的某些部分做出回应。 因此,读者应阅读原始文章,然后查看我的评论, 完全意识到我有商业利益冲突.
在介绍本文的主要结论并提供选择答复之前,我想首先说明一下,从很多方面来说,我认为这是一篇做得很好的文章。 无论我在何种程度上同意/不同意Frazier和Youngstrom,引言都是值得阅读的,原因至少有两个。
- 这篇文章很好地(简要地)概述了从Spearman到早期分层理论的心理计量智力理论的发展(弗农)到当代的Carroll和Cattell-Horn Gf-Gc(后两个现在经常被称为Cattell-Horn-Carroll [CHC]理论)。
- 此外,对于那些希望对主要统计方法进行简要描述和提要以决定要保留在因子分析研究中的因子数量的个人,建议使用第3-6页。
T.Frazier和E.Youngstrom(2006年,印刷中). 商业化衡量的因素数量的历史增长 认知能力的测试:我们是否过度分解了? 情报。
抽象
- 认知能力的商业测试所衡量的因素数量的历史性增长可能源于四个明显的压力,这些压力包括:日益复杂的智力模型,测试发行者渴望提供具有更大解释价值的临床有用评估工具,测试发行者渴望获得更大的解释价值。包括研究人员可能感兴趣的次要因素(但在临床上无用),以及用于确定测试因素结构的宽松统计标准。本研究使用从主要成分分析以及探索性和确认性因素分析得出的统计标准,检验了几种历史相关且当前采用的商业认知能力测试所测得的因素数量。霍恩的平行分析(HPA)和最小均分(MAP)分析是两个很少使用的统计标准,已被证明可以准确地恢复数据集中的因素数量,它们是金标准。正如预期的那样,通过认知能力测试测得的因素数量随时间有了显着增加(r = .56,p = .030)。结果还表明,最近在认知能力测验的过度分解方面的大量增加。未来认知评估电池的开发人员可能希望增加电池的长度,以便更充分地测量其他因素。另外,对简短评估策略感兴趣的临床医生可能会从可靠评估一般智力的短电池中受益。
作者的其他评论/结论(之后是我的评论/回复)
Frazier / Youngstrom评论: 认知能力电池在心理评估中的广泛使用,普遍的心理评估市场的增长,创建临床医生和研究人员都可以使用的测试的愿望,以及提高智商测量的可靠性的愿望可能会对出版商造成压力市场能力测试,可以衡量其他测试所能衡量的一切,甚至更多。反过来,这迫使其他能力测试发布者尝试保持同步。
- 麦格鲁评论/回应: 首先,我不会尝试评论分析中包括的其他主要智能电池(韦氏电池,SB-IV,K-ABC,DAS)的测试开发人员/出版商的“需求/压力”。 我的评论仅限于我在WJ-R和WJ III上的经历。
- 作为WJ III的合著者以及WJ-R的主要数据分析人员,我个人可以保证测试发布者和我们作为合著者都没有施加压力来衡量更多因素来应对这一事实。为了测量更多。 如原始WJ-R技术手册(McGrew,Werder&Woodcock,1991年),随后在WJ III技术手册中进行了总结(McGrew和Woodcock,2001年),因素数量背后的驱动力是理论驱动的,两位最杰出的心理计量学智能理论家和因素分析家的意见....约翰·霍恩 和杰克·卡罗尔(点击这里, 这里.) 喇叭和Carroll都密切参与WJ-R和WJ III规范数据的因子结果的设计和审查。 在WJ-R和WJ III修订版中,驱动“欲望/压力”的目的是在实际限制内有效地测量广泛的CHC / Gf-Gc能力的主要特征,这些能力是数十年来研究已建立的(请参见Carroll的1993年的开创性工作, 点击这里, 这里)。 有关其他信息,例如:Horn和Carroll参与这些讨论,请阅读McGrew(即我)在线版本的相关部分,或f CHC理论: 过去,现在,将来. 如果存在潜在的驾驶“压力”,那就是 缩小智力理论与实践的差距.
Frazier / Youngstrom评论: 从本研究中得出了几个重要发现。如预期的那样,商业能力测试变得越来越复杂。尽管这些测试的时间仅适度增加,但据称由这些测试衡量的因素数量却已大幅增加,甚至可能呈指数增长。但是,应该注意的是,据称测量的因素数量呈指数增长的可能性可能是由于包含了两个异常值,即WJ-R和WJ-III。甚至更有说服力的是,测试时间与所声称因素的比率已大大降低。这些趋势表明,测试作者可能会提出其他因素,而没有包括足够数量的子测试来衡量这些因素。如果更准确,更推荐,则应检查统计标准,以发现商业能力测试被严重夸大。
- 麦格鲁评论/回应: 我的评论主要是为读者澄清的内容之一。 弗雷泽(Frazier)和扬斯特罗姆(Youngstrom)的说法是测试长度与因素的比率降低了,这可能与其他电池分析有关,但WJ-R和WJ III并非如此。 WJ III测量的广泛的CHC因子全部由至少3个或更多个测试指标表示,这是正确识别因子的普遍接受的标准。 Frazier和Youngstrom(及其文章的读者)可能会发现,在杰克·卡罗尔(Jack Carroll)的最终出版物(T认知能力的更高层次的结构:目前的证据支持g和大约十个广泛因素。 在Helmuth Nyborg(Ed。), 通用情报科学研究: 向亚瑟·詹森致敬。爱思唯尔科学/佩尔加蒙出版社。-单击此处以访问Carroll的chapte的发布前副本r),Carroll表示,WJ-R电池(与WJ III相比,具有较低的测试因子比率)是“足够的”数据集,“用于得出有关认知能力的较高层次结构的结论。” 在描述WJ-R数据集时,他说 “这是旨在测试阶乘的数据集 正如Carroll(1993,p。579)所建议的那样,该结构仅在第二层或更高的层上具有 足够的测试变量来定义多个第二层因子,以及一个第三层因子,但不一定是任何第一层因子。” 对于因素分析方法的应用,杰克·卡洛尔(Jack Carroll)毫不懈怠。 实际上,他通常被认为是因子分析“艺术与科学”的大师之一,并且他的 因子分析方法对认知能力研究的贡献 这是众所周知的(我建议人们阅读卡洛尔开创性著作中有关人类认知能力的因素结构的第3章,“第3章:认知能力的相关性和因素分析研究的调查和分析:方法论). 弗雷泽(Frazier)和扬斯特罗姆(Youngstrom)将他们所有的卵主要放在因子分析(强调统计测试)的“科学”中。因子分析的实践有一种“技巧”,而原始的实证研究方法却缺乏这种技巧。
Frazier / Youngstrom评论: 本研究的结果还表明,能力测试的过度分解可能会加剧,因为声称的因素数量与MAP和HPA指示的数量之间的差异随着时间的推移而上升,并且子测试与声称的因素的比率也大大降低了。尽管商业压力和人类认知能力的日益复杂的模型可能是造成这些近期增长的原因,但本研究未对这些解释进行研究。
- 麦格鲁评论/回应: 牛肉/数据在哪里支持以下结论:“商业压力...可能会导致这些近期增长?” 在没有数据的情况下,这种说法是不合适的。 是的,人类认知能力的模型越来越复杂,正在为衡量更多能力的电池做出贡献。 科学是通过不断积累证据来改善我们的知识水平的过程。 最可靠的经验证据支持包括7-9个广泛的II级能力的智力模型(CHC或Gf-Gc理论)。 评估技术不应该与当代理论并驾齐驱吗? 我认为答案应该是“是”。 由于作者指出“本研究未对这些解释进行调查”,因此他们应避免发表“商业压力”声明。 令我感到惊讶的是,这样的声明缺乏现成的证据,却在杂志的编辑过程中幸免于难。
Frazier / Youngstrom评论: 相反,评估的重点在于以下假设:测试开发人员已使用自由且通常不准确的统计标准来确定测试结构。这一假设得到了支持。”
- 麦格鲁评论/回应: 除了未能正确认识到正确应用因子分析的艺术和科学外,弗雷泽(Frazier)和扬斯特罗姆(Youngstrom)还犯下了一种通常由个人(我并不是说这两个人都是如此)所犯下的罪恶,而这些人迷恋于定量方法的魔力(早年就包括我自己...直到 约翰·霍恩, 杰克·麦克阿德,而杰克·霍恩(Jack 喇叭)亲自指导了我任何单一定量方法(例如因子分析)的局限性。 简而言之,因子分析是一种内部有效性方法。它只能评估智能电池的内部结构证据。 当我是因子分析新手时,我因无法清楚地区分(探索性或确认性因子方法)读写能力(Grw)与口头/结晶(Gc)能力而感到困扰。 我认为因素分析的魔力应该将它们显示为不同的因素。 霍恩和麦克阿尔德都轻轻摇动了我 “因素分析必须正确” 提醒我一个模式(我从记忆中释义) “凯文...因素分析只能告诉您很多有关能力的信息。 通常,除了内部有效性调查结果之外,您还必须查看因素分析之外的其他信息,以完全了解为支持高度相关能力的差异提供支持的全部证据。” 特别是,霍恩和麦克阿德(Horn 和 McArdle)敦促我检查成长曲线,以了解与因素分析方法无法区分的高度相关能力。 当我检查WJ-R数据中Grw和Gc的增长曲线时,我顿悟了(请注意...点击这里 对于包含所有WJ III测试曲线的报告。...尤其要注意阅读/写作(Grw)和口头(Gc)测试之间的差异....在因子分析中经常“聚集”在一起的测试)。 他们是正确的。 尽管EFA和CFA不能清楚地区分这些因素,但是Grw和Gc的发育增长曲线却截然不同...如此不同,以致于很难断定它们是相同的结构。 长话短说... Frazier和Youngstrom在讨论/局限性部分可能没有意识到,建构效度是基于多种效度证据来源的总和。 内部结构有效性证据只是一种形式……尽管考虑到如今因素分析的简便性,但它是更容易检查智能电池的证据之一。 正如在 联合测试标准,并且由Horn和其他人很好地总结,除了结构/内部(因素分析)证据外,构建体的证据(以及构建体的声称度量)还必须来自发育,遗传力,差异结果预测和神经认知证据。 只有在考虑了所有形式的证据后,才能对基于理论的智能电池所测得的结构的有效性进行适当的评估。 对于那些想要更多信息的人, 点击这里 (您将被讨论为Dawn Flanagan和我在我们的书中讨论的有效性证据的不同形式, 智能测试台参考。)
我可以继续讲更多的观点和对策,但我将在这里停止。 我强烈建议读者阅读这篇重要文章,并在对作者的准确性/适当性形成意见时,综合以上几点。’的结论,特别是关于WJ-R和WJ-III电池的结论。 此外,强烈建议查阅WJ-R和WJ-III技术手册,其中提供了多种有效性证据来源(内部和外部)来支持电池的因子结构。
Technorati标签:
心理学,
教育心理学,
神经心理学,
学校心理学,
认识,
认知的 ,
智商,
智商测试,
情报,
因子分析,
心理测验,
WJ-R,
WJ III,
伍德科克-约翰逊,
韦克斯勒,
SB-IV,
韩国广播公司供电 表演Firefox