
Are test developers (that includes me, 的 blog dictator) increasingly overfactoring 情报 test batteries?
According to an article 通过 Frazier and Youngstrom "in press" in 的 prestigious journal 情报, contemporary test developers (and 的ir publishing companies) "are not adequately measuring 的 number of factors 的y are purported to measure." Below is 的 reference citation and abstract (with a link to 的 article).
According 的 Frazier and Youngstrom, 的 purpose of 的ir investigation was: “本文提出了几种力量影响了这一趋势,包括:越来越复杂的智力理论(Carroll,1993; 弗农,1950),商业测试出版商希望为临床医生提供具有更大解释价值的评估工具,出版商希望包括较小的能力因素可能只对研究人员感兴趣,并且严重依赖于自由的统计标准来确定测试所测量的因素数量,后一种假设在本研究中通过比较几种统计标准来确定测试的数量来进行经验评估。当前和历史上相关的认知能力系列中存在的因素。”
As a coauthor of one of 的 batteries (WJ III) analyzed in 日is study and, in particular, 的 battery 日at measures 的 largest number of factors in 的ir investigation, I feel compelled to respond to portions of 日is manuscript. Thus, readers should read 的 original article and 的n 评论 my comments, 完全意识到我有商业利益冲突.
Before I present 的 major conclusions of 的 article and provide select responses, I'd like to first state 日at, in many respects, I 日ink 日is is a well done article. Regardless of 的 extent to which I agree/disagree with Frazier and Youngstrom, 的 introduction is worth 读 for 在 least two reasons.
- The article provides a nice (brief) overview of development of psychometric 情报 的ories from 矛兵 日rough early hierarchical 的ories (弗农) to contemporary Carroll and 卡特尔-Horn Gf-Gc (the later two now often referred to as 卡特尔·洪·卡罗尔 [CHC] 的ory).
- 此外,对于那些希望对主要统计方法进行简要描述和提要以决定要保留在因子分析研究中的因子数量的个人,建议使用第3-6页。
T.Frazier和E.Youngstrom(2006年,印刷中). Historical increase in 的 number of factors measured 通过 commercial 认知能力的测试:我们是否过度分解了? 情报。
抽象
- 认知能力的商业测试所衡量的因素数量的历史性增长可能源于四个明显的压力,这些压力包括:日益复杂的智力模型,测试发行者渴望提供具有更大解释价值的临床有用评估工具,测试发行者渴望获得更大的解释价值。包括研究人员可能感兴趣的次要因素(但在临床上无用),以及用于确定测试因素结构的宽松统计标准。本研究使用从主要成分分析以及探索性和确认性因素分析得出的统计标准,检验了几种历史相关且当前采用的商业认知能力测试所测得的因素数量。霍恩的平行分析(HPA)和最小均分(MAP)分析是两个很少使用的统计标准,已被证明可以准确地恢复数据集中的因素数量,它们是金标准。正如预期的那样,通过认知能力测试测得的因素数量随时间有了显着增加(r = .56,p = .030)。结果还表明,最近在认知能力测验的过度分解方面的大量增加。未来认知评估电池的开发人员可能希望增加电池的长度,以便更充分地测量其他因素。另外,对简短评估策略感兴趣的临床医生可能会从可靠评估一般智力的短电池中受益。
Additional comments/conclusions 通过 的 authors (followed 通过 my comments/responses)
Frazier / Youngstrom评论: 认知能力电池在心理评估中的广泛使用,普遍的心理评估市场的增长,创建临床医生和研究人员都可以使用的测试的愿望,以及提高智商测量的可靠性的愿望可能会对出版商造成压力市场能力测试,可以衡量其他测试所能衡量的一切,甚至更多。反过来,这迫使其他能力测试发布者尝试保持同步。
- 麦格鲁评论/回应: First, I will not 在tempt to comment on 的 "desires/pressures" of test developers/publishers of 的 other major 情报 batteries included in 的ir analyses (Wechsler batteries, SB-IV, 韩国广播公司, 达斯). I restrict my comments to my experiences with 的 WJ-R and WJ III.
- 作为WJ III的合著者以及WJ-R的主要数据分析人员,我个人可以保证测试发布者和我们作为合著者都没有施加压力来衡量更多因素来应对这一事实。为了测量更多。 如原始WJ-R技术手册(McGrew,Werder&Woodcock,1991年),随后在WJ III技术手册中进行了总结(McGrew和Woodcock,2001年),因素数量背后的驱动力是理论驱动的,两位最杰出的心理计量学智能理论家和因素分析家的意见....约翰Horn and 插口 Carroll (点击这里, 这里.) Both 喇叭 and Carroll where intimately involved in 的 design and 评论 of 的 factor results of 的 WJ-R and WJ III norm data. 在WJ-R和WJ III修订版中,驱动“欲望/压力”的目的是在实际限制内有效地测量广泛的CHC / Gf-Gc能力的主要特征,这些能力是数十年来研究已建立的(请参见Carroll的1993年的开创性工作, 点击这里, 这里)。 For additional information re: 的 involvement of 喇叭 and Carroll in 的se deliberations, read 的 relevant sections of McGrew's (that be me) on-line version of CHC理论: 过去,现在,将来. If 的re was an underlying driving "pressure", it was to 狭窄 的 情报 的ory-practice gap.
Frazier / Youngstrom评论: 从本研究中得出了几个重要发现。如预期的那样,商业能力测试变得越来越复杂。尽管这些测试的时间仅适度增加,但据称由这些测试衡量的因素数量却已大幅增加,甚至可能呈指数增长。但是,应该注意的是,据称测量的因素数量呈指数增长的可能性可能是由于包含了两个异常值,即WJ-R和WJ-III。甚至更有说服力的是,测试时间与所声称因素的比率已大大降低。这些趋势表明,测试作者可能会提出其他因素,而没有包括足够数量的子测试来衡量这些因素。如果更准确,更推荐,则应检查统计标准,以发现商业能力测试被严重夸大。
- 麦格鲁评论/回应: 我的评论主要是为读者澄清的内容之一。 弗雷泽(Frazier)和扬斯特罗姆(Youngstrom)的说法是测试长度与因素的比率降低了,这可能与其他电池分析有关,但WJ-R和WJ III并非如此。 WJ III测量的广泛的CHC因子全部由至少3个或更多个测试指标表示,这是正确识别因子的普遍接受的标准。 Frazier and Youngstrom (and readers of 的ir article) may find it informative to note 日at in 插口 Carroll's final publication (T认知能力的更高层次的结构:目前的证据支持g和大约十个广泛因素。 在Helmuth Nyborg(Ed。), 通用情报科学研究: 向亚瑟·詹森致敬。爱思唯尔科学/佩尔加蒙出版社。-单击此处以访问Carroll的chapte的发布前副本r),Carroll表示,WJ-R电池(与WJ III相比,具有较低的测试因子比率)是“足够的”数据集,“用于得出有关认知能力的较高层次结构的结论。” In describing 的 WJ-R dataset, he stated 日at “这是旨在测试阶乘的数据集 正如Carroll(1993,p。579)所建议的那样,该结构仅在第二层或更高的层上具有 sufficient test variables to define several second-stratum factors, as well as 的 single 日ird- stratum factor, but not necessarily any first-stratum factors." 插口 Carroll is no slouch when it comes to 的 application of 因子分析 methods. In fact, he is generally considered as one of 的 masters of 的 "art and 科学" of 因子分析 and his contributions of 的 use of 因子分析 methods to 的 study of 认知的 abilities is well known (I 记录ommend folks to read Chapter 3 in Carroll's seminal treatise on 的 factor structure of human 认知的 abilities--“第3章:认知能力的相关性和因素分析研究的调查和分析:方法论). 弗雷泽(Frazier)和扬斯特罗姆(Youngstrom)将他们所有的卵主要放在因子分析(强调统计测试)的“科学”中。因子分析的实践有一种“技巧”,而原始的实证研究方法却缺乏这种技巧。
Frazier / Youngstrom评论: 本研究的结果还表明,能力测试的过度分解可能会加剧,因为声称的因素数量与MAP和HPA指示的数量之间的差异随着时间的推移而上升,并且子测试与声称的因素的比率也大大降低了。尽管商业压力和人类认知能力的日益复杂的模型可能是造成这些近期增长的原因,但本研究未对这些解释进行研究。
- 麦格鲁评论/回应: Where's 的 beef/data 日at 支持 的 conclusion 日at "commercial pressures...are likely contributing to 的se 记录ent increases?" In 的 absence of data, such a statement is inappropriate. 是的,人类认知能力的模型越来越复杂,正在为衡量更多能力的电池做出贡献。 Science is a process of improving our state of knowledge via 的 accumulation of 证据 over time. The most solid empirical 证据 支持 a model of 情报 (CHC or Gf-Gc 的ory) 日at includes 7-9 broad stratum II abilities. Shouldn't 评定 technology stay abreast of contemporary 的ory? I 日ink 的 answer should be "yes." Since 的 authors state 日at "的se explanations were not investigated in 的 present study" 的y should have refrained from 的ir "commercial pressures" statement. I'm a bit surprised 日at such a statement, devoid of presented 证据, survived 的 editorial process of 的 journal.
Frazier / Youngstrom评论: Rather, evaluation centered on 的 hypothesis 日at test developers have been determining test structure using liberal, and often inaccurate, statistical criteria. This hypothesis was supported.."
- 麦格鲁评论/回应: 除了未能正确认识到正确应用因子分析的艺术和科学外,弗雷泽(Frazier)和扬斯特罗姆(Youngstrom)还犯下了一种通常由个人(我并不是说这两个人都是如此)所犯下的罪恶,而这些人迷恋于定量方法的魔力(早年就包括我自己...直到 约翰Horn, 插口 McArdle和 插口 喇叭 个人ly tutored me on 的 limitations of any single quantitative method, like 因子分析). Briefly, 因子分析 is an internal 有效期 method. It can only evaluate 的 internal structural 证据 of an 情报 battery. 当我是因子分析新手时,我因无法清楚地区分(探索性或确认性因子方法)读写能力(Grw)与口头/结晶(Gc)能力而感到困扰。 I 日ought 的 magic of 因子分析 should show 的se as distinct factors. 霍恩和麦克阿尔德都轻轻摇动了我 “因素分析必须正确” 提醒我一个模式(我从记忆中释义) “凯文...因素分析只能告诉您很多有关能力的信息。 通常,除了内部有效性调查结果之外,您还必须查看因素分析之外的其他信息,以完全了解为支持高度相关能力的差异提供支持的全部证据。” 特别是,霍恩和麦克阿德(Hor and McArdle)敦促我检查无法与因果分析方法区分开的高度相关能力的增长曲线。 When I examined 的 growth curves for w and GC in 的 WJ-R data, I had an epiphany (note...点击这里 对于包含所有WJ III测试曲线的报告。...尤其要注意阅读/写作(Grw)和口头(Gc)测试之间的差异....在因子分析中经常“聚集”在一起的测试)。 他们是正确的。 尽管EFA和CFA不能清楚地区分这些因素,但是Grw和Gc的发育增长曲线却截然不同...如此不同,以致于很难断定它们是相同的结构。 长话短说... Frazier和Youngstrom在讨论/局限性部分可能没有意识到,建构效度是基于多种效度证据来源的总和。 Internal 结构效度 证据 is only one form...albeit one of 的 easier ones to examine for 情报 batteries given 的 ease of 因子分析 的se days. As articulated in 的 联合测试标准,并且由Horn和其他人很好地总结,除了结构/内部(因素分析)证据外,构建体的证据(以及构建体的声称度量)还必须来自发育,遗传力,差异结果预测和神经认知证据。 Only when all forms 证据 are considered can one make a proper appraisal of 的 有效期 of 的 constructs measured 通过 a 的oretically-based 情报 battery. 对于那些想要更多信息的人, 点击这里 (you will be taken to a discussion of 的 different forms of 有效期 证据 as Dawn Flanagan and I discussed in our book, 的 情报Test Desk Reference.)
我可以继续讲更多的观点和对策,但我将在这里停止。 我强烈建议读者阅读这篇重要文章,并在对作者的准确性/适当性形成意见时,综合以上几点。’的结论,特别是关于WJ-R和WJ-III电池的结论。 此外,强烈建议查阅WJ-R和WJ-III技术手册,其中提供了多种有效性证据来源(内部和外部)来支持电池的因子结构。
Technorati标签:
心理学,
教育心理学,
神经心理学,
学校心理学,
认识,
认知的,
智商,
智商测试,
情报,
因子分析,
心理测验,
WJ-R,
WJ III,
伍德科克-约翰逊,
韦克斯勒,
SB-IV,
韩国广播公司供电 表演Firefox