显示带有标签的帖子 AP101. 显示所有帖子
显示带有标签的帖子 AP101. 显示所有帖子

2012年9月10日,星期一

AP101简介#16:超越CHC:CHC内部域复杂度优化措施

[注意:  这是较大论文的工作草案(CHC认知成就研究20年的意义: 回到未来,超越CHC)将在第一个 塔夫茨大学理查德·伍德考克当代认知评估研究所开幕大会(2012年9月29日):  CHC理论和认知评估的发展。] 对WJ III测试战的工作知识将使本简介更容易理解,但这不是必需的。

B超越CHC:  ITD—CHC内部域复杂度优化 Measures
            优化中 CHC措施的认知复杂性
我最近开始认识到 不伦瑞克对称 派生的 柏林情报机构(BIS) 模型可以在应用智能研究中发挥作用,特别是对于增加预测指标的情况 通过最大化这些关系 通过匹配维度上的预测标准空间来建立关系 认知的 complexity.  What 是 认知的 complexity? 它为什么如此重要? 更重要的是,它应该扮演什么角色 设计智能电池以优化CHC COG-交流电H relations?
认知性 复杂性通常是通过检查单个测试负载来实现的 主成分分析中的第一个主成分(詹森, 1998).  的 high G-测试的基本原理是测试性能更高 cognitively 复杂 “调用更广泛的基本认知过程 (Jensen,1998; Stankov,2000,2005)”(McGrew,2010b,第452页)。  High g装货 测试通常是MDS(多维缩放)radex模型的中心 (点击此处查看AP101简要报告#15: 认知能力成就特质示例)—但是这种同构不会 always hold.   大卫·洛曼(David Lohman),是 理查德·斯诺(Richard 雪)’s,已广泛使用MDS方法来研究情报,并且拥有一个 最好地掌握了什么认知复杂性,如 hyperspace of MDS 数字s, contributes to understanding 情报 和 intelligence tests.  According to Lohman (2011), 日ose tests closer to 的 center are more 认知复杂due 五 possible factors—大量的认知成分过程;积累 加快组件差异:更重要的组件流程(例如, 推理);注意控制和工作记忆的需求增加;和/或 或对自适应功能(组装,控制和监视)有更多要求。 Schneider’s (in press) 抽象级别 广泛的CHC因素的描述类似于 认知复杂性。  He uses 的 simple 100米栏成绩的示例。  According to 施耐德 (in press), one could independently measure 100 米冲刺速度,然后停滞不前,越过障碍(两者 能力的例子)。  However, 进行100米的比赛并不是两种狭narrow的能力的总和。 更多的是狭义能力的非加法组合和整合。 这个比喻抓住了 认知复杂性—在认知测量领域,这是任务 在成功完成任务时,罗曼列举了五个因素中的更多因素 performance.
至关重要 重要性是对因素或 能力域的广度(即, broad 要么 狭窄) 同义的 with 认知复杂性.  更多 重要的是,认知复杂性并不总是一个测试设计概念(因为 由Brunswick Symmetry和BIS模型定义) 明确地 纳入 “智能”智能测试设计(ITD)。  许多测试已经纳入了这一概念 他们的设计计划中的认知复杂性,但是我相信这种类型的 认知复杂性与CHC内部域的认知不同 这里讨论的复杂性。
对于 例如,根据考夫曼和考夫曼(2004)的观点,“在开发KABC-II时, 作者没有努力发展‘pure’五个CHC的测量任务 broad abilities.  在 理论, Gv 任务应排除 Gf 要么 s例如,以及其他广泛能力的测试,例如 GC 要么 l,仅应衡量该能力而已。 但实际上, 像KABC-II这样的认知能力综合测试可以衡量问题 在不同环境下和不同条件下解决 复杂 有必要评估 高级功能”(第16页;增加了斜体)。 虽然考夫曼’强调重要性 CHC接地的智力测试电池中认知复杂的测量方法 描述将复杂的措施定义为 阶乘复杂或 来自多个CHC领域的能力的混合度量.  的 Kaufman’也可以解决认知问题 非CHC神经认知三嵌段功能性Luria的复杂性 当他们指出重要的是要提供神经认知模型 评估“动态整合这三个模块” (Kaufman &Kaufman,2004年,第13页)。   对神经认知整合(以及因此的复杂性)的强调是 也是最新Wechsler电池的明确设计目标。 如WAIS-IV手册(Wechsler,2008年)所述, “尽管评估和划分更多内容有明显的优势 认知功能领域狭窄,几个问题值得关注。 首先,认知功能是相互关联的, 在功能和神经方面,使其难以测量纯域 认知功能” (p. 2).  Furthermore, “measuring psychometrically 纯 factors of discrete domains 可能对研究有用,但不一定会产生信息 在实际应用中具有丰富的临床意义或实用性(Zachary, 1900)” (Wechsler, p. 3).   Finally, 埃利奥特(Elliott,2007)同样主张承认的重要性 基于神经认知“复杂 信息处理”(第15页;增加了斜体)。 DAS-III,可进行描述于CHC中的测试或复合材料测量 域,在测试设计中同样重要。
ITD 这里阐述和提出的原则是努力发展 认知上复杂的测量 在广泛范围内 CHC domains—也就是说,无法通过能力融合来实现复杂性 跨越CHC广泛的领域,而不是尝试直接链接到神经认知 network integration.[1]  基于Brunswick对称性的BIS模型 提供了通过开发和分析实现此目标的框架 通过关注认知来测试复杂性 内容 运作方面。 
图12 展示了大多数关键WJ III的二维MDS Radex模型的结果, 狭窄的CHC认知和成就集群(适用于来自 到成年后期大约6岁)。 [2]   The current 图12中结果的解释重点仅在于程度 of 认知复杂性 (proximity to 的 center of 的 数字) of 的 broad 和同一域内的WJ III狭窄群集( 内容和操作方面 不是当前材料的重点)。  Within a domain 的 最广泛的 三测 父母 聚类由黑色圆圈表示。[3] 两次测试的广泛类由灰色设计 circles.  Two test 狭窄 后代 广泛领域内的集群是 由白色圆圈指定。  All 域中的群集通过以下方式连接到最广泛的父广泛群集: lines. 至关重要的 信息是各自父母的域内认知复杂性 和兄弟姐妹集群,以它们与中心的相对距离表示 of 的 数字. 一些有趣的结论 are apparent. [点击图片可放大]

首先,作为 可以预期,WJ III GIA-Ext集群几乎完美地集中在 figure—它显然是认知上最复杂的WJ III集群。  相比之下,三个WJ III Gv集群 在认知复杂性方面比所有其他具有 没有特定的Gv集群显示明显的认知复杂性优势。   As 预期的是,测得的阅读和数学成绩集群主要是 认知上复杂的措施。  However, 那些与基本情况打交道的成就集群 技能 (数学计算—MTHCAL;基本阅读技巧—RDGBS) are 不太复杂 应用 集群(阅读理解-RDGCMP;数学推理-MTHREA)。 
最多 图12中有趣的发现是差异性认知复杂性 CHC域中的模式(至少有一个父级和至少一个父级 offspring cluster).  例如, 较窄的知觉速度(Gs-P)后代簇在认知上更为复杂 而不是广泛的父Gs集群。  的 broad Gs集群由视觉匹配(Gs-P)和决策速度组成 (Gs-R9; l-NA)测试,用于衡量不同的窄能力的测试。 相反,感知速度簇(Gs-P) 由两个测试组成,这两个测试都测量相同的窄 能力(感知速度)。  这个 finding 乍看之下似乎有点反常理,就像人们期望的那样 由测量不同内容和操作的测试(Gs集群)组成 (包括以上定义和讨论在内)比其中一项更为复杂 相同的窄能力(Gs-P)的两个量度。 但是,一项任务必须分析两者 感知速度测试,以了解尽管两者都被分类为 测量相同的窄能力(感知速度),两者都不同 stimulus 内容认知操作.  视觉匹配需要处理数字刺激。 划掉要求处理 visual-figural 刺激。  的se are two different 内容方面 在BIS模型中。  划掉视觉图形刺激在空间上更具挑战性 而不是视觉匹配中的简单数字。  此外,视觉比对测试要求应试者快速 查找并发现并标记两个相同的数字对。 相反,在淘汰测试中 为对象提供目标的视觉图形形状,然后对象必须 快速扫描一行复杂的视觉图像,并标记两个与 the target. 有趣的是,其他 unpublished  我已经完成的分析,视觉 匹配测试通常是对定量成就测试进行加载或分组 而Cross Out经常显示加载Gv因子。 因此,任务分析 内容 认知的 operations WJ III感知速度测试表明,尽管两者都是 被归类为Gs-P的狭窄指标,它们在任务上明显不同 requirements.  更多 important, 的 结合感知速度群集测试,似乎需要更多 认知过程比广义Gs簇复杂。 这一发现与阿克曼(Ackerman)一致, Beier 和 Boyle’s(2002)的研究表明,感知速度具有 通过识别以下四个子类型来扩展因子水平 感知速度(即模式识别,扫描,内存和复杂性; see McGrew 2005 和 施耐德 &McGrew,2012年,关于 速度能力的分层组织模型)。 基于Bruinswick对称/ 国际清算银行认知 复杂性原则,人们会预测一个由两个组成的Gs-P集群 相同任务的并行形式(例如,两个视觉匹配或两个交叉 测试)的认知复杂度将不如广义Gs。 这可能是正确的提示 假设存在于对Gsm-MS-MW域结果的检查中。
WJ III GSM 群集是数字反转(MW)和单词记忆的组合 (MS) tests. 相比之下,WJ III 听觉记忆跨度群集(AUDMS; GSM-MS)群集在认知上要少得多 与Gsm相比更复杂(请参见图12)。  就像在上下文中描述的感知速度(Gs-P)集群一样 处理速度家族集群,听觉内存跨度集群是 由具有相同内存跨度(MS)窄能力的两个测试组成 分类(单词记忆;句子记忆)。 为什么这个狭窄的集群不那么复杂 它广泛的母体Gsm集群,而Gs-P和Gs则相反吗? 任务分析表明,两个记忆 跨度测试比两个感知速度测试更相似。 单词记忆和句子记忆 测试需要相同的认知操作—只需按顺序重复一次, 与主题说话的单词或句子。  这与WJ III感知速度群集不同 分类的窄Gs-P测试最有可能同时调用通用和不同 认知成分操作。  Also, 内存跨度群集测试由来自相同BIS内容的刺激组成 方面(即单词和句子;听觉语言/语言)。 相比之下,Gs-P视觉匹配和 淘汰测试涉及两个不同的内容方面(数字和 visual-figural).
在 相比之下,WJ III工作记忆簇(Gsm-MW)在认知上更强 比父Gsm群集复杂。  这个 发现与先前的WJ III s /感知速度和WJ III一致 Gsm /审核内存跨度讨论。  的 WJ III工作记忆簇由倒数和听觉组成 工作记忆测试。  Numbers Reversed 需要从一个BIS内容方面处理刺激—numeric stimuli. 相反,听觉工作 记忆需要处理来自两个BIS含量因素的刺激—numeric 和听觉语言/语言;数字和单词)。 两项测试的认知操作 also differ.  两者都需要持有 主动工作记忆空间中的刺激。 反转数字则需要简单 以相反的顺序复制数字。  相反,听觉工作记忆测试需要存储 数字和单词在单独的块中,然后产生 每个块(数字或单词)的前向顺序,在一个块之前 the other. 更加依赖分裂 注意在听觉工作记忆测试中最有可能发生。 
综上所述, 图12中显示的结果表明它是 可能发展 聚类分数在相同的认知复杂度上有所不同 broad CHC domain.  更重要的发现是,将聚类分类为宽还是窄并不能提供有关度量认知复杂性的信息。 认知上的复杂性,如 将聚类分为宽泛还是窄窄分类无法提供有关度量认知复杂性的信息。 认知复杂性e Lohman感,可以在CHC域中实现,而无需诉诸混合 跨CHC域的能力。  最后, 狭窄的簇在认知上可能更复杂,因此可能更好 复杂的学校成绩的预测指标,而不是广泛的集群或其他狭窄的指标 clusters. 

含义 用于测试电池设计和评估策略
认可 认知复杂性作为一项重要的ITD原则表明,推动 在当代测试电池中或在 跨电池评估的构建,未能认识到 认知复杂性。  I plead guilty to 通过我在WJ III的设计中的作用为这一重点做出了贡献 广泛关注CHC域构建体的广泛表示—most WJ III 狭窄的CHC集群需要使用第三本WJ III认知书( 诊断补充;伍德科克,麦格鲁,马瑟& Schrank, 2003). 同样地,有罪的人被控罪 CHC因子在原始模型开发中的代表性 跨电池评估原则(Flanagan&麦格鲁(McGrew),1997年;麦格鲁& Flanagan, 1998)。  
也是 我的结论是 窄一点更好结论 麦格鲁和温德林(2010) 可能需要修改。   重温麦格鲁和温德林(2010) results suggest 日at 较窄的CHC集群更能预测 学业成绩之所以如此之所以不一定是因为范围狭窄, 但是因为它们在认知上更加复杂.  我提供一个假设,即更正确的原则是 认知复杂measures 更好。   我欢迎专注于新的研究 测试这个原理。
在 回想起来,鉴于WJ III星团的宇宙,宽窄融合 智能电池配置(或跨电池评估)的方法可能 be more 适当。  Based exclusively 根据图12所示的结果,将出现以下簇 那些可能会更好地出现在“front 结束” of 的 WJ III 要么 a 选择性测试构建评估—考官应该去的那些集群 首先考虑每个CHC广泛领域:  Fluid Reasoning (Gf)[4],理解知识 (Gc),长期检索(Glr),工作记忆(Gsm-MW),音素意识3 (Ga-PC)和感知速度(Gs-P)。  No 虽然狭窄的可视化集群是 在认知上比Gv和Gv3集群稍微复杂一些。 以上表明,如果广泛的集群是 Gs,Gsm和Gv的域所需的,然后进行除“front end”或特色测试和群集需要管理 必要的Gs(决策速度),Gsm(文字记忆)和Gv(图片) Recognition) tests.

利用ITD测试设计原则 优化CHC内部集群的认知复杂度表明, WJ III测试的不同重点和配置可能更多 appropriate. 建议 高于WJ III群集复杂度优先级或特征模型可能会允许 从业人员管理学校成绩的最佳预测者。 我进一步假设这种认知 基于复杂度的宽窄测试设计原理最可能适用于 坚持主要关注的其他智能测试电池 测试是两个或更多能力的最纯粹指标 在所提供的广泛的CHC解释方案之内。 当然,这是一个经验性的问题 求助于其他电池的研究。  更多 有用的类似MDS Radex跨电池认知复杂度分析 情报数据集。[5]

参考文献 (不包含在这篇文章中。 完整的论文将在不久的将来宣布并可供阅读和下载)



[1]这个 并不意味着认知复杂性可能与 the 人类连接体 或不同的大脑网络。我为当代感到兴奋 脑网络研究(Bressler&梅农,2010年;科尔,亚尔科尼,雷波夫斯, Anticevic &勇敢,2012年;托加,克拉克,汤普森,沙特克,& Van 喇叭, 2012;范登赫维尔&Sporns,2011),特别是那些 证明了神经网络效率与工作记忆之间的联系, 控制注意力和临床疾病,例如注意力缺陷多动症(Brewer,Worunsky, Gray, Tang, Weber &Kober,2011年;鲁兹,史格格,邓恩,& Davidson, 2008; McVay & Kane, 2012). 的 顶额-额叶整合(P-FIT) 理论 智力与CHC相关联,尤其令人着迷 心理测量指标(Colom,Haier,Head,Álvarez-Linera,Quiroga,Shih,&荣格,2009年;迪里,彭克,&约翰逊,2010年;海尔,2009年;荣格& Haier, 2007年),并且可以与CHC认知优化的心理测量方法联系起来。
[2] 只要 包括阅读和数学类,以简化 结果和事实,如先前所报道的,阅读和写作措施 在多变量分析中通常无法很好地区分—and 日us 的 w CHC理论中的领域。
[3]GIA-Ext也用黑色圆圈表示。
[4] 尽管WJ III流体推理3群集(Gf3)稍微靠近 center of 的 数字, 的 difference from 流体推理(Gf) 是 不 large 和 时间效率将证明需要进行两次测试的Gf集群。
[5] 它 重要的是要注意认知复杂性的分析和解释 这里讨论的是特定于 仅在WJ III电池内。度 WJ III认知集群中的认知复杂度与 其他智能电池的综合得分只能通过 跨电池MDS复杂性分析。

2012年3月1日,星期四

行动计划101简介#12:使用IQ部件分数作为SLD和MR / ID 诊断中一般智力的指标

   
           历史上的概念 一般情报(g), 由全球情报测试电池组负责 全尺寸 智商得分对于具有以下特征的个体的定义和分类至关重要 特殊学习障碍(SLD) 以及具有 智障(ID)。  最近,当代的定义和操作标准提高了智能测试能力 综合 要么 部分分数 在SLD的诊断和分类中扮演更重要的角色,而在ID中则更重要。
            在 的 case of SLD, 第三方法 一致性 定义在(a)识别 一致性 低成就与相关的认知能力或加工障碍之间的关系;(b)个人必须表现出相对的认知和成就优势的要求(请参见 菲拉内罗弗拉纳根& Ortiz, 2010)。 在第三种方法SLD方法中,没有强调全局IQ分数。
            在 contrast, 的 11 版本 协会智障:定义,分类和支持系统 手册(AAIDD,2010年)将通用情报和全球综合智商得分作为对以下方面的定义的核心 智力功能. 这并非没有挑战。 例如,AAIDD ID 定义具有 被批评 因为过分依赖通用情报的构建,而忽略了当代心理学计量学理论和实证研究,这些研究已经集中在多维的智力层次模型上(即, 卡特尔-洪恩卡罗尔或CHC理论)。
潜在的限制“作为一般智能障碍的ID”定义是由 智障残疾人确定委员会,在 国家研究委员会 报告“智力低下: 确定获得社会保障福利的资格” (Reschly, Meyers & Hartel, 2001). 这个国家专家委员会的结论是“在接下来的十年中,可能会更进一步地调整智力测验以及从中得出的IQ分数以及Horn-Cattell和Carroll模型。 结果,未来几乎可以肯定会更多地依赖零件分数,例如 GC Gf,以及传统的复合IQ。 也就是说,传统的综合智商可能不会下降,但是与过去相比,将会更加重视零件得分”(Reschly et al。,2002,p.94)。 委员会指出“每当质疑一个或多个部分分数(子测试,量表)的有效性时,检查员还必须质疑该测试是否’的总分适合指导诊断决策。 总考试成绩通常被认为是客户的最佳估计’的整体智力功能。 但是,在某些情况下,总的测试成绩可能并不能完全代表整体认知功能,这对于某些人以及对他们而言都是如此。” (p. 106-107).
           在SLD和ID诊断和分类中,对智能测试电池复合零件评分的日益重视,提出了许多测量和概念问题(Reschly等,2002)。 例如,统计学上的显着差异是什么? 有什么有意义的区别? 当质疑整体智商时,哪些适当的认知能力应作为一般智力的代理? 总测验分数应为多少? 
适当的认知能力 只会是这里讨论的唯一问题。 这个问题解决 哪个组件或零件的分数与一般智力更相关(g)—也就是说,组成部分的分数很高 g装载机? 传统的共识是 GC (结晶的智力;理解知识)Gf (流体情报或推理) 是最高的 g负荷措施和构造,并且在诊断ID时最有可能成为身份提升的候选人(Reschly等,2002)。 尽管并非总是明确说明,但第三种方法一致性SLD定义指定个人必须证明“至少具有一般认知能力或智力的平均水平”(Flanagan et al。,2010,p.745),这是一个隐含地暗示认知能力和成分得分较高的陈述。 g-ness。
表1旨在为在SLD和ID的诊断和分类中使用零部件评分提供指导(单击图像放大并使用浏览器缩放功能) 查看;建议你 点击这里 来访问表格的PDF副本。并对其进行放大)。 表1总结了具有令人满意的心理测量特征(即国家规范样本,复合材料足够的信度和效度)的,全面的,国家规范的,单独管理的情报电池 g-得分)用于ID和SLD的诊断。



综合 g-得分 列列出了每个情报电池提供的全球一般情报得分。 这个分数是一个人的最佳估计的一般智力,目前与AAIDD的ID诊断最相关。  All 综合 g表1中列出的-scores满足 詹森s(1998) 心理测量误差 标准作为一般智力的有效估计。  As per 詹森s 测试次数 标准,所有智能电池 g-复合材料基于 最少九个 测试样本 至少三个 主要认知能力领域。  As per 詹森s 各种测试 标准(即信息内容,各种心理操作的技能和要求),从CHC理论的角度来看,电池的能力范围覆盖范围会有所不同四个(CAS,SB5),五个(KABC-II,WISC-IV,WAIS-IV),六个(DAS-II)和七个(WJ III)(奥尔蒂斯Flanagan& Alfonso, 2007; 基思& Reynolds, 2010)。  根据詹森(Jensen,1998)的建议, 用于估计的特定测试集合 g 应该以尽可能少的测试数量尽可能接近地成为所有类型的心理测试的代表样本,并且应该尽可能平均地代表各种测试 (第85页)。 用户应咨询以下来源 Flanagan等。 (2007年)基思和雷诺兹,2010年) 确定每个智能电池如何近似詹森的最佳设计标准,测量的特定CHC域以及每个电池组合中CHC域的比例表示 g-得分。
表1中还包括每个电池提供的组成部分的比例(例如,WAIS-IV语言理解指数,感知推理指数,工作记忆指数和处理速度指数),其后分别是 -电池 g-加载。[1]  Examination of 的 g现有电池的综合得分的高低(请参阅表1的最后三列)表明了传统的假设,即 GfGC 是通用情报的最佳代理 掌握所有情报电池.[2] 
在SB5的情况下,所有五个复合零件得分在 g-装载(h2 = .72至.79)。 没有一个SB5复合零件得分比其他SB5得分更好地暗示了一般的一般智力(当不使用整体IQ得分时)。 另一个极端是WJ III,其中流体推理,理解知识,长期存储和检索聚类得分最高 g-WJ III中基于部分得分的解释的代理。 WJ III视觉处理和处理速度群集不是复合零件评分,应该强调其为一般智能的指标。 在所有包含处理速度组件分数的电池(DAS-II,WAIS-IV,WISC-IV,WJ III)中,各自的处理速度量表始终是通用情报的最薄弱的代表,因此不会被视为良好的智能产品。一般情报估计。 
           同样清楚的是,不能假设测得能力的相似名称的合成物应具有相似的相对 g-不同电池内的状态。  例如, Gv 达斯-II(空间能力),SB5(视觉空间处理)中的(视觉空间或视觉处理)集群相对较强 g-在各自的电池中进行测量,但对于WJ III视觉处理集群则不能说相同的方法。 更有趣的是WAIS-IV和WISC-IV相对值的差异 g-加载类似听起来不错的索引分数。 
例如,工作记忆指数最高 gWAIS-IV中的加载组件分数(与感知推理指数并列),但在WISC-IV中仅排名第三(四分之三)。  工作内存索引由WAIS-IV中的数字跨度和算术子测试以及WISC-IV中的数字跨度和字母序号子测试组成。 据报道,算术子测试是阶乘复杂的测试,可能会利用流体智能(Gf-RQ—定量推理),定量知识(Gq),工作记忆(GSM),以及可能的处理速度(s;基思& Reynolds, 2010; 菲尔普斯,麦格鲁,诺皮克& 对于d, 2005)。   算术子测试的阶乘复杂特性(实质上使它的功能像迷你算子一样,g 代理)将解释为什么WAIS-IV工作内存指数是一个很好的代理 g 在WAIS-IV中,但不在WISC-IV中。 WAIS-IV和WISC-IV工作记忆指数量表尽管命名相同,但是 测量相同的结构。

A 严重警告 是那个 g无法比较不同电池的负载。  g当分析中包含的各种措施的组合发生变化时,载荷可能会发生变化。 不同的“风味” g 可能导致(Carroll,1993; 詹森,1998)。比较的唯一方法 g电池的极性经过适当设计 交叉或联合电池 分析(例如,在普通样品中分析的WAIS-IV,SB5和WJ III)。
上面和下面的智能电池示例说明,那些使用组成部分分数作为人的估计的人’的一般智力必须了解其组成和心理测验 g-每个智能电池内组件的得分得分。 并非所有不同智能电池中的所有零部件得分都是相同的(关于 g-ness)。 同样,并非所有类似命名的基于因子的综合评分都可能测量相同的相同结构,并且电池内部的度数可能会有所不同 G-内斯。 对于因子分析中的因子命名,以及基于因子的智力测验综合评分,这并不是一个新问题。 悬崖(1983) 描述了这个 名义上的谬误 用简单的语言—“如果我们命名某事,这并不意味着我们了解它” (p. 120). 




[1] 如表1的脚注所示,所有综合得分 g凯文·麦格鲁(Kevin McGrew)通过在每本智能电池技术手册(请注意WJ III的例外情况)中输入已发布的相关矩阵的最小数量(涵盖的最大年龄范围)来计算负载(以获得WJ III的例外) g负荷估算。 对于每个智能电池,可以为每个年龄区分的相关矩阵计算和报告这些值。 但是,此表的目的是提供尽可能最佳的 平均 在每个智能电池的整个寿命范围内的价值。 弗洛伊德(Floyd)和同事发表了年龄差异的文章 g达斯-II和WJ III的装载。 这些值未使用,因为它们基于 主要公因子 分析方法, 分析测试之间的可靠共享方差。 尽管主要因素和 主成分 通常,载荷将在相同的相对位置订购量度,主因数载荷通常会较低。 鉴于不完善的清单综合量表分数是在实践中使用的分数,因此也可以使计算 g表1中报告的载荷在这项工作中使用了主成分分析。同样的理由用于不使用较高阶的潜在因子负荷 g每个测试电池的SEM / 终审法院分析中的因素。 CFA分析得出的负荷代表了基础理论能力结构与 g 清除测量错误。 此外,电池技术手册(或独立的期刊文章)中报告的最终CFA解决方案通常会使测试变得相当复杂(加载多个潜在因子),这种测量模型与清单/观察实践中使用的综合评分。 高阶潜在因子加载 g因子通常会基于清单指标而与主成分负载有很大不同,无论是绝对大小还是相对大小(例如, 正在加载 g 在WJ III技术手册中,这与清单变量基于 表1中报告的负载) 
[2]h2 值是用于比较相对数量的值 g-每个智能电池中组成部分中存在的方差得分。

2012年2月7日,星期二

行动计划应用心理学计量学101简要报告#11:典型的IQ和适应性行为的相关性是什么?


适应行为(AB)的标准化度量之间的典型关系(相关)是什么 和智能措施(IQ)? 考虑到两者在智力低下(MR)/智力障碍(ID)的定义诊断中所起的作用,这是一个重要的问题。 

在1970年代后期和1980年代,这是一个活跃的研究领域。 发表了许多研究,报道了各种适应行为量表和智力测验之间的相关性。 这项研究的最佳综合可能是由 哈里森(1987)。 哈里森的评论包括超过40种相关性的表格。 这是上面引用和链接的文章中的表2。 哈里森(Harrison)以及其他大多数评论过文献的人得出的结论是:大部分相关性处于中等范围”(第39页)。 当从Harrison表中排除与不良适应措施的相关性时,相关性的范围为.03至.91。 这是一个广泛的范围。 哈里森无法确定相关性的变异性或范围的具体解释。 哈里森推测,变量可能会影响相关性的大小,这是特定的适应性行为或所用智力的度量以及样本变异性的差异。

随后 智障残疾人确定委员会 发表了国家研究委员会的报告(智力低下:  确定获得社会保障福利的资格;迈尔斯&Hartel,2001)也谈到了AB / 智商关系。该报告得出结论,AB / 智商研究报告了相关性“范围从0(表示没有关系)到几乎+1(表示完美关系)。 数据还表明,智商与适应行为之间的关系随年龄和发育迟缓水平而显着变化,在重度和中度范围内最强,在轻度范围内最弱。 智商与适度行为在轻度延迟水平上的关系尚缺乏数据”(第8页)。 被确定为减缓AB / 智商相关性的因素包括量表内容,能力与感知能力的测量,样本变异性,量表的上限和下限问题以及智力低下的水平。

鉴于上述情况,很难对近似的典型AB / 智商相关性做出客观陈述。 考虑到这一点,完成了非正式的研究综述,并在此处报告。

首先,仅从Harrison 1987年的表格中提取AB / 智商相关性(不包括IQ /适应性相关性)(n = 43个相关性)。 然后,对三个最常用的当代适应行为量表的当前版本的技术手册进行了审查,以了解其他相关性。  这个 included 的 葡萄园适应行为量表 (麻雀,奇契蒂&巴拉(Balla),2005年; n = 2个相关系数,分别为.12,.20)和 适应行为量表 (哈里森&奥克兰,2008; n = 10个相关性,范围从0.39到.67;中位数= 0.51)。

尽管报告了六种不同的相关性 修订的独立行为量表 手册(SIB-R; Bruininks,Woodcock,Weatherman&Hill,1996年),由于与通常报告的相关类型相比,这些值是夸大的估计,因此未使用这些值。 例如,对于某些组,报告了0.79,.82和.91的极高相关性。  仔细阅读表格可以发现,SIB-R与WJ或WJ-R智力测验的相关性是根据 W得分增长指标。  根据定义,增长指标 包括年龄变化e. 如果跨年龄段报告了相关性,则相关性传达与AB之间的相关性相关的方差 和IQ结构,但也包含共享方差 受一般年龄段发展(年龄)的影响 . 因此,与IQ的SIB和SIB-R相关性虽然不是错误并且提供了不同的信息,但它们是 不可比 与其他所有已消除年龄差异(通常通过将基于年龄的标准评分相关)相关的相关性。 关于这一点的明确证据来自 麦格鲁与布鲁因克斯(1990) 谁使用了SIB和SIB-R手册中报告的相同SIB / WJ主题数据,但删除了 W在计算潜在的实际智力(SIB适应性行为)和概念智力(WJ 智商)之间的潜在因素相关性之前(通过验证性因素分析),将混杂的年龄方差打分。 三个不同年龄组的所得AB / 智商相关性分别为.38,.56和.58,远低于.70至.92范围内的值。 因此,包括了McGrew和Bruininks(1990)的值,用于估算当前合成中的SIB / SIB-R 智商相关性。 

最后,潜在的AB / 智商相关性(根据验证性因子分析模型估算) .27和.39中的包括 它tenbach,Spiegel,McGrew和Bruininks(1992)和 基思,费曼,哈里森和波特鲍姆(1987), 分别。 此过程导致了来自Harrison的43个中的17个AB / 智商相关性, 总共60个相关.

该60种AB / 智商相关性的描述性统计数据如下: 相关范围从.12到.90, 平均值为.51,中位数为.48,标准偏差为.20.  Below 是 a 数字 日at includes a 频率多边形 (以及平滑的法线曲线叠加)和 箱须图 数据集。 盒子和晶须图的回顾(底部)显示了 中位数相关性(.48)作为矩形内的垂直线。  矩形包含相关分布的50%中间值,并且显示的正下方范围大约 .40至略高于.65. 特别值得注意的是频率多边形的形状和平滑的法线曲线。 频率多边形的形状与法线一致。 在定量研究综合中,这种类型的正态分布表明该评价中包括的总数据集没有偏倚-包括可能低估或高估了“真实”总体相关性(由于方法或抽样因素)的两项研究。 更重要的是,中间的大多数相关性“聚集”提供了这样的信心,即该分布的中位数是对人口真实性的合理无偏估计。 这种相对正态分布的类型表明,当前收集的60种AB / 智商相关性很可能是整个群体AB / 智商相关性的合理近似值。


基于这种非正式的(以及对所有可能的AB / 智商相关性研究的公认的不完整评论),可以得出结论,对典型AB / 智商相关性的合理估计是 约.50 (平均值= .51;中位数= .48),其中 大多数范围从大约.40到.65. 这一发现与哈里森(Harrison)在1987年得出的“中等”相关性结论相一致。 当前的分析继续加强哈里森(和其他人)的结论,即适应性行为和智力是统计学上相关的结构,但是 他们仍然是独立的。  平均相关系数为.50,表示AB和IQ共有大约25%的共同方差(如果查看值分布的中间50%的范围,则大约为15%至40%的共同方差)。 实际上,这意味着对于任何人来说,AB和IQ测试的标准分数经常会出现差异,而且并不总是一致的。  

Harrison(1987)对AB和IQ之间适度相关的主要原因提供了很好的解释。 她的报价转载如下
需要对此分析和报告进行许多警告。 最重要的是:
  • 尚未完成对所有可能的已发表和未发表的AB / 智商研究的全面审查。 显然,有更多的研究可以添加到综合中。 
  • 该分析未尝试确定是否存在主持人效应。 也就是说,典型的相关性是否可能会根据AB度量,IQ度量,样本功能水平的差异,清单/测量值与潜在变量的相关性,能力水平等而系统地变化? 
  •  尚未经过同行审查。


 希望这次哈里森(1987)评论的临时更新,以定量的组织方法加以补充,将有助于激发其他人的正式荟萃分析(提示-对某人而言是一项不错的研究还是论文?)




2010年4月7日,星期三

约翰斯顿诉佛罗里达(2010)的Psychometric PS拒绝上诉:新的WAIS-IV分数

这是我的后续行动 昨天的简短评论 关于 约翰史东诉佛罗里达(2010) 拒绝了两天前的MR / ID 上诉。

正如该决定和我的博客评论中所述,WAIS-IV / WAIS-IV测试在WAIS-IV技术手册中报告的一项研究中具有0.94的相关性。  这是一个很高的相关性...但是 意味着应该期望这两个测试能够提供相同的IQ分数. 我之前曾讨论过这些问题 行动计划 AP101报告.

这些测试的标准日期不同,因此,根据Flynn效应,预期更高版本(WAIS-IV)的得分较低。 更重要的是,如 行动计划 AP101报告,当一个计算 差异分数的标准偏差 (请参阅该报告的第6页),相关系数为.94,则结果值为 5.2 (为了便于讨论,四舍五入)。 这意味着,一般而言,WAIS-III / WAIS-IV(即使在.94水平上高度相关)在一般人群中将显示出从-5到+5的差异评分范围...或一种 智商10分的范围......在68%的人口中. 请查看该先前的报告以进行进一步的解释和讨论。

Technorati标签: , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

2010年2月5日,星期五

AP101摘要#6:了解Wechsler 智商得分差异-Wechsler FS 智商得分的CHC演变

[注意。 修复了用于构造下面的WAIS图的原始表中的拼写错误。 WAIS-IV上的视觉谜题被错误地指定为Gf的量度,应该将其分类为Gv。 现在已更改,相应的文本也已修改。 对不起,这个错误。 文字的更改在下面通过 删除线]

为什么同一个人的智商得分经常不同?

这个问题经常使心理报告的使用者和接受者困惑。在上一个 行动计划 Applied Psychometrics 101报告t(AP101#1: 了解智商分数差异) 我讨论了与不同测试的预期IQ得分差异的大小和频率有关的一般统计信息(作为测试之间相关性的函数)。 在该报告中,我提到了智商得分差异/差异的可能原因的以下一般类别。
导致智商差异显着的因素很多,其中包括:(a)程序或考试管理问题(例如评分错误,考试管理不当,作弊,年龄与等级之间的关系) 规范),(b)测试规范或标准化差异(例如规范中可能存在的错误; 选择制定测试规范的主题;测试的发布日期),(c)内容差异和/或, (d)就小组研究而言,研究方法问题(例如,样本预选对 报告的平均智商)(McGrew,1994)。
这时候我 回到这些因素之一-内容差异。这份简短的报告并不着眼于不同智商测试之间的内容差异,而是着眼于两个主要韦氏智能电池各版本之间内容的变化(威斯康星州 / WAIS)。当个人根据不同的Wechsler评分比较智商得分(同一个人)时,此信息将非常有用。

当然,内容差异并不是韦氏手各个版本智商得分可能不同的唯一原因。其他可能的原因可能包括智力的真正变化,两个测试主管之一的严重评分错误, 弗林效应,以及其他可能的因素。   这篇文章仅关注WISC和WAIS系列智能电池的不断变化的CHC内容。

如之前在许多帖子中所讨论的, 当代CHC理论 目前被认为是人类认知能力的共识心理计量学分类法(点击这里 有关该理论的先前帖子和信息)。  对于当前的这份简短报告,我回顾了各种Wechsler情报电池现有的CHC组织的因子分析文献。然后,按照以下步骤使用此信息:

1. 我确定了所有版本的WISC和WAIS电池中的各个子测试,它们分别促成了 满刻度(FS)智商 每个电池得分。

2. 使用公认的权威信息来源:Wechsler情报电池的CHC分析(弗拉纳根,麦格鲁和奥尔蒂斯,2000年; 弗拉纳根,奥尔蒂斯和阿方索,2007年; 麦格鲁和弗拉纳根,1998年; 伍德考克,1990年),我根据每个子测试测得的广泛CHC能力(或多种能力)对上述确定的每个子测试进行了分类。  对于希望获得简短的CHC概述(以及能力定义速查表)的读者, 点击这里.

3. 我计算了每个电池各自的FS 智商中代表的每个广泛的CHC能力的百分比。例如,对于1974年的WISC-R,通过将10个单独的子测试中的WISC-R标定得分相加得出FS 智商。这10个子测验中的四个(信息,理解力,相似性和词汇)都被一致地归为广义Gc的指标。由于每个子测试对FS 智商得分的贡献均等,因此Gc至少占40% WISC-R FS 智商(10之4)。 
  • 但是,现有的CHC 韦克斯勒研究始终确定了一些具有双重CHC因子负荷的测试。尤其是,图片完成和图片排列都一直被报告在WISC-R的Gv(性能标度)和Gc(语言标度)上加载。对于显示出一致的双重CHC因子负荷的测试,我将每个广泛的CHC能力分配为代表测试的1/2(0.5)。可能有可能进行更精确的比例计算(通过所有研究中平均因子负荷的计算),但是出于当前的目的,我使用了此方法 简单和(IMHO)合理近似的方法。
  • 结果,“图片完成”和“图片排列”子测试都分别被分配了1/2(0.5)Gc和1/2(0.5)能力分类。将这两个0.5 GC测试类别加在一起,得出的总和为1.0。当与上述其他四个清晰的Gc测试结合使用时,最终的Gc测试指标总计为5。 结果,WISC-R FS 智商的总Gc比例百分比计算为50%。
4. 尽管Wechsler CHC分类基于上面提到的主要来源,但我确实根据我的专业意见修改了一些普遍接受的分类(在经验研究的支持下)。例如,算术子测验经常被分类为Gf,Gsm,有时甚至是Gs的量度。 但是,当分析中包含有效的定量知识(Gq)因子指标时,算术子测验始终会在Gq因子上显示出强大的负荷,而在其他CHC能力上仅显示出较小的负荷。我在这些研究中投入了更多的资源(例如, 菲尔普斯等人,2005年:Woodcock,1990年),因为我认为这些是设计更好的CHC研究(它们包括了更广泛的CHC能力指标)。 我对算术的最终决定是,它是一种同时测量Gq和Gsm的测试。
  • 此外,在适当的地方并与已发表的研究一致,我修改了其他一些公认的CHC 韦克斯勒测试分类,以反映最新的研究(例如, Kaufman等,2001; 基思et al., 2006;基思& Reynolds (在媒体上-CHC能力和认知测试:我们从20年的研究中学到了什么;  学校心理学s); 利希滕贝格& Kaufman, 2001; 麦格鲁(McGrew),2009年; 图尔斯基& Price, 2003;以及每个电池各自技术手册中报告的因子研究)。参考上述图片完成和图片排列的混合措施,使用WISC-IV进行研究 曾建议,图片完成主要是度量Gv(Gc因子加载最小或不存在),而Picture Arrangement继续显示Gv和Gc上都显着加载。因此,对于所有版本的WISC,图片排列被归类为Gc和Gv的混合度量。相反,就WISC-IV而言 图片完成被分类为量度Gv。 
  • 无法详细描述我为选择的Wechsler CHC测试分类所做的所有次要“微调”。所有这些的基础都包含在上面引用的各种参考资料中。归根结底,本简短报告中使用的Wechsler CHC测试分类是我自己制定的(凯文·麦格鲁)是基于我对现有的关于通过WISC和WAIS系列智能电池中的单独测试测得的CHC能力的经验研究的整合和理解。
5. 最后,我计算了WISC和WAIS所有版本的FS 智商分数中代表的CHC能力的比例。 将这些值列出并绘制在图表上。 摘要图如下所示。 [双击图像放大]





结论/观察: 对所有呈现的信息(在两个图表中以及在两个图表中)的回顾会产生许多有趣的结论和假设。我目前只介绍一些。我鼓励其他人查看文档,并通过以下方式提供其他见解或评论: 评论 我张贴的博客功能或各种listserv上的功能以及有关此分析集的FYI消息。

1. 从历史上看,来自Wechsler电池的FS 智商分数通常被解释为对一般智力的度量(g),一直在衡量Gc和Gv能力。鉴于大卫·韦克斯勒(David 韦克斯勒)指定的原始设计蓝图(相对于两种不同表达方式的智力测度),这不足为奇。

2. 从1949年到1991年,WISC系列在CHC FS 智商组​​成中保持不变。尽管可能已对测试进行了修订或替换,但在所有三个版本中,CHC对FS 智商的比例贡献均相对相等。在Gc和Gv的总贡献为80%之后,对FS 智商的贡献要小得多,来自Gs(10%)和Gq和Gsm(分别为5%)的度量。

3. WISC-IV代表了所提供的通用情报FS 智商得分的重大变化。 GC代表减少了大约20%,Gv代表减少了一半(30%到15%), Gs能力稍微提高(5%),Gq被消除。更重要的是,Gsm的贡献增加了四倍(从5%到20%),Gf的代表增加了20%(从0到20%)!当将WISC-IV FS 智商与WISC-R / 威斯康星州-III分数进行比较时,同一个人可能会获得明显不同的FS 智商分数。 更重要的是,差异可能是WISC系列不同版本中表示的CHC能力不同混合的函数。 

4. WAIS的前两个版本(WAIS和WAIS-R)在CHC能力对FS 智商分数的差异上是相同的。但是,从WAIS-III开始,成人Wechsler电池开始发生重大变化,后来在WAIS-IV中被放大。 WAIS-III和WAIS-IV FS 智商均使Gc表示量减少了约14%至15%。从WAIS-R到WAIS-III,Gv的贡献仅略有下降(从27.3%降至22.7%), 但大幅减少了一半 然后从WAIS-III到WAIS-IV再增加2%(22.7% 10% 20%)。在这两个版本中抵消Gc和Gv的减少是对Gs进行更大测量的趋势(从前两个版本的大约9%翻了一番,在最近两个版本中大约是18%到20%)。在所有版本中,Gq FS 智商贡献都保持相对相似。最显着的变化(也与WISC系列保持一致)是从WAIS-R到WAIS-III的Gf大约增加了十倍(从0%到9.1%)。,随着《 和WAIS-IV(10% 20%)。通常,类似于WISC系列,成人WAIS系列FS 智商在以FS 智商表示的CHC能力方面发展缓慢。随着Gs和Gf的贡献显着增加,Gc和Gv的能力同时被系统地降低。

如果试图将一个电池的当前智商得分与同一电池的较早版本的较旧得分进行比较(或将儿童版本的较旧得分与1个电池组的较旧得分进行比较),则WISC和WAIS FS 智商得分的CHC演变的含义很多。成人版的最新版本)。可以假设从基于WISC的童年智商到WAIS-III或WAIS-IV的重大变化之前 归因于某些因素(神经侮辱,不适,弗林效应等),应查看以上图表并考虑不同FS 智商分数的可能性 可能都是有效的功能指标,但可能代表一般智力的不同CHC混合(风味).

潜在的影响和 可以借助以上图表生成的假设很多。例如, 弗林(2006) 由于比较WAIS-R / WAIS-III分数的研究与以下内容不一致,因此建议WAIS-III标准化规范存在问题 弗林效应 期望。  According to 魏斯(2007),Flynn忽略了不符合其理论的数据,而是使用理论来质疑数据(以及测试规范的完整性)。根据Weiss(2007), “弗林提供此陈述的唯一证据是,WAIS-III分数不符合根据弗林效应做出的期望。但是,科学的进步要求根据新数据对理论进行修改。调整数据以适应理论是不合适的科学方法,不管以前的研究对理论的支持程度如何。” (摘自第1页)。

我倾向于同意魏斯的论点,即仅仅发现WAIS-III结果与 弗林效应期望值不足以证明测试规范是错误的。 如果数据不合适-可能需要翻新(您的理论或假设). 通过查看上面的第二张图,可以看到  对于WAIS-R到WAIS-III Flynn效应的明显缺乏的可行解释是,WAIS-III FS 智商分数代表CHC能力的不同比例组合。更具体地说,WAIS-III将Gc的比例表示从45.5%降低到31.8%,将Gv表示降低了大约5%,使Gs的影响加倍,并且首次引入接近10%的Gf表示。电池之间FS 智商分数的CHC含量变化可能正在起作用。  谁能说“将苹果与苹果+橙子进行比较”?

依此类推........更多评论可能即将到来。

附注-此原始帖子中未包含的其他信息现已发布。  点击这里.



Technorati标签: , , , , , , , , , , , , , , , , , , , , ,

2010年1月15日,星期五

魏斯& Daniel respond to "类似于Wechsler的IQ量表评分指标..." post

以下是对 我以前的帖子 关于类似Wechsler的分数评分问题。 答复在NASP 列表服务器上,作者允许我“按原样”复制它。 我很高兴他们同意本文结尾处的建议。

凯文·麦格鲁(Kevin McGrew)的论点可以反过来表明,如果改变1个原始得分点会导致许多标准得分点发生变化,则使用具有较大SD的子测验得分指标也可能导致误解。因此,问题并不像哪个子测验指标更好(例如Wechsler / Kaufman指标或WJ指标)那样简单。在根据度量标准与基础RS分布的适合度来正确选择度量标准方面,可以更好地解决此问题。 RS和SS分布之间的适当拟合是必要的,以避免
由于SS指标太大或太小而造成的误解。

We agree with his suggested 指导方针 在 的 结束 of 的 full paper.


拉里·韦斯(Larry Weiss)
马克·丹尼尔
皮尔森

Technorati标签: , , , , , , , , ,

2010年1月12日,星期二

行动计划 Applied Psychometric 101简要报告部分已添加到博客



新部分已添加到 智商角 博客。这部分是 行动计划应用心理学计量学101简介。可以在博客侧边栏找到。这些是在IQs Corner姐妹博客上发布的简短报告 人发会议。点击链接将带您进入 人发会议 博客页面,其中包含简短报告的链接。

Technorati标签: , , , , , , , , , , , , , , , , , ,


2010年1月5日,星期二

类似于Wechsler的IQ子测验的量表评分标准:滥用,误解和对人生关键决策的影响的潜力-草拟报告以寻求反馈




的 following are 的 first 日ree paragraphs (and a critical 数字) of a 草案 行动计划应用心理计量学101简要报告(#5)。  完整的报告可以通过以下方式以PDF格式下载: 点击这里. 完整报告的网页版本可以通过以下方式找到 点击这里 (note - 的 web page verision may 不 display two embedded 数字s....viewing 的 PDF copy may be necessary)

我正在向这份初稿报告提供表达我的意图,以征求有关我的分析和逻辑的准确性和合理性的反馈和意见。 我正在寻找重要的反馈意见来改进报告。 这是一份报告草稿,如果评论建议进行重大更改,将进行修订。 请本着 “抛出一些关键的想法” 进行反思性分析和反馈。 反馈可以直接发送给我([email protected]),也可以以列表服务线程讨论的形式提供给我。 国家航空航天局 和/或 CHC列表服务器.


我最近一直在浏览James Flynn的新书(什么是情报: 超越弗林效应),以便更好地理解 弗林效应。我(作为一名应用测量人员)特别感兴趣的是他对跨时间的各种Wechsler量表中各个子测验分数的分析。正如大多数心理学家所知,韦氏(Wechsler)子测验的量表分数(ss)是在平均值(M)= 10和标准差(SD)= 3的量表上。子测验ss的范围是1到19。 弗林在其书的附录1中指出 "it 是 customary to score subtests on a scale in which 的 SD 是 3, as opposed to 智商分数 which are scaled with SD set 在 15. To convert to 智商, 只是 乘 subtest gains 通过 五, as was done to get 的 智商 gains in 的 last column." 乍一看,这种说法听起来好像子测试ss向IQ SS的转换很容易(“只是 乘….”;我的重点)和数学上可以接受的程序,没有问题。但是,仔细检查后,这种转换可能会将未知的错误源引入转换后的SS分数的精度中。 这篇简短的技术文章的目的是解释进行此ss-IQ SS转换时涉及的问题。

ss 1-19刻度在Wechsler电池中具有悠久的历史。例如,在 成人智力的测量 (Wechsler,1944年),Wechsler描述了将子测验原始分数转换为新ss指标的步骤。尽管随着时间的推移,计算ss 1-19值的方法和程序变得越来越复杂,但韦氏电池在每个新修订版中都延续了这一传统。  尽管用于开发Wechsler ss 1-19量表的方法可能已经变得更加复杂,但每个子测验的最终基础量表并没有…分数仍在1-19之间(M = 10; SD = 3)。 另外,最近 斯坦福·比内特—5th Edition (SB5; Roid,2003)和 考夫曼儿童评估电池第二版 (KABC-II)各自的子测试都采用了相同的1s到19分制。

当其他现代智能电池提供具有更好测量分辨率的子测试规模度量时,为什么在某些智能电池中仍使用这种相对粗略(将在下面定义)的度量标准? 例如, 达斯-II (Elliott,2007)在T量表(M = 50; SD = 10)上放置各个测试分数,分数范围为10-90。  的 WJ III (麦格鲁&伍德考克(Woodcock,2001)将所有考试和综合分数放在与满分和综合分数(M = 100; SD = 15)相关的标准分数(SS)指标上。  要问的关键问题是“保留历史ss 1-19刻度是否有优点或缺点,或者使用具有更好的测量分辨率的单独测试刻度(DAS-II; WJ III),它们的真正优点是什么?”

......继续............
(完整的报告可在此帖子第一段的链接中找到)

[双击图像放大]





Technorati标签: , ,, , , , , , , , , , , , , , , , , , , , , , , , , ,