显示带有标签的帖子 AP101简介. 显示所有帖子
显示带有标签的帖子 AP101简介. 显示所有帖子

2012年9月10日,星期一

AP101简介#16:超越CHC:CHC内部域复杂度优化措施

[注意:  这是较大论文的工作草案(CHC认知成就研究20年的意义: 回到未来,超越CHC)将在第一个 塔夫茨大学理查德·伍德考克当代认知评估研究所开幕大会(2012年9月29日):  CHC理论和认知评估的发展。] 对WJ III测试战的工作知识将使本简介更容易理解,但这不是必需的。

B超越CHC:  ITD—CHC内部域复杂度优化 Measures
            优化中 CHC措施的认知复杂性
我最近开始认识到 不伦瑞克对称 派生的 柏林情报机构(BIS) 模型可以在应用智能研究中发挥作用,特别是对于增加预测指标的情况 通过最大化这些关系 通过匹配维度上的预测标准空间来建立关系 认知的 complexity.  What 是 认知的 complexity? 它为什么如此重要? 更重要的是,它应该扮演什么角色 设计智能电池以优化CHC COG-交流电H relations?
认知性 复杂性通常是通过检查单个测试负载来实现的 主成分分析中的第一个主成分(詹森, 1998).  的 high G-测试的基本原理是测试性能更高 cognitively 复杂 “调用更广泛的基本认知过程 (Jensen,1998; Stankov,2000,2005)”(McGrew,2010b,第452页)。  High g装货 测试通常是MDS(多维缩放)radex模型的中心 (点击此处查看AP101简要报告#15: 认知能力成就特质示例)—但是这种同构不会 always hold.   大卫·洛曼(David Lohman),是 理查德·斯诺(Richard 雪)’s,已广泛使用MDS方法来研究情报,并且拥有一个 最好地掌握了什么认知复杂性,如 hyperspace of MDS 数字s, contributes to understanding 情报 和 intelligence tests.  According to Lohman (2011), 日ose tests closer to 的 center are more 认知复杂due 五 possible factors—大量的认知成分过程;积累 加快组件差异:更重要的组件流程(例如, 推理);注意控制和工作记忆的需求增加;和/或 或对自适应功能(组装,控制和监视)有更多要求。 Schneider’s (in press) 抽象级别 广泛的CHC因素的描述类似于 认知复杂性。  He uses 的 simple 100米栏成绩的示例。  According to 施耐德 (in press), one could independently measure 100 米冲刺速度,然后停滞不前,越过障碍(两者 能力的例子)。  However, 进行100米的比赛并不是两种狭narrow的能力的总和。 更多的是狭义能力的非加法组合和整合。 这个比喻抓住了 认知复杂性—在认知测量领域,这是任务 在成功完成任务时,罗曼列举了五个因素中的更多因素 performance.
至关重要 重要性是对因素或 能力域的广度(即, broad 要么 狭窄) 同义的 with 认知复杂性.  更多 重要的是,认知复杂性并不总是一个测试设计概念(因为 由Brunswick Symmetry和BIS模型定义) 明确地 纳入 “智能”智能测试设计(ITD)。  许多测试已经纳入了这一概念 他们的设计计划中的认知复杂性,但是我相信这种类型的 认知复杂性与CHC内部域的认知不同 这里讨论的复杂性。
对于 例如,根据考夫曼和考夫曼(2004)的观点,“在开发KABC-II时, 作者没有努力发展‘pure’五个CHC的测量任务 broad abilities.  在 理论, Gv 任务应排除 Gf 要么 s例如,以及其他广泛能力的测试,例如 GC 要么 l,仅应衡量该能力而已。 但实际上, 像KABC-II这样的认知能力综合测试可以衡量问题 在不同环境下和不同条件下解决 复杂 有必要评估 高级功能”(第16页;增加了斜体)。 虽然考夫曼’强调重要性 CHC接地的智力测试电池中认知复杂的测量方法 描述将复杂的措施定义为 阶乘复杂或 来自多个CHC领域的能力的混合度量.  的 Kaufman’也可以解决认知问题 非CHC神经认知三嵌段功能性Luria的复杂性 当他们指出重要的是要提供神经认知模型 评估“动态整合这三个模块” (Kaufman &Kaufman,2004年,第13页)。   对神经认知整合(以及因此的复杂性)的强调是 也是最新Wechsler电池的明确设计目标。 如WAIS-IV手册(Wechsler,2008年)所述, “尽管评估和划分更多内容有明显的优势 认知功能领域狭窄,几个问题值得关注。 首先,认知功能是相互关联的, 在功能和神经方面,使其难以测量纯域 认知功能” (p. 2).  Furthermore, “measuring psychometrically 纯 factors of discrete domains 可能对研究有用,但不一定会产生信息 在实际应用中具有丰富的临床意义或实用性(Zachary, 1900)” (Wechsler, p. 3).   Finally, 埃利奥特(Elliott,2007)同样主张承认的重要性 基于神经认知“复杂 信息处理”(第15页;增加了斜体)。 DAS-III,可进行描述于CHC中的测试或复合材料测量 域,在测试设计中同样重要。
ITD 这里阐述和提出的原则是努力发展 认知上复杂的测量 在广泛范围内 CHC domains—也就是说,无法通过能力融合来实现复杂性 跨越CHC广泛的领域,而不是尝试直接链接到神经认知 network integration.[1]  基于Brunswick对称性的BIS模型 提供了通过开发和分析实现此目标的框架 通过关注认知来测试复杂性 内容 运作方面。 
图12 展示了大多数关键WJ III的二维MDS Radex模型的结果, 狭窄的CHC认知和成就集群(适用于来自 到成年后期大约6岁)。 [2]   The current 图12中结果的解释重点仅在于程度 of 认知复杂性 (proximity to 的 center of 的 数字) of 的 broad 和同一域内的WJ III狭窄群集( 内容和操作方面 不是当前材料的重点)。  Within a domain 的 最广泛的 三测 父母 聚类由黑色圆圈表示。[3] 两次测试的广泛类由灰色设计 circles.  Two test 狭窄 后代 广泛领域内的集群是 由白色圆圈指定。  All 域中的群集通过以下方式连接到最广泛的父广泛群集: lines. 至关重要的 信息是各自父母的域内认知复杂性 和兄弟姐妹集群,以它们与中心的相对距离表示 of 的 数字. 一些有趣的结论 are apparent. [点击图片可放大]

首先,作为 可以预期,WJ III GIA-Ext集群几乎完美地集中在 figure—它显然是认知上最复杂的WJ III集群。  相比之下,三个WJ III Gv集群 在认知复杂性方面比所有其他具有 没有特定的Gv集群显示明显的认知复杂性优势。   As 预期的是,测得的阅读和数学成绩集群主要是 认知上复杂的措施。  However, 那些与基本情况打交道的成就集群 技能 (数学计算—MTHCAL;基本阅读技巧—RDGBS) are 不太复杂 应用 集群(阅读理解-RDGCMP;数学推理-MTHREA)。 
最多 图12中有趣的发现是差异性认知复杂性 CHC域中的模式(至少有一个父级和至少一个父级 offspring cluster).  对于 example, 的 较窄的知觉速度(Gs-P)后代簇在认知上更为复杂 而不是广泛的父Gs集群。  的 broad Gs集群由视觉匹配(Gs-P)和决策速度组成 (Gs-R9; l-NA)测试,用于衡量不同的窄能力的测试。 相反,感知速度簇(Gs-P) 由两个测试组成,这两个测试都测量相同的窄 能力(感知速度)。  这个 finding 乍看之下似乎有点反常理,就像人们期望的那样 由测量不同内容和操作的测试(Gs集群)组成 (包括以上定义和讨论在内)比其中一项更为复杂 相同的窄能力(Gs-P)的两个量度。 但是,一项任务必须分析两者 感知速度测试,以了解尽管两者都被分类为 测量相同的窄能力(感知速度),两者都不同 stimulus 内容认知操作.  视觉匹配需要处理数字刺激。 划掉要求处理 visual-figural 刺激。  的se are two different 内容方面 在BIS模型中。  划掉视觉图形刺激在空间上更具挑战性 而不是视觉匹配中的简单数字。  此外,视觉比对测试要求应试者快速 查找并发现并标记两个相同的数字对。 相反,在淘汰测试中 为对象提供目标的视觉图形形状,然后对象必须 快速扫描一行复杂的视觉图像,并标记两个与 the target. 有趣的是,其他 unpublished  我已经完成的分析,视觉 匹配测试通常是对定量成就测试进行加载或分组 而Cross Out经常显示加载Gv因子。 因此,任务分析 内容 认知的 operations WJ III感知速度测试表明,尽管两者都是 被归类为Gs-P的狭窄指标,它们在任务上明显不同 requirements.  更多 important, 的 结合感知速度群集测试,似乎需要更多 认知过程比广义Gs簇复杂。 这一发现与阿克曼(Ackerman)一致, Beier 和 Boyle’s(2002)的研究表明,感知速度具有 通过识别以下四个子类型来扩展因子水平 感知速度(即模式识别,扫描,内存和复杂性; see McGrew 2005 和 施耐德 &McGrew,2012年,关于 速度能力的分层组织模型)。 基于Bruinswick对称/ 国际清算银行认知 复杂性原则,人们会预测一个由两个组成的Gs-P集群 相同任务的并行形式(例如,两个视觉匹配或两个交叉 测试)的认知复杂度将不如广义Gs。 这可能是正确的提示 假设存在于对Gsm-MS-MW域结果的检查中。
WJ III GSM 群集是数字反转(MW)和单词记忆的组合 (MS) tests. 相比之下,WJ III 听觉记忆跨度群集(AUDMS; GSM-MS)群集在认知上要少得多 与Gsm相比更复杂(请参见图12)。  就像在上下文中描述的感知速度(Gs-P)集群一样 处理速度家族集群,听觉内存跨度集群是 由具有相同内存跨度(MS)窄能力的两个测试组成 分类(单词记忆;句子记忆)。 为什么这个狭窄的集群不那么复杂 它广泛的母体Gsm集群,而Gs-P和Gs则相反吗? 任务分析表明,两个记忆 跨度测试比两个感知速度测试更相似。 单词记忆和句子记忆 测试需要相同的认知操作—只需按顺序重复一次, 与主题说话的单词或句子。  这与WJ III感知速度群集不同 分类的窄Gs-P测试最有可能同时调用通用和不同 认知成分操作。  Also, 内存跨度群集测试由来自相同BIS内容的刺激组成 方面(即单词和句子;听觉语言/语言)。 相比之下,Gs-P视觉匹配和 淘汰测试涉及两个不同的内容方面(数字和 visual-figural).
在 相比之下,WJ III工作记忆簇(Gsm-MW)在认知上更强 比父Gsm群集复杂。  这个 发现与先前的WJ III s /感知速度和WJ III一致 Gsm /审核内存跨度讨论。  的 WJ III工作记忆簇由倒数和听觉组成 工作记忆测试。  Numbers Reversed 需要从一个BIS内容方面处理刺激—numeric stimuli. 相反,听觉工作 记忆需要处理来自两个BIS含量因素的刺激—numeric 和听觉语言/语言;数字和单词)。 两项测试的认知操作 also differ.  两者都需要持有 主动工作记忆空间中的刺激。 反转数字则需要简单 以相反的顺序复制数字。  相反,听觉工作记忆测试需要存储 数字和单词在单独的块中,然后产生 每个块(数字或单词)的前向顺序,在一个块之前 the other. 更加依赖分裂 注意在听觉工作记忆测试中最有可能发生。 
综上所述, 图12中显示的结果表明它是 可能发展 聚类分数在相同的认知复杂度上有所不同 broad CHC domain.  更重要的发现是,将聚类分类为宽还是窄并不能提供有关度量认知复杂性的信息。 认知上的复杂性,如 将聚类分为宽泛还是窄窄分类无法提供有关度量认知复杂性的信息。 认知复杂性e Lohman感,可以在CHC域中实现,而无需诉诸混合 跨CHC域的能力。  最后, 狭窄的簇在认知上可能更复杂,因此可能更好 复杂的学校成绩的预测指标,而不是广泛的集群或其他狭窄的指标 clusters. 

含义 用于测试电池设计和评估策略
认可 认知复杂性作为一项重要的ITD原则表明,推动 在当代测试电池中或在 跨电池评估的构建,未能认识到 认知复杂性。  I plead guilty to 通过我在WJ III的设计中的作用为这一重点做出了贡献 广泛关注CHC域构建体的广泛表示—most WJ III 狭窄的CHC集群需要使用第三本WJ III认知书( 诊断补充;伍德科克,麦格鲁,马瑟& Schrank, 2003). 同样地,有罪的人被控罪 CHC因子在原始模型开发中的代表性 跨电池评估原则(Flanagan&麦格鲁(McGrew),1997年;麦格鲁& Flanagan, 1998)。 
也是 我的结论是 窄一点更好结论 麦格鲁和温德林(2010) 可能需要修改。   重温麦格鲁和温德林(2010) results suggest 日at 较窄的CHC集群更能预测 学业成绩之所以如此之所以不一定是因为范围狭窄, 但是因为它们在认知上更加复杂.  我提供一个假设,即更正确的原则是 认知复杂measures 更好。   我欢迎专注于新的研究 测试这个原理。
在 回想起来,鉴于WJ III星团的宇宙,宽窄融合 智能电池配置(或跨电池评估)的方法可能 be more 适当。  Based exclusively 根据图12所示的结果,将出现以下簇 那些可能会更好地出现在“front 结束” of 的 WJ III 要么 a 选择性测试构建评估—考官应该去的那些集群 首先考虑每个CHC广泛领域:  Fluid Reasoning (Gf)[4],理解知识 (Gc),长期检索(Glr),工作记忆(Gsm-MW),音素意识3 (Ga-PC)和感知速度(Gs-P)。  No 虽然狭窄的可视化集群是 在认知上比Gv和Gv3集群稍微复杂一些。 以上表明,如果广泛的集群是 Gs,Gsm和Gv的域所需的,然后进行除“front end”或特色测试和群集需要管理 必要的Gs(决策速度),Gsm(文字记忆)和Gv(图片) Recognition) tests.

利用ITD测试设计原则 优化CHC内部集群的认知复杂度表明, WJ III测试的不同重点和配置可能更多 appropriate. 建议 高于WJ III群集复杂度优先级或特征模型可能会允许 从业人员管理学校成绩的最佳预测者。 我进一步假设这种认知 基于复杂度的宽窄测试设计原理最可能适用于 坚持主要关注的其他智能测试电池 测试是两个或更多能力的最纯粹指标 在所提供的广泛的CHC解释方案之内。 当然,这是一个经验性的问题 求助于其他电池的研究。  更多 有用的类似MDS Radex跨电池认知复杂度分析 情报数据集。[5]

参考文献 (不包含在这篇文章中。 完整的论文将在不久的将来宣布并可供阅读和下载)



[1]这个 并不意味着认知复杂性可能与 the 人类连接体 或不同的大脑网络。我为当代感到兴奋 脑网络研究(Bressler&梅农,2010年;科尔,亚尔科尼,雷波夫斯, Anticevic &勇敢,2012年;托加,克拉克,汤普森,沙特克,& Van 喇叭, 2012;范登赫维尔&Sporns,2011),特别是那些 证明了神经网络效率与工作记忆之间的联系, 控制注意力和临床疾病,例如注意力缺陷多动症(Brewer,Worunsky, Gray, Tang, Weber &Kober,2011年;鲁兹,史格格,邓恩,& Davidson, 2008; McVay & Kane, 2012). 的 顶额-额叶整合(P-FIT) 理论 智力与CHC相关联,尤其令人着迷 心理测量指标(Colom,Haier,Head,Álvarez-Linera,Quiroga,Shih,&荣格,2009年;迪里,彭克,&约翰逊,2010年;海尔,2009年;荣格& Haier, 2007年),并且可以与CHC认知优化的心理测量方法联系起来。
[2] 只要 包括阅读和数学类,以简化 结果和事实,如先前所报道的,阅读和写作措施 在多变量分析中通常无法很好地区分—and 日us 的 w CHC理论中的领域。
[3]GIA-Ext也用黑色圆圈表示。
[4] 尽管WJ III流体推理3群集(Gf3)稍微靠近 center of 的 数字, 的 difference from 流体推理(Gf) 是 不 large 和 时间效率将证明需要进行两次测试的Gf集群。
[5] 它 重要的是要注意认知复杂性的分析和解释 这里讨论的是特定于 仅在WJ III电池内。度 WJ III认知集群中的认知复杂度与 其他智能电池的综合得分只能通过 跨电池MDS复杂性分析。

2012年3月1日,星期四

行动计划101简介#12:使用IQ部件分数作为SLD和MR / ID 诊断中一般智力的指标

   
           历史上的概念 一般情报(g), 由全球情报测试电池组负责 全尺寸 智商得分对于具有以下特征的个体的定义和分类至关重要 特殊学习障碍(SLD) 以及具有 智障(ID)。  最近,当代的定义和操作标准提高了智能测试能力 综合 要么 部分分数 在SLD的诊断和分类中扮演更重要的角色,而在ID中则更重要。
            在 的 case of SLD, 第三方法 一致性 定义在(a)识别 一致性 低成就与相关的认知能力或加工障碍之间的关系;(b)个人必须表现出相对的认知和成就优势的要求(请参见 菲拉内罗弗拉纳根& Ortiz, 2010)。 在第三种方法SLD方法中,没有强调全局IQ分数。
            在 contrast, 的 11 版本 协会智障:定义,分类和支持系统 手册(AAIDD,2010年)将通用情报和全球综合智商得分作为对以下方面的定义的核心 智力功能. 这并非没有挑战。 例如,AAIDD ID 定义具有 被批评 因为过分依赖通用情报的构建,而忽略了当代心理学计量学理论和实证研究,这些研究已经集中在多维的智力层次模型上(即, 卡特尔-洪恩卡罗尔或CHC理论)。
潜在的限制“作为一般智能障碍的ID”定义是由 智障残疾人确定委员会,在 国家研究委员会 报告“智力低下: 确定获得社会保障福利的资格” (Reschly, Meyers & Hartel, 2001). 这个国家专家委员会的结论是“在接下来的十年中,可能会更进一步地调整智力测验以及从中得出的IQ分数以及Horn-Cattell和Carroll模型。 结果,未来几乎可以肯定会更多地依赖零件分数,例如 GC Gf,以及传统的复合IQ。 也就是说,传统的综合智商可能不会下降,但是与过去相比,将会更加重视零件得分”(Reschly et al。,2002,p.94)。 委员会指出“每当质疑一个或多个部分分数(子测试,量表)的有效性时,检查员还必须质疑该测试是否’的总分适合指导诊断决策。 总考试成绩通常被认为是客户的最佳估计’的整体智力功能。 但是,在某些情况下,总的测试成绩可能并不能完全代表整体认知功能,这对于某些人以及对他们而言都是如此。” (p. 106-107).
           在SLD和ID诊断和分类中,对智能测试电池复合零件评分的日益重视,提出了许多测量和概念问题(Reschly等,2002)。 例如,统计学上的显着差异是什么? 有什么有意义的区别? 当质疑整体智商时,哪些适当的认知能力应作为一般智力的代理? 总测验分数应为多少? 
适当的认知能力 只会是这里讨论的唯一问题。 这个问题解决 哪个组件或零件的分数与一般智力更相关(g)—也就是说,组成部分的分数很高 g装载机? 传统的共识是 GC (结晶的智力;理解知识)Gf (流体情报或推理) 是最高的 g负荷措施和构造,并且在诊断ID时最有可能成为身份提升的候选人(Reschly等,2002)。 尽管并非总是明确说明,但第三种方法一致性SLD定义指定个人必须证明“至少具有一般认知能力或智力的平均水平 ”(Flanagan et al。,2010,p.745),这是一个隐含地暗示认知能力和成分得分较高的陈述。 g-ness。
表1旨在为在SLD和ID的诊断和分类中使用零部件评分提供指导(单击图像放大并使用浏览器缩放功能) 查看;建议你 点击这里 来访问表格的PDF副本。并对其进行放大)。 表1总结了具有令人满意的心理测量特征(即国家规范样本,复合材料足够的信度和效度)的,全面的,国家规范的,单独管理的情报电池 g-得分)用于ID和SLD的诊断。



综合 g-得分 列列出了每个情报电池提供的全球一般情报得分。 这个分数是一个人的最佳估计的一般智力,目前与AAIDD的ID诊断最相关。  All 综合 g表1中列出的-scores满足 詹森s(1998) 心理测量误差 标准作为一般智力的有效估计。  As per 詹森s 测试次数 标准,所有智能电池 g-复合材料基于 最少九个 测试样本 至少三个 主要认知能力领域。  As per 詹森s 各种测试 标准(即信息内容,各种心理操作的技能和要求),从CHC理论的角度来看,电池的能力范围覆盖范围会有所不同四个(CAS,SB5),五个(KABC-II,WISC-IV,WAIS-IV),六个(DAS-II)和七个(WJ III)(奥尔蒂斯Flanagan& Alfonso, 2007; 基思& Reynolds, 2010)。  根据詹森(Jensen,1998)的建议, 用于估计的特定测试集合 g 应该以尽可能少的测试数量尽可能接近地成为所有类型的心理测试的代表样本,并且应该尽可能平均地代表各种测试 (第85页)。  用户应咨询以下来源 Flanagan等。 (2007年)基思和雷诺兹,2010年) 确定每个智能电池如何近似詹森的最佳设计标准,测量的特定CHC域以及每个电池组合中CHC域的比例表示 g-得分。
表1中还包括每个电池提供的组成部分的比例(例如,WAIS-IV语言理解指数,感知推理指数,工作记忆指数和处理速度指数),其后分别是 -电池 g-加载。[1]  Examination of 的 g现有电池的综合得分的高低(请参阅表1的最后三列)表明了传统的假设,即 GfGC 是通用情报的最佳代理 掌握所有情报电池.[2] 
在SB5的情况下,所有五个复合零件得分在 g-装载(h2 = .72至.79)。 没有一个SB5复合零件得分比其他SB5得分更好地暗示了一般的一般智力(当不使用整体IQ得分时)。 另一个极端是WJ III,其中流体推理,理解知识,长期存储和检索聚类得分最高 g-WJ III中基于部分得分的解释的代理。 WJ III视觉处理和处理速度群集不是复合零件评分,应该强调其为一般智能的指标。 在所有包含处理速度组件分数的电池(DAS-II,WAIS-IV,WISC-IV,WJ III)中,各自的处理速度量表始终是通用情报的最薄弱的代表,因此不会被视为良好的智能产品。一般情报估计。 
           同样清楚的是,不能假设测得能力的相似名称的合成物应具有相似的相对 g-不同电池内的状态。  对于 example, 的 Gv 达斯-II(空间能力),SB5(视觉空间处理)中的(视觉空间或视觉处理)集群相对较强 g-在各自的电池中进行测量,但对于WJ III视觉处理集群则不能说相同的方法。 更有趣的是WAIS-IV和WISC-IV相对值的差异 g-加载类似听起来不错的索引分数。 
例如,工作记忆指数最高 gWAIS-IV中的加载组件分数(与感知推理指数并列),但在WISC-IV中仅排名第三(四分之三)。  工作内存索引由WAIS-IV中的数字跨度和算术子测试以及WISC-IV中的数字跨度和字母序号子测试组成。 据报道,算术子测试是阶乘复杂的测试,可能会利用流体智能(Gf-RQ—定量推理),定量知识(Gq),工作记忆(GSM),以及可能的处理速度(s;基思& Reynolds, 2010; 菲尔普斯,麦格鲁,诺皮克& 对于d, 2005)。   算术子测试的阶乘复杂特性(实质上使它的功能像迷你算子一样,g 代理)将解释为什么WAIS-IV工作内存指数是一个很好的代理 g 在WAIS-IV中,但不在WISC-IV中。 WAIS-IV和WISC-IV工作记忆指数量表尽管命名相同,但是 测量相同的结构。

A 严重警告 是那个 g无法比较不同电池的负载。  g当分析中包含的各种措施的组合发生变化时,载荷可能会发生变化。 不同的“风味” g 可能导致(Carroll,1993; 詹森,1998)。比较的唯一方法 g电池的极性经过适当设计 交叉或联合电池 分析(例如,在普通样品中分析的WAIS-IV,SB5和WJ III)。
上面和下面的智能电池示例说明,那些使用组成部分分数作为人的估计的人’的一般智力必须了解其组成和心理测验 g-每个智能电池内组件的得分得分。 并非所有不同智能电池中的所有零部件得分都是相同的(关于 g-ness)。 同样,并非所有类似命名的基于因子的综合评分都可能测量相同的相同结构,并且电池内部的度数可能会有所不同 G-内斯。 对于因子分析中的因子命名,以及基于因子的智力测验综合评分,这并不是一个新问题。 悬崖(1983) 描述了这个 名义上的谬误 用简单的语言—“如果我们命名某事,这并不意味着我们了解它” (p. 120). 




[1] 如表1的脚注所示,所有综合得分 g凯文·麦格鲁(Kevin McGrew)通过在每本智能电池技术手册(请注意WJ III的例外情况)中输入已发布的相关矩阵的最小数量(涵盖的最大年龄范围)来计算负载(以获得WJ III的例外) g负荷估算。 对于每个智能电池,可以为每个年龄区分的相关矩阵计算和报告这些值。 但是,此表的目的是提供尽可能最佳的 平均 在每个智能电池的整个寿命范围内的价值。 弗洛伊德(Floyd)和同事发表了年龄差异的文章 g达斯-II和WJ III的装载。 这些值未使用,因为它们基于 主要公因子 分析方法, 分析测试之间的可靠共享方差。 尽管主要因素和 主成分 通常,载荷将在相同的相对位置订购量度,主因数载荷通常会较低。  鉴于不完善的清单综合量表分数是在实践中使用的分数,因此也可以使计算 g表1中报告的载荷在这项工作中使用了主成分分析。同样的理由用于不使用较高阶的潜在因子负荷 g每个测试电池的SEM / 终审法院分析中的因素。 CFA分析得出的负荷代表了基础理论能力结构与 g 清除测量错误。 此外,电池技术手册(或独立的期刊文章)中报告的最终CFA解决方案通常会使测试变得相当复杂(加载多个潜在因子),这种测量模型与清单/观察实践中使用的综合评分。 高阶潜在因子加载 g因子通常会基于清单指标而与主成分负载有很大不同,无论是绝对大小还是相对大小(例如, 正在加载 g 在WJ III技术手册中,这与清单变量基于 表1中报告的负载) 
[2]h2 值是用于比较相对数量的值 g-每个智能电池中组成部分中存在的方差得分。

2012年2月7日,星期二

行动计划应用心理学计量学101简要报告#11:典型的IQ和适应性行为的相关性是什么?


适应行为(AB)的标准化度量之间的典型关系(相关)是什么 和智能措施(IQ)? 考虑到两者在智力低下(MR)/智力障碍(ID)的定义诊断中所起的作用,这是一个重要的问题。 

在1970年代后期和1980年代,这是一个活跃的研究领域。 发表了许多研究,报道了各种适应行为量表和智力测验之间的相关性。 这项研究的最佳综合可能是由 哈里森(1987)。 哈里森的评论包括超过40种相关性的表格。 这是上面引用和链接的文章中的表2。 哈里森(Harrison)以及其他大多数评论过文献的人得出的结论是:大部分相关性处于中等范围”(第39页)。 当从Harrison表中排除与不良适应措施的相关性时,相关性的范围为.03至.91。 这是一个广泛的范围。 哈里森无法确定相关性的变异性或范围的具体解释。 哈里森推测,变量可能会影响相关性的大小,这是特定的适应性行为或所用智力的度量以及样本变异性的差异。

随后 智障残疾人确定委员会 发表了国家研究委员会的报告(智力低下:  确定获得社会保障福利的资格;迈尔斯&Hartel,2001)也谈到了AB / IQ关系。该报告得出结论,AB / IQ研究报告了相关性“范围从0(表示没有关系)到几乎+1(表示完美关系)。 数据还表明,智商与适应行为之间的关系随年龄和发育迟缓水平而显着变化,在重度和中度范围内最强,在轻度范围内最弱。 智商与适度行为在轻度延迟水平上的关系尚缺乏数据”(第8页)。 被确定为减缓AB / IQ相关性的因素包括量表内容,能力与感知能力的测量,样本变异性,量表的上限和下限问题以及智力低下的水平。

鉴于上述情况,很难对近似的典型AB / IQ相关性做出客观陈述。 考虑到这一点,完成了非正式的研究综述,并在此处报告。

首先,仅从Harrison 1987年的表格中提取AB / IQ相关性(不包括IQ /适应性相关性)(n = 43个相关性)。 然后,对三个最常用的当代适应行为量表的当前版本的技术手册进行了审查,以了解其他相关性。  这个 included 的 葡萄园适应行为量表 (麻雀,奇契蒂&巴拉(Balla),2005年; n = 2个相关系数,分别为.12,.20)和 适应行为量表 (哈里森&奥克兰,2008; n = 10个相关性,范围从0.39到.67;中位数= 0.51)。

尽管报告了六种不同的相关性 修订的独立行为量表 手册(SIB-R; Bruininks,Woodcock,Weatherman&Hill,1996年),由于与通常报告的相关类型相比,这些值是夸大的估计,因此未使用这些值。 例如,对于某些组,报告了0.79,.82和.91的极高相关性。 仔细阅读表格可以发现,SIB-R与WJ或WJ-R智力测验的相关性是根据 W得分增长指标。  根据定义,增长指标 包括年龄变化e. 如果跨年龄段报告了相关性,则相关性传达与AB之间的相关性相关的方差  和IQ结构,但也包含共享方差 受一般年龄段发展(年龄)的影响. 因此,与IQ的SIB和SIB-R相关性虽然不是错误并且提供了不同的信息,但它们是 不可比 与其他所有已消除年龄差异(通常通过将基于年龄的标准评分相关)相关的相关性。 关于这一点的明确证据来自 麦格鲁与布鲁因克斯(1990) 谁使用了SIB和SIB-R手册中报告的相同SIB / WJ主题数据,但删除了 W在计算潜在的实际智力(SIB适应性行为)和概念智力(WJ IQ)之间的潜在因素相关性之前(通过验证性因素分析),将混杂的年龄方差打分。 三个不同年龄组的所得AB / IQ相关性分别为.38,.56和.58,远低于.70至.92范围内的值。 因此,包括了McGrew和Bruininks(1990)的值,用于估算当前合成中的SIB / SIB-R IQ相关性。 

最后,潜在的AB / IQ相关性(根据验证性因子分析模型估算) .27和.39中的包括 它tenbach,Spiegel,McGrew和Bruininks(1992)和 基思,费曼,哈里森和波特鲍姆(1987), 分别。 此过程导致了来自Harrison的43个中的17个AB / IQ相关性, 总共60个相关.

该60种AB / IQ相关性的描述性统计数据如下: 相关范围从.12到.90, 平均值为.51,中位数为.48,标准偏差为.20.  Below 是 a 数字 日at includes a 频率多边形 (以及平滑的法线曲线叠加)和 箱须图 数据集。 盒子和晶须图的回顾(底部)显示了 中位数相关性(.48)作为矩形内的垂直线。 矩形包含相关分布的50%中间值,并且显示的正下方范围大约 .40至略高于.65. 特别值得注意的是频率多边形的形状和平滑的法线曲线。 频率多边形的形状与法线一致。 在定量研究综合中,这种类型的正态分布表明该评价中包括的总数据集没有偏倚-包括可能低估或高估了“真实”总体相关性(由于方法或抽样因素)的两项研究。 更重要的是,中间的大多数相关性“聚集”提供了这样的信心,即该分布的中位数是对人口真实性的合理无偏估计。 这种相对正态分布的类型表明,当前收集的60种AB / IQ相关性很可能是整个群体AB / IQ相关性的合理近似值。


基于这种非正式的(以及对所有可能的AB / IQ相关性研究的公认的不完整评论),可以得出结论,对典型AB / IQ相关性的合理估计是 约.50 (平均值= .51;中位数= .48),其中 大多数范围从大约.40到.65. 这一发现与哈里森(Harrison)在1987年得出的“中等”相关性结论相一致。 当前的分析继续加强哈里森(和其他人)的结论,即适应性行为和智力是统计学上相关的结构,但是 他们仍然是独立的。  平均相关系数为.50,表示AB和IQ共有大约25%的共同方差(如果查看值分布的中间50%的范围,则大约为15%至40%的共同方差)。 实际上,这意味着对于任何人来说,AB和IQ测试的标准分数经常会出现差异,而且并不总是一致的。  

Harrison(1987)对AB和IQ之间适度相关的主要原因提供了很好的解释。 她的报价转载如下
需要对此分析和报告进行许多警告。 最重要的是:
  • 尚未完成对所有可能的已发表和未发表的AB / IQ研究的全面审查。 显然,有更多的研究可以添加到综合中。 
  • 该分析未尝试确定是否存在主持人效应。 也就是说,典型的相关性是否可能会根据AB度量,IQ度量,样本功能水平的差异,清单/测量值与潜在变量的相关性,能力水平等而系统地变化? 
  •  尚未经过同行审查。


 希望这次哈里森(1987)评论的临时更新,以定量的组织方法加以补充,将有助于激发其他人的正式荟萃分析(提示-对某人而言是一项不错的研究还是论文?)