文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

第 3 节智力的测量

发布于 2025-02-01 18:15:29 字数 8076 浏览 0 评论 0 收藏 0

智力是一种心理特性，不同于人们的身高、体重，看不见、摸不着，因而不能直接对其进行测量。但是，一个人智力的高低可以通过其行为活动表现出来，比如，完成任务的质量、取得的结果等来判断其智力的高低。如果一个学生每次在语文测验和英语测验中均能取得优秀的成绩，可以说该学生的语言智力较高；如果一个人无论与什么样的人相处，都能保持融洽的关系，就说他的人际智力较高。正是因为智力与人的行为活动之间的内在联系，使得间接测量智力成为了可能。

智力的测量是依据智力的理论和测量学理论，编制相应的测量工具、选择合适的测验方法来衡量一个人智力水平的高低的一种科学方法。主张不同的智力理论，其智力测量的工具与方法也是不同的。当前比较有影响力的智力测验量表均是依据传统的智力因素理论而编制的，因此，它们都偏重于个体的语言智力、逻辑—数理智力和空间智力等方面，更多反映的是认知分析能力，与人的学业成就关系较大，但不能反映人具有的其他潜能。

智力的测量可以分为不同的种类。依据测验同一时间施测的对象多寡不同，可以分为个别测验和团体测验；依据测验的内容不同，可以分为文字测验和非文字测验。

一、个别测验量表

1.比纳智力量表

世界上最早系统地测量人的智力的法国心理学家比纳（A.Binet）和医生西蒙（T.Simon），1905 年受法国教育部委托，为了便于按智力分班，他们研究缺陷儿童，并于同年编制了世界上第一个智力测验量表，被称为比纳—西蒙量表，这个量表共包括 30 个测验项目，适用于 3～11 岁的儿童。此后，比纳和西蒙不断对该量表进行修订与完善，相继出现了 1908 年和 1911 年版的比纳—西蒙量表。

比纳—西蒙量表问世后不久，美国斯坦福大学心理学家推孟（L.M.Terman）将量表引进美国，为了更适用于美国儿童，他于 1916 年第一次修订了比纳—西蒙量表，被称为斯坦福—比纳量表。该量表有 90 个测验项目，适用于 3～14 岁的儿童，每个年龄组有 5～6 个测验项目，每一个测验项目代表 2 个月龄。随着年龄的增加，测验项目的难度也增加。该量表的最大革新在于采用智商这一概念作为智力测量的指标。智商即被试的智力水平，它表示为智力年龄与实际年龄的比率，亦被称为比率智商，计算公式为：

其中，智力年龄取决于被试通过的测题数目及其所属的年龄水平。比率再乘以 100 是为了消除小数，没有实际意义。

此外，经过推孟和其他心理学家的进一步研究，斯坦福—比纳量表还有 1937 年、1960 年、1972 年以及 1986 年等多个修订版，成为当代应用广泛的智力测验。斯坦福—比纳量表还被翻译成多国语言，并结合自己实际，进行了修订。中国学者陆志韦 1924 年以 1916 年的斯坦福—比纳量表为基础修订了《中国比纳—西蒙智力测验》，1936 年又与吴天敏进行了第二次修订。1982 年，吴天敏再次修订，称为《中国比纳测验》，该测验共 51 个项目，每岁 3 个项目，适用于 2～18 岁被试。

比纳智力量表开创了智力测验的先河，能反映个体总的智力水平。但是，智力不是一种单一的能力，它没能够反映个体智力的不同侧面。比纳智力量表最早采用了比率智商用来度量个体的智力水平，但是，比率智商有个缺陷：当个体的实际年龄在逐年增加时，而他的智力发展到一定阶段却可能稳定在某个水平上，这时，就会出现人的智商随着年龄不断下降的情况，这与智力发展的实际情况不一致，比率智商尤其不适用于成人和老年人。

2.韦克斯勒智力量表

斯坦福—比纳智力量表是对个体智力状况的综合测量，不能反映个体在特定智力结构成分上的得分。现实生活中，往往一个人智力的各个成分之间的发展不均衡。有的人可能在智力的某一成分上有较突出的表现，而在另一些成分上表现较差；有的人可能相反，尽管他们的总的智力水平相当，却有着不同的能力优势。因此，为了能更具体和真实地反映一个人的智力状况，韦克斯勒（D.Wechsler）于 1939 年编制了一套韦克斯勒—贝勒维智力量表，用于测量 16～60 岁的成人，而后他又分别编制了三套智力量表：韦克斯勒儿童智力量表（WISC）（1949）及其修订本（WISC-R）（1974），适用于 6～16 岁儿童；韦克斯勒成人智力量表（WAIS）（1955）及其修订本（WAIS-R）（1981）适用于 16 岁以上成人；韦克斯勒学前和初小儿童智力量表（WPPSI）（1967），适用于 4～6.5 岁儿童。韦克斯勒的各套智力量表之间有着诸多一致性，每套量表均包含两大分量表，即言语量表和操作量表，而每个分量表包含 5～6 个项目类别，而且它们的项目类别大同小异，当然，项目内容的难度不同。

1981 年版的韦克斯勒成人智力量表（WAIS-R）包含 11 个项目类别，其中，言语量表包含 6 个项目，即常识、理解、心算、类同（两物相似）、背数和词汇；操作量表包含 5 个项目，即图像组合、填图、图片排序、积木拼图和译码。具体如下：

（1）常识

包括 33 个一般性知识的测题，测题的内容很广，例如“谁发现了美洲”“某个国家的首都在什么地方”等。韦克斯勒认为，人们在日常社会生活中接触到常识的机会应基本相同，但由于智力水平不同，每人所掌握的知识就有所不同。智力越高，兴趣越广泛，好奇心越强，所获得的知识就越多。常识也可以反映长时记忆的状况。常识还与早期疾病有关，自幼患病，会减少人们同外界接触的机会，获得的常识就较少。有情绪问题的被试，常表现出对常识分量的夸大和贻误，因而常识测验具有临床的意义。常识测验能够测量智力的一般因素，容易与被试建立合作关系，不易引起被试的紧张和厌恶，通常将此测验安排为第一分测验。常识测验的缺点是容易受文化背景和被试熟悉程度的影响。

（2）理解

包括 18 个测题，主试把每个问题呈现给被试，要求他说明每种情境。例如，“如果你在路上拾到一封贴上邮票、写有地址但尚未寄出的信，你应该怎么办？”理解测验主要测量实际知识、社会适应能力和组织信息的能力，能反映被试对于社会价值观念、风俗、伦理道德是否理解和适应，在临床上能够鉴别脑器质性障碍的患者。该测验能较好地反映智力的一般因素，与常识测验相比，受文化教育的影响较小。缺点是评分标准难以统一掌握。

（3）心算

包括 15 个测题，被试在解答测题时，不能使用笔和纸，而只能用心算来解答。算术测验主要测量最基本的数理知识以及数学思维能力。该测验能够较快地测量被试运用数字的技巧，缺点是容易产生焦虑和紧张，且易受性别影响。

（4）类同（两物相似）

包括 14 组成对的词汇，要求被试概括每一对词义相似的地方在哪里。例如，“桌子和椅子在什么地方相似？”“树和狗在什么地方相似？”该测验主要测量逻辑思维能力、抽象思维能力、分析能力和概括能力。类同测验简便易行，评分不太困难。在临床上有鉴别脑器质性损害和精神分裂病方面的意义。

（5）背数

包括 14 个测题，主试读出一个 2～9 位的随机数字，要求被试顺背或倒背，两者分别进行。顺背从 3 位数字至 9 位数字，倒背从 2 位数字到 8 位数字。总分为顺背和倒背两者的加和。该测验主要测量瞬时记忆能力，但分数也受到注意广度和理解能力的影响。韦克斯勒认为，数字广度测验对智力较低者可以测其智力，而对智力较高者实际测量的是注意力，智力高者在该测验上得分不一定会高。数字广度测验能够较快地测验记忆力和注意力，不会引起被试较强的情绪反应，也不受文化教育程度的影响，且简便易行。但其可靠性较低，测验受偶然因素的影响较大，一定程度上能测量智力的一般因素。

（6）词汇

包括 37 个词汇，每个词汇写在一张词汇卡片上。通过视觉或听觉逐一呈现词汇，要求被试解释每个词汇的一般意义。例如，“美丽”是什么意思？“公主”是什么意思？词汇测验用来测量被试的词汇知识和其他与一般智力有关的能力。在临床上也有很大作用。韦克斯勒认为，生活在同一文化环境中的人基本上共同地接受这种文化。年龄大的人所接受的文化相对多一些；同年龄者中，智力较高者相对接受的较多；经历丰富、受教育程度高的人，接受的也多些。该测验与抽象概括能力也有关。研究表明，该测验是测量一般智力因素的最佳测验，可靠性也较高。缺点是评分较难，测试时间较长，受文化背景及教育程度影响较大，有些人仅凭记忆力好也能得到高分。

（7）图像组合

包括 4 个测题，把每套零散的图形拼板呈现给被试，要求他拼配成一个完整的物件。物体拼配测验主要测量思维能力、工作习惯、注意力、持久力和视觉综合能力。该测验与其他分测验的相关性相对较低，但在临床上可以测出被试的知觉类型及其对尝试错误方法的依赖程度。该测验任务单纯，但可靠性较低，施测时间较长。

（8）填图

包括 27 张图片，每张图上都有意缺少一个主要的部分，要求被试在规定的 20 秒钟内，指出每张图上缺少了什么。该测验用来测量视觉敏锐性、记忆和细节注意能力。韦克斯勒认为，人们在心理发展过程中对所接触的日常事物形成完整的印象，这对于人们适应外界环境是十分重要的。图画补缺测验比较容易完成，被试感到有趣。该测验能够测量智力的一般因素，在临床上也有意义。具有病态观念的患者往往将自己的思想投射到测验中去；智力落后患者填图的成绩很差。该测验的缺点是易受个人经验、生长环境的影响。

（9）图片排序

包括 10 套图片，每套由 3～5 张图片组成。在每道题中，主试呈示一套次序打乱了的图片，要求被试按照图片内容的事件顺序，把图片重新排列起来，使它们成为一个有意义的故事，该测验用来测量被试的广泛的分析综合能力、观察因果关系的能力、社会计划性、预期力和幽默感等。它测量智力一般因素的程度属中等。被试对测验有兴趣，可用于各种文化背景的人士，在临床上还具有投射测验的作用，但易受视觉敏锐性的影响。

（10）积木拼图

包括 10 个测题，要求被试用 4 块或 9 块积木，按照图案卡片来照样排列积木。每块积木两面为红色，两面为白色，另两面为红白各半。积木图案测验用来测量视知觉和分析能力、空间定向能力及视觉－运动综合协调能力，它与操作量表的总分和整个测验的总分的相关均很高，因此，被认为是最好的操作测验。该测验效度很高，在临床上能帮助诊断知觉障碍、分心、老年衰退等症状。比较而言，该测验受文化影响较少。缺点是手指技巧有时可能会提高分数。

（11）译码

共有 93 对数字符号，要求被试在规定时限内，依据规定的数字符号关系，在数字下部填入相应的符号。该测验主要测量注意力、简单感觉运动的持久力、建立新联系的能力和速度。该测验评分快速，不大受文化背景的影响。缺点是不能很好地测量智力的一般因素。

韦克斯勒量表相对完整地反映了个体的智力实况，不仅能反映出个体的综合智力状况，还能具体反映个体智力的不同侧面：言语能力及其各个成分的水平和操作能力及其各个成分的水平。因此，它能够促使个体对自身智力的认识更加清晰，也为家庭教育和学校教育提供了一定的依据，能更好地做到因材施教。

韦克斯勒的贡献还在于，他革新了智商的计算方法，首次提出了“离差智商”的概念。离差智商是采用统计学上标准差的观念来表示智商的高低，他提出离差智商的依据是，人的智力测验的分数是按常态分布的，大多数人的智力处于平均水平，离平均数越远，其人数分布越少，即智力绝对高和绝对低的人在人群中比例很少。因此，他把智力测验结果的原始分数转换成标准分数，假设人的平均智商分数为 100、智商分布的标准差为 15。

即：离差智商=100+15Z（Z为标准分数）

其中，X表示个体的测验分数；M表示团体的平均分数；SD表示团体分数的标准差。这样，就可以根据测验结果来推算个体的智商在群体中居于什么位置。例如，某个年龄组的平均测验分数为 70 分，标准差为 10 分。甲生测验得 80 分，代入公式计算得到，他的标准分数为 1（即+1σ），离差智商是 115，说明他的智力比 84%的同龄人要高，见图 11-3。

图 11-3 离差智商的正态分布

相对于比率智商而言，离差智商有其特殊的优越性。但是，离差智商代表的是个体智力的相对水平，即相对于特定群体，其所处的位置，而并非个体智力的绝对水平。比如，一个人可能在 85 岁和 25 岁时，其离差智商都是 110，但是，他 85 岁时的绝对智力一般要比 25 岁的绝对智力低些。

二、团体智力测验量表

1.瑞文推理测验

瑞文推理测验简称瑞文测验，是由英国心理学家瑞文（J.C.Raven）于 1938 年设计的一种非文字智力测验，主要通过图形的辨别、组合、系列关系等测量人的智力水平，主要测量个体解决问题的能力、观察力、思维能力、发现和利用自己所需的信息及适应社会生活的能力。瑞文测验具有跨语言、跨文化应用的优势，是目前国际上非常流行的智力水平测量量表之一。瑞文测验发展到现在，共有标准型（SPM）、彩色型（CPM）、高级型（APM）和联合型（CRT）四种形式。

（1）标准型

瑞文标准推理测验于 1938 年编制，之后有多次修订，最新版本为 1996 年版，适用于 5.5～70 岁以上智力正常的个体。该测验共分成 A、B、C、D、E 五组，其难度逐渐增加，每组都有一定的主题，题目的类型略有不同。从直观上看，A 组主要测知觉辨别力，图形比较，图形想象力等；B 组主要测类同比较，图形组合等；C 组主要测比较推理和图形组合；D 组主要测系列关系、图形套合、比拟等；E 组主要测互换、交错等抽象推理能力。可见，各组要求的思维操作水平也是不同的。测验通过评价被测者这些思维活动来研究他的智力活动能力。每一组中包含有 12 道题目，也按逐渐增加难度的方式排列。每个题目由一幅缺少一小部分的大图案和作为选项的 6～8 张小图片组成。测验中要求被测者根据大图案内图形间的某种关系——这正是需要被测者去思考，去发现的，看小图片中的哪一张填入（在头脑中想象）大图案中缺少的部分最合适，主要用于智力的了解和筛选。见图 11-4。

图 11-4 瑞文标准推理测验

（2）彩色型

瑞文彩色推理测验于 1947 年编制，最新版本为 1990 年版，它是为了适应测量幼儿、80 岁以上老人及智力低下者而设计的。将原有黑白标准型的 A、B 两个单元加上彩色，再插入一个彩色的 AB 单元，共 3 个单元 36 道题。见图 11-5。

图 11-5 瑞文彩色推理测验之样例

（3）高级型

瑞文高级推理测验于 1947 年编制，最新版本为 1994 年版，适用于智力超常的青少年和成人。见图 11-6。

图 11-6 瑞文高级推理测验之样例

（4）联合型

瑞文联合推理测验是由标准型和彩色型联合而成，包含六个单元，前三个单元为彩色，后三个单元为黑白色，适用于 5～75 岁的个体。

由于瑞文推理测验是非文字测验，它不受文化、种族、语言及生理缺陷等因素的限制，其施测方法简便，既可个别测量，又可团体测量，而且结果简单、直观。所以，瑞文推理测验是一种公认的较为有效的智力测验。许多国家对其进行翻译和修订，在世界各国被广泛运用。我国于 1985 年在张厚粲教授的主持下对瑞文标准推理测验进行了修订，不过，当时的被试仅包含城市人口。在 1987 年，华东师大心理系李丹教授等人对瑞文推理测验联合型进行了修订。

2.陆军甲种测验和乙种测验

第一次世界大战期间，为了迅速且有效地选拔士兵和军官，当时的美国心理学会主席耶克斯（R.M.Yerks）及桑代克（E.L.Thorndike）等人将欧提斯（A.S.Otis）尝试性编制的团体智力测验运用于军队，修订后即成为陆军甲种测验，这是第一个团体智力测验。它包括 8 个分测验，即指使测验、算术测验、常识测验、异同测验、语句重组并辨真假测验、填数测验、类比测验和句子填充测验。

陆军乙种测验是为母语为非英语及文盲编制的非文字测验，是适用于军队的团体智力测验。它包括 7 个分测验，即迷津、立方体分析、补足数列、数目符号、树字校对、图画补缺和几何分析。

陆军甲种测验和乙种测验在当时对战争的贡献颇大，从 1917 年 9 月到 1919 年 1 月，其受测人数超过 170 万人。但是，目前这两种测验已经很少再被运用，现在美国军队采用军队资格测验（简称 AFQT）来选拔军人和分兵种。

除了上述团体智力测验外，还有不少被广泛运用的团体智力测验，其中较有名的是 1994 年版的美国的学业能力测验（SAT）和 1989 年版的美国院校测验（ACT），美国大多数高等教育机构都要求其申请者通过其中一种测验，作为选拔的参考标准。此外，我国的高考和国家公务员考试等在某种程度上也算是团体智力测验，它们在一定程度反映了人的智力的某些方面，尤其是言语能力和数理—逻辑能力。

分享到QQ

分享到微博