焦点期刊
投稿咨询

著作编辑 著作编辑

咨询邮箱:1117599@qq.com

论文知识

实证研究论文下载量和引用量更高

时间:2021-12-06 09:09 所属分类:论文知识 点击次数:

  随着政策、期刊和方法扩散等现实主义因素的推动,教育实证研究持续扩张。但与此同时,对教育实证研究的批评也随之增加。围绕教育实证研究是否提升了中国教育研究的整体水平,支持者与批评者分别站在各自的立场上表述了看法,但尚未以因果实证分析的形式探讨教育实证研究对中国教育研究产生了什么效果,本研究希望基于实证研究的范式场域和话语阐释,以实证研究的方式对此问题进等探讨。

  一、研究基础

  (一)对中国教育实证研究的探讨和阐述

  早在1990年前后,就有研究者对教育实证研究进行理论探讨并为教育实证研究的扩张表示支持。2006年之前,由于教育实证研究在教育研究成果中的数量/占比并不高(样本同期占比7.07%),该类阐述数量较少。按照论述内容主要分为两类,分别是对教育实证论文数量占比的阐述和对教育实证研究理论基础的阐述,后者主要是从历史发展,教育研究哲学取向与科学取向的分化和整合以及从实证内部类别的辨析角度出发进行论述,但最终仍落脚于对教育实证研究的鼓励和提倡。在2006-2014年,伴随着教育实证研究数量/占比的快速增加,不可避免地导致中低水平的教育实证研究数量占比增加(参见结论部分),针对这些教育实证研究缺陷的理论研究持续涌现。除了对中外教育研究领域中实证研究的数量/占比进行的分析阐释附。那以外,围绕教育实证研究的批判性理论思辨研究也呈现了更多的内容分化包括探讨走中立路线的混合研究方法、从方法论视角看实证研究、顷从知识形态与教育学科科学化的视角谈实证研究的地位,从对思辨研究阐释的立场谈对实证研究的看法、和通过对实证研究的辨析谈对实证研究的展望。2014年至今,特别是在华东师范大学召开教育实证研究论坛之后,围绕教育实证研究的成果快速增加,对其进行的理论阐述也继续维持了内容多元化。对教育实证研究始终表示支持的数量/占比阐述型研究向中外比较的方向发展,希冀通过对外国趋势的分析佐证中国教育实证研究的未来发展路径。除此以外,围绕实证研究的理论思辨阐述在内容方面也发生了转向。针对教育学科独立性与科学化进程和知识积累中教育实证研究作用的理论探讨成为最热点的研究主题,除此之外,还有教育实证研究的角色定位分析、范式视角与方法论视角分析、对照思辨与规范研究阐述实证研究,和从教育实证研究发展历程展望未来路径等。总体来看,伴随教育实证研究数量/占比增长,对教育实证研究的鼓励提倡和辨析批评共同存在,呈现出结构性批评和中性态度,强调人文阐释和科学解释的统一,从探讨起源转向了探讨当下时代背景中教育实证研究的角色和作用。

  (二)影响研究质量和影响力的研究范式特征及其他因素

  现有针对研究范式特征进行探讨的诸多文献,绝大部分以“数量/占比”的变动为基础构建研究,如经济学和管理学等。其中教育学领域也有一些研究成果(如前所述对教育研究全领域和分支领域的统计分析),但鲜有研究探讨研究范式对质量和影响力的因果效应。例如约翰斯通(Johnston)分析了美国经济评论AER,认为实证研究引用量较非实证研究多0.4次/年;安东纳基斯(Antonakis)基于领导力季刊LQ,认为定量研究明显在引用量上优于定性研究和模拟计算研究;周翼翔基于中国大陆五本顶尖经济学期刊,认为实证研究较非实证研究拥有44.6%的显著引用量优势。除了研究范式以外,还有其他因素会影响研究的影响力和质量。

  (三) 文献评述与研究创新

  回顾前述过往研究,有三点局限性:(1)支持实证研究和反对实证研究的研究成果以理论阐释和思辨探讨居多。特别是实证支持者在面对来自非实证研究的批评声音时,利用对方的话语阐释体系和研究范式回应批评和表达支持。这些阐述夯实了教育实证研究的理论基础,但其本身并不够“实证”。笔者并非实证原教旨主义者,但笔者认为应当利用实证范式的话语阐述体系,利用实证研究的证据基础和分析框架,以实证研究的方式予以证明,贯彻实证研究的主张和立场。(2)目前已经有研究成果通过描述统计表示对教育实证研究支持,但这些研究未能贯彻因果实证分析,实证研究的数量只是实证性的“果”,而不是“因”。在因果分析框架下,按照现实逻辑推论,先有“实证研究好”这个“因”,才会有“实证研究数量/占比增加”这个“果”,并不能用其被发现的先后顺序扭转其逻辑顺序。(3)跳出教育研究领域,其他研究领域中的实证结果显示实证研究引用量(质量)优于非实证研究,但下载量和教育研究领域分布尚无人探讨。综合上述三点原因,可以说针对教育实证研究的理论思辨研究,夯实了教育实证研究的理论基础,明晰了支持教育实证研究在理论方面的“因”与“果”既然实证研究主张基于事实与证据的研究,那么对实证研究在“因”方面的支持,应当存在事实证据支持教育实证研究“为什么好”,而不仅仅只是在理论思辨方面支持“为什么好”本研究在于解决如何站在实证立场、以实证角度、通过实证方式阐述“教育实证研究优于教育非实证研究表现及其原因”

  (四) 机制分析和研究假说与假设

  自从诺贝尔经济学奖桂冠学者加里•斯坦利•贝克(Gary Stanley Becker)教授利用经济学分析方法解释婚姻与家庭决策之后,经济学的“成本-收益(Cost-Benefit)”机制框架就被广泛运于阐释很多看似与经济无关的社会和文化问题。我们将学术期刊决定是否录用一篇教育学术研究成果视作在未来的不确定情境,对“成本-收益”进行衡量后,追求“低成本-高收益”的理性决策行为。

  我们假设存在一个由学术知识生产市场与学术知识消费市场构成的学术知识市场,其以学术知识产品作为驱动物品和价值载体,包含了成本与收益的流动(见图1)。上游知识生产者为下游知识生产者/学术知识生产中间商支付了生产成本∑ζI ,后者为前者支付了消费成本∑φI ;下游知识生产者/学术知识生产中间商为知识消费者支付了生产成本∑ ζII ,后者为前者支付了消费成本∑II 。对于收益,生产者有自己对效用的主观判断,即期望收益∑φ-I ,并且学术研究消费者通过自己的消费行为(下载与引用)为知识生产者提供了实际收益∑φ-II 。在这一框架下,可以对期望收益和实际收益之间存在的差异进行逻辑推理。

  本研究借鉴房地产领域的特征价格模型(又称Hedonic模型法[51)] 的思路,将每篇学术研究成果(学术知识产品)视为包含 δ 项内部特征∑ΠI(例如实证与否即是一项内部特征)和 λ项外部特征∑ΠII 的组合体∑Π,且内外部特征项组合∑Π彼此不同,学术知识市场中包含Ψ个知识产品,则有Ψ个内外特征项互不相同的组合∑Π。每个知识产品组合∑Π的期望收益∑φI 和实际收益∑φII 是内外部特征的函数。由于每个知识产品都具有独特的内外特征项组合∑Π,因此也对应着独特的期望收益函数 FI和实际收益函数FII。每个知识产品均对应于一个“学术研究作者+学术研究期刊”的知识产品生产者(组合),后者对前者具有唯一对应的期望收益函数 FI,全市场具有 Ψ个知识产品,对应于至多 Ψ个生产者及其生成的对应Ψ个期望收益函数FI1…FIΨ;全市场共有对内外部项特征存在高度异质性偏好的 Γ 个知识产品消费者,每个消费者所具有的偏好可以对至多 Ψ个知识产品生成 Ψ 个实际收益函数 FII1…FIIΨ,则学术知识市场中至多存在 Ψ*Γ 个实际收益函数 FII。考虑到生产者对知识产品内外特征项的偏好与消费者并不相同,因此对应于同一个知识产品的一个期望收益函数 FI与 Γ 个实际收益函数 FII存在差异(参数组合不同),进而引发期望收益∑φI 与实际收益∑φII 的差异。如果∑φI >∑φII 则表示收益亏损,反之∑ φI <∑φII 则是超额收益。作为学术知识生产中间商和理性决策者的学术研究期刊需要通过衡量学术知识消费市场的收益情况判断知识产品的期望收益∑φI 是否满足自己的要求,以调整自己在学术知识生产市场的“生产-消费”环节中的行为。学术知识生产者(特别是学术研究期刊)需要承担可能会出现的“潜在亏损风险”,即实际收益∑φII 低于期望收益∑φI ,因此学术研究期刊会根据待刊研究成果的内外部特征(∑ΠI ,∑ΠII )对期望收益∑φI 进行推算(毕竟待刊研究成果在刊印前无法得知实际收益∑ φII),以做出符合自身利益的理性决策。基于前述对期望收益和实际收益的逻辑推理和数学推导,笔者认为包含实证特征的实证研究之所以较不包含实证特征的非实证研究受到学术研究期刊和学术研究作者的更多青睐,不仅仅因为在理论思辨方面阐述实证研究好,更因为受到了现实因素驱动。从本研究的角度来看,实证研究的实证特征比非实证研究的非实证特征具有更高的下载量和引用量优势,符合学术知识生产者作为决策主体追求“低成本-高收益”的理性决策偏好,因而受到了其青睐。基于前述内容,我们围绕“成本-收益”机制框架提出一条核心研究假说:“实证研究之所以较非实证研究受到青睐是因为其在影响力和质量方面优于非实证研究”,并且分别从定量研究和定性研究的立场回答作为“表”的“是什么”(怎样的优劣势)和作为“里”的“为什么”(形成优劣势的原因)。基于上述阐述,可以对定量效应、定性效应和混合效应做出定义。考虑到前述学术知识产品(即学术研究)的内容,每篇学术论文是包含δ项内部特征∑ΠI 和λ项外部特征∑ΠII 的组合体∑Π,研究范式就是一项内部特征。在统计模型中,通过控制其他变量对影响力和质量的效应量可以探究研究范式这一特征的效应(提供了天然的工具),同时在变量设计中,以非实证研究特征作为基准,定量、定性和混合实证特征相对非实证研究特征在影响力和质量方面的相对优劣势(正负值)就是“定量效应、定性效应和混合效应”。在前述逻辑推理、数学推导、研究假说和效应定义的基础上,结合三类实证分类与影响力和质量两个维度就产生了一条核心研究假说,即 “教育的定量/定性/混合实证研究的定量/定性/混合实证特征在影响力/质量方面并不显著弱于非实证教育研究的非实证特征”以及产生六条研究假设:H1:影响力定量实证效应不为显著负值;H2:质量定量实证效应不显著为负;H3:影响力定性实证效应不显著为负;H4质量定性实证效应不显著为负;H5:影响力混合实证效应不显著为负;H6:质量混合实证效应不显著为负。

  二、实证数据与实证方法

  在探讨教育实证研究对教育学术研究的影响力和质量产生了何种效应之前,有必要对实证研究的关键特征进行识别。基于本研究的主题和过往文献对教育研究类型的探讨,考虑到实证研究也包含人文阐释与科学解释,具有理论性、阐释性和思辨性内容。我们围绕实证研究设定了两条认定标准(除实证研究以外即是非实证研究):(1)研究基于证据开展,且基于证据的讨论应构成全文的主要部分;(2)使用广义的实证研究定义,将定量研究、质性研究与混合研究纳入实证研究中,避免陷入“统计实证主义”窠臼。基于上述考虑将研究范式这一关键变量分为四类。

  (一)研究数据

  我们首先以2001-2019年的任意一年曾入选南大CSSCI目录、北大核心、中国社科院AMI报告和中国知网影响因子年报的教育研究学术期刊作为总体;然后以刊印内容、刊载文体和发行时间为标准,人工筛选样本期刊180本;最后使用Python爬虫在2020年年中抓取了1031253篇文献的数据,人工筛选后将剩余数据作为分析样本,共计923901篇(见表2)在对实证研究界定的基础上进行机器学习处理。步骤为:(1)预处理。在22个“时段*目录”板块中按比例抽取了10万篇学术研究,结合多种特征进行手工分类,并生成可供训练机器学习模型所用的数据。(2)在Python环境中利用数据训练模型。利用传统机器学习模型和深度学习模型两条技术路线的13项(6+7)技术进行操作。(3)调参校正。在剩余样本中再分层抽取10万篇进行手工分类,将机器学习模型的分类结果与手工分类结果进行对照,并对照9项相关评价指标反复训练模型以求尽可能提升机器学习分类结果与手工分类结果的匹配度。(4)以20 万篇学术研究的数据作为训练样本完善机器学习模型,并在此基础上根据对剩余的全部样本进行文本分类(范式识别)。(5)统计多个机器学习模型给剩余样本的每项研究提供的多个文本分类标签,使每项研究获得唯一的研究范式标签(如果一项研究未能获得明显多数的同类标签,则进行人工判定)。下载量和引用量是被广泛用于评估学术研究水平的基础性指标,特别是后者被普遍认为能够反映学术研究水平。这两项指标各有侧重又互有联系并且存在中等程度的相关性,且反映了学术知识消费者视角中的公允价值(Fair Value)和学术知识消费市场中的价值发现功能。本研究以自然对数转换的下载量和引用量作为衡量学术研究质量和影响力的代理变量和被解释变量。除此以外,基于多项模型分解和变量识别指标,将除研究范式以外影响学术研究质量和影响力的因素也纳入到回归模型中,包含连续型变量 14 个(含平方值)和类别型变量 13个,后者以因子变量的方式作为固定效应项纳入到回归模型中。

  (二)研究方法

  1.基准回归模型和稳健性检验模型

  将下载量和引用量作为被解释变量,以范式特征作为关键解释变量(以非实证特征作为基准),以其他可能对影响力和质量存在效应的诸多因素作为控制变量,通过对范式特征变量的系数进行计算的方式来考察实证效应。由于同期刊发的研究成果可能会受到共同的未观测因素(如选题方针和编辑偏好等因素)的影响而存在扰动项自相关特征,我们通过构建“期刊*年份*月份”交互项,对其施加聚类稳健标准误差和将其作为固定效应项纳入回归方程中来处理这一问题。经过转换后,被解释变量中的一部分数据为零值(特别是对数转化的引用量中有33.15% 的 306264 条观测为零值),可以将其视为在零点出现截断,因此我们使用Tobit模型作为基准回归 OLS模型设定及其结果的稳健性检验,通过将左侧截断极大似然估计 MLE 和最小二乘法 OLS 的结果进行比较来确认基准模型结果的稳健性。

  2.中介效应模型

  从现实逻辑的角度出发进行推理,可以认为引用行为发生在下载行为之后,因此可认为各变量对质量的总效应包含了影响力的中介作用。基于Baron-Kenny 中介效应框架与逐步法及其约束条件的修正,本研究使用 Karlson-Holm-Breen 算法估算中介效应,相比被广泛使用的 Sobel-Goodman 中介效应算法,KHB 算法面向广义线性模型,不仅可以纳入因子变量符,还可以使用聚类稳健标准误差,满足本研究的需要。KHB 法与传统的逐步法在线性模型的中介效应/间接效应算法步骤方面存在差别,但最终的效应阐释方式相同,即如果直接效应与中介效应同号,则属于中介效应,报告中介效应占总效应比例;如果双方异号,则属于遮掩效应,报告间接效应与直接效应比例的绝对值。考虑到 Sobel-Z 统计量在分布与置信区间的缺陷,本表格数据均经过Bootstrap 自举算法 10000次验证以有效克服前者的缺陷并保证统计结果有效性。

  3.条件分位数模型

  考虑到作为被解释变量的影响力和质量呈现明显的有偏分布,高分位和低分位的差别很大,具有明显的异质性,即对于相同“时段*目录”板块内不同质量和影响力的学术研究有不同的实证效应。因此我们使用聚类稳健标准误差的分位数回归模型考察不同分位数的影响力和质量中的三类实证效应。类似于基准回归模型的最小二乘法OLS通过被解释变量的条件均值建模,再利用最小化残差平方和得到系数向量,分位数回归通过分位数建模,并以最小化加权的残差绝对值来获得最优解(三类实证特征在特定分位数的影响力和质量产生的边际效应),距离目标分位数远近与权重成反比。在本研究中,除了使用该分位数回归模型作为基准以外,每项基准模型的结果会使用条件分位数回归模型 CQR Bootstrap自举抽样分位数回归迭代 10000 次、广义分位数回归 GQR 和分位数截尾回归 CQIV 作为稳健性检验,以保证结果的稳健性。

  4.质性分析

  考虑到定量分析的局限性,主要是基于可量化的研究特征阐释研究范式对影响力和质量的影响,站在“知识消费者”的立场,回答了“实证研究是否在影响力和质量方面显著弱于非实证研究”的问题,在回答这一“是什么”问题的基础上,针对产生这一情况的原因探究(即“为什么”),本研究使用质性分析,分别站在学术研究期刊编辑人员、审稿人员和学术研究作者与读者立场上讨论“为什么实证研究在影响力和质量方面显著优于(弱于)非实证研究”。通过对“是什么”问题的定量分析和对“为什么”问题的定性分析,试图由表及里深入完整地回答“实证研究之所以较非实证研究受到青睐是因为其在影响力和质量方面优于非实证研究”的核心研究假说及其相关研究假设。

  三、实证讨论:定量分析

  (一)描述统计与推断统计

  在讨论研究范式对教育研究的质量和影响力产生了什么效应之前,需要首先对数据情况进行描述分析,以夯实进行严谨计量实证分析的基石。

  根据总样本中实证研究占比为19.58%。从2001-2003年的5.36%增长至2016-2019年的 32.61%,占比增长了 4.73 倍,说明教育实证研究在我国教育研究领域已经出现了相当程度的扩张,同时该部分的结果与过往相关描述统计研究提供的人工统计结果类似,也说明了机器学习模型(尤其是深度学习模型)在文本分类任务中的可靠性。

  根据结果,定量实证、定性实证和混合实证在总样本中的数量/占比分别是60952/6.6%,113923/12.33%和5993/0.65%。在四本刊目中的数量占比分别是C刊13682/10.23%、16949/12.68%和1244/0.9%,C扩4314/9.24%、7051/15.10%和442/0.9%,北核15041/5%、34194/11.42%和1376/0.5%与普刊27915/6.29%、55729/12.55%和2931/0.66%。从早期到近期,三类实证研究在全样本中的数量/占比分别提升了814.67%/375.37%、1815.4%/836.05%和2175.82%/970%。分刊目来看数量/占比分别提升,C刊741%/531.49%、715.08%/512.37%和10.12%/721.05%,C扩243.70%/150.82%、305.88%/189.19%和181.25%/112.24%,北核1235.10%/386.05%、3026.21%/994.80%和3620%/1140%,普刊643.79%/353.41%、1760.3%/966.95%和2372.92%/1233.33%。尽管非实证研究依然保持了绝对数量的增长和较高的占比,但占比出现了显著下降,在四本刊目中从早期到近期的降幅分别达到33.79%、17.25%、25.11%和30.13%。

  从上述内容可见,定量研究和定性研究构成了实证研究的主要部分。早期,定量研究和定性研究的数量/占比差距较小,但伴随时间由远及近,差距持续拉大。近期,伴随着实证研究的数量扩张,除了C刊来源中双方数量/占比差距不大并且较前一时间段差距有所减小外,其他目录中定性研究的数量/占比明显高于定量研究,且持续扩大。分刊目来看,除了C刊来源中定量研究的数量较定性研究多出23.94%以外,在其他三个刊目中,定性研究的数量/占比均达到定量研究两倍左右。但如前文所述,数量/占比的提升只能作为实证研究较非实证研究更为优质的“果”,而非“因”,因此尚需进一步的计量实证分析对假说和假设进行验证。根据表3提供的数据,全样本和四本刊目中篇均下载量/篇均引用量分别是273.03/5.96、694.26/16.83、396.26/7.17、226.99/4.75和164.29/3.38,非参数Mann-Whitney U秩和检验的结果显示彼此之间存在显著差距。四类研究在全样本和四本刊目中的篇均下载量/篇均引用量分别是:全样本253.78/5.83、404.39/7.80、321.37/5.77和405.13/7.2,C刊644.04/16.81、903.17/17.51、812.18/16.46和900.31/16.61,C扩378.68/7.05、484.99/8.16、422.19/7.15和504.26/7.36,北核215.90/4.68、292.01/6.09、275.18/4.56和324.12/6.28以及普刊156.79/3.38、208.02/3.92、187.79/3.10和218.05/3.61。结合表3提供的分时段数据以及围绕三类实证研究相对非实证研究的非参数Mann-Whitney U秩和检验显示,三类实证研究在篇均下载量/篇均引用量方面显著领先于非实证研究。结合随时间远近发生的三类实证论文的数量/占比和篇均下载量/篇均引用量变动,可以发现定性研究和混合研究由早期分别在篇均下载量/篇均引用量方面领先于定量研究15.69%/57.77%和14.85%/79.14%转变为近期的落后于定量研究26.41%/16.02%和24.79%/25.34%。即便考虑到其中包含了“时间积累效应”尚需控制诸多变量进行更严谨的实证分析,也可以认为综合上述内容,研究假设H1-H6得到了初步验证,实证研究(定量、定性和混合)在影响力和质量方面并不显著弱于非实证研究。

  (二)基准回归OLS模型

  基于上述描述统计结果,接下来进行严谨的计量实证分析。表4的内容是控制其他因素后三类实证特征相对非实证特征在影响力和质量方面的相对优劣势。整体而言,尽管描述统计初步支持了假设H1-H6,但伴随实证研究占比的增长,三类实证在影响力/质量中的效应逐渐降低(大数定律的均值回归),甚至在2016-2019时段还出现了显著负值。可以认为将实证研究占比提升作为优化教育研究影响力和质量的抓手,其效果会伴随实证研究数量/占比增加而降低,因此迫切需要将实证研究的提倡导向从数量扩张转为质量提升的内涵式发展,才能更好地通过实证研究拉动教育研究的整体水平。

  基准模型OLS回归提供的结果显示,全样本中影响力/质量的三类实证效应分别是0.081/0.035、0.087/0.046和0.068/0.014。从早期2001-2003到近期2016-2019,影响力/质量的三类实证效应削减56%/102.02%、50%/54.24%和85.08%/111.25%。不仅定量、定性和混合实证效应出现了明显衰减,而且在近期还出现了显著的负值,表明定量实证特征、定性实证特征和混合实证特征在最近的时期相比非实证特征在影响力和质量上呈现了显著的劣势,对假设H1-H6的验证支持并不完美(3个统计量,占总体132的2.27%)。分刊目随时间由远及近来看影响力/质量中的三类实证效应波动:在C刊中的降幅分别是-6.41%/-71.43%、-86.67%/-113.92%和-101.93%/-133.45%;在C扩中的升降幅分别是137.84%/-55.14%、-92.24%/-116.41%和-60.71%/-300%;在北核中的升降幅分别是-79.91%/-94.34%、232%/68.97%和-102.78%/-101.32%;在普刊中的升降幅分别是-61.18%/-121.82%、-50.53%/9.68%和-75.09%/-106.06%。考虑到回归模型中包含了诸多控制变量,所以在控制其他变量的情况下,无论是对系数的描述统计还是似无相关检验&费舍尔组合检验,都能确认在大部分模型组中,伴随三类实证研究数量/占比的提升,影响力/质量的三类实证效应都出现了显著降低,而且后者相比前者受到的负面影响更大。就其本身而言,这种情况很符合统计规律,但似乎并不是实证研究支持者所希望看到的情况,不过这正是实证研究随着数量扩张而在内在的影响力和质量方面支付的“代价”。不过不同刊目中不同实证效应的趋势也有不同,对于定量实证效应,尽管对应的定量实证类别在四本刊目中的占比都持续攀升,但在C刊&C扩中的效应值降幅低于在北核&普刊中的效应值,如果后者期望学习前者通过定量实证拉升研究水平,则有待于强化定量实证研究成果的筛选。对于定性实证效应,尽管定性实证研究的数量/占比均高于定量实证研究,但对C刊&C扩效应值的负面影响显然大于北核&普刊,这可能由于后者本身关注度较低,降无可降,即便是较优质成果获得价值发现的机会也较少所导致,但也反衬出C刊&C扩中定性实证研究有待于进一步强化研究水平。对于混合实证效应,优秀的混合实证研究本就数量很少,因此数量上的边际增加对于混合实证效应的削减也很明显。

  在前述基准回归模型分析的基础上利用Tobit模型(极大似然估计MLE)进行了稳健性检验。通过对相应参数项的效应波幅进行比较可以观测基准模型结果的稳健性。在影响力/质量两方面,四本刊目的基准回归OLS模型/稳健性检验Tobit模型定量实证效应波幅比率(后者相对前者,下同)分别是230.23%/96%、56.41%/134.62%、115.93%/142.68%和109.62%/180.08%;定性实证效应波幅比率分别是100%/119.44%、114.27%/131.43%、109.09%/180.82%和99.15%/156.25%;混合实证效应波幅比率分别是101.35%/97.24%、100%/139.29%、114.29%/229.94%和105.56%/32.86%。结合前述Tobit模型的计算条件和零值在Ln下载和Ln引用的数量情况来看,可以认为Tobit模型提供的结果相对OLS模型的结果是稳健的(仅有1个统计量为显著负值,2016-2019+普刊+定量实证效应为-0.031**),因此OLS模型通过了稳健性检验,继续维持对研究假设H1-H6的验证,即绝大部分统计量显示影响力/质量的定量、定性和混合实证效应不为显著负值。

  (三)影响力的中介效应KHB模型

  基于B组中介效应模型的设计,表5提供了KHB中介效应算法的计算结果。将实证研究划分为定量研究、定性研究和混合研究,以求更深入的探究影响力在不同实证研究类型中所发挥的中介效应。整体来看,在“时段*目录”的66个效应量当中,有超过总数三分之二的46个效应量发挥了遮掩效应,其均值是682.14%,且影响力发挥的间接效应为正,对质量的直接效应为负,即在三类实证特征对质量的实证总效应(即相对非实证范式的优势)中,经由影响力发挥的间接效应是对质量直接效应的6.82倍,如此高的优势比,带动了引用量中定量、定性和混合总实证效应的提升。在剩余不足三分之一的20个效应量中,经影响力所发挥中介效应占质量总效应的67%。在三类实证效应的各22个中介效应量中,分别有14、17和15个效应量是遮掩效应,均值分别为270%、835%和893.54%,剩余的8、5和7个效应量是中介效应,均值分别是68.72%,83.23%和54.80%。影响力遮掩效应的强度是混合研究〉定性研究〉定量研究,影响力中介效应/间接效应的强度是定量研究〉混合研究〉定性研究。

  从遮掩效应与中介效应的结果来看,影响力是发挥学术知识消费市场“价值发现”作用的强力支撑。这首先表示实证研究存在一定程度的“叫好不叫座”现象,即影响力实证效应较质量实证效应更强,且质量实证效应的维持对影响力实证效应的依赖度很高,影响力实证效应未必能够充分转换为质量实证效应,但如果影响力实证效应缩小则会降低质量实证效应,有必要通过影响力扩张提升学术知识消费者对学术知识产品的质量认知。其次,“酒香也怕巷子深”对于教育研究学术期刊和学术研究作者而言,不仅需要提升学术研究的质量,还需吸引更多关注,这有助于学术知识消费市场发挥对学术研究的价值发现功能。考虑到实证研究在总样本中的占比变化,整体而言,如果期望保证实证研究相对非实证研究的影响力和质量优势,学术研究期刊和学术研究作者需要提升对实证研究的学术品味和要求,保证在现有占比水平下实证研究影响力和质量的进一步提升,由规模扩张为主转向内涵提升为主。

  (四)分位数回归模型

  基准模型组和对应的稳健性检验模型组分别采用了OLS模型和Tobit模型探讨了实证特征相对非实证特征在影响力和质量上的平均效应。但是,从描述统计的角度看,作为影响力和质量代理变量的下载量和引用量的标准差很大(分别是521.35和22.31),相对于平均值(272.87和5.96)而言,离散程度很高(1.91和3.74),反映了因变量数据存在很高的异质性。考虑到OLS的算法规则,实证效应及其三类子效应在平均化计算过程中受到了“中和”。从现实逻辑的层面来考虑,三类实证效应除了在各时段之间数值不同,在同一时段内部不同水平影响力和质量之间也存在不同。针对这一问题,本部分通过使用分位数回归模型对不同水平影响力和质量中的三类实证效应进行分析。表7中提供了分位数回归在10%和25%、45%和55%与75%和90%共6个分位数上的结果,以展示实证特征在各“时段*目录”板块内在低中高三个水平上影响力和质量的效应值。

  分刊目随时间由远及近来看表6结果,首先是影响力与质量中的定量实证效应在10%/90%分位数的趋势变动,C刊、C扩、北核和普刊中的升降幅(正负,下同)分别是-12.93%/-6.93%与>-1%/-135.62%、-22.22%/-5.61%与>-1%/-173.53%、-72.58%/-69.29%与>-1%/-123.97%和-59.83%/-30.73%与>-1%/-117.56%。伴随定量实证研究的数量/占比增长,影响力定量实证效应明显下降,且在低分位区间和北核&普刊的定量效应削减较高分位区间和C刊&C扩更多,表示数量增加对低水平研究的负面影响较高水平研究更明显;考虑到低分位区间普遍存在“零引用”状态,因此在这个区间内以更激进态度提升定量研究占比的C刊&C扩较北核&普刊承受了更大幅度的质量定量实证效应削弱。其次是定性实证效应,升降幅分别是-83.8%/-88.49%与>-1%/-123.3%、-61.58%/-70.65%与>-1%/-120.65%、-18.85%/-42.42%与>-1%/165.52%和-46.99%/-51.35%与>-1%/-145.05%,考虑到定性实证研究的数量/占比要高于定量实证研究,因此定性实证效应较定量实证效应明显减弱也是情理之中,且在高分位区间的降幅要高于在低分位区间。数量/占比的增加对质量定性效应的削弱是高分位区间降幅大于低分位区间,毕竟低分位区间本就引用量低下,降无可降。影响力和质量较C刊来源和扩展更低的北核/普刊中定性实证效应降幅大于C刊来源/扩展,可见本就质量较低的刊目受到的数量/占比提升的负面影响更大。最后是混合实证研究,升降幅分别是-96.44%/-95.03%与>-1%/-663.89%、-53.68%/-83.78%与>-1%/-163.03%、-121.03%/-121.59与1%/-109.93%和-75.56%/-85.97%与>-1%/-111.04%,考虑到四本刊目中混合实证研究的占比提升(尽管占比依然很低),但影响力混合实证效应降低甚多,说明这方面研究的水平仍然有待于提升。质量混合实证效应和影响力混合实证效应变动趋势类似,全面转负(仍不显著)。尽管混合实证研究的数量/占比远远低于定量实证研究和定性实证研究,但是其影响力和质量中的混合效应降幅甚大,学术期刊有必要对混合研究严格把关,以进一步提升混合实证效应。综合上述结果来看,数量/占比上升伴随着影响力和质量中定量、定性和混合实证效应的下降,尽管不存在显著负值,但考虑到混合实证效应在近期的非显著负值多于定量实证效应和定性实证效应,因此定量实证效应和定性实证效应对研究假设H1-H4的验证支持要略优于混合实证效应对研究假设H5和H6的验证支持。

  四、进一步讨论:质性分析

  本研究同时请访谈对象从各自立场谈一谈对“实证研究”的看法,探究不同立场人士对实证研究和非实证研究的看法,讨论“为什么实证研究在质量和影响力方面不弱于非实证研究”等问题,以期进一步对理论假说、研究假设和定量结果进行回应、修正和充实。

  (一)访谈计划与对象选择

  考虑到实证特征概念的复杂性,笔者分别邀请了学术研究期刊编辑人员、审稿人员和作者&读者进行了访谈,请他们从各自的立场上针对两个核心问题“你对包含实证特征的实证研究(或不包含该特征的非实证研究)的偏好(态度与行动)是怎样的?”和“你为什么会产生这种偏好(态度与行动)?”及其相关问题各抒己见,重点在于后一个问题,其衔接定量部分的“是什么”,回答其背后的“为什么”为保证访谈内容的真实性,笔者以立意抽样的方式选择与笔者熟悉的相关人士作为访谈对象。在访谈开始前,笔者会向作者透露定量研究部分的研究结果供访谈对象参考。在访谈中,以结构式访谈的方式获取访谈对象的基本信息,以半结构化方式获取访谈内容。

  访谈对象共计124人,其中学术研究期刊编辑人员18人,审稿人兼作者共32人,作者74人。

  (二)来自学术期刊编辑人员的观点

  编辑人员在认可实证研究价值的前提下,对实证研究的偏好存在差异,具体来说偏好受到了学术研究期刊品阶和定位、关注领域和所处学术环境的影响。

  第一,学术品阶和学术定位影响了他们对实证研究的偏好。学术品阶和学术定位越高的学术研究期刊对实证研究的筛选就越严格,品味也越挑剔,对实证研究的偏好就越偏向中性。例如作为被很多高校设置为教育学二级期刊的编辑人员.CSSCI-E1表示:“我们对实证研究抱以更开放的态度,但是依然坚持严格的录用标准。我们要求实证研究要在研究选题、理论基础和研究架构等方面做到相当好的程度才能录用刊发。”从这个角度来看,学术研究期刊将实证研究视作提升并维护自身学术品阶的重要抓手,伴随学术品阶的降低,对实证研究会越发“宽容”,但对于实证研究和非实证研究论文的优劣并未涉及,从期刊编辑的视角来看,生存的需求和实证研究可能带来的高下载量和高转引量之间形成了闭环,这与近年来教育学界提倡和推动实证研究不无关系。

  第二,关注领域影响了学术研究期刊对实证研究的偏好。各学术研究期刊关注领域的特色对学术期刊的实证偏好存在影响,考虑到教育研究属于人文社会学科,必然关涉“价值”,因此其各分支研究领域均含有非实证的色彩,但不同分支领域的研究范式偏好依然存在较大差异,这也影响了不同期刊对实证研究和非实证研究的态度。例如CSSCI-E2表示:“本刊主要关注教育经济与管理领域的研究成果,然而在我们看来,教育经济与管理这个学科也可以进行非实证研究,因此我们在刊发较多实证研究的同时也刊发高质量的非实证研究,例如对教育政策的辨析等内容。”学术研究期刊由于自身的研究领域偏好导致其对实证研究的态度存在差异,但其出发点均是为了维护期刊的定位和质量标准。同时,实证研究作为一种研究范式类型应该具有更多的内涵,保持其多元性和活力。

  第三,所处学术研究环境影响了学术研究期刊对实证研究的偏好。有诸多教育研究学术期刊是由高等学校或教育科研单位主办,为了体现本单位的学术研究取向和学术研究实力,学术研究期刊会刊发与本单位主流研究风格相近的学术研究。可以认为是刊物对实证研究的偏好会受到所处学术研究环境的影响。例如CSSCI-E3:,本刊由本校的教育学科单位负责编辑,考虑到本单位受到本校其他人文社科单位的研究风格所影响,实证研究风格更为强势,因此我们更偏好实证研究,尤其是定量实证研究。但近些年我们也在尝试纳入更多的非实证研究和非定量实证研究,当然还是以质量为优先考虑因素。”各学术研究期刊对实证研究的偏好,受到刊物所属单位研究氛围的影响,体现了学术研究期刊作为主办编辑单位学术研究阵地的特征,成为主办编辑单位对外发声、发扬学术研究风格、贯彻学术研究传统和发表学术研究观点的重要平台。

  综上所述,学术研究期刊出于自身特征选择了对实证研究的偏好,这种偏好虽然存在程度差异,但本质上表明大部分学术研究期刊对实证研究具有一定的“偏爱之心”,特别是高质量的实证研究成果。学术研究期刊的选择在客观上向受众呈现的是水平较高的实证研究成果,这在客观上提升了近些年教育实证研究的水平,带动了教育研究整体水平的提升。

  (三)来自审稿人员(兼作者)的观点

  考虑到学术研究期刊在选择审稿人员时会将待审稿件的风格与审稿人员的研究风格匹配,本研究也请从事该研究类型的审稿人从审稿人的角度谈对该类型研究的观点。总体来看,无论是否从事实证研究,“研究水平”始终是他们对稿件的第一要求,这超越了实证研究与非实证研究的分野,事实上这也是应当予以提倡的观点,即重视研究水平优先于重视范式。

  对于实证研究,主要从事实证研究的审稿人均表示对实证研究的支持,但是具体到每一篇文章则存在差别。具有代表性的观点例如RW-14:“我主做实证研究,但是我在审稿过程中发现很多实证研究只顾着做数据计算,文字阐述缺乏力度,例如对事实的洞察力和逻辑演绎的流畅,我会要求作者强化机制阐释和话语阐述。,这意味着实证研究内部也存在水平差异,审稿人会做择优处理。研究者要遵循实证研究的基本规范、熟悉应用实证研究的方法,同时也要具有一定的理论积淀、事实洞察和话语阐释能力,还要依托研究范式达成对教育问题的深度认知。在一定范围和程度上,实证研究水平的高低差异超越了范式差异,是建立在对教育问题的“见地”之上的。

  对于非实证研究,审稿人在表示支持以外,也对目前在对非实证研究审稿过程中发现的问题谈了自己的观点,认为这些问题限制了非实证研究在学术知识消费市场的价值发现。非实证研究存在的问题主要包含以下方面:第一,创新性不足,RW-21:“很多研究者就同一个问题反复进行讨论,把造新概念当成创新,对于这种稿件,即便是不违背学术伦理规范,我也会倾向于拒稿。”第二,文风浮夸,RW-25:“很多非实证研究盲目模仿某些知名学者的文风,但是又没那个阐述能力,辞藻华丽,内容空洞,包含很多片汤话,读起来云遮雾绕,实质上没有创新甚至没有营养。”第三,学术规范欠缺,RW-29:“定量研究规范方面的要求较多,满足了学术规范方面的要求,而很多非实证研究在学术规范方面做得就不够,我在审稿方面就很注重这一点。如果枉顾学术规范,将学术研究搞成文学创作,起码我是不能接受这一点的。”

  非实证研究存在的问题也正是科学研究所关注的关键问题:如何用适切的研究范式及其方法和话语体系对一个问题进行研究和阐释。在这方面实证研究存在一定的优势,这可能源于实证研究范式的规范性,但就像实证研究成果质量的高低和研究者自身的研究素质相关一样,非实证研究成果的不如意表现与研究者自身的素质也高度相关,因为非实证研究中逻辑推演对研究者自身要求极高,但这并不能说明非实证研究的范式特征不如实证研究的范式特征,因为人文社会学科中的实证范式形成和流行之前,非实证的研究范式对人类文明作出的贡献不可磨灭。与其说是围绕范式优劣的争论,不如说是对不同研究成果之间研究水平差异的争论。

  (四)来自作者(兼读者)的观点

  从作者/读者的角度来看,无论是否从事实证研究,访谈对象都表示实证研究和非实证研究均是支撑教育研究发展进步的重要支柱,不可偏废。在中性看法的前提下存在偏好差异,其背后有诸多原因。

  对于实证研究,从事实证研究的作者都表示了支持,从事非实证研究的作者表示了“现在的学术研究强调'问题意识’,研究范式、研究方法和话语阐述要与研究问题匹配,实证研究与非实证研究均有彼此擅长与不擅长的领域,各自安好即可”的中立态度。具体到每一本期刊和每一篇实证研究,他们的观点又存在明显差别,并且相较于定性研究,定量研究受到的批评更多。第一,文本结构不完整。W-53(实证研究,211高校博士生)表示“某些学术研究期刊似乎是将研究篇幅削减,这些期刊上发表的实证研究看起来结构并不完整,文献综述和讨论内容偏少,读着读着就没了,颇有意犹未尽之感,第二,违背研究伦理。RW-04(非实证研究,211高校讲师):“很多实证研究存在研究伦理问题,例如证据描述不充分、研究过程可靠性不足、研究结果无法重复、修改统计显著性等等。”第三,统计方法不适用,W-19(实证研究,985高校博士生):“一部分定量实证研究追求方法酷炫,表现出一种’技术至上主义的傲慢’,相对而言机制讨论和理论思辨成分薄弱,缺乏对现实问题的洞察”第四,简单问题复杂化和创新性不足。W-61(非实证研究,非211高校讲师):“一些实证研究,将简单问题复杂化,一些研究将前人已经研究过的问题又研究了一遍,我认为这体现了创新性不足。”第五,研究框架八股。W-47(非实证研究,11高校博士生):“很多实证研究按照固定的格式来写,我觉得这种做法限制了研究者的思维,不利于教育研究的创新。”

  上述关于实证研究的这些问题弱化了影响力和质量的实证效应,但这依然是实证研究在应用过程中的问题。本研究的核心主题是判断实证研究在事实上是否提升了教育研究的质量和影响力,而不是对实证研究影响的应然状态进行分析和澄清,这也再一次印证了本文的基本观点,即实证研究与非实证研究本质上不存在优劣之分,只有在具体研究中和具体使用者身上才会产生差异,因而在不断优化研究范式外,研究者也应不断提升自身的研究水平以产出更优质的成果。

  对于非实证研究。从事实证研究的论文作者中W-14(211高校讲师)的观点很有代表性,他表示:“非实证研究当然有自己的价值,高质量的定量研究也讲求’以理论思辨构建实证基础,以实证结果拓展理论思辨’,双方相辅相成,各有千秋。”在主要从事非实证研究的作者中,W-62(985高校博士生)表示:“非实证的教育研究自然有其存在的必要性,甚至可以说教育研究的根基在于非实证研究,实证研究是后来随时代发展从非实证研究中分化出来的。”可以看出,实证研究者和非实证研究者均对非实证研究的价值和存在必要性进行了肯定。除了对非实证研究表示认可以外,也有研究者对非实证研究表示了批评,主要集中在认为非实证研究难以理解和重复性高两方面,例如W-32(实证研究,211高校博士生):“某些非实证研究是神乎其神玄而又玄,恕我个人能力有限,实在是无法理解。”W-37(实证研究,985高校博士生):“很多非实证研究,用现在媒体圈子的术语来形容就是'洗稿’,把过往相关文献的论述用自己的方式先拆解再组装起来,在我看来其学术研究价值并不高。”有访谈对象在对定量和非实证研究进行批评的基础上,认为定性研究和混合研究整合了定量研究和思辨研究的优点,实现了“平衡”,应当是值得提倡的研究类型。

  由上述阐述可以看出,实证研究者和非实证研究者对对方研究类型的认知是理性的,对研究范式的批评本质是对低质量研究的批评。研究范式之争只能限定在问题适切性范围中,不能上升为对一种研究范式的质疑和攻击。但研究范式本身存在的问题也不可就此而忽略,不同研究范式之间除了要增加相互之间的认可外,彼此之间的对话更加重要,以相互学习的立场促进研究质量的提升。

  (五)总结

  上述定性材料的分析补充了很多量化数据所不能呈现的内容,对定量研究部分“是什么”背后的“为什么”予以解答。总体而言,实证研究在客观上优化了教育研究成果的影响力和质量,其作用不仅仅是因为实证研究自身的规范性,更多是因为其提升了学术研究期刊对研究成果的要求,学术研究期刊对实证研究的偏好和对非实证研究的坚持倒逼研究者不断提升方法应用的科学性和学术成果表达的规范性等教育实证研究的盛行不仅进一步提升了实证研究自身的整体水平,同时也给非实证研究者带来了挑战,倒逼他们在坚持思辨传统的同时强化研究过程和研究结果的规范性进而提升研究水平。通过访谈可以得出:实证研究虽然依然存在完善的空间,但其在客观上促进了实证研究的影响力和质量,同时也对非实证研究的影响力和质量提升起到了“诱导”作用。

  五、结论与建议

  (一)定量、定性和混合实证效应的变动趋势

  在描述统计中,随时间由远及近,定量、定性和混合三类实证研究的数量/占比快速提升。尽管有时间积累效应,然而在各“时段*目录”当中,三类实证研究的篇均下载量和篇均引用量均在1%的显著性上高于非实证研究,初步支持了研究假设H1-H6。在进一步的回归分析中,C刊、C扩、北核和普刊中的绝大部分效应量结果支持研究假设H1-H6。在KHB中介效应模型组中,质量三类实证效应的维持依然需要影响力三类实证效应的支撑。在分位数条件模型组中,实证效应整体呈现下降趋势,并且从早期的低分位区间效应好于高分位区间效应转变为近期的低分位区间效应差于高分位区间效应。实证研究占比增长导致的实证效应下降值得学术研究期刊和学术研究人员关注。

  (二)对研究假说和研究假设的验证

  对于研究假说“实证研究之所以较非实证研究受到青睐是因为其在影响力(下载量)和质量(引用量)方面优于非实证研究”及其衍生的六条研究假设。首先是定量研究探讨了“是什么”的问题,随后的定性研究部分探讨了“为什么”的问题。定量和定性部分的讨论相结合,由表及里由浅入深地对研究假说研究假设进行了验证。在定量分析部分,对于具有实证特征的实证研究,实证研究占比从早期的5.36%增长至近期的32.61%,占比增长了4.73倍,诸多回归模型给出的绝大多数效应量支持了研究假设H1-H6。在定性分析部分,访谈对象从各自立场谈了哪些因素导致了实证研究比非实证研究更受青睐,包括学术规范、创新性、研究风格等,但这些特征是一体两面,不仅是对相对优势的“支撑”,而且也是对相对优势的“约束”通过定量研究的“表”与定性研究的“里”的内容相结合,对研究假说和研究假设进行了综合的验证。

  (三)实证研究为扩张支付的代价

  根据前述分析,在三类实证研究的数量/占比提升过程中,影响力和质量维度的三类实证效应都呈现了明显的下降,这正是三类实证研究为实现数量/占比扩展所支付的“代价”对于定量实证研究,随时间由远及近,75%-100%高位区间和0%-25%低位区间的占比增幅在不同目录中的变化分别显示,在过去20年实证研究扩张的背景下,定量实证研究在C刊和C扩中的高位区间占比增幅快于低位区间占比增幅,而在北核和普刊中无如此增幅;定性实证研究和混合实证研究在全目录中均是高位区间占比增幅慢于低位区间占比增幅;所以对于三类实证研究在采取严格把控研究水平前提下,可以采取不同的应对策略以提升其整体水平。对定量实证研究应给予更开放的态度和更强的支持力度,强调“拔高”和“固中”,扩展其在中高位区间占比;对于定性实证研究和混合实证研究则应当强化“托底”和“固中”,通过提升在中段水平区间的占比削减其在低位区间的占比。学术期刊和学术研究作者可以通过对定量实证研究、定性实证研究和混合实证研究的不同策略,实现对实证效应的整体优化。

  (四)建议

  教育学术研究水平的整体提升离不开学术期刊和学术研究人员的共同努力,本研究利用2001-2019年刊印的923901篇中文教育学术研究成果,认为实证研究较非实证研究更受青睐是因为前者具有的实证特征相对后者拥有下载量和引用量优势,但这一优势伴随着实证研究的数量/占比提升而不断削弱,这值得学术期刊和学术研究人员关注。针对目前尚存的问题笔者提出以下建议:

  第一,学术研究作者应当以知识发现与知识创新为宗旨。实证研究在教育研究领域内的兴起与流行,除了受人文社会学科整体研究范式变革与转型的大背景影响外,更为重要的是教育研究者对更高水平研究成果的追求,在这过程中存在的研究范式之争并非非此即彼的二元论,而是“约束条件下求最优解”的过程,即根据研究对象选择合适的研究范式,从而实现更高水平的知识发现和知识创新。

  第二,学术研究期刊应坚持多元化的选稿标准。学术研究期刊应强化内部编辑人员业务能力提升和审稿专家队伍建设,在坚持定位基础上要尽量将评价标准多元化,以筛选高水平的学术成果,而不是被“潮流”所裹挟,与学术研究作者一起提升教育学科的学术研究整体水平,强化学科知识积累和学科科学性与独立性。

  第三,应理性看待当下教育研究中的范式争论。无论是学术研究作者还是学术研究期刊,都应保持人文社科学术研究所具有的关怀、阐释和理解并做到人文诠释和科学解释的统一,避免陷入方法中心主义和唯实证独尊等学术迷思中。从历史角度来说,实证研究所依赖的理论基础和研究方法等特征都脱胎于“非实证研究”,只是伴随着学术研究的发展,实证研究与非实证研究之间的差异才逐渐明显并发生分化,但两者依然不是通过简单的“二元论”就能够区分的,而是呈现类似光谱的连续态。因此应持发展的眼光看待当下的争论,在适度争论中不断提升教育研究的科学化水平。

  第四,积极推动教育研究的范式融合。教育研究中的范式分歧在一定程度上有利于学术争论,也有利于推动教育研究方法的丰富,但过度的分歧必然会导致教育研究不得不就范式差异站队并走向“唯方法论”,从而导致对教育现象的洞见和对教育活动的关怀的缺失。为此,需要推进实证研究与非实证研究的对话交汇和融会贯通,共同提升学术研究的整体水平,提升教育研究对教育现象的解释力和对教育实践的指导力。