语言学|多因素语境共选:语料库语言学新进展( 五 )
数据格式 。 以往语料库语言学的典型数据格式主要为词表、多词词表、搭配词表、主题词表和索引行等 。 多因素分析所采用的典型数据格式为“表格型数据”(tabular data) , 这种数据在R语言中被称为“数据框”(data frame) , 见表1 。
本文插图
其中第一列Instance是关系代词使用that或采用零形式的情况 。 后面Subject、MatPolar、VerbSema、MatLengt几列数据体现的是主语、主句极性、动词语义、主句长度属性等多个因素 。 若有更多因素 , 则依次添加列即可 。 每一横行代表一个具体的语言使用实例 。 表1中为五句话中关系代词使用that或采用零形式的情况 。 根据研究实际 , 往往需要如此标注数千行 。 语料标注通常在Excel中进行 , 常存储为csv格式 , 也可以把Excel工作表中的数据复制粘贴到*. txt格式纯文本文件中 。 在R程序中可通过read. table( file =file.choose( ) )命令读取该标注文件 , 进行多元统计 。 Glynn(2014:325-327)给出的多因素统计方法一览表是个有效的导引 。
常见多元统计方法 。 多元统计方法可分为探索性和验证性两种 。 聚类分析、对应分析等更具探索性 , 即研究者不预设语言属性(如时态、抽象/具体、语域)与语言特征(如that的使用与否)的关联性 , 而由数据根据语言特征使用概率自行计算出其互相吸引的程度 。 以英语程度副词辨析为例 , 根据与之搭配的形容词情况 , 聚类分析可以用pvclust函数及软件包将fairly和quite、a bit和somewhat、completely和totally聚到一起(Desagulier 2014:163) 。 再比如 , 我们可以利用ca函数及软件包以对应分析方法将动词talk和具体话题、suppose和抽象事件等在二维图形上对应到一起 , 从而直观看出这些动词使用的语义倾向(Glynn , 2014:458) 。 而逻辑斯蒂回归则是典型的验证性多元统计 。 它是基于前人文献 , 将可能有关的语言属性 , 都尽可能囊括到分析之中 。 统计运算会赋予每个属性/变量一定的权重 , 并剔除权重较低的变量 。 例如 , 我们可以利用MASS软件包中的glm函数 , 对制约动词后接to do还是ing的句法、语义、语用等7多个因素的影响程度及其相关变量之间的交互影响进行量化(许家金 陈哲 , 2018) 。
多因素分析的结果解读起来并不容易 , 常常需要进行可视化 。 典型的可视化方法有聚类分析树形图(dendrogram)、对应分析二维图、多维尺度图、条件推断树图和动态图(motion chart)等 。
需要指出 , 多元统计方法是基于概率性语境共选的语言观 , 并非刻意要将研究方法变得如此复杂 。 以往基于简单频数的统计 , 将语言视作随机性现象 。 目前看来 , 这种认识有必要更新 。 语言使用中体现出的概率属于条件概率 。 例如 , 主语位置如果是第一人称单数 , 那么其后的谓语动词的选择就不那么随意了 , 而必须考虑到相应的性、数、格的一致问题 。 这一定意义上说明了为何先前基于均值比较和正态分布的一些统计方法并不完全有效 。
再有 , 多因素分析中经常采用的逻辑斯蒂回归建模 , 而不是通常的线性回归 , 就是考虑到我们将语言特征选择作为反应变量 , 这种选择往往有两种或两种以上的可能 。 通常的线性回归因变量只能是一个变量 , 且必须是数值型变量 , 如词汇判断任务中的反应时 。 另外 , 逻辑斯蒂回归模型中还可加入随机效应变量(其他自变量为固定效应变量 , 此类模型称“混合效应逻辑斯蒂回归”) 。 具体到某个语法范畴变量 , 可能会包含多个具体形式 , 例如认知动词会包含think、assume、suppose等等 , 这些必须要作为随机效应变量来处理 。 如果语料中将具体的作者或说话人作为变量 , 则也要作为随机效应变量来处理(参见Baayen et al. , 2008)。
推荐阅读
- 内分泌疾病|生物学家揭秘保持健康长寿的一个重要因素
- 癌症肿瘤|每年体检,为何肿瘤发现却是晚期?叹息:忽略一个因素,太耽误事
- 宫闱逸事|甄嬛传,太后后期力保皇后不被皇上废后,原因不简单牵扯很多因素
- 心理健康|为何抑郁症患者都恨父母,心理学:原生家庭是抑郁症的重要因素
- 内分泌疾病|哪些习惯让女性乳腺结节出现?医生告诫:这4个因素,千万要重视
- 癌症肿瘤|这种“肿瘤”偏爱女性,或与4个因素有关,女生都该了解一下
- 五官疾病|OK镜使用寿命取决于哪些因素?
- 内分泌疾病|天天大把掉发,别不在意,5个因素是“罪魁祸首”,劝你早点了解
- 儿童|儿童脱发严重,家长要规避5个导致孩子脱发关键因素
- 儿童饮食,消化不良|宝宝排出绿色便便的因素有哪些?
