语料库驱动的《海洋考古术语汉英辞典》编纂刍议
时间:2023-04-12 07:16:59
语料库驱动的《海洋考古术语汉英辞典》编纂刍议一文创作于:2023-04-12 07:16:59,全文字数:23961。
语料库驱动的《海洋考古术语汉英辞典》编纂刍议的基础上,总结出三条规则对候选术语进行过滤:(1)海洋考古术语词条不得以介词、量词作首尾;(2)海洋考古术语词条不得包含代词、语气词及部分助词;(3)海洋考古术语词条至少包含一个动词、名词或名词结构。
从统计层面讲,海洋考古术语的提取需注重单元性和领域性,对于这两个属性的正确评价是“进行候选术语过滤的关键步骤,直接决定着术语抽取的准确率和召回率”[12]14。本研究采用Frantzi提出的术语抽取统计参数C-Value和NC-Value[13]来衡量候选术语的单元性和领域性。其计算公式分别为:
C-Value(a)=log2|a|·f(a) (a未被其他字符串嵌套)
NC-Value(a)=0.8×C-Value(a)+0.2×
∑b∈Cafa(b)·weight(b)
1.2.2 英文数据提取及处理
与中文数据处理不同,本研究涉及的英文数据处理主要包括N元组(N-gram)提取、搭配强度计算、词形归并三个主要步骤。提取N元组的目的在于基于N-gram语言模型在尽可能大的语料库数据中穷尽收集海洋考古术语。N-Gram 语言模型表示了语言中各词之间的依赖情况[14],其中N指大于等于1的任意自然数,如一元组(unigram)、二元组(bigram)、三元组(trigram)等。语言研究中,N一般情况小于等于10。N元组的提取主要依靠NLTK库中ngram模块,在Python IDE环境中,其代码[11]如图4:
图4 英文N-gram提取代码
所得N元组进行清洁处理后,考察元组内各元之间的搭配强度对海洋考古术语做进一步过滤。从统计量度角度讲,本研究引入似然率(the Log-likelihood ratio)作为衡量搭配强度的方法,并确定比值大于等于3.84[15]的N元组构成海洋考古候选术语。例如,二元组的计算公式如下:
LL=-2logλ=-2log
可使用NLTK库中的collocations模块在Python IDE中计算其搭配强度,其代码[11]如图5:
图5 英文N-gram搭配强度计算代码
此外,海洋考古术语词条的录入要求英文条目忽略曲折变化及派生变化,因此,研究中对所得N元组进行词形归并(lemmatization)处理以有效过滤术语。
1.3 海洋考古文献计量分析
大多前期辞典编纂相关研究并未虑及文献计量分析,而本研究将其纳入领域术语体系研究框架从宏观到微观主要有三方面原因:首先,研究采用语料库驱动法,旨在对汉英海洋考古术语体系做全息描摹,因此,通过文献计量分析,可以厘清汉英体系的海洋考古领域术语界定、热点术语、术语发展态势;其次,运用数学和统计学的方法,定量地分析海洋考古研究领域知识载体,是注重量化的综合性知识体系的表现,利于构建新时代中国特色海洋考古术语体系;再次,以学者类型、期刊类型、语言类型为变量,从热点话题、高被引论文、高被引学者、高被引论文的国家(地区)分布等因素进行多维度交叉分析,利于探讨汉英海洋考古术语体系接口,进而利于术语对译(图6)。
图6 汉英海洋考古文献计量分析原理
对比热点话题用于探讨海洋考古术语规范、术语更新、术语对译、本土元语言等问题。对比高被引论文用于探讨海洋考古领域学术动态与趋势、理论创新与发展、学科发展与融合、本土理论构建等问题。对比高被引学者用于探讨海洋考古领域学术权威与成果引用、学者研究兴趣与焦点、本土学者培养与国际化等问题。对比高被引论文的国家(地区)分布用于探讨民族主体与文化自信、话题选择与成果推广等问题。上述分析意在围绕海洋考古术语领域“我国目前优势有哪些?”“在哪些方面领先?”“在世界上处于何种水平?”“尚存哪些薄软环节?”“如何弥补这些弱势?”等问题进行理据探讨,继而为编纂《海洋考古术语汉英辞典》服务,为构建新时代中国特色的海洋考古术语体系建设服务。
2 编纂《海洋考古术语汉英辞典》的基本框架
2.1 汉英海洋考古术语对译
综上所得海洋考古术语词表经过人工复检,按照如下三条原则进行对译:
(1)单义性原则,汉英海洋考古术语对译过程按语义内涵与外延对接,具有意义排他性,即术语的意义是单一的、专用的,一个概念只能对应一个专门固定的术语,“一词一义”。
(2)科学性原则,汉英海洋考古术语双向“对比”与“反馈”要从科学概念出发,根据所描述事物的属性准确地、严格地进行语义对接,做到“名副其实”。
(3)系统性原则,汉英海洋考古术语根据各自体系概念相关联的程度,以“术语群”的方式构成合理的分类体系(如上下义关系)的有机整体,做到“物以类聚”。
值得注意的是,不可译性术语遵循“三贴近”原则[16],即贴近中国发展的实际,贴近国外受众对中文术语的需求或中国受众对英文术语的需求,贴近中外受众的思维习惯进行转译,力求规范统一、遵从习惯、译名从实、功能对等。缩略词依据惯用性、通俗性原则进行对译,如“laser”对应“激光”,不对应“受激辐射放大光波”。
2.2 词条录入
依据汉英海洋考古术语对列表,利用辞典编纂法,制定《海洋考古术语汉英辞典》词条收录规范及标准,系统整理、录入词条,同时解决海洋考古文献中术语规范、术语更新、本土元语言等问题。辞典所列词条在形式上简明、精练,在语义上准确、清晰,在内容上丰富、全面,旨在涵盖海洋考古学科的所有基本范畴。每个词条包含以下要素:中文术语、注音、对应的英文术语、中文注释、英文注释(或译文)、配例、引文等。此外,因罕用术语,或称“一次词”(Hapax legomenon),在术语规范、术语更新、本土元语言层面有着较大的研究价值,故在本研究中词条录入环节除涵盖上述要素之外,还注明罕用术语出处。
《海洋考古术语汉英辞典》中文词条录入注重单元性与领域性,根据术语表人工复检结果,仅录入在海洋考古领域具有“严格意义”的术语作为拟编纂辞典词条。中文词条注音参照《汉语拼音正词法基本规则》(GB/T 16159—2012),并严格按照该标准中的分词连写规则、人名地名拼写规则、大写规则、标调规则、移行规则、标点符号使用规则以及变通规则等[17]。英文术语对照相应的中文术语进行录入,如遇文献计量分析中只有一方体系存在(如,术语在中文文献中存在,在英文文献中缺失;反之亦然),而对应术语采用转译等手段来编制录入的情况,则以符号“[译]”进行标注,以方便学界明晰不同术语体系间的差异性,以及学术热点与态势等。中文术语注释遵循“中文学术文献定义为主、百科资料(如百度百科)为辅”的原则,言简意赅地对中文术语的内涵与外延做系统描述。同理,英文术语注释遵循“英文学术文献定义为主、百科资料(如维基百科)为辅”的原则,言简意赅地对英文术语的内涵与外延做系统描述。中英文配例依据CMAC与EMAC中的真实语料为海洋考古
提醒您:因为《语料库驱动的《海洋考古术语汉英辞典》编纂刍议》一文较长还有下一页,点击下面数字可以进行阅读!
《语料库驱动的《海洋考古术语汉英辞典》编纂刍议》在线阅读地址:语料库驱动的《海洋考古术语汉英辞典》编纂刍议