彭 杰
英汉口译语料库潜在语义分析数据的挖掘探讨
彭 杰
当今社会,人们在对英汉口译语料库的挖掘时,要在对潜在的语义分析这一理论进行深入的研究与探讨,了解其中的真正含义,并结合我国英汉口译语料库的特点,提出基于英汉口译语料库的特点探索出最为合理的度量方法。笔者将根据以往的经验,对如何在我国潜在的语义分析这一大环境下对英汉口语料库进行挖掘研究与探讨。
语料库 知识挖掘 语义分析 英汉口译 潜在的
一、“口译语料库”的发展历程
对口译最早开始研究是在1998年,由日本的名古屋大学开始着手的,在经过了由1999年至2003年这四年的研究当中,名古屋的研究学者研究开发出了包含有英语和日语的语料库,关于这一研究的结论,研究者撰写出了一本近100万字的关于同声传译语料库的书籍。之久在2004年意大利的博洛尼亚大学对这一书籍进行了完善与总结,研发出了一本叫做“欧洲议会口译语料库”,这是一个包含英语,西班牙语和意大利语的语料库,这一语料库是多语的平行同声传译的语料库。以上两个语料库是全世界最具有代表性的两个大型语料库,在这两个语料库的基础上,世界各个国家都开始对自己国家的语言进行研究,得出了一些基于本土文化内涵的口译语料库。我国开始对口译语料库的重视是在2007年,可以说,从世界当中的口译语料库的发展情况来看,我国的语料库研究起步较晚,研究成果不是很全面。但目前依据我国的语料库研究成果来看,我国共有两个口译语料库,一个是在2008年由我国文秋芳教授建立的,名为中国大学生英汉汉英口笔语料库,这是我国第一个学习者口译语料库,但这一语料库缺少充足全面的备注,而且对于我国文字的研究比较不全面。第二个是在2010年,由上海交通大学的胡开宝教授主导研究的,研究出的语料库为“汉英会议口译语料库”,这一语料库是基于我国的新闻发布会的汉英平行语料库,新闻发布会的英语原创语料库和我国政府的工作报告的汉英平行语料库。经过多年的积累,我国这一语料库已经积累了54万字,这比我国最初的19万字,是一个巨大的飞跃。
目前,虽然我国的口译语料库发展不是很完善,对其进行研究的研究人员也不足,但基于我国汉语的博大精深,我国的口译语料库的发展前途还是很有发展前途的。我国要是想对现有的口译语料库进行完善与发展,就要基于我国原有的研究成果,从我国的实际出发,来完善我国的口译语料库,培养可以完善我国口译语料库的研究人员。
二、“口译语料库”在我国的发展优势
利用“口译语料库”对我国的发展情况可以缓解口译发展缓慢的学术压力,使国家节约对完善我国口译语料库的投入成本,避免一些不必要的经济费用浪费,例如那些购买服务器,购买版权,购买数据和培养研究人员的费用都得到了节约。而且合理利用“口译语料库”可以及时获得最新的信息服务信息和业务运行法案,解决我国的口译发展进程问题。传统的完善口译语料库需要培养一些关于口译研究的人员和完善我国已有的口译语料库系统,其中培养研究人员的费用就非常的昂贵,国家需要投入大量的人力,物力,财力来培养这一研究水平极高的研究人员。而“口译语料库”的利用可以在提高我国的口译水平的基础上,是我国可以充分发挥自身的战略措施,最大限度地降低国家的研究投入费用,减少政府开支,提高政府的所得研究利润。
“口译语料库”在国家中的利用可以促进我英汉口译的专业化管理和规模化扩大。我国国家对“口译语料库”进行合理利用可以促进我国对新的语义分析的接受程度,满足国家对英汉口译语料库的需求,降低研究人员对于“口译语料库”研究的风险与门槛,使企业的英汉口译语料库的建设不断完善,提高研究人员的研究效率。
国家对“口译语料库”这一最具有专业技术的学术项目进行合理的研究,意味着国家的英汉口译语料库的研究得到了进一步的专业化。“口译语料库”是一个集中了全国的人力和精力的最有水准的研究项目。它可以深化国家的语言研究规模,完善国家的人员培养制度,使国家的口译语料库管理更加合理,使国家的语义分析更新速度顺应时代的需求。关注“口译语料库”在我国语义分析中应用的重要性
如今,社会主义市场经济不断地发展,物质生活丰富的同时人们更加注重传统文化的传承。对传统文化进行传承使英汉口译语料库必须进行合理的应用。针对这种情况。要明确口译语料库在汉英潜在语义中发挥的重要性进行分析,重视口译语料库建设。能够充分地发挥口译语料库的作用。随着人们对语言研究不断地深入,我国具有高素质的居民人口数量增多,这就导致了国家对英汉口译语料库的完善,而“口译语料库”中词汇的需求数量也大大增加,我国就业人口数量居高不下,而中小企业数量在不断地增多,发展我国的传统文化可以缓解我国的就业压力,提高人民的生活水平。而如何提高我国“口译语料库”在的利用效果已经非常重要了。目前,由于我国人口的学历在不断提高,这就使我国居民的综合素质的认知水平得到了很大的提高,而从事研究的口译语料库的研究人员素质水平有了很大水平的提高,国家也希望通过“口译语料库”这一方式,使我国的“口译语料库”发展更加完善。而“口译语料库”是英汉口译语料库管理中最为常见的一种,它在我国的需求量非常大,我国对如何提高“口译语料库”的应用非常值得重视,而保障其有效的利用是对英汉口译语料库管理的手段。因此可以说我国加强对“口译语料库”的管理应用是适应社会发展与时代变迁的需要。
三、基于我国潜在语义的现状分析英汉口译语料库的挖掘方法
电子存储文本在信息技术不断发展的前提下应用越来越广泛,在推动人们信息传播的同时也产生了大量的垃圾信息。在众多文本中获取到有用的信息成为存储的重点建设项目。对于中文进行深入性的研究可以通过文本分类器获取到有用的信息。根据要求提取训练样本,在相同特征基础上构建分类标准,通过文本表现形式验证语料的性能。在统计基础上进行的传统文本分类方式,主要依据的是词频,并没有重视词序或者词义的重要性。语义信息能够使加权阶段的特征方式具有指导作用,并且在这基础上对标签数据中的训练将会提升。语义基础上的文本分类方式与统计基础上的分本分类方式相比,在形式上更加具有特征性,能够深入性的挖掘内在的含义。因为这一方法需要对整个语料库的词汇进行确认,还要计算出语料库中的词语的出现频率。通过这方法,研究人员可得出关于矩阵的稀疏成度。在语义基础上的文本提取将会使文本特征更加的明显,并且对加权步骤提出相应的指导意见。《同义词语林》在进行文本特征分类的时候主要采用的就是在语义基础上对文本进行的处理。抑郁分析的英豪口译语料库中材料较少,需要配合《同义词词林》共同使用。在这之前还没有系统的文本处理分类方式。完整的语义分析使对英汉口译语料库进行深入性挖掘的重要形式,能够提升《同义词语林》的特性,并且消除多义词,利用同义词进行转换使用,自由的进行词组的搭配使用。对加权方式进行特征改进,在传统加权方式中没有明确的指导作用,不能够根据数据特性进行详细的分类。这样就不能够在根本上反应类别之间的关系。利用加权方式进行特征改善,强化指导作用。这种方式的创新能够提升传统加权方式的指导意义。并且充分的考虑整体词语文本之间的关系。利用加权方式进行特征指导是对文本与整体词之间的综合考虑。根据这种特点在经过试验之后在《同义词语林》中的应用将会降低文本特征维度,使向量更加的明确,能够在根本上提升文本分类精度。
英汉口译语料库中的英语部分从几何学的角度可理解为是一种矩阵式结构,即“语料-词汇”。矩阵中的每一个值都表示检索词汇在语料应用中的出现频率,这一频率是个比较有规律的。而从语义空间当中来提取的相似的语料词汇,是一种对上下文语境进行统计信息的综合体现,这一方法可以有效地计算出语料之间的语义相似度。其具体流程为以下几点:
(1)“语料-词汇”这一M矩阵是通过对语料库进行获取来得出的。当我国的语料库具有一定规模之后,这一挖掘方法会特别耗时,因为这一方法需要对整个语料库的词汇进行确认,还要计算出语料库中的词语的出现频率。通过这方法,研究人员可得出关于矩阵的稀疏成度。
(2)对“语料-词汇”这一M矩阵进行奇异值分解这样可以得出关于语料语义的利用的空间情况和词汇语义的空间利用情况,通过对语料进行降序排列,可以得出一些非零的奇异数值,通过得出这些数值,可以更加生动形象地了解到我国英汉口译语料库中语义词汇的使用情况。
四、结语
随着我国的综合国力的不断提高,我国的经济发展水平和政治改革水平都在不断地发展与完善。只有强化经济基础才能够促进社会各个方面的发展,我国政治建设在经济不断巩固基础上水平持续的提升,能够将更多的关注点放在民生问题上。中小企业的建设是我国民生问题的主要关注对象,如何提高我国的中小企业的发展水平,提高中小企业的竞争力,以解决我国居民的就业难问题,我国要从实际情况出发,实事求是将“口译语料库”再中小企业中进行合理的利用,把企业的会计信息化问题进行合理的解决。我国经济水平不断地提升与人们的努力联系密切,社会的持续进步使人与人之间的交流逐步的扩大。我国中小企业对“口译语料库”的需求量不断增加,如何降低中小企业的财务成本,提高企业的经济收入,使中小企业的发展适应我国经济发展水平,社会进步和人们需求。
“口译语料库”可以减少中小企业对于会计信息化的投资和利用成本,降低中小企业进入信息化,实现“口译语料库”的门槛,提升中小企业的竞争力,我国要结合以往的国情,对中小企业进行合理“口译语料库”模式规划,提高中小企业的信息化水平使我国的企业发展水平与国际水平接轨,提高我国的综合国力和竞争力,使我国的国际地位进一步提高,世界话语权越来越大。
“口译语料库”的应用提高了企业的竞争力,使我国许多中小企业的规模进一步扩大,相应性的增加了就业岗位数量,能够在一定程度上解决人们的就业问题,缓解生活压力。对于社会就业水平的解决具有很大的促进作用。社会不断发展促进了经济建设水平越来越高,不断地满足人们的基本生活需求。而如何中小企业的竞争力,提高居民就业水平,增强综合国力,使企业的信息化管理顺应时代的需求。此外,居民就业水平的提高可以提高居民的经济收入,提高生活水平。
[1]范守义.评翻译界五十年之争(1894- 1948)[J].中国翻译,1986(1):2~8.
[2]文秋芳,王金栓.中国大学生英汉汉英口笔译语料库[M].北京:外语教学与研究出版社,2008.
[3]王岩.记者招待会现场汉英口译语料库的研制与应用[J].海外英语,2014(17):164~168.
[4]赵巍,王雷.大规模英汉平行语料库的开发与使用性探讨[J].牡丹江师范学院报:哲学社会科学版,2014(4):116~117.
[5]张威.口译语料库的开发与建设:理论与实践的若干问题[J].中国翻译,2009(3):56~61,98.
[6]张威.口译语料库研究的原则与方法[J].外语电化教学,2013(1):65~70.
(作者单位:红河学院)
本文系2014年红河学院科研基金项目(XJ14Y20):模糊数学在翻译质量评估(TQA)中的参数参照分析作用研究。
彭杰(1980-),男,云南屏边人,讲师,澳大利亚Macuqarie大学MTI硕士,研究方向:英语口笔译理论与实践。