快捷搜索:
您的位置:bv1946伟德入口 > 产品评测 > 语言翻译必备,国外语料库翻译学研究述评

语言翻译必备,国外语料库翻译学研究述评

2019-10-30 21:06

历时—复合:

语言翻译必备:国内外24个语言材质库推荐

2016-10-29 译匠

语言材质库平日指为语言切磋采撷的、用电子格局保留的言语材料,由自然现身的书面语或口语的样书汇聚而成,用来代表一定的言语或语言变体。经过精确选材和标记、具有方便范围的语言质地库能够反映和著录语言的其实使用景况。上面推荐一些优异的语言材质库财富。

 

境内语言材料库能源

1. 国家语委今世国语语言质地库

 

 今世汉语通用平衡语言材质库今后再次开放互联网查询了。重开后的在线搜索速度越来越快,效率越来越强,同有的时候间提供搜索结果下载。今世普通话语言材质库在线提供无偿检索的语言材质约2002万字,为分词和词性标记语言材质。

 

2. 国家语言文字工委北周汉语语言材质库

 

 网址现在还增加了生龙活虎亿字的清朝汉语生语言材质,切磋齐国中文的也得以去询问和下载。同期,还提供了分词、词性标记软件、词频总括、字频总结软件,基于国家语言文字工委语言材料库的字频词频总计结果和表露的词表等,以供就学钻研语言文字的师资同学利用。

 

3. 北大“《人民晚报》标记语言材质库”

 

 

4. 浙大语言材质库——北大中中原人民共和国语言学商量核心

 

 清华语言材质库由“今世普通话语言材质库”、“汉朝中文语言材质库”、“汉英双语语言质地库”多个语言材质库组成。在那之中,复旦总括语言学研商所的双语语料库,英汉对齐的语句本来就有5万多对,并付出了相应的对齐工具和双语语言材料库管理软件。正在那基础上做汉英对照短语库,估量规模将达数十万条。(汉英双语语言材料库前段时间仅对交大校内顾客开放)

 

5. 北京语言大学高翻大学的“高翻回忆库”

 

 

6. 清华粤语均衡语言材质库TH-ACorpus

 

 

7. 中央切磋院“今世国语平衡语言质地库”

 

 特意针对语言解析而设计的,每个文句都依词断开,并标示词类。语料的征集也尽量做到今世国语分配在分化的主旨和语式上,是现代中文无穷多的言辞中三个代表性的样品。现成语言材质库重要针对语言深入分析而规划,由中心钻探院新闻所、语言所词库小组成功,内包涵简要介绍、使用验证,现行反革命的语言材质库是4.0的本子。

 

8. 中心切磋院“近代华语标识语言质感库”

 

 

9. 中心探究院汉籍电子文献(瀚典全文检索系统)

 

 富含整部25史 整部阮刻13经、超越2000万字的辽宁史料、1000万字的大正藏以至别的卓越。

 

10. 红楼互连网教研资料中央

  

  元智高校中夏族民共和国文化艺术互联网种类斟酌室所付出的“网络展书读—中华夏族民共和国文化艺术互联网种类”,为研商为主决策者罗凤珠先生主持,红楼是里面贰个子系统,别的还包涵善本书、诗经、孙吴诗词、作诗填词等子系统。此网址为国内Internet最大中黄炎子孙民共和国文化艺术切磋数据库,提供顾客最完整的神州农学探讨数据。

 

11. 《红楼》汉英平行语言材质库

  

 

12. 搜文解字

  

  包括“搜词寻字”、“文学之美”、“游戏解惑”、“古文字的世界”多个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连通到出处,阅读原来的作品。

 

13. 中夏族民共和国传播媒介高校“传播媒介语言语言材质库在线分词标明系统”

  

 

14. 中中原人民共和国传播媒介高校“媒体语言语言材料库(MLC)”

  

 

15. 清华新闻搜索商讨室对外分享语言材料库财富

  

  该语言材料库为汉英双语语言材质库,10万对齐双语句对,同义词词林扩展版。77,343条用语,秉承《同义词词林》的编撰风格,同临时间使用五级编码体系,多文书档案自动文章摘要语言材质库。四十多少个大旨,同风华正茂核心下是同一事件的两样报纸发表。中文依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,能够图形化查看。问答系统难点集,6264句,已证明难题项目,LTML化,分词、词性、句法、词义、浅层语义等程序管理获得。单文书档案自动文章摘要语料库,211篇,分不相通式,LTML化,文章摘要句申明,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序管理获得。

 

16. 香港(Hong Kong)教院“LIVAC中文共时语言材质库”

  

  自一九九三年启幕,以“共时”形式处理了超越的大气普通话语料,通过精细的技术,储存众多准儿的总结数据,创设了LIVAC(Linguistic Variation in Chinese Speech Communities)共时语言材质库。本语言材质库最大特点是选用“共时性”视窗情势,严苛地准期分别收载来自多地的定量同类语言材质,可供种种客观的比较钻探,方便有关的音信科学和技术进步与行使。别的,语料库又兼任了“历时性”,方便各个地区职员客观地观望与讨论视窗内的有代表性的语言发展全面动态。

 

17. 华语语言财富结盟

  

  Chinese Linguistic Data Consortium(简单的称呼ChineseLDC)是吸取本国高校,实验研讨机构和市廛参预的开放式语言财富结盟。其目标是建设成能代表前几日中文消息管理水平的,通用的粤语语言新闻知识库。ChineseLDC将建设和访谈中文音信管理所急需的各样语言能源,满含词典、语言材质库、数据、工具等。在确立和收罗语言能源的功底上,分发能源,促成统生龙活虎的正规和正规,推荐给客户,并且针对粤语消息管理领域的关键手艺构建评测机制,为中文音信管理的底蕴钻探和选取开拓提供支撑。(之所以排行这么后,是因为是国家出资的花色,却未曾什么样无偿能源。)

 

 韦德国际1946手机版官网 1

 

 

国外语言材质库能源

韦德国际1946手机版官网 ,1. 杨百翰高校语言质地库

 

 杨百翰高校的马克Davies教师开拓的语言材料库统风流浪漫检索平台,整合了美利坚联邦合众国今世希伯来语语言质地库、U.S.历史乌Crane语语言材料库、U.S.A.一代杂志语言质地库、BNC、英文料库、葡萄牙共和国(República Portuguesa)语言材质库等6个语言质地库的财富。该网站每月有60,000人的使用量,只怕是当下最广小运用的网络语言质感库。

 

2. 联合国文件数据库

 

 本文件系统包罗了1991年以来联合国印发的有所正规文件。可是,联合国的中期文件也逐步加多到本系统。本文件系统也提供从壹玖伍零年来讲联合国民代表大会会、安理会、经济及社会理事委员会和托管理事委员会通过的兼具决议。本系统不提供音讯稿、联合国出版物、联合国契约汇编或音讯部印发的音讯素材。由东瀛赠送的3万多份数字化文件已被扩充进正式文件系统。

 

3. 兰开斯特中文语言材质库(LCMC)

 

 应学术界对无需付费对大众开放的平衡的现世中文语言材料库的供给的景观下筹建的。LCMC语言材质库是由兰开斯特高校语言学系肩负的并拿走United Kingdom经社商讨委员会帮衬(项目代号:RES-000-220125)的钻研项目。 LCMC语言质感库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的华语语言材质库,它有利于大家从事中文的单语和英汉双语的对照切磋。通过上述网站可防止费索取LCMC预料用于商量之用。

 

4. 言语开放典藏社会群众体育(OLAC)

 

 Open Language Archives Community(OLAC),语言开放典藏社会群体是由个体或公司所构成的国际性同盟组织。好多品类的组织需求语言财富,如:语言学家、工程师、教授、解说家,也是有好些个机关提供应影片段性的架构,如:文件管理器、软件开拓者和出版者。理论上,顾客愿意通过单一接口便能够收获别的要求的财富,在那之中财富类型饱含:①素材(Data):任何描述语言的相干音讯;②工具(Tool):有利于成立、浏览、查询或行使语言数据的总结器能源;③建议(Advice):比如,告知使用者什么财富具备高可相信度?在这里地步中哪风流倜傥种工具契合接纳?当新的多寡衍生出时该怎么创设?但骨子里,却持有语言财富布满在不相同的网站、使用者不可能获取想要的财富、语言财富在差别网址有着分裂名字(Name)变成召回率(recall rate)低,在其余领域有相符意义,形成准确率低(precision rate)、多数言语财富而不是以文字为根基、不鲜明是或不是有建议适当软件,甚至所提议的建议是不是深远……等主题材料。OLAC因此诞生。

 

5. SKETCHENGINE多语言语言质地库

 

 每种邮箱能够注册壹回,免费期是一个月,免费期过了就再登记二个信箱,再登记叁遍。此中普通话语言材质库是尚未加工的生语言质感库,使用价值相当小。关键是里面包车型客车德语语言材料库实际上是原来要买下账单手艺采纳的BNC,能够突出利用。 

 

6. U.S.现代越南语语言质地库(COCA)

 

 Corpus of Contemporary American English(COCA),由U.S.A.Brigham Young University的马克Davies教师开辟的高达3.6亿词汇的U.S.A.流行业代阿拉伯语语言材质库,是当今世界上最大的立陶宛语平衡语言材料库。与其余语言材质库分歧的是它是无需付费在线供大家利用,给整个世界韩经济学习者带来了福音,是超群绝伦的一个韩艺术学习财富,也是洞察美国法语应用和调换的三个绝佳窗口。

独立语言质感库:

  1. LDC普通话树库(Chinese Tree Bank)
    UPenn担负开荒,搜聚语言材质取材中国青少年报和香江新闻等媒体,165w男人,文件由GBK和UTF-8三种编码格式存款和储蓄。

  2. 命题库(PropBank)、名词化树库(NomBank)、语篇树库(Penn Discourse Tree Bank)是PTB扩张

  3. 亚特兰大依存树库
    两个语言材料库:俄语依存树库、克罗地亚语-爱尔兰语、俄语一寸树库

  4. BTEC口语语言材质
    第豆蔻梢头用来语音翻译

5.今世普通话口语语言材质

  1. 黑龙江中研院语言材料库
    华语平衡语料库和华语树库

扶持,平行语料库和比较语言材质库可以用作民间兴办教授评价学子译作的平台。Bowker(贰零零贰:345-64)建议助教能够使用翻译评估语言材质库,相比较学子的译作,提供建设性的反馈意见。在她看来,语言材质库在翻译评估中的应用具备以下优点:基于多量当然现身的实在翻译语言质地对学员的翻译技艺和翻译战术应用举办评估,切磋结论较为合理、科学。定量和意志方法相结合。

(我为国家社科基金重大项目“大范围英汉平行语言材料库的创设与加工”首席行家、东京药中国科学技术大学学教师)

国内可外用免费语言质地库下载财富聚焦韦德国际1946手机版官网 2

 

(一) 国家语言文字工委
1.国家语言文字工委今世国语语言材质库
当代国语通用平衡语料库未来重新开放互连网查询了。重开后的在线搜索速度越来越快,功用更加强,同一时候提供找寻结果下载。今世中文语言材质库在线提供无偿检索的语料约2003万字,为分词和词性标注语言质地。

2.唐朝中文语言质地库
网址今后还扩张了生机勃勃亿字的远古中文生语料,商量宋朝汉语的也足以去询问和下载。相同的时候,还提供了分词、词性标明软件、词频总括、字频总括软件,基于国家语言文字工委语言材料库的字频词频总计结果和发布的词表等,以供就学切磋语言文字的园丁同学利用。
 
 (二) 北大总计语言学研商所
《人民早报》注解语言材质库
《人民晚报》证明语料库中二分之一的语料(1996年上7个月)共1300万字已经通过《人民晚报》消息音信基本公开提供许可使用权。个中二个月的语料(一九九两年八月)近200万字在互联网络发表,供自由下载。
 
(三) 香岛语言大学
普通话国际教育才干研究开发中央:HSK动态作文语言材料库
言语商量所:香港口语语言质感查询系统(B J K Y)
 
(四)甘肃大旨研讨院
中研院语言材料库WWW版全数作用均开花使用,但为防主机财富耗用过剧及顾及数据传输之实际节制,暂以检索结果为约束的口径:院内检索限七万行数据,院外检索限八千行数据。

1.今世国语平衡语料库
特意针对语言解析而布置的,每种文句都依词断开,并标示词类。语言材质的搜求也硬着头皮做到今世普通话分配在差异的大旨和语式上,是今世汉语无穷多的言辞中贰个代表性的范本。现成语言材质库首要针对语言深入分析而设计,由宗旨研究院音讯所、语言斟酌所词库小组成功,内包涵简要介绍、使用表达,现行反革命的语言质地库是4.0的版本。

2.古中文语言材质库
 古汉语语料库蕴藏以下八个语言材质库: 上古普通话、中古华语(含大藏经)、近代中文、其余、出土文献。部分数量取自史语所汉籍全文数据库,故两个间略有重迭。此语言材料库之出土文献语言材质库,全部取自史语所汉朝竹简小组所成立的数据库。

3.近代中文标识语言材质库
为应汉语史探讨要求而构造建设的语言材质库。近来素语言材质库所征求的语言材质已含盖上古中文(先秦至古代)、中古粤语(西魏魏晋南北朝)、近代汉语(唐五代将来)当先四分之二的严重性语言材质,并己时断时续盛放利用;在标识语言质地库方面,上古中文及近代华语皆已经有风流浪漫部分语言质感产生标明的干活,并视结果稳步提供上线检索。

 

4.树图数据库
「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 满含了6個檔案,61,087個普通话樹圖,361,834個詞,是中心商讨院詞庫小組從主题研讨院平衡語料庫 (Sinica Corpus) 中取出句子,經由電腦剖判成結構樹,並加以人工校正、檢驗後所得的收获。在中文句結構樹中,小编們標示了华语句語意和語法的訊息。此风流洒脱「中文句結構樹資料庫」近些日子開放網上檢索及資料移轉,以供學者專家在粤语句法、語意關係研商參考之用。另有1000個句結構樹開放下載。

 

5.中国和英国双语知识本体词网
重新组合词网,知识本体,与天地方统一规范记的词汇知识库。

 

6.搜文解字
包蕴「搜词寻字」、「管理学之美」、「游戏解惑」、「古文字的社会风气」三个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连接到出处,阅读原来的文章。

7.文国寻找宝物记
在搜文解字的功底之上,以中文理学习者为目的,进一步将字、词、音的搜求作用与国编、华康、南一等二种版本的国立小学国语课本结合,与唐诗四百首、宋词三百首、红楼、水浒传等管文学典籍结合,提供互联网上国语经济学习的素材。

 

8.唐诗四百首
以国中、小学学子为根本运用对象,提供吟唱、美术、书法等多媒体数据,文字数据报含笔者平生、读音标记、翻译、传授、评注、轶事出处等资料;检索点包括小编、诗题、诗句、综合材质、体裁分类等;检索结果能够列出全文,并选择标示相关之文字及多媒体数据。并提供了黄金年代套能够自动检查格律、韵脚、批阅和修改的「依韵入诗格律自动物检疫验索引教学系统」,协理孩子们依韵作诗,扶助导师批阅和修改习作。

 

9.汉籍电子文献
包括整部25史 整部阮刻13经、超越二零零三万字的广东历史资料、1000万字的大正藏以至其余非凡。

 

10.红楼梦网络教研数据基本
元智大学中黄炎子孙民共和国医学互连网类别研究室所开荒的「互联网展书读—中夏族民共和国文化艺术互连网体系」,为商量宗旨领导罗凤珠先生主持,红楼是内部二个子种类,其余还包罗善本书、诗经、南梁诗词、作诗填词等子系统。此网址为国内Internet最大中中原人民共和国文化艺术研究数据库,提供客商最完全的炎黄经济学斟酌数据。
 
(五)中黄炎子孙民共和国科技大学
1.中中原人民共和国海洋大学文件语言材料库检索系统

2.在线分词标记系统

3.新词语研讨能源库

4.音录像语言材质检索系统

 
(六)莱切斯特工业高校
哈工大音讯搜索商讨室对外分享语言材质库能源
该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩充版,77,343条用语,秉承《同义词词林》的编纂风格,同一时候选取五级编码体系,多文书档案自动文章摘要语言材质库,四十多少个核心,文本文件格式,同风度翩翩核心下是同一事件的不等报导,中文依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标记,能够图形化查看,问答系统难点集,6264句,已标记难题项目,LTML化,分词、词性、句法、词义、浅层语义等程序管理得到,单文档自动文章摘要语言质感库,211篇,分不形似式,LTML化,文章摘要句标记,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序管理获得。
 
(七)复旦东军事和政治高校学
华语均衡语言质感库TH-ACorpus:
 
(八)香江教院
言语资源消息科学宗旨及其语料库实验室
自1992年上马,以「共时」情势管理了越过的汪洋中文语料,通过精细的本事,积存众多可相信的总括数据,创建了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语言质地库。本语言材料库最大特点是行使「共时性」视窗情势,严酷地准期分别收载来自多地的定量同类语言材料,可供各个客观的比较商讨,方便有关的音信科学和技术进步与利用。别的,语言材料库又兼任了「历时性」,方便各个地方职员客观地考查与研商视窗内的有代表性的语言发展周详动态。
 
(九)中科院计算技能商讨所
跨语言语言质地库
当前的双语句对数据库中有约180,000对已对齐的中塞尔维亚共和国(Republic of Serbia)语句子。 本数据库帮忙轻松的中国和南韩语查询服务。 查询结果包涵句对数码、中文句子、阿尔巴尼亚语句子、句对来源。
 
(十)普通话语言能源联盟
中文语言能源缔盟
(Chinese Linguistic Data Consortium,简单称谓ChineseLDC)的确立。ChineseLDC是吸取本国高校,应用商讨机谈判厂家参与的开放式语言财富缔盟。其目标是建设成能表示当今汉语音讯管理水平的,通用的国语语言新闻知识库。ChineseLDC 将建设和采聚焦文新闻管理所须求的各样语言财富,包含词典,语料库,数据,工具等。在创制和征集语言财富的功底上,分发财富,促成统黄金时代的行业内部和规范,推荐给客商,并且针对粤语音讯管理领域的关键技艺创立测评机制,为汉语新闻管理的基本功切磋和行使开采提供支撑。(之所以排行这么后,是因为是国家出资的门类,却从不什么无偿能源。)

国外语言材料库财富(链接皆可用,内有语言质感库简要介绍)

  1. 杨百翰高校
     
    杨百翰高校语言材质库 Davies助教开采的语言材料库统风流洒脱检索平台,整合了United States今世俄语语言材质库、美利坚合众国历史英语语言质地库、U.S.A.一代杂志语言材料库、BNC、斯洛伐克(Slovak)语料库、葡萄牙共和国(República Portuguesa)语言材质库等6个语言质感库的财富。该网站每月有60,000人的使用量,恐怕是时下最广大利用的互联网语言材质库。  
  2. 联合国官方资料库
    联合国文件数据库(提供80万份二种语言平行文书档案)
    本文件系统包蕴了1992年以来联合国印发的具备专门的学业公文。不过,联合国的最早文件也慢慢增加到本系统。本文件系统也提供从一九四八年以来联合国民代表大会会、安理会、经济及社会理事会和托处理事委员会通过的具备决议。本系统不提供消息稿、联合国出版物、联合国契约汇编或音信部印发的音信资料。由日本赠送的3万多份数字化文件已被扩大进正式文件系统。  
  3. 兰开斯特高校
    兰开斯特中文语言材质库 (LCMC)
    应学术界对无偿对大众开放的平衡的当代国语语言材料库的须求的动静下筹建的。 LCMC 语言质地库是由兰开斯特大学语言学系顶住的并获取United Kingdom经社研讨委员会援助(项目代号:RES-000-2二零一一5)的切磋项目。 LCMC语言质地库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的华语语言质感库,它有利于我们从事汉语的单语和英汉双语的比较切磋。通过该网站能够防费索取LCMC预料用于商讨之用。  
  4. 语言开放典藏社会群众体育(OLAC)
    OLAC(Open Language Archives Community) rate)、好多言语能源并不是以文字为根基、不分明是不是有提出适当软件,以致所建议的提出是还是不是深切…等难点。OLAC因此诞生。藉由下列步骤举办创办世界性语言财富的假造教室:针对语言财富数字典藏发展风度翩翩致性的试行引导;发展互连网上独具互操作性且提供存取相关语言能源的积攒器(Repositories)和劳务主导。简要介绍能够参见  
  5. SKETCHENGINE多语言语料库
    www.sketchengine.co.uk
    各类邮箱可以挂号三回,无偿期是三个月,无偿期过了就再登记贰个信箱,再登记一回。此中普通话语言材质库是从未加工的生语料库,使用价值超级小。关键是在那之中的乌克兰语语言材质库实际上是原本要买单技巧接受的BNC,能够能够利用。   
  6. COCA———美利坚合众国当代法语语言材质库(Corpus of Contemporary A2merican English)

    由美利哥B righam Young University的M ark Davies教授开荒的高达3.6亿语汇的美国风行今世德文语言材质库,是当现代界上最大的加泰罗尼亚语平衡语言材料库。与别的语言材质库不一样的是它是无偿在线供大家利用,给中外日管教育学习者带来了福音,是如椽大笔的三个印度语印尼语学习能源,也是观望美利哥德文应用和浮动的一个绝佳窗口。

国内外语料库建设一览

北大语言音讯工程系捷译双语语料库Web对齐工具(自动 手动)开放注册
访谈地址在
文档:
固然有必要者能够给  yjs@pkucat.com 老师写信申请,表明身份和理由就能够。

已证实可用的英汉平行语言材料库(部分)

--TEC

翻译语言材质库方面则以英帝国塔林业大学学科技(science and technology)高校(UMIST) 翻译研商宗旨1994年创立的世界上第三个翻译语言材料库( Translational EnglishCorpus , TEC) 最为知名。该语言质感库主要搜集从多个国家语言翻译成德文的文件,近些日子原来就有上千万词的语言材质(指标是5 千万词) ,分随笔(大约攻陷80 %) 传记、报纸和杂志4 个子库。它并不须求必须双语对齐。
该库不止对语言材料进行了附码标记,还带有比非常多超语言新闻的标号,如对译者情形(包含译者姓名、性别、民族、专门的工作、翻译方向等) 、翻译方式、翻译类型、源语、原书情状、出版社等等均意气风发意气风发予以标明。

--南开双语语言质感库
浙大总结语言学研讨所的双语语言材质库,英汉对齐的句子原来就有5万多对,并支付了对应的对齐工具和双语语言材质库管理软件。正在这里基础上做汉英对照短语库,揣摸规模将达数十万条。

--中国和英国双语在线(主管)测量试验开通
网址为

--紅樓夢漢英平行語料庫

-- The Babel English-Chinese Parallel Corpus

The Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.

The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the CLAWS C7 tagset while Chinese texts were tagged using the Peking University tagset. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.

The Babel parallel corpus can be accessed via the ParaConc Web or MySql interface (both hosted at The Institute of Education, Singapore). Users can search in either English or Chinese texts. The concordancer returns matched whole sentences and their translations as well as the their locations. At the bottom of the resulting concordance page is a query report that indicate the query strings and distribution of matches. Users can also specify the format the output concordances as POS-tagged or plain texts.

--上海武大语言工程研讨所眼前有JDEST,LOB,BROWN,CLEC两个语言材质库共计700万词可供英特网搜寻, 并能够对寻找和总计数据结果下载.

--The Translational English Corpus (TEC)

--English Chinese Parallel Concordancer (E-C Concord)
The Hong Kong Institute of Education.
Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang Lixun

--Academia Sinica Balanced Corpus of Modern Chinese 中心商讨院现代国语平衡语言材料库

--Lancaster Corpus of Mandarin Chinese

may be changed to

--People's Daily 2000 corpus
some related information here

--A Parallel Corpus of Chinese Legal Texts 中國准绳文书漢英平行語料庫

--语料库语言学与匈牙利(Magyarország)语教育教学。华中京医科大学范大学外国语言文化高校语言材质库语言学钻探室

语言材质库工具

北京外语大学语料库语言学沙龙
Beiwai Corpus Research Group (CRG)

Corpus tools developed by group members
Chi-square and loglikelihood Calculator, (卡方核查和对数似然率总计工具)
TreeTagger for Windows, (语言材质库词性标明工具TreeTagger的Windows分界面)
Colligator 1.0 & 2.0, (语言材质库类联接解析工具)
PatternBuilder 1.0, (赋码语言材料库检索支持理工科程师具)
The 艾德inburgh Associative Thesaurus (EAT) for Windows,(塔林联想词库Windows查询工具)
Wordlist Tools 1.0 Beta,(词表解析工具)
My Good Old Blackboard,(小编的电子黑板)
BFSU Stanford Parser 1.0,(斯拉维尼亚语自动句法剖判工具)。
BFSU Stanford POS Tagger 1.0,(土耳其共和国语自动词性赋码工具)。
BFSU Sentence Collector 1.0,(例句提取工具)。
BFSU NewWord 马克尔 1.0,(生词评释工具)。
BFSU Sentence Segmenter 1.0,(克罗地亚(Croatia)语自动分句工具)。
Web Colligator。
Collocator 1.0: A collocation extraction tool,(搭配深入分析工具)。
Log-likelihood ratio calculator,(对数似然率计算器)。
Readability Analyzer 1.0 ,(韩语文本可读性深入分析工具)。

Other free corpus tools
AntConc: A free concordancer(跟Word史密斯重要作用看似的语言材质库索引工具)
Range: Vocabulary coverage tools(基于底表的分级词汇度量工具)

语言材质库检索软件Paraconc 和Multiconcord:

Paraconc由Barlow制作(该软件的演示版可在网络下载),该软件的风味是能够张开多达各类语言的同不平时间探寻,可能是二个原稿的多少个译本的索求。那大器晚成软件的特征是能够灵活定义语言、索引行的大小、标记符号的隐显,何况协助通配符检索。

Multiconcord也是三个在Windows窗口下运作的软件。这种软件和Paraconc在寻找成效上相同,但搜索结果在显示格局上不一样。其它,Paraconc能够找寻纯文本格式的文件;Multiconcord 则须求贰个Minimark 程序来最低程度地方统一标准记文本,如< p > (段落) 和< s > (句子)。

 

 

 

 

语言质地库总结

两层意思:利用语言质感库对于语言的某部地点拓宽研讨;一句语言材质库所影响出来的语言事实对今后语言学理论进行批判,建议新观点和商酌。

  • 平衡语言材质库 平行语料库
    同等种语言的语言质感上平行(国际波兰语语言材料库)
    三种或多样语言之间的平行采样和加工

  • 通用语言材质库和专项使用语言材料库
    抽样时精心从各类方面考虑了平衡难题的平衡语言质感库

  • 共时语言材料库和历时语言材料库
    为了对语言举行共时研讨而树立的语言材质库
    历时:为了对语言举行历时切磋而营造的语言材料库。决断四条轨道:必需开放的、动态的;全体语言材质库都应有来自满众传播媒介,都享有分化总计测算方法与传播媒介特色相应的流通度属性;随着语言材质的动态收集,预料也应该展开动态加工;语言质地的加工结果也应当是动态和历时的。

  • 生语言材质和标明语料库
    标注:
    基于加工水平,汉语为主的分词语言材质库、分词与磁性标明语言质感库、tree bank、proposition bank、discourse tress bank。

分词难点始终是麻烦中文音讯管理的主题材料,由此营造了中文自动分词系统提供练习多少以创制中文分词库和剖判与词性证明库。

普通话语言材质库建设等难题(略)

过度关心翻译语言的共性,忽视翻译语言本性的商量

新式历时复合语言材料库的营造是语言材质库研制的生机勃勃项关键突破,国际上在这里上头恰恰起步。德国读书人尤莉Anna·House项目组近年营造了二个小型历时复合型语言材质库,共550篇文书、80万词。但因语言材质水库蓄水容量量小,语言质感远远不足平衡,时间节数不尽,近来仅举办了开班的德英/英德翻译研讨和言语接触商讨。大范围英汉平行语言质感库——英汉双语的历时复合语言材质库,能够使得地解决上述语言材质库简单、语言材料库品质以至语言材料库的历时调查和复合比较斟酌等主题素材,为翻译与指标语之间的互动创设比较完好的形容和解析框架,使多层面、系统性的翻译和言语变化历时研讨成为也许。

【新书推荐】《语料库与翻译》

Original 2017-04-06 管新潮 陶友兰 现代外语研讨

 韦德国际1946手机版官网 3

语言材质库与翻译

韦德国际1946手机版官网 4

 管新潮  陶友兰  著

(浙大大学出版社,2017)

目录

 

第1章 绪论

1.1 语言材料库的来源与前行

1.1.1 语言材料库的概念

1.1.2代表性语言材质库及其特色

1.2 语料库的类别

1.2.1 单语与双语(多语)类型

1.2.2 平行与可比类型

1.2.3 通用与专项使用项目

1.2.4 单向与双向(多向)类型

1.2.5 小结

1.3 语言材质库语言学与翻译学

1.3.1 语言材质库语言学

1.3.2 语言材质库翻译学

1.4 本书概要

本章亮点:

l  对具备代表性的18种语言材料库进行了概述

l  对种种语言材质库类型的概念与效率开展了印证

l  对语言材质库语言学和语言材料库翻译学进行了实用性介绍

第2章 语言质地库技巧和翻译手艺

2.1 引言

2.2 语言质地库技艺

2.2.1 语言质感格式调换工具

2.2.2 语言质地降噪工具

2.2.3 语言材质对齐工具

2.2.4 语言材质库检索和剖析工具

2.2.5 难点与展望

2.3 翻译技能

2.3.1 文书档案管理类工具

2.3.2 源文筹划类工具

2.3.3 译文管理类工具

2.3.4 翻译处理类工具

2.3.5 语言材料管理类工具

2.3.6 本地化学工业具

2.3.7 难题与展望

本章亮点:

l  实例介绍怎么着针对分化的PDF文书档案利用分化的转换工具,抵达最好效应

l  比如表达怎么着使用最强降噪工具WOWranglerD软件

l  系统介绍语言材质对齐工具、原则、效果与追寻和应用

l  详细描述系统的翻译技能必要动用的六大类工具:

文档管理类工具——内容处理系列、撰写系统、桌面排版系统

源文妄想类工具——文字管理软件、语音识别软件

译文管理类工具——Computer帮忙翻译、机译、改正工具

翻译管理类工具——翻译管理类别、品质担保工具、项目管理软件

语言材质管理类工具——翻译纪念工具、术语管理工科具

第3章 语言材料库创造流程

3.1 引言

3.2 语言材质库的两全

3.3 语言质感搜聚和降噪

3.3.1 语言材质搜聚

3.3.2 语言材质降噪

3.4 语料对齐及其保存格式

3.4.1 语料对齐

3.4.2 语言材质对齐保存格式

3.5 语言材质库应用

3.5.1 案例1:Computer扶持翻译项目利用

3.5.2 案例2:以组合语料库演习翻译本事

3.5.3 案例3:某大型客车创建公司的语言材质晋级

3.5.4 案例4:对法律准绳术语外译的提出

3.5.5 案例5:语言材质库证据在美利坚独资国的法庭应用

3.5.6 案例6:两岸三地英汉科学普及历时平行语言材质库

3.5.7 案例7:德汉《资本论》双语平行语言材质库

本章亮点:

l 介绍语言材质库设计供给关爱的宏图参数

l 陈诉语言材质接收规范与操作规范、库容规模、文件名命名等细节

l 提出什么给语言质感降噪,怎样开展语言质地对齐操作以至保存格式、格式交换等,某些是作者个人试行经验,具体表明创设进度中遭受的两样难点以至解决方案

l 列举了富有代表性的八个语言材质库案例,表明怎么着在翻译施行中使用语料库进步翻译效果和材质,如以组合语言材料库练习翻译技巧、语言材质库证据的法院应用等

第4章 语言材料库质量

4.1 引言

4.2 语言材料库质量的多维性

4.2.1 语言材质库的统筹品质

4.2.2 语言材质的翻译质量

4.2.3 语言材质的搜集与降噪品质

4.2.4 平行语料库的对齐品质

4.2.5 应用于现实品种的语言材质组合品质

4.3 源自于翻译实行的语言材料库性能

4.3.1 相关规范的翻译流程设置

4.3.2 品质担保意见与工具

4.3.3 句对库中的高水平句对

4.4 应用于译学商讨的语言材料库质量

本章亮点:

l 第三次对语言材质库品质开展了多维性描述,蕴含语料库的规划品质、语言材质的翻译品质、语言材质的搜集与降噪品质、平行语言质感库的对齐性能、语言材质组合品质

l 分析了渊源于翻译施行的语言质感库品质存在的有个别题目,并提出相应对策

l 依据译文错误类型与翻译质量关系模型,尝试建议翻译质量评估建立模型

l 提出特意的材质担保意见来解决翻译品质难点

 

第5章 语料库与翻译施行

5.1 引言

5.1.1 Computer扶助翻译的特点

5.1.2 计算机扶植翻译的归类

5.2 语言材料库与纪念库

5.2.1 语言材质库与回想库的不一样

5.2.2 记念库的创建与维护

5.2.3 回想库的协作

5.2.4 纪念库的换代与组合

5.2.5 回忆库的其余成效

5.3 翻译项目中语料库的使用

5.3.1 双语平行语言材质库的翻译应用

5.3.2 可比语言质感库的翻译应用

5.3.3 单语语言材料库的翻译应用

5.4 双语平行语言质地库数据开掘

5.4.1 专门的工作通用词概念

5.4.2 法律双语平行语言材料库的多少开掘

5.4.3 经济学双语平行语料库的数量发现

5.5 译入非母语时的语言质地库功效

5.5.1 汉语翻译外现状

5.5.2 语言材质库的选拔

5.6 大面积句对库与机械和工具翻译

5.6.1 句对库的概念和质感

5.6.2 Computer支持翻译与机械和工具翻译的三结合

本章亮点:

l 分化语言质感库和记忆库之间的涉嫌,论述记念库的创办、维护、相配、更新、组合等概念与功力

l 实例演示如何在翻译项目中使用双语平行语言材料库、可比语言材质库或单语语言材质库

l 论述一种最大进步翻译推行意义的翻新方法:从双语平行语言材质库(如经济学、法律)中挖掘出特定领域专项的正规通用词,奉行申明效果显明

l 演讲如何确认保证句对库的质感,怎样将所获得的句对名下相关的天地,如何以高素质的句对来落到实处机译

第6章 语言材质库与翻译传授

6.1 引言

6.2 基于语言材料库的翻译教学实践

6.2.1 使用语料库自己作主学习

6.2.2 成立学习者语言材料库

6.2.3 学生自行建造英汉平行语言材质库

6.3 语言质地库与翻译教材编写

6.3.1 实现翻译教材具体内容和连锁语言材料库链接

6.3.2 分明语言材质难易程度

6.3.3 以潜心关注语言质地编译例句并提供多样译文表率

6.4 翻译教学语言材质库平台设计与构想

本章亮点:

l  教会学生怎样运用语言材质库进行独立学习

l  教会学子怎么样创立学习者语言质地库、英汉平行语言材料库

l  指导老师利用语言材质库编译教材

l  设计与构想豆蔻梢头体化翻译教学语言材质库平台

 

附录

汉英双语对照术语表

 

本书特点

提笔写作本书的目的在于对友好20多年来致力翻译实行经验的计算,具体说是对翻译实行与翻译才能、语言材料库、翻译教学等相结合的执行经验的总括,期待能够透过经验总括进而在翻译施行理论上有所长进。文中所显现的经总括归结后的文字表达定能对翻译实行和MTI教学试行具备助于。本身自认为本书已经具有了以下三大特征:

l  对翻译实践的可应用性;

l  对MTI传授的可适应性;

l  对翻译理论的可拓展性。

率先,对翻译施行的可应用性。本书所表现的文化均以自己多年来所做的汪洋翻译实施为依赖,能够说有近十分八的源委是一心注重于经验的下结论、归咎、提炼和升高。这是可应用性特点的黄金时代种面向翻译推行的反映。另一反映是将通过总括、归结、提炼和升高后的文字表述交由产业界行家审定,确认其对切实翻译履行具有教导意义后才予以定稿。本书对翻译试行的可应用性还体今后疏散于书中差别章节的各个有关翻译或语言材质库技艺应用的“小技术”。

第二,对MTI传授的可适应性。MTI传授中的计算机扶植翻译是翻译技能的朝气蓬勃部分或内部的三个环节,其并不能代表全部翻译技术。由此,翻译技巧的MTI教学有其复杂,即怎样将不一致的翻译技艺知识揉合在一同并实用地教学给学子,以致怎么着教会学子以习得的翻译本事知识去毁灭实际利用难点。因为技艺在不断更新和前进,而且革新和前行的快慢在时时随处加快,现存的技巧大概会在多少年后不见其踪迹。同理可得,翻译本事或语言质感库才能教学的重要并不在于教会某项手艺,而是如何使学子习得应用本领去消释难题的力量。

其三,对翻译理论的可扩充性。意气风发种理论的爆发在其最初阶段必然是展开尝试,然后是总计归结,最终才上涨为理论层面。翻译才具理论的产生也不例外。翻译技艺有多面内容可供学术讨论,如人机互动翻译的边际商讨、本领条件下的翻译战略、本领背景下的译者行为切磋、公司翻译钻探,等等。

 

笔者简要介绍

管新潮,专业译者,长期致力德英汉翻译执行,到现在已累计翻译和核对德英汉字数达3000万(包罗审阅查对);首要翻译领域关系海洋工程与船舶创造(德语)、管医学(德语)、法律(英语)、机电(塞尔维亚语)等;建有各种连锁语言材质库,如英汉军事学平行语言材料、英汉海洋工程平行语言材料库、英汉法律平行语言材料库、德汉公约文本平行语言材质库、马克思《资本论》德汉平行语料库(百多年)等。曾经或正在为国际盛名集团提供语言服务建设方案,如德意志联邦共和国劳氏船级社、挪威王国船级社、艾斯维尔出版社和施普林格出版社、中兴手艺集团、毕马威咨询集团等。现任上海清华外语大学MTI导师。

 

 

 

 

 

第4章 语言材料库与语言知识库

翻译语言特色富含翻译共性和实际语言对翻译语言特色。翻译共性,又称之为翻译普及性,是指翻译文本所持有的区分于原创文本的广泛性特征,首要包罗显化、隐化、简化和范化等。翻译共性是“翻译文本并不是源语文本展示的规范语言特色,并且这几个特征不是特定语言系统相互成效的结果”(Baker 一九九四:243-6)。具体语言对翻译语言特征是指由于源语和指标语语言影响,翻译文本在词汇、句法、搭配、语义韵及叙事结构等范围所显现的卓越语言特色。

语言材质库研制的一大突破

[26] Nafá, M. 2005. Acoustic-discursive analysis of intonation in English-Spanish SI. Application to interpreter training and interpreting research. Ph. D. diss., University of Granada, Granada, Spain.

语言材质库研制存在的主题素材

[22]MalmkjH1X1140.jpger, K. 2004. Translational stylistics: Dulcken's translations of Hans Christian Anderson. Language and Literature, 13, 1: 13-24.

本着上述难题,尤其是第多个难点,有要求思虑如何突破语言材质库研制的局限性。构建新型的历时复合语言质地库,正是我们最新的尝试。

语言材质库具备语言材料自动显示和数码自动获取等优势,在翻译教学中有着广泛的施用前程。

语言发展转移的因素有个别属于语言本人运动,有个别是语言间的竞相接触影响所致,极度是翻译在二种语言间所起的法力,如近代的话的翻译就对今世国语白话文的进步起了重要推动意义。同有时候,汉语标准始终在隐性地轨道翻译语言变化的节制。语言的前进变化会在词素、词语、搭配、短语、句式、句长、语篇等层面上反映出去。依据于历时复合语言材质库这些平台,就能够尽量相比较和分析这几个语言层面包车型大巴历时变化历程,并树立翻译语言与现时期汉语白话文间互相影响的动态格局;还足以因此和华语原创参照库相比,深入分析开采中文历时变化与翻译之间的关联。商量内容囊括宏观和微观两大方面。宏观语言特征:尊崇利用语言材质库驱动研讨措施,侧重考查句长、句段长、POS频率、类符型符比,以致一些特定语言项指标历时遍及特点。微观语言特色:语言材质库驱动切磋与基于语言材质库的钻研两岸并用。前边多个通过WordSmith或AntConc的主要词相比较分析词汇和词丛使用上的历时差异,发掘成价值的语言点,继之归类、深入分析;后面一个偏重现成钻探成果的管用应用,基于现成的商量建议辩护如果,找到细化了的言语项目,也许经过细读翻译文本,观看可深入分析的语言使用特征,在那基础上依照历时语言材料实行描述、深入分析和演讲。总来说之,历时复合语言材料库的行使切磋前途极为遍布。

——. 2001. Towards a methodology for a corpus-based approach to translation evaluation. Meta 46, 2: 345-64.

20世纪语言学钻探,从索绪尔开头,得到十分的大的进展。此中在措施和工具层面包车型大巴升高,以语言材质库的研制与运用最具标记性意义。随着今世管理器才具的前进,单语语料库研制从20世纪中叶开发银行,到现在已助力语言学商讨获得广大新硕果。双语语言材质库即使迟至20世纪90时代上路,但势头很强,拉动了双语对照、翻译及双语词典研编等后生可畏多元钻探。

[13]Holfland, K. and S. Johansson. 1998. The translation corpus aligner: A program for automatic alignment of parallel texts. In S. Johansson and S. Oksefjell, eds., Corpora and Cross-linguistic Research. Amsterdam/Atlanta, GA: Rodopi. Pp. 87-100.

历时复合语言材质库的利用

汇总,外国语言材料库翻译学讨论获得了使人迷恋的演化,不过依然有很大的上升空间。

方今国际上双语语言材料库研制的首要难题:第风流倜傥,语言材质库多数文本来源单风流倜傥、标明比较轻便,且多为北美洲语言,别的双语语言质感库甚少,主要用来语言识别、文书档案级对齐、术语提取等自然语言管理研商,而非从言语学和翻译学角度研商语言与翻译难题。第二,少数双语语言材料库开展了对应的言语与翻译研究,但双语语言材质库在质和量上都有待提高。第三,语言是发展转变的,在外语和翻译的功用下,语言之间的各样接触恐怕变成语言发生另样的变动,原生语言和翻译语言也存在各个的相像和相异。国际上现存的双语语言材质库或是缺少历时语言质地,或是语料库库容有限,上述琢磨课题也就悬而未探。第四,现成的无论是单语还是双语语料库,比相当少做合成架构,即要么是单语或双语的,要么是平行或类比的,少见组合,不便民语言和翻译发展变迁的观测和相比。

[36]Steiner, E. 2002. Grammatical metaphor in translation: Some methods for corpus-based investigations. In H. Hasselgard, S. Johansson, B. Behrens and C. Fabricius-Hansen, eds., Information Structure in a Cross-Linguistic Perspective. Amsterdam: Rodopi. Pp. 213-28.

历时复合语言质感库的创设除了讲究时间段的划分,还需在语料取样上思虑双语文本和翻译斟酌的特定,即不一致于日常的单、双语语言材质库,并索要思量汉语开始时代白话文语料有限,本研商在语言材质取样时做了适宜变通,扩展了采集样本数量。英汉历时翻译语言材质库样品结构参照Brown语言材质库,样品大小参照克罗地亚语/乌克兰语平行语言材质库(The English-Norwegian Parallel Corpus,ENPC),大多数样书为15000英文词和对应的25000汉字,汉语译文取样最多不超越30000字,日常从正文伊始部分起先三番两次采取。

只是,这两种对齐方法都有局限性。一方面,运用这两种形式不能够一心落到实处双语语言质感在语句层面包车型客车自动对齐。另一面,第后生可畏种办法供给事先接收人造手腕对齐一些语言材质,并总结源语和目标语之间的相配可能率周密。第二种情势必要营造对译词库。有鉴于此,Holfland和约翰松(一九九八:87-100)建议富有以上两种办法特点的混合型方法。他提议双语语料之间的对齐能够何况选择言语长度和双语锚点词表建设构造语句之间的应和关系。Izquiedo,Hofland和Reigem(贰零零捌:31-41)以为原来的作品和译文语句之间的平行对齐可同时选取二种艺术:分明锚点词汇表,即入眼的常见词汇双语词表。那一个词汇可看作言语平行对齐的重要参数;专项使用词汇(如以大写字母起首的词)和阿拉伯数字可视为语言材质对齐的首要成分;总结Dice分值。别的,他们还以为语言单位的长短、问号和惊叹号等标点符号也可作为语料对齐的符号。

创设新型语言材料库时,还必要相应的语言材质库技艺支撑,供给综合型的方便人民群众检索平台。比方丰盛调用篇头标明中的文本属性新闻,让那一个元新闻作为检索条件出将来追寻平台分界面上,提高复合检索水平;像类别、风格、体裁、笔者、时间、出版社、时代等都可以作为检索条件,保险语言材质量检验索定向精确、针对性强。目前,以xml格式存款和储蓄的语言材质能够在特意设计的阳台上运用。

[25]Monzó, E. 2003. Corpus-based Teaching: The use of original and translated texts in the training of legal translators. Translation Journal 7, 4: 1-3.

历时语言材质不是随意将各时期语言材质搜聚即可,必要平衡和分期。就汉语来说,语言材质的历时平衡要通盘挂念今世中文发展的实际情状,分期采样,以便所建语言材质库能反映出今世国语的前行轨道,并在英汉平行语言质地库的基本功上探求英中文言接触及韩文通过翻译对中文发展发生的影响。在语言质感、水库蓄水容量、架构、历时、复合等地点一定要卓绝团结的建库特点,突破国际上相同双语语言材料库的语言材料选取和语库架构等地点的受制,还要防止英帝国国度语言材质库由于历时三翻五次采集样板而招致的各阶段差距模糊的老毛病。

[33]Russo, M., C. Bendazolli, and A. Sandrelli. 2006. Looking for lexical patterns in a trilingual corpus of source and interpreted speeches: Extended analysis of EPIC(European Parliament Interpreting Corpus). FORUM: International Journal of Interpretation and Translation 4, 1: 131-43.

大家的规划思路是,在水库蓄水体量上高达1亿字词,含百万字词的口译语言材质,并打开深度加工标明。除了语料平衡和水库蓄水体积庞大这两点外,历时复合是翻新亮点,复合即平行语言材料、类比语料、参照语言质感三结合,而非单风姿洒脱的平行语言质感。大家从中文和翻译发展的动态钻探出发框架结构历时和复合的语言材料库:将20世纪100年间的普通话语言材料分成三个等第,约30年为一个等第,重视收罗各阶段某10年的语言材质,各等第采摘:英汉平行艺术学语言质感400万字词。中文原生文学语言材料200万字词。再辅以19世纪未受今世翻译影响的原生态中文工学语言材质200万字词,以致不谙外语的单语作家语料100万字词,合计近2002多万字词。

听他们说Maia,四类语言质感不宜收入译学商量语言材质库,即:源语文本自个儿是翻译作品或由源语语言本领有限的小编所写的语言质感;匆忙翻译而成,错误非常多的翻译作品照旧过于拘泥于源语文本句法和文章结构的翻译小说;由指标语并非母语的译者所译的创作恐怕由目标语为母语但未受翻译练习的翻译所译的著述;源语文本和目标语文本都因此编排管理的语言材料。Zanettin(二〇〇八:331-2)以为平行语言材质库的语言质地选用应根据以下规范,即:语言质地的介质。凡是出版书籍的电子版本均可纯收入,而报纸、杂志、网页和电子邮件均不入账;语言材料是不是有译文或原来的书文。凡是未有原作或译文的语言材质不可能入账平行语料库。其余,最先的文章和译文均源于同一个人的语料,或转译自第三种语言的语言材料均不低收入;出版时间;依据出版商、小编和翻译的影响力决定语言材质收音和录音与否。那么些规范均具有自然的可操作性,可是,Maia所建议的第八个专门的学问人为地压缩翻译语言材质的筛选范围,即唯有那贰个指标语为本族语且受过翻译训练的翻译的翻译作品技能收入语言材质库。那大器晚成标准分明不太切合翻译活动的实际上现状。纵观翻译活动的前行历史,众多翻译作品即使不是出自指标语为母语的译员或受过翻译训练的译者之手,却较好地实施了翻译的任务,在那之中不乏精粹译作。事实上,不管译者的背景怎么样,只要译作品质较高,何况不是原作的编写翻译或节译,均可收入译学商讨语言质感库。在Zanettin(二〇〇九:331-2)提议的行业内部中,报纸、杂志、网页和电子邮件均不收入。电子邮件多与个人隐私有关,由此平日不作为语言质感库语言材质,那是合情合理的。不过,报纸、杂志和局地生死攸关网址登载的双语语料品质较高,完全能够看作语言材质的根源。由此这生机勃勃标准非常不够科学。

有鉴于此,研商语言及其变动不仅仅须要规划合理、规模十分的大的语言材质库,还亟需平衡的历时语言素材。国际上,应对那意气风发须要的历时语言材料库近些年开班创设。第三个历时语言质感库AVIATO途锐在1987年由瓦伦西亚大学研制作而成功,另二个历时语料库ACRONYM于1995年建造成。那七个语言材质库都使用三番五遍出版的报纸和刊物为语言材料。代表性越来越强、跨度长达300多年的平行塞尔维亚(Република Србија)语语料库、4亿字词的United States语休斯敦字马尼亚语历史语言材质库也穿插建设成。不过,单语的历时语料库还不能够一挥而就双语的和翻译的标题。举个例子,今世国语的迈入转移,单从历时语言材料库还无法很好地观测,应出席越来越多的比较成分,如立陶宛共和国(Republic of Lithuania)语源语的要素、粤语译文的变型和汉语原来的文章的成形,三者之间产生风度翩翩体的可比商量,才有望更丰富地勾画和分析。因而,不止要构建历时的语言材质库,还应设计复合的历时语言材质库。

——. 2009. Designing an English Italian translational corpus. In B. Kettemann and G. Marko, eds., Teaching and Learning by Doing Corpus Analysis. Beijing: World Publishing Corporation. Pp. 329-43.

历时语料库可提供各时期语言的竞相相比,发掘语言使用的浮动及其进度,为语言变化调查、翻译商讨甚至翻译语言与指标语之间的相互,提供客观的描摹和可剖析的数码。在中外历史上都有非常多翻译与对象语蜕变关系紧凑的案例。已往商讨的语言材料来源于非常不足丰裕,考查范围有限,研商的深浅和广度大受裁定,对原生汉语同翻译粤语间的互动关系也贫乏了然,而那几个都开展通过历时语言质感数据的拿走和分析获得新的突破。

[7]Corpas, G., R. Mitkov, N. Afzal, L. Moya, and V. Pekar. 2008. Translation universals: Do they exist? A corpus-based NLP study of convergence and simplification. The Eighth Conference of the Association for Machine Translation in the Americas. Waikiki, Oahu, Hawaii.

6.翻译教学研讨

7.2口译标准研商

翻译;语料库;研究;语言;译者;口译;词汇;文本;分析;语文

Tohyyama和Matsubara(二〇〇七:893-6)利用东瀛尼斯高校研究开发的英日双向同传语料库,剖判同声传译中单词之间的年华间距、填充词对客官通晓的震慑、客官印象与翻译停顿长度等。结果呈现,将葡萄牙语译成俄语的年月间距大于日文译成韩文的岁月间距;填充词影响粉丝的了解;观众影像在比超级大程度上受口译节奏和翻译停顿的熏陶。Furuyama等(二零零七:111-36)基于录制同传语言材质库,深入分析口译译员手势使用的效用。他发现工作译员在翻译专门的学业的、事先企图讲稿的解说时,超级少使用手势,但在翻译较难领悟的段落或在问答时段翻译时,手势使用效能较高。

自一九八七年份以来,国外语言材质库翻译学商量在译学研讨语言材质库的建设、翻译语言特色、译者风格、翻译专门的学业、翻译传授和口译等领域获得了比较快的演化。一雨后玉兰片译学商讨语料库前后相继成功开垦,第一次全国代表大会批判语言材质库翻译学论著公布和出版,超级多以语言质地库翻译学为大旨或议题的学术会议相继举行。可是,国外语料库翻译学商量存在部分美中不足:还未有落到实处与翻译学跨学科本性的有机构成;翻译语言和翻译职业天性的钻探未有博得丰富的讲究;定量切磋仍然有上升空间;语言材质库驱动商量未有运营;翻译教研有待拉长。因而,以后语言材料库翻译学切磋应结合翻译学的跨学科脾气,从文化层面切磋翻译现象和翻译本质,重视翻译语言特征和翻译专门的学问的脾性切磋。现在语言材质库翻译学研商还应尽力将计算量测量试验等比较复杂的定量研讨引进译学商讨之中,开展语言材料库驱动的译学研究;建设翻译传授专项使用语言材料库,着力推动语言材质库在翻译传授特别是翻译课堂教学中的应用。

而是,语言材质库在翻译教学中的应用也设有部事务厅限性。Stewart(二〇〇〇:73-91)的钻研评释学生的译作平日面前境遇具体语料库中数十次现身的选择形式影响,翻译的创制性由此打了折扣。MalmkjH1X1140.jpgr(2007:119-34)也持相近观点。他感到语言材质库重要“反映过去的语言应用方式,不能够代表今后语言发展的取向”。翻译本质上是创制性活动,而语言质感库所提供的例证一再会错误的指导译者并毁灭其创设性。为此,在翻译教学施行中有尤为重要接收颠覆性的艺术运用语言质地库,让学子了解如何开展成立性翻译。

8.国外语言材质库翻译学商量存在的难点

1.引言语言材质库翻译学是指以语言材料库为根基,以切实地工作的双语语言材料或翻译语言材质为研究对象,以数量总计和斟酌解析为研商措施,依附语言学、法学和学识理论及翻译学理论,深入分析翻译本质、翻译进度和翻译现象的翻译学分支学科。经过短暂十几年的提升,外国语料库翻译学独出新裁,发展变成入眼的翻译学分支学科,并在译学探讨语料库的建设、翻译语言特征、译者风格、翻译职业、翻译教学和口译等商量领域获得了注意的成就。2.译学切磋语言材质库的建设钻探译学讨论语言材质库是为翻译商讨指标而极其建设的语言质感库,如翻译语言质感库、平行语言材质库和单语可比语料库等。

译学研究语言材质库是为翻译研讨指标而特地建设的语言质地库,如翻译语言材质库、平行语料库和单语可比语言材料库等。依据Baker(一九九二:224-6)的意见,翻译语言材质库和单语可比语言材质库可用来翻译文本的言语特色和翻译风格的剖析,而平行语料库的使用可以发表译者的翻译计谋以致现实翻译语言特色产生的来由。

[24]Mauranen, A. 2000. Strange strings in translated language. A study on corpora. In M. Olohan, ed., Intercultural Faultiness. Research Models in Translation Studies I. Textual Cognitive Aspects. Manchester:. St. Jerome Publishing. Pp. 119-41.

正式是有关翻译作品和翻译进度科学的规定。翻译职业对译者的翻译活动发生影响,具体表现为翻译在翻译进度中所做出的规律性选用。

3.翻译语言特色商讨

[17]Kenny, D. 1998. Creatures of habit? What translators usually do with words. Meta 43, 4: 515-23.

口译语言特征商量满含翻译共性和具体语言对口译语言特色商量。

——. 2001. Lexis and Creativity in Translation. Manchester: St. Jerome Publishing.

Bosseaux(贰零零伍:599-610)对于Virginia Woolf所著的The Waves的八个克罗地亚语译本的形符/类符比和平均句长等数码进行总计,分析了这五个译本翻译文化词汇和专闻明词的切实可行计策和格局。他开采前面贰个首要使用异化则略,尽恐怕再次出现异地文化要素。前面一个的翻译计策为归化,尽量在指标语文本中解除异地文化因素。Bosseaux(二〇〇二:107-22)还对United Kingdom国学家维吉妮亚Woolf的作品 To The Lighthouse的八个保加布尔萨语译本举办比较剖判,注脚了匈牙利(Hungary)语译本在指令、情态、及物性和直接话语等地方所显现的切切实实特征,揭发了二人翻译风格的反差及其内在原因。他重申译者翻译攻略和措施的两样直接促成上述译本在叙事结构方面所显现的出入。

定量商量处于初级阶段,语言材料库驱动的译学研究运转

——. 1995. Corpora in translation studies: An overview and some suggestions for future research. Target 7, 2: 223-43.

2.1语言材料接受与语言材质的代表性

3.1翻译共性讨论

切磋广度较为有限,未能与翻译学的跨学科天性有机整合

9.结语

此外行家则对翻译文本中简化的范化趋势举行实证钻探。Laviosa(一九九九b:557-70)接收词汇变化、消息容载和平均句长征三号大指标对翻译文本的简化偏向举行观望。商量发掘,与非翻译文本相比较,翻译文本中实词和语法功用词的比率好低,高频词相对于低频词的比例较高,平均句长极短。Corpas等选择历史学翻译语言材质库,比较了翻译泰语和原创爱沙尼亚语语言材质的词汇、句法和语篇特征。商讨结果突显,与原创葡萄牙语语言材质比较,翻译希腊语语料的用词变化缺乏丰硕,常用词和省略句的接受功用高,平均句长短,故而展现鲜明的简化趋势。

[21]Maia, B. 2003. Some language are more equal than others: Training translators in terminology and information retrieval using comparable and parallel corpora. In F. Zanettin, S. Bernardini, and D. Stewart, eds., Corpora in Translator Education. Manchester:. St. Jerome. Pp. 43-53.

[5]Bowker, L. 1998. Using specialized monolingual native-language corpora as a translation resource: A pilot study. Meta 43, 1:631-51.

翻译学的钻研范式首要有语言学钻探范式和文化斟酌范式。但是,国外语言材质库翻译学研讨局限于翻译共性、译者风格和翻译教学等世界的商讨,这个切磋基本上属于语言学讨论范式,从知识层面钻探翻译现象和真相的语言材质库翻译学探讨成果相当的少。因而,以后语言材质库翻译学探讨既要从语言学视域出发,也要筛选管理学理论或文化理论观点,进而实现语言材料库翻译学与翻译学跨学科属性的有机构成。

7.3口译战术商讨

2.3语言质地的可比性

[15]Kay, M. and M. Roscheisen. 1993. Text-translation alignment. Computational Linguistics 19, 1: 67-93.

——. 2004. Introducing Corpora in Translation Studies. London/New York: Routledge.

与笔译语言材料库分化,口译语言质地库的标注事业不唯有须求提供语言质感的超语言或超文本特征和言语特色音讯,並且还要申明副语言特征消息。二〇〇三年,澳国议会口译语言材质库(European Parliament Interpreting Corpus,简单称谓为EPIC)起头建设。该语言材质库收录了爱尔兰语、意大利共和国语和英语等3种语言的发言词源语文本及其口译文本的转写语言材料,并运用TEI方式标记语言材质的超语言、语言和副语言等范畴的音信特征(Russo,et al.2005:134-6)。超语言音讯标记提供的音讯分为四大类:演讲时间、语言材质编号和言语连串;解说语言质感的光阴长度、说话速度和演讲方式(即兴、带稿或双边都有)等;演说者的名字、性别、国籍和母语;演说话题。语言音信标记重要为词性标记。副语言特征的申明涉及口误、截断词汇、停顿和含混不清词汇等副语言特色音讯。

显而易见,语言材料库方法满含基于语言材质库的不二等秘书籍和语言材质库驱动的方式。如今,外国语言材质库翻译学研商重视采纳基于语言材料库的方法,好些个收获均为通过语言材料和数指标剖判来论证或改进原来就有的理论假若,而使用语言材料库驱动方法的研商尚没多少见。因而,有必不可少进行语言材质库驱动的翻译学切磋,以开展语言材质库翻译学研商的纵深和广度。

翻译风格是“留在文本中的一文山会海语言和非语言的特性特征”(Baker 2002:245),是指译者在言语应用方面所表现出的优秀特征以至富含作为翻译对象的公文选取、翻译战术和方法的采用、前言、后记和译注等在内的非语言特征。长久以来,翻译被视为模仿性活动,译者风格斟酌平昔被严重忽略。然而,近期,随着语言材质库翻译学的兴起,学界初叶关注翻译风格切磋。

语言材料库翻译学/翻译共性/译者风格/翻译教学/口译

[40]Zanettin, F. 2000. Parallel Corpora in translation studies: Issues in corpus design and analysis. In M. Olohan, ed., Intercultural Faultlincs. Research Models in Translation Studies I: Textual and Cognitive Aspects. Manchester:. St. Jerome Publishing. Pp. 105-18.

[18] H1X1143.jpgJ. 2009. Keeping Czech in check A corpus-based study of generalization in translation, 24, Jul. 2010]

[27]Oakes, M. and T. McEnery. 2000. Bihngual text alignment: An overview. In S. P. Botley, A. M. McEnery, and A. Wilson, eds., Multilingual Corpora in Teaching and Researching. Amsterdam: Rodopi. Pp. 1-37.

[20]Lindquist, P. P. 2004. Challenging conventional wisdom: A corpus-based model for interpreter performance evaluation. The ATA Chronicle 38, 1: 35-48.

Kenny利用德葡萄牙共和国语学文本语言材质库,深入分析了保加卡托维兹语文学文本中罕用词和这些搭配的英译,发现那么些语汇和搭配的英译表现出范化趋势,即依照以至夸大指标语文本守旧的大势。她提出“某个译者更偏向于范化,范化恐怕极度适用于依赖系统的构词进度而变成的词汇特征以致利用常规词汇组合而成的创制性复合词或搭配”。

[30] H1X1141.jpg. 1998. In search of the third code: An investigation of norms in literary translation. Meta 43, 4: 571-88.

可是,一些我们对此翻译共性研究格局的合理建议质询。Kenny以为选拔类比语言材质库研商翻译共性往往会忽视源语文本,存在缺欠。为此,翻译共性商讨应将可比语言材质库和平行语言质感库结合起来使用。汉斯en和Teich提出仅从翻译语言与原创语言文本的可比解析角度讨论翻译共性,会忽略翻译进度是另一文本引发的公文生产进程这一本质。他们强调依靠形符/类符比和词汇密度的计算剖判来证实翻译共性假如,相当不足科学。依据他们的观点,翻译共性的切磋应从语义、语法和语篇等层面开展剖析。

译学斟酌语言材料库是语言材质库翻译学探讨的首要性物质前提,其建设商量不止包罗语言材质选取、语言材质代表性和语料标明等语言材质库建设的共性难点,并且还包含语言材质的可比性和语料之间平行对齐等本身特有的主题素材。

Baker(一九九五:246-7)基于翻译塞尔维亚语语言材质库,对译自法语、葡萄牙语和英语的今世非艺术学小说英译语言材质进行分析,发现译自拉脱维亚语的英译文本对于外来词的容忍度远远超越译自别的三种语言的英译文本。她强调翻译专门的学问的异样来自社会文化之间的两样。Kenny(1996:515-23)应用德英平行语言材料库,解析英文褒义词和贬义词的英译标准。她发掘译者平时选拔心情色彩较为温和的词汇翻译源语文本中蕴藏刚毅褒义或贬义色彩的词汇。其余行家也索求了不一样语言对文艺翻译的切实规范(H1X1141.jpg一九九九;Puurtinen 2004)。

[9]Duflou, V. 2007. Norm research in conference interpreting: How can the study of documentary sources contribute to a better understanding of norms. MuTra 2007 LSP Translation Scenarios: Conference Proceedings. Pp. 1-11.

Gumul(二零零六:171-90)基于口译语料库,对同声传译中不一致门类的显化现象开展实证解析。商讨注脚,五分一的显化现象为增加连接词;代词译成所指词汇的显化现象为四成;名词化短语译作动词短语占9%;而使用词汇重复或充分和省略结构等措施的显化均占6%。他认为口译显化程度的音量与翻译方向相关。

7.口译商讨

[19]Laviosa, S. 1997. How comparable can "comparable corpora" be. Target 9, 2: 289-319.

这些年,学界围绕双语语言材质语句层面包车型的士平行对齐方法作了大气商量,成功研制了特别用来落到实处语言材质平行对齐的软件,如ParaConc等。平日,双语语言质地对齐的秘籍主要有遵照句子长短和依靠语句对应关系三种艺术。前生龙活虎种艺术以源语文本和指标语文本语句长度上的关联度以至差别语句对齐类型的相配概率等为依赖(Brown,et al.一九九五:169-76;Oakes and McEnery 2001:1-37)。相配可能率要求在总计全部对齐语句的底蕴上,计算风华正茂意气风发对应、二对后生可畏或三对五星级区别款式对齐的票房价值。后豆蔻梢头种方法规根据源语和目标语语句或词汇之间的互为翻译关系完结双语语句之间的对齐。依据Kay和Roscheisen(一九九三:67-93),一些源语文本和目的语文本的语句之间存在互为翻译关系。尽管某些单词一再同期出现在那几个互为翻译关系的言语中,这么些单词便可说是对译单词。借使后生可畏对指标语语句和源语语句满含充足多的对译单词,则这一句对是对译语句。

自1988年间以来,海外语言材质库翻译学在译学商量语言材质库建设、翻译语言特征、译者风格、翻译职业、翻译教学和口译等商讨世界获得了注意的成就,已向上成为重视的翻译学研讨范式。不过,国外语言质感库翻译学商量未有与翻译学的跨学科个性有机构成,对于翻译语言和翻译专门的学问的脾气以至翻译教学商讨相当不够珍重;定量商讨处于初级阶段,而语言质感库驱动的译学斟酌未有运维。

首先,语言材质库越发是平行语言材质库的应用能够充足发挥学子读书的主动性和主动,让学子透过开采式学习和数目驱动式学习,升高翻译技艺,产生翻译意识。Monzó以为双语平行语言材料库或可比语料库的施用不仅可以够让学员平素观测到源语语言连串的准绳,何况能够扶持他们把握翻译文本本身的性状,创建对翻译转变的感性认知。Bernal德ini等(2006:5-11)提出语言材质库能够发挥学子或译者的自己作主性和灵活性。利用语言材料库进行翻译教学,学子能够由此采访文本、评估语言材质、提取术语、创立双语文本跨语言的对等关系等,积极主动地插手到读书进程之中。语言材质库“那风姿浪漫工具最大的训诫价值在于其孳生译者思虑而非仅仅提供现存答案的潜在的能量”(Bernardini,et al.二〇〇七:11)。

Olohan和Baker(二零零零:141-58)考察了翻译马耳他语语言质感库和英国江山语言材质库中say/tell that结构的行使,开采前者的that使用频率高于前者。Olohan(二〇〇四:423-32)利用翻译立陶宛语语言材料库和英国江山语言质感库,解析了非强制性句法成分和词汇成分的应用,研商翻译文本中的非强制性显化。研商结果展现,在翻译文本中,非强制性句法元素常用于显著表述原作隐含的分化句法关系。非强制性词汇成分的施用能够使最早的小说隐含的音信或揭橥不显眼的含义明朗化,如意义笼统的词汇常译作意义具体的词汇,人称代词译成所代替的名词。这个钻探均注解翻译文本表现出较为刚毅的显化趋势。

Marais和Naudé考察了南非(South Africa)原创布尔语文本和译自笔者保护加俄克拉荷马城语的布尔语教派文本的映衬,发掘翻译文本的规范类/形符比、平均句长和稳定搭配的选择成效均超越原创文本,翻译文本并没有显示出简化和显化等体系化。

[8]Crisafulli, E. 2002. The quest for an eclectic methodology of translation description. In T. Hermans., ed., Cross-cultural Transgressions. Research Models in Translation Studies Ⅱ: Historical and Ideological Issues. Manchester: St. Jerome Publishing. Pp. 26-43.

2.2语料的标号

语言材质的可比性是对两样语言或语言变体实行相比较解析时所依照的一块儿标准,是建设可比语言材质库的关键所在。Baker(一九九五:223-43)提议,可比性是指两组语言材质或八个语料库在翻译性别、翻译方向、语言质地体裁、时间跨度、小编性别和对象读者等方面好像。依照Laviosa(1999:289-319)的视角,语言质地可比性包蕴的行业内部首要为:翻译格局(如,为了阅读目标而翻译);翻译方式;翻译方向(相对于译者的母语来说);源语语言;文本的问世现状。她还建议语言质地库设计的有的好端端职业也可视为可比性的规范,如全本收音和录音和抽样,乃至共时和历时等。Olohan感觉翻译语言质地和原创语言材质之间的可比性标准包括篇章体系(比方小说、传记、报纸等)、水库蓄水容量大小、语言材料公布或出版的时间跨度、男人小编和女子小编之比、以致单个译者与公共译者之比。应当提议,上述可比性标准比较规范地勾勒了深入剖判翻译语言材质和非翻译语言材料所依据的参照点或框架,对于可比语言材料库的建设拥有教导意义。不过,那一个职业的分割相当不够紧凑。事实上,可比性标准可分为语外标准和语内标准。前面一个蕴含语言材料出版时间及时间跨度、语言材料的影响力、小编或译者的性别及其影响力。后面一个富含语言材质库的水库蓄水体量、语言材质的主题素材和体裁、语言材质的翻译方向(相对于译者来讲,语料译自本族语或外语)和翻译格局、以至语言材料的录用方法等。

[31]Pearson, J. 2003. Using parallel texts in the translator training environment. In F. Zanettin, S. Bernardini, and D. Stewart, eds., Corpora in Translation Education. Manchester: St. Jerome Publishing. Pp. 15-24.

[6]Brown, P., J. C. Lai, and R. L. Mercer. 1991. Aligning sentences in parallel corpora. Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA. Pp. 169-76.

3.2实际语言对翻译语言特色探讨

[10]Furuyama, N., S. Nobe, Y. Someya, K. Sekine, and S. Hayashi. 2005. A study on gestures in simultaneous interpreters(inJapanese). Interpretation Studies 5, 3: 111-36.

[34]Schjoldager, A. 1995. Interpreting research and the 'manipulation school' of translation studies. Target 7, 1: 29-45.

除此以外,一些行家提出了新的翻译共性假若。Steiner(2000:213-28)重申由于语言间的异样,源语文本的知晓和翻译必然伴随着语法隐喻的消失,翻译文本因此展现出来隐喻化(demetaphorization)趋势。H1X1143.jpg接受俄文-法语语言材料库,在分析原创俄语小说、译自乌Crane语的塞尔维亚语小说和译自别的区别语言的马耳他语随笔语言材质的功底上,建议了泛化(generalization)假设,即译者偏向于接收意义宽泛词汇翻译源语意义具体的词汇。Klaudy(二〇〇〇:321-7)也提出“译者日常图省力。如若她们找不到标准的指标语对应词,就能够选择意义宽泛的词汇。”

总体来说,翻译专门的学问探讨依旧相比滞后。一方面,现成译学研讨语言质感库所引用语料的语体较为单后生可畏,首要为文化艺术语言材质,语言材质的时间跨度很短,日常唯有二二十年岁月。另一面,现存语料库对于译者性别和地点,以至译者所处的社会语境未能予以丰盛关怀。那些要素不便于普及性翻译专门的学业的汇总。

语言材质库翻译学是指以语言材质库为根基,以顾名思义的双语语言质地或翻译语言材料为研商对象,以数量总结和舆情剖析为切磋措施,依附语言学、艺术学和学识理论及翻译学理论,深入分析翻译本质、翻译进度和翻译现象的翻译学分支学科。语言材料库翻译学的出世直接受益于语言材料库语言学和描写性译学斟酌。Laviosa(1997a:474)感觉语言材质库语言学和翻译探讨的组成产生了“生龙活虎种连贯的、周详而增加的钻研范式。该范式涉及翻译理论、描写和实行等方面包车型客车主题材料,业已成为现代描写性译学探讨的新范式。”她建议:“语言材料库翻译研商的问世主要受五个钻探世界的震慑,三个是语言材质库语言学,另三个是描写性译学商量。”

[39]Tirkkonen-Condit, S. 2002. Translationese, a myth or an empirical fact? A study into the linguistic identifiability of translated language. Target 14, 2: 207-20.

基于语言材质库的翻译教研未有获得实质性进展

——.2002. Corpus-based Translation Studies: Theory, Findings, Applications. Amsterdam/Atlanta, GA: Rodopi.

Olohan(二零零三:117-22)相比了翻译爱沙尼亚语小说和原创德文随笔中颜色同义词的采纳功能,发掘后边贰个的颜色同义词使用频率低于后面一个,因此其接收贫乏思新求变。她(二〇〇〇:122-43)还动用翻译阿尔Barney亚语语言质感库和大不列颠及英格兰联合王国国度语言材料库,钻探了quite,rather, pretty和fairly等减轻词(moderator)在翻译塞尔维亚共和国(Republic of Serbia)语和原创乌克兰语中的使用频率和铺垫。研讨结果注脚,翻译语言质地中pretty、rather和quite的烘托范围均比原创语言材质广,但这几个词的面世频率低于后面一个。Olohan以为这生龙活虎景观形成的来由主即便:源语文本中缓慢解决词的施用功能超低;减轻词平日用来申明模糊或不分明的真实情况。由于显化趋势的影响,源语文本中表述模糊的地点在翻译文本中反复被歼灭;减轻词常用于表明讲话者或小编的情态或态度,突显讲话者或小编与观众或读者之间的竞相。由于翻译是互动性特点不太生硬的文本生成情势,缓解词在翻译文本中的使用频率不比原创文本。

MalmkjH1X1140.jpgr(二〇〇四:13-24)基于丹麦王国有名诗人安徒生小说英译本的分析,第贰遍提议“翻译文娱体育学”这一概念。他建议翻译文娱体育学首要从语言因素和非语言因素角度,研讨译者为何会以一定的不二等秘书诀来营造译文。

——. 1996. Corpus-based translation studies: The challenges that lie ahead. In H. Somers, ed., Terminology, LSP and Translation.: Studies in Language Engineering. In Honour of Juan C. Sager. Amsterdam/Philadelphia: John Benjamins. Pp. 175-86.

应当提出,外国基于语言材料库的口译钻探即便获得了部分大成,但当下建设成的口译语言材质库为数十分少,该领域切磋的广度和深度均不志得意满。

[12]Hansen S. and E. Teich. 2002. The creation and exploitation of a translation reference corpus. Proceedings of the First International Workshop on Language Resources for Translation Work and Research. Pp. 1-4.

2.4语言材料的平行对齐

Schjodager(一九九五:29-45)基于拉脱维亚语-乌Crane语口译语言材质库,从文化节制词的翻译管理角度,具体研讨了口译译员所依据的口译伊始标准。Tohyama和Matsubara(贰零零陆:893-6)利用东瀛比什凯克学院开销CIAI奥迪Q5同声传译语言材质库,在解析4578对法文-阿拉伯语句没错底子上,研究了斯拉维尼亚语-日语同声传译的12种句法操作规范。Duflou(2006:1-11)提议建设收音和录音政党单位和口译服务商的口译服务文件等语料的非常语言材质库,并以此为商讨平台,运用争辨话语解析方法切磋口译标准。

最终,语言质感库能够动用于翻译教材的编辑撰写内部,支持大家分明作为翻译材质的切切实实语篇或文章难易度,提取语境丰盛、针对性强的翻译实例。

[32]Puurtinen, T. 2004. Explicitation of clausal relations: A corpus-based analysis of clause connectives in translated and nontranslated Finnish children's literature. In A. Mauranen and P. Kujamaki, eds., Translation Universals Do They Exist? Amsterdam/Philadelphia, PA: John Benjamins. Pp. 165-76.

胡开宝,上海南开农林学院教学;毛鹏飞,人民日报对外界中华夏族民共和国特写稿件社。

[37]Stewart, D. 2000. Conventionality, creativity and translated texts: The implications of electronic corpora in translation. In M. Olohan, ed., Intercultural Faultiness. Research Methods in Translation Studies Ⅰ: Textual and Cognitive Aspects. Manchester:. St. Jerome Pub lishing. Pp. 73-91.

综述,可以知道基于语料库的译员风格研讨获得了必然进展,但该领域切磋所选用的语言质感规模相当的小,并且局限于法学翻译文本的解析。别的,分析译者风格时,有不可缺乏校译者风格与原来的书文风格区分开来。然则,那实际不是易事。

[14]Izquierdo, M., K. Hofland, and O. Reigem. 2008. The ACTRES parallel corpus: An English-Spanish translation corpus. Corpora 3, 1: 31-41.

——.2000. Towards a methodology for investigating the style of a literary translator. Target 12, 2: 241-66,

7.1口译语言特色研究

[1]Baker, M. 1993. Corpus linguistics and translation studies: Implications and applications. In M. Baker, G. Francis, and E. Toguini-Bonelli, eds., Text and Technology: In Honour of John Sinclair. Amsterdam/Philadelphia: John Benjamins. Pp. 233-50.

[29]Olohan, M. 2001. Spelling out the optionals in translation: A corpus study. UCREL Technical Papers 13: 423-32.

自语言质感库翻译学诞生之日起,翻译教研一向遭受关心,但于今结束从未得到实质性突破。首先,现存探讨成果只是从理论层面切磋语言材质库在局地翻译教学环节中的应用,很罕见人切磋语言材质库在翻译传授大纲设计、翻译教材编写制定以至翻译课堂教学中选拔的不二等秘书诀和方法。其次,翻译教学中使用语言质地库的基本点前提是建设翻译传授专用语言材质库,学界却从未对此付与关心。即便现存的译学商讨语言材料库可在一定水平上选取于翻译传授之中,但是那个语言材料库都认为翻译研究特意设计,与翻译课程传授内容的三结合不太紧凑,不适用于课堂教学。由此,翻译教学专项使用语言材质库的建设应提上议事日程。那类语料库应依据翻译课程的传授目标和传授内容来陈设,应能满意翻译传授的实际上需求。

[16]Klaudy, K. 2003. Languages in Translation. Lectures on the Theory, Teaching and Practice of Translation. Budapest: Scholastica.

[2]Baumgarten, N., B. Meyer, and D..H1X1144.jpg2008. Explicitness in translation and interprering: A review and some empirical evidence(of an elusive concept). Across Languages and Cultures 9, 2: 177-203.

[11]Gumul, E. 2006. Explicitation in simultaneous interpreting: A strategy or a byproduct of language mediation? Across Languages and Cultures 7, 2: 171-90.

[35]Shlesinger, M. 1989. Extending the theory of translation to interpretation: Norms as a case in point. Target 1, 1: 111-5.

5.翻译职业研讨

——. 1999. The role of corpora in investigating the linguistic behaviour of professional translators. International Journal of Corpus Linguistics 4, 2: 281-98.

2.译学研商语言材质库的建设商讨

此外,学界还注意到译学研商语言材质库在语言材料代表性和均衡性方面存在的受制。Zanettin提示大家,由于源语和目标语文本在各自文化中的地位存在差别,依附语言材质代表性选拔平行语言质感库语言材质,往往会使得源语和指标语语言材质之间失去可比性。Crisafulli对语言材质库代表某风流倜傥翻译行为或翻译现象那生机勃勃理念建议思疑,感觉“语言材质库的布置笔者是后生可畏种阐释”。尽管根据语言材质所作的剖析大概能够解释一些翻译的作为,但这种解释是商量人口通过观看与投机观点有关的原有数据所作的解析,带有显然的主观性。Kenny(2003:116-7)解析了落实双语语言材质平衡方面所面前遇到的孤苦。她重申若以性别作为精选平行语言材质库的正规化,很难实现双语语言材质之间的平衡,究竟,好多女子作者的著述多次是由男人翻译,源语文本小编的男人和女子比例非常的小概与目标语文本译者的男人和女子比例等同。

——. 1998b. Core patterns of lexical use in a comparable corpus of English narrative prose. Meta 43, 4: 557-70.

Baumgarten等(二零零六:177-203)利用德英会议口译平行语言材质库,解析口译中的显化及其原因。研讨结果展现,显化那后生可畏翻译共性的多变并不是出于口译进程本人,而是因为言语间隔绝和众口难调口译战术等因素。

语言质感注脚是指对语言质地库语言质地样品的各样质量或特色所做的陈述。译学钻探语言材质库的标号平时接受TEI(Text Encoding Initiative,文本编码安排)方式,包蕴篇头音讯标明和篇体消息标记。篇头消息标明用于证明语言材质的公文名和号码、译者、源语文本和目标语文本等超文本特征音讯。在Kenny看来,“就翻译语言质感库来说,超文本特征新闻可用于分析翻译活动的早期翻译专门的学业。”篇体消息标明提供语言材料样板的段子、词性、句法和语义方面包车型客车信息。方今,超级多译学商讨语言材质库选取TEI形式,对篇头信息和篇体新闻予以标记。翻译法文语言材料库对语言材质样品的超文本特征音信作了较为详细的标号,如语言质感的公文名和号码、译者的姓名、国籍、性别和职业、源语文本和指标语文本的问世时间和出版商等(Baker 1998:177-8)。德爱沙尼亚语学文本平行语言材质库也按TEI格局对语料的篇头音信和篇体消息都做了标记(Kenny二零零三:117-19)。

双语语言材料的平行对齐是指某一语言的文件单位与另一语言的文书单位变成翻译关系或对应提到,具体表现为随笔、段落、语句和词汇等多个规模。日常说来,实现篇章和段子层面平行对齐的难度相当的小。可是,语句层面包车型大巴对齐要艰巨得多。在具体翻译实施中,八个源语文本语句往往译作八个目标语语句,多少个源语文本语句不常译作四个目标语语句。而词汇层面包车型客车对齐大致难以实现,因为词汇的翻译灵活多变。

定量研讨是语言材料库翻译学分歧于古板译学探讨的尤为重要特色之朝气蓬勃,也是语言材质库翻译学研讨的优势所在。然则,国外语料库翻译学商量所应用的定量切磋处于初级阶段,仅仅局限于词频、形符/类符比词汇密度和平均句长等轻便的多少拆解深入分析。那一个解析即使在早晚水准上能够揭穿翻译规律和翻译风格,所抒发的功效却比较有限。事实上,要将定量切磋真正引进译学研商世界,今后语言质感库翻译学商量应接纳复杂的定量解析,如卡方核实和计算量测量检验等,以现实坚实译学斟酌的科学性。

语言材料库翻译学斟酌开始于Baker,该文详细演讲了语料库在译学切磋中的理论价值、实际意义及其实际路线,被誉为语言材质库翻译学的起点之作。自一九九一年起,Mona Baker和她领导的集团伊始建设世界上率先个翻译语言质感库即翻译葡萄牙语语言材质库(Translational English Corpus,简单称谓为TEC),并利用该语言材质库开展了少年老成多元语言材质库翻译学课题的商讨,如翻译共性切磋(Baker 一九九二,1999;Laviosa 1999a,1997b;Kenny一九九七,二零零二;Olohan and Baker 贰零零壹)、译者风格研讨(Baker 一九九六,二〇〇四)和翻译职业钻探(Kenny二〇〇三)等。从此以后,翻译学发展史掀开了新的意气风发页。经过短暂十几年的升华,海外语言材质库翻译学与众不同,发展变成第生机勃勃的翻译学分支学科,并在译学切磋语言材质库的建设、翻译语言特征、译者风格、翻译专门的职业、翻译教学和口译等切磋领域猎取了注意的成就。

应该提议,国外学界在翻译共性和翻译专门的工作商量方面投入了大批量精力。不过,那么些研究往往意气风发味重申翻译语言的共性和翻译活动的遍布标准,而对此翻译语言和翻译活动的性格未有赋予丰裕的关心。就算人类翻译语言和翻译活动存在一定程度的共性,但由于源语和指标语的差距、译者的性别、翻译风格和翻译思想、文本类型、翻译目标和审美典型等元素的影响,具体语言对翻译语言特色和翻译专门的职业表现出分裂程度的反差。具体语言对翻译语言特色和翻译专门的学问与学界普及商讨的翻译共性和翻译职业之间是本性与共性之间的辩证关系。后面一个授予前面二个之中,并经过后面一个呈现出来。未有前面一个,就从未有过继任者。独有深入精晓翻译语言和翻译职业在差异因素影响下所表现出的现实性差别,才能精确把握翻译共性和翻译职业。因而,语言质地库翻译学关于翻译共性和标准的切磋务必将制约翻译活动的比不上因素思量在内,重视翻译语言和翻译专门的工作个性的钻研。

1.引言

与笔译语言材质库比较,由于口译语言质地搜聚很难,口译语言材质的转写和标记平日开支大批量的人力和物力,口译语言材质库的建设要劳碌得多。尽管如此,一些口译语料库相继建设成,并逐步应用于口译语言特色、口译标准和口译战术等领域的切磋。

——. 2006. Who's afraid of Virginia Woolf? A corpus-based study of the French translations of The Waves. Meta 51, 3: 599-610.

Baker利用翻译瑞典语语言质感库,从类符/形符比、平均句子长短和叙事结构等三方面研讨英帝国思想家PeterBush和PeterClark翻译风格的区别。相关数据证明,Clark译文中的形符/类符比和平均句长均低于Bush译文。Clark喜欢使用过去时态和直接引语,不太常用直接引语。即使源语文本用前几天时,他也屡屡将其改作过去时。並且,Bush的译文未有Clark译文简洁、明了。Baker提议两位翻译风格就此有反差,首尽管因为源语文本的难易度不相同以至译者对目标语文本读者的情态、各自的经验、翻译主见和指标等方面包车型大巴出入。

Corpus Translation Studies Abroad: A Critical Review

[4]Bosseaux, C. 2004. Point of view in translation: A corpus-based study of French translations of Virginia Woolf's To The Lighthouse. Across Languages and Cultures 5, 1: 107-22.

除此以外,语言材质库能够一贯动用于翻译执行,升高译作的翻译品质。具体来讲,依靠平行语言材质库的选取,学子能够深入分析工作译者选择的翻译战略和章程,化解翻译难点,产生和煦的翻译原则。可比语言材质库可用来检查译文中术语和搭配的选择是不是顺应语言专门的学业,推断具体翻译难点的设计方案是不是创制、妥善(Pearson2002:15-24)。为证实语言材料库在翻译实施中动用的功力,Bowker(一九九六:631-51)对各自选择守旧方法和语言材质库方法的两组译员的翻译小说品质开展比较剖判,发掘前者在大旨通晓、术语选取和习语使用等地点优化前面二个。

Mauranen(2002:119-41)利用翻译藏语语言材料库(Corpus of Translated Finnish),对翻译爱沙尼亚语和原创藏语文本中的搭配举行相比较解析,开采前面七个toisaalta最广大的衬托是toisaalta taas,后面一个toisaalta最广泛的衬映是mutta toisaalta。那五个词语搭配的含义都一定于葡萄牙语“but on the other hand”。他还相比较剖析了意义约等于法文“to want to”的用语搭配haluta korostaa在翻译泰语和原创菲律宾语文本中的使用频率。结果呈现,前者的功用高达伍分叁,而后面一个未有一成。他认为与原创阿拉伯语文本相比较,翻译英语文本中用语具有其特有的词汇组合侧向性。

Lindquist(二〇〇二:35-48)利用自行建造的水库蓄水体量达8万词的英文—印度语印尼语口译语言材质库,从意义、修辞值和清晰度的角度深入解析口译译文与原作音讯的出入。他感觉这一差别的原因是词性转变、增词和不难等口译方法的利用。Nafá基于西班牙语—韩语大伙儿演说口译语言材料库,演讲了语调在公司语篇结构、明示新闻结会谈展现解说人和粉丝之间的关联等地点的功效。他提出高音平日表明事物之间的相比较与相比较,降调用于指引一个新话题。其他,演说者平常使用音调的高低变化拉近或敬若神明与粉丝之间的间距。

关于基于语言材质库的口译规范研究,Shelsinger(一九八九:111-5)解析了该领域研究所存在的紧巴巴:对译者的口译活动举办录音,存在本事、后勤和法规上的阻碍。口译语言材料库的水库蓄水容量往往十分的小,不太适合于口译标准商讨。Schjodager(一九九二:29-45)建议,口译译员职业的实时性,特别是在同声传译形式下的实时性,使大家难以评估译员的口译小说是利用规范的结果,依旧拍卖能力局限的产物。

上述商讨从分裂视角研讨了切实可行语言对翻译文本的语言特征。这个研商不止有利于大家准确认知翻译进程的本质特征、译者的风格和翻译职业等,何况还足以表明翻译共性假若的合理性。然则,那几个商讨存在两大胜笔,其一,该领域的钻研未能浓郁钻探具体语言对翻译语言特征的成因。其二,该领域研商的广度大失所望,仅仅局限于少数举世无双词语或句式结构的采纳,由此很难到手有关翻译语言特征周详、客观的认识。别的,即使翻译语言的语义韵探究对此翻译语言特色、翻译过程、双语词汇对应涉及和翻译谈论具备特别首要的理论价值和实际意义,但该领域的钻研于今不敢问津。

4.译者风格切磋

语料的选项及其代表性直接关联到语言质地库品质的轻重,是其他语言材质库建设者都必需思虑的主题素材。与别的语料库相比较,译学研讨语言材质库的建设在语言材质选择和担保语言材质代表性方面面对越来越多的挑衅,因为语言材料库建设者不独有需求惦念二种语言语言质感的选用规范,还索要思考翻译语言材质的翻译方向甚至译自分裂语言的翻译语言材质之间的平衡难点等。

[28]Olohan, M. and M. Baker. 2000. Reporting that in translated English: Evidence for subliminal processes of explicitation? Across Languages and Cultures 1, 2: 141-58.

[23]Marais J. and J. A. Naudé. 2007. Collocations in popular religious literature: An analysis in corpus-based translation studies. Southern African Linguistics and Applied Language Studies 25, 2: 153-67.

有的商讨结果与翻译共性纵然相悖。Tirkkonen-Condit解析了匈牙利语翻译文本和原创文本之间的间距及其原因。商量开采,指标语的有个别语言成分在源语中缺乏与之相应的言语成分,因此在翻译文本中的现身频率低于原创文本。要是将指标语语言标准正是常态,那么这一个语言特色则被视为对常态的相距,而非范化趋势。Puurtinen(二〇〇一:165-76)评释翻译希伯来语中国和亚洲节制性结构的运用频率高于原创越南语,前边多少个的词汇密度和音信负载大于后面一个,其显化程度异常的低。

——. 2007. On a pseudo-subversive use of corpora in translator training. In F. Zanettin, S. Bernardini, D. Stewart, eds., Corpora and Translator Education. Beijing: Foreign Language Teaching and Research Press. Pp. 119-34.

[3]Bernardini, S., D. Stewart, and F. Zanettin. 2007. Corpora in translator education: An introduction, In F. Zanettin, S. Bernardini and D. Stewart, eds., Corpora in Translator Education. Beijing: Foreign Language Teaching and Research Press. Pp. 1-14.

[38]Tohyama, H. and S. Matsubara. 2006. Influence of pause length on listeners' impressions in simultaneous interpretation. Proceedings of 9th International Conference on Spoken Language Processing. Pittsburgh, PA. Pp. 893-6.

——. 1998a. The corpus-based approach: A new paradigm in translation studies. Meta 43, 4: 474-9.

本文由bv1946伟德入口发布于产品评测,转载请注明出处:语言翻译必备,国外语料库翻译学研究述评

关键词: