语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。下面推荐一些优质的语料库资源。
AnnoTool, GoTagger,DeTagging,
语料库检索软件:
WordSmith4. 0, PowerFREP, MicroConcord,ParaConc, ConcappV4,
文件格式转换工具:
SoundScriber, Vwalker2,
基于数据驱动学习的工具:
Dropper, WordPilot, Xcloze,
搭配工具:
CNgramtool, CollocExtract, kfNgram2005
1、确认表达是否地道、
2、确定单词的使用语境,
3、比较近义词的区别
4、寻找合适的用词寻找句式
http://www.natcorp.ox.ac.uk/
http://corpus.byu.edu/bnc/
英国国家语料库(BNC)是一个以来源广泛的书面语言和口语为样本,收录了1亿字的电子资源,用以呈现20世纪后期以来的英式英语,涉及口语和书面英语。该语料库书面语与口语并存,词容量超过一亿,由4124篇代表广泛的现代英式英语文本构成。其中书面语占90%,口语占10%。BNC最新版是BNC XML2007。它采用国际通用标准化标注体系SGML,使用三级赋码标注,使标注错误率由3%减少到1%。在应用方面,该语料库既可用其配套的SARA检索软件,也可支持多种通用检索软件,并可直接进行在线检索。
http://www.anc.org/
http://www.americancorpus.org/
Corpus of Contemporary American English(COCA),由美国Brigham Young University的Mark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。
美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,它由包含5.2亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。从1990年至2015年间语料库以每年增加两千万词的速度进行扩充,以保证语料库内容的时效性。因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。
http://corpus.byu.edu/coha/
http://www.collinslanguage.com/wordbanks/
http://www.sketchengine.co.uk/
http://the.sketchengine.co.uk/auth/preloaded_corpus/aclarc/ske/first_form
http://the.sketchengine.co.uk/auth/preloaded_corpus/bawe2/ske/first_form
http://www.reading.ac.uk/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download
http://www2.warwick.ac.uk/fac/soc/celte/research/base/
http://www.scottishcorpus.ac.uk/
分别由英国英语分库、美国英语分库、新加坡英语分库、澳大利亚英语分库等组成。每个分库都由300篇口语、120篇独白、200篇书面语、150篇印刷语组成。其可提供对英语系国家不同英语的比较。
(Vienna Oxford International Corpus of English)容量为25万词次,并且正在扩充中收集的是英语口语、英语作为混合语的交流、大量没有文本的英语学习者之间的交流。http: / /www. univie. ac. at/Anglistik /voice /
ELFA语料库(English as a L ingua Franca in Academic Settings) ,容量为50 万词次。内容为口头学术英语。
http: / /www. uta. fi/ laitokset/kielet /engf / research / elfa /
(A Rep resentative Corpus of Historical English Registers)容量为170万词次。该库有1, 037个文本,涉及10个领域,包括英国英语和美国英语,并进行了词性标注。
http: / /www. cal. nau. edu / english /degree_programs. asp访问。
CEECS语料库
( Corpus of Early English Correspondence Sampler)容量为45万词次。内容为个人书信。
http: / /www. eng. helsinki. fi/varieng/main / corpora1. htm
http://www.scottishcorpus.ac.uk/cmsw/
杨百翰大学的Mark Davies教授开发的语料库统一检索平台,整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量,也许是目前最广泛使用的网络语料库。
本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。
应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。LCMC语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助(项目代号:RES-000-220135)的研究项目。LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。通过上述网址可以免费索取LCMC预料用于研究之用。
每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。其中汉语语料库是没有加工的生语料库,使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。
其实英语的学习并没有什么难度,多浏览一些英文的感兴趣的东西,不限于推荐的这些,各种你们感兴趣的文章,电影长期下来都能够对英语学习有很大的促进作用。