== 개요 == {{{+2 Corpus}}}[* 영단어를 그대로 읽을 때는 '코퍼스'라는 표기를 쓴다.] [[언어학]], [[사회학]] 등 조사적 목적에 의해서 특정 집단 내에서 사용한 [[단어]]들을 모아서 정리해둔 것. 컴퓨터의 발달로 말뭉치를 통한 데이터 수집과 분석이 용이해지면서 중요성이 부상했다. [[언어공학|영어, 특정 단어나 연결어 등의 사용빈도 등을 통해서 더 자연스러운 표현으로 바꾸는 일, 사전 편찬]]이나 사회적으로 이슈가 되었던 것을 객관적으로 확인할 수 있다는 점에서 그 쓸모가 발휘된다. == 학자 == * 바스 아르츠 (Bas Aarts) * 제프리 리치 (Geoffrey Leech): 2014년 작고. * 제럴드 넬슨 (Gerald Nelson) * 제리 놀스 (Gerry Knowles) * 얀 스바르트비크 (Jan Svartvik) * 랜돌프 쿼크 (Randolph Quirk): 2017년 작고. * 시드니 그린바움 (Sidney Greenbaum): 1996년 작고. == 추천 사이트 == * [[http://ngrams.googlelabs.com/datasets|구글 코퍼스]] 가장 방대한 자료가 저장되어있다. * [[https://www1.essex.ac.uk/linguistics/external/clmt/w3c/corpus_ling/content/]] * [[http://martinweisser.org/corpora_site/CBLLinks.html]] * [[http://www.lancaster.ac.uk/fass/projects/corpus/cbls/corpora.asp]] * [[http://www.corpora4learning.net/resources/corpora.html]] * [[http://corpus.leeds.ac.uk/protected/query.html]] * [[https://cqpweb.lancs.ac.uk/]] (무료가입) * [[http://clu.uni.no/icame/manuals/]] * [[http://ucrel.lancs.ac.uk/]] 국어 말뭉치 * [[https://ithub.korean.go.kr/user/guide/corpus/guide1.do]] 국립국어원 언어정보나눔터 * [[http://corpus.korea.ac.kr/]] [[고려대 한국어대사전]]을 출판한 고려대학교 민족문화연구원에서 제공하는 무료 코퍼스 분석 도구이다. 미국식 영어 * American National Corpus * Brown Corpus * [[http://corpus.byu.edu/coca/|Corpus of Contemporary American English]] 통칭 COCA. 1990년부터 2015년 까지의 미국의 신문 * Santa Barbara Corpus of Spoken American English 영국식 영어 || Bank of English || || || British National Corpus || [[http://www.natcorp.ox.ac.uk/|British National Corpus]]: 통칭 BNC. [[https://bncweb.lancs.ac.uk/|코퍼스 검색]] ([[http://bncweb.lancs.ac.uk/bncwebSignup/user/register.php|여기서]] 무료로 가입하고 사용가능) [[http://ucrel.lancs.ac.uk/bncfreq/|단어 빈도 참조 사이트]] [[http://bnc.phon.ox.ac.uk/data/|wav 및 textgrid 파일 다운로드 (양많음)]] [[http://bnc.phon.ox.ac.uk/transcripts-html/|대본]] [[http://www.natcorp.ox.ac.uk/docs/URG/bibliog.html|출처]] || || DCPSE || [[http://www.ucl.ac.uk/english-usage/projects/dcpse/index.htm|Diacronic Corpus of Present-day Spoken English (유료 CD)]] || || [[http://ice-corpora.net/ice/|ICE]] (International Corpus of English) || 영어를 제1언어나 공용어로 사용하는 국가의 영어를 공시적으로 비교하고자 구축한 말뭉치. 구축한 대상은 [[http://www.ucl.ac.uk/english-usage/projects/ice-gb/|영국 (유료 CD)]], 호주, 카메룬, [[https://dataverse.library.ualberta.ca/dataverse/VOICE|캐나다]], 케냐, 말라위, 탄자니아, 피지, 홍콩, 인도, 아일랜드, 자메이카, 케냐, 몰타, 말레이시아, 뉴질랜드, [[https://sourceforge.net/p/ice-nigeria/activity/?page=0&limit=100#5638bda834309d7fbcaab5cd|나이지리아]], 파키스탄, 필리핀, 시에라리온, 싱가포르, 남아공, 스리랑카, 트리니다드 토바고, 그리고 미국. [[http://ice-corpora.net/ice/publics.htm|출판물 목록]] || || Lancaster/[[IBM]] Spoken English Corpus || 통칭 Spoken English Corpus (SEC). 하단 참조. || || [[https://www1.essex.ac.uk/linguistics/external/clmt/w3c/corpus_ling/content/corpora/list/private/LOB/lob.html|Lancaster-Oslo/Bergen Corpus]] || 미국식 영어인 Brown에 대응되는 영국식 영어 말뭉치. 통칭 LOB. [[http://purl.ox.ac.uk/ota/0167|다운로드]] || || [[http://clu.uni.no/icame/manuals/LONDLUND/INDEX.HTM|London-Lund]] || 영국영어 대화 말뭉치. [[http://purl.ox.ac.uk/ota/0168|다운로드]] || || ukWaC || Web as Corpus. 영국 웹사이트에서 모은 말뭉치. [[https://cqpweb.lancs.ac.uk/|CQPweb]]이나 [[[[http://corpus.leeds.ac.uk/protected/query.html|Leeds]]에서 검색 가능. || [[홍콩 영어|홍콩 구어영어]] * [[http://rcpce.engl.polyu.edu.hk/HKCSE/]] [[표준중국어]] * == 문헌 == === 모음집 (compilation) === || London-Lund || [[https://ia601408.us.archive.org/27/items/a-corpus-of-english-conversation/A%20Corpus%20of%20English%20Conversation.pdf|Svartvik and Quirk, (1980) A Corpus of English Conversation (Lund Studies in English, 56).]] London-Lund 100가지 대화문에서 일부 뽑은 34가지 모음. || || SEC || [[https://books.google.co.kr/books?id=-mUSBAAAQBAJ&printsec=frontcover&hl=ko#v=onepage&q&f=false|Knowles et al, (1996;2017) A Corpus of Formal British Speech: The Lancaster/IBM Spoken English Corpus, Longman]] [[http://clu.uni.no/icame/manuals/SEC/INDEX.HTM|매뉴얼]] 통칭 Spoken English Corpus (SEC). 53가지 단문 모음에 약 53,000단어. 1980년대 [[BBC]] 라디오 방송 프로그램을 모아 놓았다. 구성은 뉴스, 연설, 소설이나 시 낭독 등. 소설에는 [[노벨문학상]] 수상자 [[도리스 레싱]]의 작품 ''Through the Tunnel''을 전문 수록해 놨다. 2017년에 양장본 2쇄가 나왔다 (96년판과 내용은 동일). [[https://www.routledge.com/A-Corpus-of-Formal-British-English-Speech-The-Lancaster-IBM-Spoken-English/Knowles-Taylor-Williams/p/book/9780582056398|Routledge]] 아니면 [[https://www.bookdepository.com/Corpus-Formal-British-English-Speech-Gerald-Knowles/9781138457768?ref=grid-view&qid=1533303234758&sr=1-2|Book Depostiory]]에서 직접 주문해야 하며 명색이 학술 서적인지라 가격이 20만원 넘는다 (페이퍼백은 그거 절반 정도). 참고로 양장본 책 두께가 수학의 정석 반 정도에 크기는 A4 반 정도. 본래 [[TTS]] 제작하려고 만든 거라 인토네이션 기호가 들어가 있다는 게 특징. 오디오 파일 (wav), [[Praat]]용 textgrid나 본문 텍스트 파일이 필요한 사람은 [[http://sldr.org/voir_depot.php?id=33&version=2&lang=en&prefix=sldr&creer_toc=oui#toc|여기서 다운받으면 된다]] (sign up에서 아이디와 비밀번호 등록하고 인증메일 확인하고 로그인하면 된다; 다만 A12 앞쪽 일부, G01 중간 일부, G05 뒤쪽 일부가 잘리는 등 조금씩 빠진 부분이 있다). || === 예문을 응용한 문법책 === ||<|2> British National Corpus || Longman Grammar of Spoken and Written English || || Oxford Learner's Grammar || ||<|5> ICE-GB || [[https://global.oup.com/academic/product/oxford-modern-english-grammar-9780199533190?cc=kr&lang=en&#|Aarts, (2011) Oxford Modern English Grammar]] [[https://ia801507.us.archive.org/22/items/oxford-modern-english-grammar/Aarts%20%282011%29%20Oxford%20Modern%20English%20Grammar.pdf|무료 다운로드]] ICE-GB를 참조한 영국식 영어 및 미국식 영어 기술 문법서 (단 영국식 영어가 거의 대부분). 예문은 ICE-GB 및 뉴스에서 응용했으며 원서 뒷부분 부록에 출처가 다 실려 있다. 한국문화사에서 나온 번역본도 있으며 (2017; 역자 강문구 한창훈) 제목은 현대영문법이다. 번역본에는 예문 출처를 비롯한 부록 일체가 실리지 않음 (참고문헌 및 색인만 실림). || || [[https://khmercollection.files.wordpress.com/2011/03/english-grammar.pdf|Greenbaum, (1996) The Oxford English Grammar]] ICE-GB의 다른 부분에서 예문 응용. Aarts와 마찬가지로 출처가 실려 있다. 저자의 서거로 인해 개정판은 나오지 않음. || || [[https://ia601505.us.archive.org/22/items/the-oxford-reference-grammar/Weiner%20%282000%29%20The%20Oxford%20Reference%20Grammar.pdf|Weiner, (2000) The Oxford Reference Grammar]] The Oxford English Grammar의 축약판. || || [[https://ia800608.us.archive.org/17/items/AnIntroductionToEnglishGrammerCopy/An%20Introduction%20to%20English%20Grammer%20🌟%20-%20Copy.pdf|Greenbaum and Nelson, (2013) An Introduction to English Grammar]] 역시 ICE-GB의 다른 부분에서 예문 응용. 출처는 따로 실리지 않음. 최신 개정판은 2018년에 나왔다. || || [[http://www.e4thai.com/e4e/images/pdf2/English%20-%20An%20Essential%20Grammar.pdf|Nelson, (2001) English: an essential grammar]] || || London-Lund || [[https://ia601400.us.archive.org/14/items/AStudentsGrammarofTheEnglishLanguage/A%20Student%27s%20Grammar%20of%20the%20English%20Language.pdf|Greenbaum and Quirk. (1990) A Student's Grammar of the English Language. Longman.]] '''고급영문법의 본좌'''. 원조는 1985년에 나온 A Comprehensive Grammar of the English Language으로, 여러번 개정을 거쳐 가장 최근에 나온 책은 1996년판 Student's 버전이다. 번역본으로 이홍배 역 (1994) 새로운 대학영문법이 있으나 현재는 절판됨. 대안으로 최인철 저 실용 영문법 백과사전이 이 책을 참고해서 씀. [[https://ia601402.us.archive.org/27/items/a-students-english-grammar-workbook/A%20Student%27s%20English%20Grammar%20Workbook.pdf|워크북]] || === 담화 분석 === ||<|2> British National Corpus || [[https://books.google.co.kr/books?id=zochAQAAMAAJ&q=english+conversation+bnc&dq=english+conversation+bnc&hl=ko&sa=X&ved=0ahUKEwir_MuU9I_hAhWYP3AKHe7iDosQ6AEIRjAE|Conversation in Context: a corpus-driven appraoch]] || || [[https://books.google.co.kr/books?id=lFTNCwAAQBAJ&dq=british+national+corpus+conversation&hl=ko&source=gbs_navlinks_s|Emotion Talk Across Corpora]] || ||<|2> London-Lund || [[https://books.google.co.kr/books?id=xmWPBAAAQBAJ&dq=conversation+london+lund&hl=ko&source=gbs_navlinks_s|An Introduction to Spoken Interaction]] || || [[https://books.google.co.kr/books?id=_QF_6DWa0FoC&dq=London-Lund+Corpus&hl=ko&source=gbs_navlinks_s|English Discourse Particles: Evidence from a corpus]] || || SEC || Wichmann, Anne. (2013) Intonation in Text and Discourse: Beginnings, middles and ends. Routledge. SEC의 초분절적 요소, 특히 인토네이션을 중심으로 분석함. || === 단어 빈도 === || British National Corpus || [[https://books.google.co.kr/books?id=D3DJAwAAQBAJ&printsec=frontcover&hl=ko#v=onepage&q&f=false|Leech et al, (2001) Word Frequencies in Written and Spoken English: based on the British National Corpus]] [[https://www.routledge.com/Word-Frequencies-in-Written-and-Spoken-English-based-on-the-British-National/Leech-Rayson-Wilson/p/book/9780582320079|도서 정보]] [[https://ia601505.us.archive.org/28/items/bncfreq/Word%20Frequencies%20in%20Written%20and%20Spoken%20English%20%282001%29.pdf|pdf]] [[http://ucrel.lancs.ac.uk/bncfreq/flists.html|txt파일 무료 다운로드]] || || LOB || Johansson et al. (1989) Frequency Analysis of English Vocabulary and Grammar: Based on the LOB Corpus: Tag Frequencies and Word Frequencies (Volume 1) Johansson et al. (1989) Frequency Analysis of English Vocabulary and Grammar: Tag Combinations and Word Combinations v. 2: Based on the LOB Corpus || || London-Lund || [[https://link.springer.com/content/pdf/10.3758%2FBF03200836.pdf|Brown, Gordon. (1984) A frequency count of 190,000 words in the London-Lund Corpus of English Conversation.]] || === 사전 === ||<|3> British National Corpus || Longman Dictionary of Contemporary English || || Chambers 21st Dictionary || || 능률롱맨 영한사전 || === 말뭉치 사용법 === || British National Corpus || [[https://www.peterlang.com/view/title/49696|Hoffmann et al. (2008) Corpus Linguistics with BNCweb - a Practical Guide. Peter Lang.]] [[http://bncweb.lancs.ac.uk/|BNCweb]] 이용 참고 서적. [[https://cqpweb.lancs.ac.uk/|CQPweb]] 검색도 같은 구조로 돌아가니 참고. || || ICE-GB || [[http://www.ucl.ac.uk/english-usage/projects/ice-gb/book.htm|Nelson et al. (2002) Exploring Natural Language: Working with the British Component of the International Corpus of English. John Benjamins Publishing Company]] ICE-GB (ICE 영국) 이용 참고 서적. ICE-GB의 각 지문이 어디서 따온 건지 다 나와있다. [[https://epdf.tips/exploring-natural-language-working-with-the-british-component-of-the-internation.html|pdf 무료 다운로드]] || || LOB || Johansson, Stig. (1986) The Tagged LOB Corpus: Users' Manual. || || London-Lund || Svartvik, Jan. (1990) The London Corpus of Spoken English: Description and Research (Lund Studies in English 82). Lund University Press. || == 관련 문서 == * [[음운론]] * [[통사론]] * [[의미론]] [[분류:언어학]]