Современные лингвистические корпусы презентация

Содержание

ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ 1960-е: Брауновский корпус, (США), 1 млн. слов 1970-е: LOB корпус (Великобритания, Норвегия), 1 млн. Уппсальский корпус русского языка (Швеция), 1 млн. 1990-е: British National Corpus, 100

Слайд 1Современные лингвистические корпусы


Слайд 2ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ
1960-е: Брауновский корпус, (США), 1 млн. слов
1970-е: LOB корпус

(Великобритания, Норвегия), 1 млн.
Уппсальский корпус русского языка (Швеция), 1 млн.
1990-е: British National Corpus, 100 млн.
Национальный корпус русского языка, 140 млн.
Oxford English corpus, 2 млрд.

Слайд 3
Первый лингвистический корпус

Создан в 1960-е гг. в Брауновском университете (США) У.

Френсисом и Г. Кучерой

Корпус содержал около 500 текстов объемом 2000 печатных знаков каждый, написанных на американском варианте английского языка.

Корпус включал морфологическую и синтаксическую разметку.

БРАУНОВСКИЙ КОРПУС (BROWN CORPUS)


Слайд 4БРИТАНСКИЙ НАЦИОНАЛЬНЫЙ КОРПУС


Слайд 5British National Corpus http://www.natcorp.ox.ac.uk/ http://corpus.byu.edu/bnc
Представительный корпус британского английского языка
По его образцу

создавались многие современные корпуса различных языков.
Включает метатекстовую и частеречную разметку, характеризуется использованием полных текстов и наличием подкорпуса устной речи.
Объем корпуса – свыше 100 млн. словоупотреблений.

Слайд 6Oxford EnglishOxford English Corpus
Самый большой из когда-либо созданных: свыше 2 млрд.

словоупотреблений.
Используется составителями Оксфордских словарей.
Содержит как письменные тексты, так и записи устной речи, датированные 2000-2006 гг.

Слайд 8 Корпус современного американского английского (The Corpus of Contemporary American English, COCA)
Самый

большой корпус английского языка, находящийся в свободном доступе (сайт http://corpus.byu.edu/coca/).
Создан М. Дэвисом (Brigham Young University, США) в 2008 году.
COCA содержит 445 млн. словоупотреблений и включает тексты с 1990 года по настоящее время.
Корпус обновляется два раза в год и удобен для отслеживания динамики лингвальных изменений.

Слайд 9American National Corpus


Слайд 10American National Corpus http://www.americannationalcorpus.org/OANC/index.html
Создается по образцу Британского национального корпуса.
Планируется создание

представительного корпуса объемом 100 млн. словоупотреблений.
В настоящий момент готова первая версия корпуса объемом 15 млн. словоупотреблений.
Представлены как письменные тексты, так и записи устной речи.
Доступен для скачивания.

Слайд 11The Bank of English (Cobuild Corpus) http://www.collinslanguage.com/content-solutions/wordbanks
Постоянно пополняемый корпус английского

языка, характеризующийся большим объемом (524 млн. словоупотреблений).
В состав корпуса входят различные типы письменных текстов и устной речи.
Корпус включает метатекстовую разметку, а также частеречную с элементами морфологической разметку.
В общедоступной версии корпуса существует возможность выбора подкорпуса: британские книги, газеты, журналы, радиопередачи и др.

Слайд 12Cambridge International Corpus
Cоздавался как база для составления учебных материалов и словарей

английского языка.
Свыше 700 млн. словоупотреблений.
В корпус вошли британские и американские тексты разных типов, записи устной речи носителей британского и американского вариантов английского языка.
Отдельный подкорпус образуют тексты экзаменационных работ студентов из разных стран, изучающих английский язык в качестве иностранного.

Слайд 13МЕЖДУНАРОДНЫЙ КОРПУС АНГЛИЙСКОГО ЯЗЫКА


Слайд 14http://www.ucl.ac.uk/english-usage/projects/ice.htm

Отражает словоупотребление в различных вариантах английского языка (23 страны).
Каждый

подкорпус включает письменные тексты разных типов и записи устной речи.
Объем каждого национального подкорпуса – 1 млн. словоупотреблений.

Слайд 15Немецкий язык
Корпус Берлинской Бранденбургской академии наук (DWDS-Corpus)
http://www.dwds.de/pages/pages_textba/dwds_textba.htm

Корпус послужил основой для

Цифрового словаря немецкого языка XX в. (DWDS)

Немецкая лексика онлайн (Projekt Deutscher Wortschatz)
http://wortschatz.uni-leipzig.de/

Содержит 35 млн предложений с 500 млн слов



Слайд 16Французский язык
Корпус французского языка(Corpus de Référence du Français parlé)
http://sites.univprovence.fr/delic/corpus/index.html

440 000

слов, 134 фото, более 36 ч устной речи

Корпус разговорного французского языка (Un corpus d’entretiens spontanés)
http://www.llas.ac.uk/resources/mb/80

Корпус содержит 95 бесед.


Слайд 17НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА


Слайд 18Национальный Корпус Русского Языка http://www.ruscorpora.ru/
Включает следующие подкорпуса:
основной;
синтаксический (глубоко аннотированный);


газетный;
параллельный;
диалектный;
поэтический и др.
Объем корпуса – свыше 300 млн. словоупотреблений.

Слайд 19Корпуси української мови
Корпус текстів української мови http://www.mova.info/corpus.aspx?l1=209
Українськмй національний корпус http://lcorp.ulif.org.ua/virt_unlc/



Обратная связь

Если не удалось найти и скачать презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое ThePresentation.ru?

Это сайт презентаций, докладов, проектов, шаблонов в формате PowerPoint. Мы помогаем школьникам, студентам, учителям, преподавателям хранить и обмениваться учебными материалами с другими пользователями.


Для правообладателей

Яндекс.Метрика