REPORT A PROBLEMicon

Fields marked with an asterisk are required
*
*
*
*
captcha
I hereby confirm that I have read and accept regulations and privacy policies *

LINKS

Resource link (portal)

Resource link (short)

http://zasobynauki.pl/zasoby/18469

Resource link (repository)

https://id.e-science.pl/records/18469

Resource type: dataset, database

N-gramy językowe

View

Resource metadata

Title N-gramy językowe
Title variant: Language n-grams
Persons Authors: Jan Kocoń
Partner: Wrocław University of Science and Technology
Description Zasób powstał w ramach projektu "Opracowanie metodologii prac nad rozwojem infrastruktury technologii językowych CLARIN oraz upowszechnienie wytworzonej w ramach CLARIN infrastruktury badawczej", grant nr 3255/CLARIN ERIC/2015/0
Opublikowane n-gramy językowe to częstości wystąpień sekwencji lematów (form hasłowych). N-gramy zostały wygenerowane z różnych korpusów językowych: KGR10 - korpus internetowy obejmujący 4 miliardy słów, KGR7 – 2 miliardy słów, zawierające m.in. korpusy blogów i przemówień sejmowych, KPWr - ok. 500 tys. słów oraz korpusu tekstów z Wikipedii (ok. 30 mln słów). Łącznie paczka zawiera 32 listy bigramów, trigramów i tetragramów. (Polish)
Description in another language: Published n-grams are frequencies of lemmas. These n-grams were generated from various text corpora: KGR-10 – the Internet corpus, containing 4 billion words, KGR-7 – 2 billion words, which contains among others a blog corpus and Polish parlimentary speech corpus, KPWr – ca 500 thousand words and the Wikipedia corpus (ca 30 million words). All together the package contains 32 lists of bigrams, trigrams and tetragrams. (English)
Comments: Wąską grupę odbiorców zasobu mogą stanowić lingwiści komputerowi, frazeologowie, leksykografowie, inżynierowie NLP.
Keywords "corpus"@en, "N-gram"@pl, "korpus (językoznawstwo)"@pl, "bigram"@pl, "tigram"@pl
Classification Resource type: dataset, database
Scientific discipline: dziedzina nauk technicznych / informatyka (2011)
Destination group: scientists, students
Harmful content: No
Characteristics Place of creation: Wrocław
Creation time: 2010-2018
Software used: Python, WCCL, JOSKIPI, C++
Resource language: notapplicable
Resource temporal coverage: 2010-2017
Resource geographical coverage: "Polska"
External links
License CC BY-SA 4.0
Technical information Submitter: Marek Maziarz
Availability date: 30-08-2018
Collections Kolekcja e-Statystyka PWr, Kolekcja Politechniki Wrocławskiej, Kolekcja e-Science PWr

Citation

Copied

Jan Kocoń. N-gramy językowe. [dataset, database] Available in Atlas of Open Science Resources, . License: CC BY-SA 4.0, https://creativecommons.org/licenses/by-sa/4.0/legalcode.pl. Date of access: DD.MM.RRRR.

Similar resources

Reguły normalizacji wyrażeń temporalnych

Jan Kocoń, dataset, database, Wrocław University of Science and Technology, dziedzina nauk technicznych / informatyka (2011)

KPWr 1.3

Michał Marcińczuk, Marcin Oleksy, Marek Maziarz, Jan Wieczorek, Dominika Fikus, Agnieszka Turek, Michał Wolski, Tomasz Bernaś, Jan Kocoń, Paweł Kędzia, dataset, database, Wrocław University of Science and Technology, Dziedzina nauk inżynieryjno-technicznych / informatyka techniczna i telekomunikacja (2018)

KPWr 1.2

Michał Marcińczuk, Marcin Oleksy, Marek Maziarz, Jan Wieczorek, Jan Kocoń, Paweł Kędzia, other document, Wrocław University of Science and Technology, dziedzina nauk matematycznych / informatyka (2011)

Słownik połączeń wyrazowych typu rzeczownik+przymiotnik z uzgodnieniem

Michał Wendelberger, Marek Maziarz, dataset, database, Wrocław University of Science and Technology, dziedzina nauk technicznych / informatyka (2011)

Wytyczne KPWr - Normalizacja wyrażeń temporalnych

Jan Kocoń, other document, Wrocław University of Science and Technology, dziedzina nauk matematycznych / informatyka (2011)

Eksperymenty z ujednoznaczniania znaczeń leksykalnych

Arkadiusz Janz, Paweł Kędzia, dataset, database, Wrocław University of Science and Technology, dziedzina nauk technicznych / informatyka (2011)

See more