REPORT A PROBLEM
LINKS
Resource link (short)
http://zasobynauki.pl/zasoby/18469Resource link (repository)
https://id.e-science.pl/records/18469Resource metadata
| Title |
N-gramy językowe Title variant: Language n-grams |
|---|---|
| Persons |
Authors:
Jan Kocoń
Partner: Wrocław University of Science and Technology |
| Description |
Zasób powstał w ramach projektu "Opracowanie metodologii prac nad rozwojem infrastruktury technologii językowych CLARIN oraz upowszechnienie wytworzonej w ramach CLARIN infrastruktury badawczej", grant nr 3255/CLARIN ERIC/2015/0 Opublikowane n-gramy językowe to częstości wystąpień sekwencji lematów (form hasłowych). N-gramy zostały wygenerowane z różnych korpusów językowych: KGR10 - korpus internetowy obejmujący 4 miliardy słów, KGR7 – 2 miliardy słów, zawierające m.in. korpusy blogów i przemówień sejmowych, KPWr - ok. 500 tys. słów oraz korpusu tekstów z Wikipedii (ok. 30 mln słów). Łącznie paczka zawiera 32 listy bigramów, trigramów i tetragramów. (Polish) Description in another language: Published n-grams are frequencies of lemmas. These n-grams were generated from various text corpora: KGR-10 – the Internet corpus, containing 4 billion words, KGR-7 – 2 billion words, which contains among others a blog corpus and Polish parlimentary speech corpus, KPWr – ca 500 thousand words and the Wikipedia corpus (ca 30 million words). All together the package contains 32 lists of bigrams, trigrams and tetragrams. (English) Comments: Wąską grupę odbiorców zasobu mogą stanowić lingwiści komputerowi, frazeologowie, leksykografowie, inżynierowie NLP. |
| Keywords | "corpus"@en, "N-gram"@pl, "korpus (językoznawstwo)"@pl, "bigram"@pl, "tigram"@pl |
| Classification |
Resource type:
dataset, database Scientific discipline: dziedzina nauk technicznych / informatyka (2011) Destination group: scientists, students Harmful content: No |
| Characteristics |
Place of creation: Wrocław
Creation time: 2010-2018 Software used: Python, WCCL, JOSKIPI, C++ Resource language: notapplicable Resource temporal coverage: 2010-2017 Resource geographical coverage: "Polska" |
| External links | |
| License | CC BY-SA 4.0 |
| Technical information |
Submitter: Marek Maziarz Availability date: 30-08-2018 |
| Collections | Kolekcja e-Statystyka PWr, Kolekcja Politechniki Wrocławskiej, Kolekcja e-Science PWr |
Similar resources
Reguły normalizacji wyrażeń temporalnych
Jan Kocoń, dataset, database, Wrocław University of Science and Technology, dziedzina nauk technicznych / informatyka (2011)
KPWr 1.3
Michał Marcińczuk, Marcin Oleksy, Marek Maziarz, Jan Wieczorek, Dominika Fikus, Agnieszka Turek, Michał Wolski, Tomasz Bernaś, Jan Kocoń, Paweł Kędzia, dataset, database, Wrocław University of Science and Technology, Dziedzina nauk inżynieryjno-technicznych / informatyka techniczna i telekomunikacja (2018)
KPWr 1.2
Michał Marcińczuk, Marcin Oleksy, Marek Maziarz, Jan Wieczorek, Jan Kocoń, Paweł Kędzia, other document, Wrocław University of Science and Technology, dziedzina nauk matematycznych / informatyka (2011)
Słownik połączeń wyrazowych typu rzeczownik+przymiotnik z uzgodnieniem
Michał Wendelberger, Marek Maziarz, dataset, database, Wrocław University of Science and Technology, dziedzina nauk technicznych / informatyka (2011)
Wytyczne KPWr - Normalizacja wyrażeń temporalnych
Jan Kocoń, other document, Wrocław University of Science and Technology, dziedzina nauk matematycznych / informatyka (2011)
Eksperymenty z ujednoznaczniania znaczeń leksykalnych
Arkadiusz Janz, Paweł Kędzia, dataset, database, Wrocław University of Science and Technology, dziedzina nauk technicznych / informatyka (2011)