ZGŁOŚ PROBLEM
ODSYŁACZE
Link do zasobu (skrót):
http://zasobynauki.pl/zasoby/18469Link do zasobu (repozytorium):
https://id.e-science.pl/records/18469Metadane zasobu
Tytuł |
N-gramy językowe Wariant tytułu: Language n-grams |
---|---|
Osoby |
Autorzy:
Jan Kocoń
Partner: Politechnika Wrocławska |
Opis |
Zasób powstał w ramach projektu "Opracowanie metodologii prac nad rozwojem infrastruktury technologii językowych CLARIN oraz upowszechnienie wytworzonej w ramach CLARIN infrastruktury badawczej", grant nr 3255/CLARIN ERIC/2015/0 Opublikowane n-gramy językowe to częstości wystąpień sekwencji lematów (form hasłowych). N-gramy zostały wygenerowane z różnych korpusów językowych: KGR10 - korpus internetowy obejmujący 4 miliardy słów, KGR7 – 2 miliardy słów, zawierające m.in. korpusy blogów i przemówień sejmowych, KPWr - ok. 500 tys. słów oraz korpusu tekstów z Wikipedii (ok. 30 mln słów). Łącznie paczka zawiera 32 listy bigramów, trigramów i tetragramów. (Polski) Opis w innym języku: Published n-grams are frequencies of lemmas. These n-grams were generated from various text corpora: KGR-10 – the Internet corpus, containing 4 billion words, KGR-7 – 2 billion words, which contains among others a blog corpus and Polish parlimentary speech corpus, KPWr – ca 500 thousand words and the Wikipedia corpus (ca 30 million words). All together the package contains 32 lists of bigrams, trigrams and tetragrams. (Angielski) Uwagi: Wąską grupę odbiorców zasobu mogą stanowić lingwiści komputerowi, frazeologowie, leksykografowie, inżynierowie NLP. |
Słowa kluczowe | "corpus"@en, "N-gram"@pl, "korpus (językoznawstwo)"@pl, "bigram"@pl, "tigram"@pl |
Klasyfikacja |
Typ zasobu:
zbiór, baza danych Dyscyplina naukowa: dziedzina nauk technicznych / informatyka (2011) Grupa docelowa: naukowcy, studenci Szkodliwe treści: Nie |
Charakterystyka |
Miejsce powstania: Wrocław
Czas powstania: 2010-2018 Użyte oprogramowanie: Python, WCCL, JOSKIPI, C++ Język zasobu: Nie dotyczy Zasięg czasowy zasobu: 2010-2017 Zasięg geograficzny zasobu: "Polska" |
Linki zewnętrzne | |
Licencja | CC BY-SA 4.0 |
Informacje techniczne |
Deponujący: Marek Maziarz Data udostępnienia: 30-08-2018 |
Kolekcje | Kolekcja e-Statystyka PWr, Kolekcja Politechniki Wrocławskiej, Kolekcja e-Science PWr |
Podobne zasoby
Reguły normalizacji wyrażeń temporalnych
Jan Kocoń, zbiór, baza danych, Politechnika Wrocławska, dziedzina nauk technicznych / informatyka (2011)
KPWr 1.3
Michał Marcińczuk, Marcin Oleksy, Marek Maziarz, Jan Wieczorek, Dominika Fikus, Agnieszka Turek, Michał Wolski, Tomasz Bernaś, Jan Kocoń, Paweł Kędzia, zbiór, baza danych, Politechnika Wrocławska, Dziedzina nauk inżynieryjno-technicznych / informatyka techniczna i telekomunikacja (2018)
KPWr 1.2
Michał Marcińczuk, Marcin Oleksy, Marek Maziarz, Jan Wieczorek, Jan Kocoń, Paweł Kędzia, inny dokument, Politechnika Wrocławska, dziedzina nauk matematycznych / informatyka (2011)
Słownik połączeń wyrazowych typu rzeczownik+przymiotnik z uzgodnieniem
Michał Wendelberger, Marek Maziarz, zbiór, baza danych, Politechnika Wrocławska, dziedzina nauk technicznych / informatyka (2011)
Wytyczne KPWr - Normalizacja wyrażeń temporalnych
Jan Kocoń, inny dokument, Politechnika Wrocławska, dziedzina nauk matematycznych / informatyka (2011)
Eksperymenty z ujednoznaczniania znaczeń leksykalnych
Arkadiusz Janz, Paweł Kędzia, zbiór, baza danych, Politechnika Wrocławska, dziedzina nauk technicznych / informatyka (2011)