Widok

Metadane zasobu

Tytuł	N-gramy językowe Wariant tytułu: Language n-grams
Osoby	Autorzy: Jan Kocoń Partner: Politechnika Wrocławska
Opis	Zasób powstał w ramach projektu "Opracowanie metodologii prac nad rozwojem infrastruktury technologii językowych CLARIN oraz upowszechnienie wytworzonej w ramach CLARIN infrastruktury badawczej", grant nr 3255/CLARIN ERIC/2015/0 Opublikowane n-gramy językowe to częstości wystąpień sekwencji lematów (form hasłowych). N-gramy zostały wygenerowane z różnych korpusów językowych: KGR10 - korpus internetowy obejmujący 4 miliardy słów, KGR7 – 2 miliardy słów, zawierające m.in. korpusy blogów i przemówień sejmowych, KPWr - ok. 500 tys. słów oraz korpusu tekstów z Wikipedii (ok. 30 mln słów). Łącznie paczka zawiera 32 listy bigramów, trigramów i tetragramów. (Polski) Opis w innym języku: Published n-grams are frequencies of lemmas. These n-grams were generated from various text corpora: KGR-10 – the Internet corpus, containing 4 billion words, KGR-7 – 2 billion words, which contains among others a blog corpus and Polish parlimentary speech corpus, KPWr – ca 500 thousand words and the Wikipedia corpus (ca 30 million words). All together the package contains 32 lists of bigrams, trigrams and tetragrams. (Angielski) Uwagi: Wąską grupę odbiorców zasobu mogą stanowić lingwiści komputerowi, frazeologowie, leksykografowie, inżynierowie NLP.
Słowa kluczowe	"corpus"@en, "N-gram"@pl, "korpus (językoznawstwo)"@pl, "bigram"@pl, "tigram"@pl
Klasyfikacja	Typ zasobu: zbiór, baza danych Dyscyplina naukowa: dziedzina nauk technicznych / informatyka (2011) Grupa docelowa: naukowcy, studenci Szkodliwe treści: Nie
Charakterystyka	Miejsce powstania: Wrocław Czas powstania: 2010-2018 Użyte oprogramowanie: Python, WCCL, JOSKIPI, C++ Język zasobu: Nie dotyczy Zasięg czasowy zasobu: 2010-2017 Zasięg geograficzny zasobu: "Polska"
Linki zewnętrzne	KPWr: Towards a Free Corpus of Polish - artykuł Słowosieć - polski wordnet. Proces tworzenia tezaurusa - artykuł Attribution 4.0 International (CC BY 4.0)
Licencja	CC BY-SA 4.0
Informacje techniczne	Deponujący: Marek Maziarz Data udostępnienia: 30-08-2018
Kolekcje	Kolekcja e-Statystyka PWr, Kolekcja Politechniki Wrocławskiej, Kolekcja e-Science PWr

Cytowanie

Skopiowano

Jan Kocoń. N-gramy językowe. [zbiór, baza danych] Dostępny w Atlasie Zasobów Otwartej Nauki, . Licencja: CC BY-SA 4.0, https://creativecommons.org/licenses/by-sa/4.0/legalcode.pl. Data dostępu: DD.MM.RRRR.

Podobne zasoby

Reguły normalizacji wyrażeń temporalnych

Jan Kocoń, zbiór, baza danych, Politechnika Wrocławska, dziedzina nauk technicznych / informatyka (2011)

KPWr 1.3

Michał Marcińczuk, Marcin Oleksy, Marek Maziarz, Jan Wieczorek, Dominika Fikus, Agnieszka Turek, Michał Wolski, Tomasz Bernaś, Jan Kocoń, Paweł Kędzia, zbiór, baza danych, Politechnika Wrocławska, Dziedzina nauk inżynieryjno-technicznych / informatyka techniczna i telekomunikacja (2018)

N-gramy językowe

Metadane zasobu

Cytowanie

Podobne zasoby

Reguły normalizacji wyrażeń temporalnych

KPWr 1.3

KPWr 1.2

Słownik połączeń wyrazowych typu rzeczownik+przymiotnik z uzgodnieniem

Wytyczne KPWr - Normalizacja wyrażeń temporalnych

Eksperymenty z ujednoznaczniania znaczeń leksykalnych