ZGŁOŚ PROBLEMikona ozdobna

Pola oznaczone gwiazdką (*) są wymagane
*
*
*
*
captcha
Zapoznałem/am się i akceptuję regulamin oraz politykę prywatności *

ODSYŁACZE

Link do zasobu (portal):

Link do zasobu (skrót):

http://zasobynauki.pl/zasoby/18469

Link do zasobu (repozytorium):

https://id.e-science.pl/records/18469

Typ zasobu: zbiór, baza danych

N-gramy językowe

Widok

Metadane zasobu

Tytuł N-gramy językowe
Wariant tytułu: Language n-grams
Osoby Autorzy: Jan Kocoń
Partner: Politechnika Wrocławska
Opis Zasób powstał w ramach projektu "Opracowanie metodologii prac nad rozwojem infrastruktury technologii językowych CLARIN oraz upowszechnienie wytworzonej w ramach CLARIN infrastruktury badawczej", grant nr 3255/CLARIN ERIC/2015/0
Opublikowane n-gramy językowe to częstości wystąpień sekwencji lematów (form hasłowych). N-gramy zostały wygenerowane z różnych korpusów językowych: KGR10 - korpus internetowy obejmujący 4 miliardy słów, KGR7 – 2 miliardy słów, zawierające m.in. korpusy blogów i przemówień sejmowych, KPWr - ok. 500 tys. słów oraz korpusu tekstów z Wikipedii (ok. 30 mln słów). Łącznie paczka zawiera 32 listy bigramów, trigramów i tetragramów. (Polski)
Opis w innym języku: Published n-grams are frequencies of lemmas. These n-grams were generated from various text corpora: KGR-10 – the Internet corpus, containing 4 billion words, KGR-7 – 2 billion words, which contains among others a blog corpus and Polish parlimentary speech corpus, KPWr – ca 500 thousand words and the Wikipedia corpus (ca 30 million words). All together the package contains 32 lists of bigrams, trigrams and tetragrams. (Angielski)
Uwagi: Wąską grupę odbiorców zasobu mogą stanowić lingwiści komputerowi, frazeologowie, leksykografowie, inżynierowie NLP.
Słowa kluczowe "corpus"@en, "N-gram"@pl, "korpus (językoznawstwo)"@pl, "bigram"@pl, "tigram"@pl
Klasyfikacja Typ zasobu: zbiór, baza danych
Dyscyplina naukowa: dziedzina nauk technicznych / informatyka (2011)
Grupa docelowa: naukowcy, studenci
Szkodliwe treści: Nie
Charakterystyka Miejsce powstania: Wrocław
Czas powstania: 2010-2018
Użyte oprogramowanie: Python, WCCL, JOSKIPI, C++
Język zasobu: Nie dotyczy
Zasięg czasowy zasobu: 2010-2017
Zasięg geograficzny zasobu: "Polska"
Linki zewnętrzne
Licencja CC BY-SA 4.0
Informacje techniczne Deponujący: Marek Maziarz
Data udostępnienia: 30-08-2018
Kolekcje Kolekcja e-Statystyka PWr, Kolekcja Politechniki Wrocławskiej, Kolekcja e-Science PWr

Cytowanie

Skopiowano

Jan Kocoń. N-gramy językowe. [zbiór, baza danych] Dostępny w Atlasie Zasobów Otwartej Nauki, . Licencja: CC BY-SA 4.0, https://creativecommons.org/licenses/by-sa/4.0/legalcode.pl. Data dostępu: DD.MM.RRRR.

Podobne zasoby

Reguły normalizacji wyrażeń temporalnych

Jan Kocoń, zbiór, baza danych, Politechnika Wrocławska, dziedzina nauk technicznych / informatyka (2011)

KPWr 1.3

Michał Marcińczuk, Marcin Oleksy, Marek Maziarz, Jan Wieczorek, Dominika Fikus, Agnieszka Turek, Michał Wolski, Tomasz Bernaś, Jan Kocoń, Paweł Kędzia, zbiór, baza danych, Politechnika Wrocławska, Dziedzina nauk inżynieryjno-technicznych / informatyka techniczna i telekomunikacja (2018)

KPWr 1.2

Michał Marcińczuk, Marcin Oleksy, Marek Maziarz, Jan Wieczorek, Jan Kocoń, Paweł Kędzia, inny dokument, Politechnika Wrocławska, dziedzina nauk matematycznych / informatyka (2011)

Słownik połączeń wyrazowych typu rzeczownik+przymiotnik z uzgodnieniem

Michał Wendelberger, Marek Maziarz, zbiór, baza danych, Politechnika Wrocławska, dziedzina nauk technicznych / informatyka (2011)

Wytyczne KPWr - Normalizacja wyrażeń temporalnych

Jan Kocoń, inny dokument, Politechnika Wrocławska, dziedzina nauk matematycznych / informatyka (2011)

Eksperymenty z ujednoznaczniania znaczeń leksykalnych

Arkadiusz Janz, Paweł Kędzia, zbiór, baza danych, Politechnika Wrocławska, dziedzina nauk technicznych / informatyka (2011)

Zobacz więcej