REPORT A PROBLEMicon

Fields marked with an asterisk are required
*
*
*
*
captcha
I hereby confirm that I have read and accept regulations and privacy policies *

LINKS

Resource link (portal)

Resource link (short)

http://zasobynauki.pl/zasoby/53213

Resource link (repository)

https://id.e-science.pl/records/53213

Resource type: dataset, database

Korpus tekstów naukowych dla języka polskiego, cz.1

View

Resource metadata

Title Korpus tekstów naukowych dla języka polskiego, cz.1
Persons Authors: Teresa Sas
Partner: Wrocław University of Science and Technology
Description Korpus tekstów naukowych dla języka polskiego, utworzony na bazie zasobów DBC (prace habilitacyjne, artykuły naukowo-popularne).
Korpus jest uporządkowanym zbiorem tekstów naukowych zapisanych w postaci elektronicznej, w formacie tekstowym umożliwiającym jego łatwe przetwarzanie w celach badawczych oraz wykorzystanie w aplikacjach praktycznych ze szczególnym wskazaniem na aplikacje związane z rozpoznawaniem mowy w języku polskim. Wszystkie słowa w korpusie są rozpisane literalnie, usunięta jest interpunkcja i znaki specjalne, daty i liczby są w postaci słownej, tekst został pofrazowany i otagowany znacznikami początku i końca frazy.
Tak przygotowany korpus językowy umożliwia prowadzenie badań z zakresu rozpoznawania mowy, uczenia maszynowego, inżynierii języka naturalnego oraz lingwistyki. Unikalność tego zasobu polega na tym, że ukierunkowany jest on na słownictwo naukowe obejmujące nauki ścisłe, chemiczne, przyrodnicze i medyczne. (Polish)
Comments: W pliku pdf opisano szczegółowo sposób tworzenia korpusu oraz podano listę dokumentów, które w nim uwzględniono.
Keywords "korpus językowy"@pl, "Uczenie maszynowe"@pl, "korpus języka polskiego"@pl, "korpusy tekstowe"@pl, "inżynieria języka naturalnego"@pl, "ASR"@pl, "automatyczne rozpoznawanie mowy"@pl
Classification Resource type: dataset, database
Scientific discipline: Dziedzina nauk inżynieryjno-technicznych / informatyka techniczna i telekomunikacja (2018)
Destination group: general public, public administration, entrepreneurs, pupils, students, teachers, scientists
Harmful content: No
Characteristics Place of creation: Wrocław
Creation time: 2020
Resource language: Polish
Related resources
License CC BY-SA 4.0
Technical information Submitter: Teresa Sas
Availability date: 04-11-2020
Collections Kolekcja Politechniki Wrocławskiej, Kolekcja e-Science PWr

Citation

Copied

Teresa Sas. Korpus tekstów naukowych dla języka polskiego, cz.1. [dataset, database] Available in Atlas of Open Science Resources, . License: CC BY-SA 4.0, https://creativecommons.org/licenses/by-sa/4.0/legalcode.pl. Date of access: DD.MM.RRRR.

Similar resources

Splunk - konfiguracja, rozpoznawanie i wizualizacja informacji o incydentach i zagrożeniach

Arkadiusz Kotynia, Julia Jancelewicz, Urszula Warmińska, other document, Wrocław University of Science and Technology, Dziedzina nauk inżynieryjno-technicznych / automatyka, elektronika i elektrotechnika (2018)

Forming and pruning one-class classifier ensembles

Bartosz Krawczyk, thesis, Wrocław University of Science and Technology, dziedzina nauk technicznych / elektronika (2011)

Korpus nagrań próbek mowy do celów budowy modeli akustycznych dla automatycznego rozpoznawania mowy w języku polskim, cz. 8

Teresa Sas, dataset, database, Wrocław University of Science and Technology, Dziedzina nauk inżynieryjno-technicznych / informatyka techniczna i telekomunikacja (2018)

Eksperymenty z ujednoznaczniania znaczeń leksykalnych

Arkadiusz Janz, Paweł Kędzia, dataset, database, Wrocław University of Science and Technology, dziedzina nauk technicznych / informatyka (2011)

See more