REPORT A PROBLEMicon

Fields marked with an asterisk are required
*
*
*
*
captcha
I hereby confirm that I have read and accept regulations and privacy policies *

LINKS

Resource link (portal)

Resource link (short)

http://zasobynauki.pl/zasoby/21013

Resource link (repository)

https://id.e-science.pl/records/21013

Resource type: thesis

Handling metadata in the scope of coreference detection in data collections

View

Resource metadata

Title Handling metadata in the scope of coreference detection in data collections
Title variant: Zastosowanie metadanych przy wykrywaniu podobieństwa w kolekcjach danych
Persons Authors: Marcin Szymczak
Partner: Systems Research Institute Polish Academy of Sciences, Warsaw
Description Exchange of information is extremely important in the rapidly and unpredictably changing world.
The amount of data is growing very fast and is often distributed over heterogeneous systems or databases. As a consequence, the same piece of information can be represented in different ways, called coreferent data. This may be a serious problem in data processing, hampering the interoperability of distributed systems. Due to the volume of data processed and its required multilevel analysis, it is usually very difficult, and often just impossible, to remedy this problem
“manually”. Thus, it is important to identify coreference in automatic fashion on different levels to secure the interoperability, i.e. the ability of systems and organizations to work together.
We can distinguish two major levels in coreference detection, namely, the metadata and the data level, which are strongly related to each other. On the one hand, metadata, e.g. a knowledge base (such as an ontology or taxonomy) or a database schema that defines structure and properties, provide additional information about data and can support the coreference detection on the
data level. On the other hand, the data, more specifically data which are described by metadata, can be used to construct metadata or detect coreference in metadata.
In the first part of this dissertation we propose two novel schema matching techniques. The first technique is based only on XML schema information, more specifically on names (tags) of schema elements and their sequences, called here paths, as elements may be nested in other elements.
This method compares element names lexically and considers their relative importance. That makes it a very efficient solution. The second schema matching technique is only based on content data and is a composition of a vertical and a horizontal schema matching. Firstly, attributes domains are statistically and lexically compared in the vertical matching. Secondly, a horizontal matching is applied which is based on detecting coreferent tuples. This allows to address the attribute granularity and coverage problems.
In the second part of this work a novel automated method (DOC) is proposed to construct a knowledge base with semantic information on the domain of an attribute. Such a knowledge base then supports the semantic comparison of domain values that can be sorted by means of an order relation reflecting a notion of generality. The use and impact of this method on the mapping and transformation of attribute values across heterogeneous data collections, the detection of coreferent
tuples and data fusion (merging coreferent representations of an entity into a single representation) are investigated. Our novel technique has the advantage that there is no need for a priori taxonomical knowledge on the attribute domains. Instead, this knowledge is dynamically constructed and hence only depends on the con tent data, which means that it can be automatically reconstructed when these data change.
All proposed methods are extensively evaluated on large real-life data collections.
By studying the selected research problems we aim to contribute to the scientific developments in the areas of data integration and interoperability. (English)
Description in another language: Wymiana informacji jest niezwykle istotna w nieprzewidywalnym i ciągle zmieniającym się świecie.
Wciąż powiększa się ilość danych i są to często dane rozproszone w niejednorodnych systemach lub bazach danych. W konsekwencji, ta sama informacja może być przedstawiana na różne sposoby
i dane ją na te różne sposoby przedstawiające nazywamy danymi koreferentnymi (ang. coreferent data). Dla sprawnego przetwarzania informacji pochodzących z różnych źródeł istotne jest automatyczne wykrywanie koreferencji na różnych poziomach reprezentacji danych oraz rozwiązanie problemu interoperacyjności - zdolności do efektywnej współpracy systemów i organizacji. Możemy wyróżnić dwa główne poziomy reprezentacji, na których można prowadzić wykrywanie koreferencji: poziom danych i poziom metadanych, przy czym działania te na obydwu poziomach są ze sobą silnie powiązane. Z jednej strony, metadane opisują dane i mogą wspomagać proces wykrywania ich podobieństwa. Z drugiej strony, dane, a konkretnie dane opisane przez metadane (np. schematy baz danych), mogą zostać wykorzystane do konstrukcji dodatkowych metadanych lub wykrywania koreferencji na poziomie metadanych.
W pierwszej części rozprawy zostały zaproponowane dwa nowatorskie rozwiązania problemu dopasowania metadanych i, na tej podstawie, wykrywania koreferencji na ich poziomie w przypadku danych zapisanych z użyciem języka XML. Pierwsza metoda operuje wyłącznie na informacji zawartej w schematach XML, a konkretnie na znacznikach (tagach) elementów schematu i ich sekwencjach,
zwanych ścieżkami (ang. paths), prowadzących od korzenia dokumentu XML do danego elementu. Metoda ta porównuje znaczniki i ścieżki jako ciągi znaków, z uwzględnieniem ich zróżnicowanej ważności. Dzięki intuicyjności i względnej prostocie implementacyjnej tej metody uzyskuje się efektywne i wydajne narzędzie do wykrywania koreferencji. Druga metoda operuje wyłącznie na danych, które są opisane przez porównywane metadane. Jest ona realizowana w dwóch krokach. Najpierw, w ramach pierwszego kroku, porównuje się wartości poszczególnych atrybutów z użyciem zarówno narzędzi statystycznych, jak i poprzez leksykalne porównywanie pojedynczych wartości tychże atrybutów. Drugi krok bazuje na wykrytych w pierwszym kroku koreferentnych atrybutach
i obiektach w bazie danych. Pozwala to przezwyciężyć problem różnej granulacji informacji
(ang. attribute granularity problem) oraz problem stopnia pokrycia informacji (ang. data coverage problem).
W drugiej części pracy zaproponowany został nowatorski algorytm, nazwany DOC, który automatycznie tworzy bazę wiedzy dotyczącą dziedziny wybranego atrybutu. Baza ta przyjmuje postać relacji porządku częściowego, określonej na dziedzinie danego atrybutu. Znajduje to zastosowanie przy porównywaniu elementów tej dziedziny, pozwalając na uwzględnienie większej lub mniejszej ich ogólności. W pracy opracowano i przebadano zastosowanie takiej bazy wiedzy do mapowania i transformacji wartości atrybutów o niejednorodnych dziedzinach oraz do wykrywania danych koreferentnych, jak również do integracji danych - połączenia wielu reprezentacji danej informacji w pojedynczą reprezentację. Zaletą zastosowania zaproponowanej nowatorskiej metody DOC we wspomnianych wyżej zadaniach jest fakt, iż pozwala ona stworzyć automatycznie bazę wiedzy, która znacznie podnosi efektywność realizacji tych zadań, co pokazano w ramach przeprowadzonych eksperymentów obliczeniowych.
Wszystkie opisane metody zostały szczegółowo przetestowane na dużych zbiorach danych o charakterze praktycznym. (Polish)
Keywords "metadane"@pl, "dane koreferentne"@pl, "jakość danych"@pl, "wykrywanie duplikatów"@pl
Classification Resource type: thesis
Scientific discipline: dziedzina nauk technicznych / informatyka (2011)
Destination group: scientists, students, entrepreneurs
Harmful content: No
Characteristics Place of creation: Poznań
Creation time: 2015
Number of pages: 240
Supervisor: Guy De Tré, Sławomir Piotr Zadrożny
Resource language: English
License CC BY-SA 4.0
Technical information Submitter: Anna Wasilewska
Availability date: 18-10-2018
Collections Kolekcja Instytutu Badań Systemowych PAN w Warszawie, Kolekcja e-Biblio IBS PAN

Citation

Copied

Marcin Szymczak. Handling metadata in the scope of coreference detection in data collections. [thesis] Available in Atlas of Open Science Resources, . License: CC BY-SA 4.0, https://creativecommons.org/licenses/by-sa/4.0/legalcode.pl. Date of access: DD.MM.RRRR.

Similar resources

Charakterystyka i przetwarzanie zasobów urzędowych związanych z czasem i przestrzenią

Tomasz Kubik, Jaromar Łukowicz, Maciej Tobjasz, Jadwiga Borzuchowska, Iwona Kaczmarek, book, Wrocław University of Environmental and Life Sciences, dziedzina nauk technicznych (2011)