Development of innovative technologies for extracting and integrating information from heterogeneous data sources using machine learning. (Q78456)
Project Q78456 in Poland
English | Development of innovative technologies for extracting and integrating information from heterogeneous data sources using machine learning. |
Project Q78456 in Poland |
3,625,320.0 zloty
4,815,375.0 zloty
75.29 percent
1 January 2019
31 December 2020
PRZEDMIOT PROJEKTU Projekt ma na celu dostarczenie unikalnych technologii pozwalających na wydobywanie danych o wskazanej semantyce z heterogenicznych źródeł oraz na ich integrację w spójny i pełny widok w ramach organizacji. Oczekiwane rezultaty pierwszych etapów projektu (I-III), to rozwiązania oparte na technikach przetwarzania języka naturalnego (dla języka polskiego) i uczeniu maszynowym, pozwalające między innymi na: • automatyczne wydobywanie danych o wskazanej semantyce ze źródeł niestrukturalnych (np. dokumenty, poczta elektroniczna, czat), • automatyczne wydobywanie danych o wskazanej semantyce ze źródeł strukturalnych (np. bazy danych) i semistrukturalnych (np. dane tabelaryczne, strony HTML, dokumenty XML, JSON, RTF) , • łączenie i uspójnianie rozproszonych danych pochodzących z wielu źródeł, • dostęp do zgromadzonych informacji za pomocą jednolitej semantycznej warstwy dostępu. Technologie bazowe, które zostaną opracowane w wyniku pierwszych etapów projektu (I-III) , zostaną wykorzystane w Etapie IV. Etap IV będzie skupiał się na eksperymentalnej weryfikacji wykorzystania technologii w konkretnej domenie biznesowej, jaką jest wydobywanie danych o osobach oraz danych szczególnie wrażliwych na potrzeby zarządzania ich bezpieczeństwem w organizacji będącej procesorem danych. Projekt zakłada również przeprowadzenie w ramach Etapu IV prac badawczych w celu opracowania metody przenoszenie/budowania modeli wydobywania danych dla innych języków europejskich, tj.: angielski, niemiecki, hiszpański. Umiejętność rozbudowy rozwiązania o kolejne języki pozwoli znacząco poszerzyć rynek odbiorców rezultatów projektu. Zgodnie z art. 25 rozporządzenia KE nr 651/2014 z dnia 17 czerwca 2014 r. uznające niektóre rodzaje pomocy za zgodne z rynkiem wewnętrznym w stosowaniu art. 107 i 108 Traktatu (Dz. Urz. UE L 187/1 z 26.06.2014) (Polish)
Project Item The project aims to provide unique technologies that allow the extraction of data on indicated semantics from heterogeneous sources and their integration into a coherent and complete view within the organisation. The expected results of the first phases of the project (I-III) are solutions based on natural language processing techniques (for Polish) and machine learning, allowing, inter alia: • automatic extraction of specified semantics data from non-structural sources (e.g. documents, e-mail, chat), • automatic extraction of specified semantics data from structural sources (e.g. databases) and semi-structural (e.g. tabular data, HTML pages, XML documents, JSON, RTF), • combining and consolidating distributed data from multiple sources, • access the collected information by means of a uniform semantic access layer. Core technologies to be developed as a result of the first phases of the project (I-III) will be used in Stage IV. Stage IV will focus on experimental verification of the use of technology in a specific business domain, namely the extraction of data about individuals and data sensitive to the management of their security in the data processor organisation. The project also envisages carrying out research within Stage IV to develop a method of transfer/build data extraction models for other European languages, i.e.: English, German, Spanish. The ability to expand the solution by further languages will significantly expand the market for recipients of project results. Pursuant to Article 25 of Regulation (EC) No 651/2014 of 17 June 2014 declaring certain types of aid compatible with the internal market in the application of Articles 107 and 108 of the Treaty (OJ L. I'm sorry. EU L 187/1 of 26.06.2014) (English)
14 October 2020
Objet DU PROJET Le projet vise à fournir des technologies uniques pour extraire des données sur la sémantique à partir de sources hétérogènes et les intégrer dans une vision cohérente et complète au sein de l’organisation. Les résultats escomptés des premières étapes du projet (I-III) sont des solutions fondées sur des techniques de traitement du langage naturel (pour la langue polonaise) et l’apprentissage automatique, permettant notamment: • extraction automatique des données sémantiques à partir de sources non structurelles (par exemple, documents, e-mail, chat), • extraction automatique des données avec la sémantique indiquée à partir de sources structurelles (par exemple, bases de données) et de sources semi-structurales (par exemple, données tabulaires, pages HTML, documents XML, JSON, RTF), • combiner et disperser de manière cohérente des données provenant de sources multiples, • accès aux informations collectées au moyen d’une couche d’accès sémantique uniforme. Les technologies sous-jacentes qui seront développées à la suite des premières phases du projet (I-III) seront utilisées au cours de la phase IV. La phase IV se concentrera sur la vérification expérimentale de l’utilisation de la technologie dans un domaine d’activité spécifique, c’est-à-dire l’extraction de données sur des personnes et de données particulièrement sensibles pour la gestion de leur sécurité dans une organisation de traitement de données. Le projet prévoit également la réalisation de travaux de recherche dans le cadre de la phase IV afin de mettre au point une méthode de déplacement/d’extraction de données pour d’autres langues européennes, à savoir: Anglais, allemand, espagnol. La capacité d’étendre la solution dans d’autres langues élargira considérablement le marché des bénéficiaires des résultats du projet. Conformément à l’article 25 du règlement (CE) no 651/2014 du 17 juin 2014 déclarant certaines catégories d’aides compatibles avec le marché intérieur en application des articles 107 et 108 du traité URZ. UE L 187/1 du 26.6.2014) (French)
30 November 2021
Gegenstand DER PROJEKT Das Projekt zielt darauf ab, einzigartige Technologien bereitzustellen, um Daten über Semantik aus heterogenen Quellen zu extrahieren und in eine kohärente und vollständige Sicht innerhalb der Organisation zu integrieren. Die erwarteten Ergebnisse der ersten Projektphase (I-III) sind Lösungen, die auf Techniken der Verarbeitung natürlicher Sprachen (für polnische Sprache) und maschinelles Lernen beruhen und unter anderem Folgendes ermöglichen: • automatische Extraktion von Semantikdaten aus nicht-strukturellen Quellen (z. B. Dokumente, E-Mail, Chat), • automatische Extraktion von Daten mit angezeigter Semantik aus strukturellen Quellen (z. B. Datenbanken) und semistrukturellen Quellen (z. B. tabellarische Daten, HTML-Seiten, XML-Dokumente, JSON, RTF), • Kombination und kohärente Verteilung von Daten aus mehreren Quellen, • Zugriff auf die gesammelten Informationen über eine einheitliche semantische Zugangsebene. Die zugrunde liegenden Technologien, die infolge der ersten Projektphasen (I-III) entwickelt werden sollen, werden in Phase IV eingesetzt. Phase IV wird sich auf die experimentelle Überprüfung des Einsatzes von Technologie in einem bestimmten Geschäftsfeld konzentrieren, d. h. die Extraktion von Daten über Einzelpersonen und Daten, die für die Verwaltung ihrer Sicherheit in einer Datenverarbeitungsorganisation besonders sensibel sind. Das Projekt umfasst auch die Durchführung von Forschungsarbeiten im Rahmen von Phase IV zur Entwicklung einer Methode zum Verschieben/Bauen von Datenextraktionsmodellen für andere europäische Sprachen, d. h.: Englisch, Deutsch, Spanisch. Die Fähigkeit, die Lösung in andere Sprachen zu erweitern, wird den Markt der Empfänger der Projektergebnisse deutlich erweitern. Gemäß Artikel 25 der Verordnung (EG) Nr. 651/2014 vom 17. Juni 2014 zur Feststellung der Vereinbarkeit bestimmter Gruppen von Beihilfen mit dem Binnenmarkt in Anwendung der Artikel 107 und 108 AEUV URZ. EU L 187/1 vom 26.6.2014) (German)
7 December 2021
Onderwerp VAN HET PROJECT Het project is gericht op het leveren van unieke technologieën om gegevens over semantiek uit heterogene bronnen te extraheren en te integreren in een coherent en volledig beeld binnen de organisatie. De verwachte resultaten van de eerste fasen van het project (I-III) zijn oplossingen die gebaseerd zijn op natuurlijke taalverwerkingstechnieken (voor Poolse taal) en machinaal leren, waardoor onder meer: • automatische extractie van semantische gegevens uit niet-structurele bronnen (bv. documenten, e-mail, chat), • automatische extractie van gegevens met aangegeven semantiek uit structurele bronnen (bv. databases) en semi-structurele bronnen (bv. tabelgegevens, HTML-pagina’s, XML-documenten, JSON, RTF), • het combineren en coherent verspreiden van gegevens uit meerdere bronnen, • toegang tot de verzamelde informatie door middel van een uniforme semantische toegangslaag. De onderliggende technologieën die moeten worden ontwikkeld als gevolg van de eerste fasen van het project (I-III) zullen in fase IV worden gebruikt. Fase IV zal gericht zijn op experimentele verificatie van het gebruik van technologie in een specifiek bedrijfsdomein, namelijk het extraheren van gegevens over personen en gegevens die bijzonder gevoelig zijn voor het beheer van hun veiligheid in een gegevensverwerkersorganisatie. Het project omvat ook het uitvoeren van onderzoek in het kader van fase IV met het oog op de ontwikkeling van een methode voor het verplaatsen/bouwen van gegevensextractiemodellen voor andere Europese talen, d.w.z.: Engels, Duits, Spaans. Het vermogen om de oplossing uit te breiden naar andere talen zal de markt van de ontvangers van de resultaten van het project aanzienlijk uitbreiden. Op grond van artikel 25 van Verordening (EG) nr. 651/2014 van 17 juni 2014 waarbij bepaalde categorieën steun op grond van de artikelen 107 en 108 van het Verdrag met de interne markt verenigbaar worden verklaard URZ. EU L 187/1 van 26.6.2014) (Dutch)
16 December 2021
Oggetto DEL PROGETTO Il progetto mira a fornire tecnologie uniche per estrarre dati sulla semantica da fonti eterogenee e integrarli in una visione coerente e completa all'interno dell'organizzazione. I risultati attesi delle prime fasi del progetto (I-III) sono soluzioni basate su tecniche di elaborazione delle lingue naturali (per la lingua polacca) e sull'apprendimento automatico, che consentono, tra l'altro, di: • estrazione automatica di dati semantici da fonti non strutturali (ad esempio documenti, e-mail, chat), • estrazione automatica di dati con semantica indicata da fonti strutturali (ad esempio banche dati) e da fonti semistrutturali (ad esempio dati tabulari, pagine HTML, documenti XML, JSON, RTF), • combinazione e coerente dispersione di dati da più fonti, • accesso alle informazioni raccolte mediante un livello di accesso semantico uniforme. Le tecnologie di base da sviluppare a seguito delle prime fasi del progetto (I-III) saranno utilizzate nella fase IV. La fase IV si concentrerà sulla verifica sperimentale dell'uso della tecnologia in uno specifico settore aziendale, ossia l'estrazione di dati su persone fisiche e dati particolarmente sensibili per la gestione della loro sicurezza in un'organizzazione responsabile del trattamento dei dati. Il progetto prevede inoltre l'esecuzione di lavori di ricerca nell'ambito della fase IV per sviluppare un metodo di trasferimento/costruzione di modelli di estrazione dei dati per altre lingue europee, vale a dire: Inglese, tedesco, spagnolo. La capacità di espandere la soluzione in altre lingue espanderà in modo significativo il mercato dei destinatari dei risultati del progetto. A norma dell'articolo 25 del regolamento (CE) n. 651/2014, del 17 giugno 2014, che dichiara alcune categorie di aiuti compatibili con il mercato interno in applicazione degli articoli 107 e 108 del trattato URZ. UE L 187/1 del 26.6.2014) (Italian)
15 January 2022
