CREATION OF A SYNTACTICALLY ANNOTATED HISTORICAL CORPUS FOR BASQUE (Q3170264)

From EU Knowledge Graph
Jump to navigation Jump to search
Project Q3170264 in Spain
Language Label Description Also known as
English
CREATION OF A SYNTACTICALLY ANNOTATED HISTORICAL CORPUS FOR BASQUE
Project Q3170264 in Spain

    Statements

    0 references
    76,426.02 Euro
    0 references
    140,360.0 Euro
    0 references
    54.45 percent
    0 references
    2 September 2019
    0 references
    1 September 2022
    0 references
    UNIVERSIDAD DEL PAIS VASCO/EUSKAL HERRIKO UNIBERTSITATEA
    0 references
    0 references

    43°18'14.90"N, 1°59'21.70"W
    0 references
    20009
    0 references
    EL PROYECTO AQUI PRESENTADO, CREACION DE UN CORPUS HISTORICO ANOTADO SINTACTICAMENTE PARE EL EUSKERA (SAHCOBA) TIENE COMO OBJETIVO PRINCIPAL CREAR HERRAMIENTAS BASICAS DE PROCESAMIENTO DEL LENGUAJE NATURAL (PLN) PARA AYUDAR A LOS INVESTIGADORES EN EL CAMPO DE LA LINGUISTICA DIACRONICA Y MAS CONCRETAMENTE DE LA SINTAXIS DIACRONICA. _x000D_ EN LO QUE RESPECTA A LA METODOLOGIA A SEGUIR EN EL PROYECTO, HEMOS PLANTEADO UNOS PASOS A SEGUIR PARA ALCANZAR EL OBJETIVO PRINCIPAL DEL PROYECTO, LA CREACION DE UN CORPUS HISTORICO DE TEXTOS VASCOS ANOTADO SINTACTICAMENTE. PRIMERO, RECOPILAREMOS UN CORPUS CON TEXTOS HISTORICOS QUE IRAN DESDE EL XV HASTA LA PRIMERA MITAD DEL SIGLO XX. A CONTINUACION, ANOTAREMOS MANUALMENTE PARTE DE ESE CORPUS PARA ASIGNAR A CADA PALABRA ANTIGUA SU CORRESPONDIENTE EN LENGUA ESTANDAR, LO QUE SE CONOCE COMO NORMALIZACION DEL TEXTO. BASANDONOS EN LA ANOTACION MANUAL Y ULIZANDO DIVERSAS TECNICAS COMPUTACIONALES Y DE APRENDIZAJE AUTOMATICO, NORMALIZAREMOS EL RESTO DEL CORPUS DE FORMA AUTOMATICA. UNA VEZ CONCLUIDO EL TRABAJO DE NORMALIZACION, ANOTAREMOS EL CORPUS MORFOSINTACTICAMENTE CON LA AYUDA DE LAS HERRAMIENTAS DE PLN DESARROLLADAS POR EL GRUPO IXA. POR ULTIMO, TODO EL CORPUS Y LAS ESTRUCTURAS SINTACTICAS ANOTADAS PODRAN SER CONSULTADAS GRACIAS A LA INTERFAZ DE BUSQUEDA QUE CREAREMOS A TAL EFECTO. _x000D_ _x000D_ ASI PUES LOS PRODUCTOS PRINCIPALES DE ESTE PROYECTO SERAN DOS. POR UN LADO, UN CORPUS ANOTADO, DISPONIBLE ONLINE Y DE LIBRE ACCESO, DE TEXTOS VASCOS HISTORICOS COMPRENDIDOS ENTRE EL SIGLO XV Y LA PRIMERA MITAD DEL SIGLO XX, MOMENTO EN EL QUE SE COMENZO EL PROCESO DE ESTANDARIZACION DE LA LENGUA. EL CORPUS CONSTARA DE ALREDEDOR DE 12 MILLONES DE PALABRAS CATEGORIZADAS CON RESPECTO AL PERIODO HISTORICO, DIALECTO, GENERO LITERARIO Y CONTEXTO SOCIOLINGUISTICO. EL CORPUS ESTARA ANOTADO MORFOSINTACTICAMENTE LO QUE HARA POSIBLE LA BUSQUEDA DIRECTA DE DIFERENTES ESTRUCTURAS SINTACTICAS. POR OTRO LADO, DISPONDREMOS DE UNA INTERFAZ ONLINE DE BUSQUEDA GRAMATICAL PARA PERMITIR A LOS LINGUISTAS BUSCAR LOS FENOMENOS SINTACTICOS DE SU INTERES Y ESTUDIARLOS DE MANERA DIACRONICA. (Spanish)
    0 references
    THE PROJECT PRESENTED HERE, SYNTACTICALLY ANNOTATED HISTORICAL CORPUS IN BASQUE (SAHCOBA) HAS AS ITS MAIN OBJECTIVE TO CREATE BASIC TOOLS OF NATURAL LANGUAGE PROCESSING (NLP) TO HELP RESEARCHERS IN THE FIELD OF DIACHRONIC LINGUISTICS AND MORE SPECIFICALLY, IN THE DIACHRONIC SYNTAX._x000D_ WITH REGARD TO THE METHODOLOGY TO BE FOLLOWED IN THE PROJECT, WE HAVE SET OUT SOME STEPS TO FOLLOW IN ORDER TO ACHIEVE THE MAIN OBJECTIVE OF THE PROJECT, THE CREATION OF A HISTORICAL CORPUS OF BASQUE TEXTS ANNOTATED SYNTACTICALLY. FIRST, WE WILL COMPILE A CORPUS WITH HISTORICAL TEXTS FROM THE XVTH CENTURY TO THE FIRST MID OF THE XXTH CENTURY. NEXT, SOME PARTS OF THOSE TEXTS WILL BE MANUALLY ANNOTATED TO ASSIGN TO EACH ANCIEN WORD FORM ITS CORRESPONDING STANDARD EQUIVALENT, AND BASED ON THE MANUAL ANNOTATION AND APLLYING LEARNING TECHNIQUES, THE REST OF THE TEXTS WILL BE AUTOMATICALLY NORMALIZED USING SEVERAL COMPUTATIONAL TECHNIQUES. ONCE THE CROPUS IS STANDARDIZED, WE WILL ANNOTATE THE CORPUS MORPHOSYNTACTICALLY WITH THE HELP OF NLP TOOLS DEVELOPED AT THE IXA RESEARCH GROUP. FINALLY, THE ANNOTATED EXAMPLES COULB BE CONSULTED VIA A CORPUS SEARCH INTERFACE THAT WE WILL CREATE FOR THIS PURPOSE. _x000D_ _x000D_ THEREFORE, THE MAIN DELIVERABLES OF THE PROJECT WILL BE TWO. ON THE ONE HAND, AN ANNOTATED DATABASE, ON-LINE AND OPEN ACCESS, OF BASQUE HISTORICAL TEXTS SPANNING FROM THE XVTH CENTURY ONTO THE XXTH CENTURY (THE ARCHAIC AND OLD BASQUE PERIODS AND MODERN BASQUE PERIOD PREVIOUS TO THE STANDARDIZATION OF THE LANGUAGE (1968)). THE CORPUS, WHICH WILL HAVE AN EXTENSION OF AROUND 12 MILLION WORDS, WILL BE CATEGORIZED ACCORDING TO PERIOD, DIALECT, LITERARY GENDER, AND SOCIOLINGUISTIC BACKGROUND, AND WILL BE TAGGED WITH PART-OF-SPEECH CATEGORIES AS WELL AS SYNTACTIC CATEGORIES, SO AS TO MAKE DIRECT SYNTACTIC SEARCH POSSIBLE. ON THE OTHER HAND, WE WILL HAVE A CORPUS GRAMMATICAL SEARCH INTERFACE TO ALLOW THE LINGUISTS TO LOOK UP FOR THOSE STUDIED SYNTACTIC PHENOMENA, STRUCTURES THAT BELONG TO SPECIFIC TIMES AND PLACES. (English)
    0.1490154293025829
    0 references
    LE PROJET PRÉSENTÉ ICI, LA CRÉATION D’UN CORPUS HISTORIQUE SYNTACTIQUEMENT ANNOTÉ POUR LA LANGUE BASQUE (SAHCOBA) VISE PRINCIPALEMENT À CRÉER DES OUTILS DE BASE DE TRAITEMENT DU LANGAGE NATUREL (PLN) POUR AIDER LES CHERCHEURS DANS LE DOMAINE DE LA LINGUISTIQUE DIACRONIQUE ET PLUS SPÉCIFIQUEMENT DE LA SYNTAXE DIACRONICA. _x000D_ dans QUE RESPECTED À LA MÉTHODOLOGIE DANS LE PROJET, nous avons PLANTING une étape à suivre afin d’atteindre le travail principal du projet, la création d’un corps historique de TEXTE VASC noté de manière syntaxique. TOUT D’ABORD, NOUS ALLONS COMPILER UN CORPUS AVEC DES TEXTES HISTORIQUES QUE L’IRAN DE LA 15E À LA PREMIÈRE MOITIÉ DU XXE SIÈCLE. ENSUITE, NOUS NOTONS MANUELLEMENT UNE PARTIE DE CE CORPUS POUR ATTRIBUER À CHAQUE MOT ANCIEN SON CORRESPONDANT EN LANGAGE STANDARD, CE QU’ON APPELLE LA NORMALISATION DU TEXTE. BASÉ SUR L’ANNOTATION MANUELLE ET UTILISANT DIVERSES TECHNIQUES DE CALCUL ET D’APPRENTISSAGE AUTOMATIQUE, NOUS NORMALISERONS AUTOMATIQUEMENT LE RESTE DU CORPUS. UNE FOIS LES TRAVAUX DE NORMALISATION TERMINÉS, NOUS REMARQUONS LE CORPUS MORFOSINTACTICAL AVEC L’AIDE DES OUTILS PLN DÉVELOPPÉS PAR LE GROUPE IXA. ENFIN, TOUT LE CORPUS ET LES STRUCTURES ANNOTÉES SINTACTICAS PEUVENT ÊTRE CONSULTÉS GRÂCE À L’INTERFACE DE RECHERCHE QUE NOUS ALLONS CRÉER À CET EFFET. _x000D_ _x000D_ ainsi que les produits primaires de ce projet seront deux. D’UNE PART, UN CORPUS ANNOTÉ, DISPONIBLE EN LIGNE ET LIBREMENT ACCESSIBLE, DE TEXTES HISTORIQUES BASQUES ENTRE LE XVE SIÈCLE ET LA PREMIÈRE MOITIÉ DU XXE SIÈCLE, LORSQUE LE PROCESSUS DE NORMALISATION DE LA LANGUE A COMMENCÉ. LE CORPUS SE COMPOSERA D’ENVIRON 12 MILLIONS DE MOTS CLASSÉS EN FONCTION DE LA PÉRIODE HISTORIQUE, DU DIALECTE, DU GENRE LITTÉRAIRE ET DU CONTEXTE SOCIO-LINGUISTIQUE. LE CORPUS SERA NOTÉ MORFOSINTACTLY QUI PERMETTRA DE RECHERCHER DIRECTEMENT DIFFÉRENTES STRUCTURES SINTACTIQUES. D’AUTRE PART, NOUS DISPOSERONS D’UNE INTERFACE DE RECHERCHE GRAMMATICALE EN LIGNE POUR PERMETTRE AUX LINGUISTES DE RECHERCHER LES PHÉNOMÈNES SINTACTIQUES DE LEUR INTÉRÊT ET DE LES ÉTUDIER DIACHRONIQUEMENT. (French)
    4 December 2021
    0 references
    DAS HIER VORGESTELLTE PROJEKT, DIE SCHAFFUNG EINES HISTORISCHEN KORPUS SYNTAKTISCH FÜR DIE BASKISCHE SPRACHE (SAHCOBA) BEZEICHNET, ZIELT IN ERSTER LINIE DARAUF AB, GRUNDLEGENDE WERKZEUGE DER NATÜRLICHEN SPRACHVERARBEITUNG (PLN) ZU SCHAFFEN, UM FORSCHERN AUF DEM GEBIET DER DIACRONISCHEN LINGUISTIK UND INSBESONDERE DER DIACRONICA-SYNTAX ZU HELFEN. _x000D_ in WHAT RESPECTED TO THE METHODOLOGY, um im PROJECT zu sein, haben wir einen Schritt zu folgen, um die primäre Aufgabe des Projekts zu erreichen, die Schaffung eines historischen Körpers von VASC TEXTs syntaktisch bemerkt. ERSTENS WERDEN WIR EIN KORPUS MIT HISTORISCHEN TEXTEN ZUSAMMENSTELLEN, DIE DER IRAN VON DER 15. BIS ZUR ERSTEN HÄLFTE DES 20. JAHRHUNDERTS ENTHÄLT. ALS NÄCHSTES WERDEN WIR EINEN TEIL DIESES KORPUS MANUELL BEACHTEN, UM JEDEM ALTEN WORT SEINE ENTSPRECHUNG IN DER STANDARDSPRACHE ZUZUWEISEN, WAS ALS NORMALISIERUNG DES TEXTES BEKANNT IST. BASIEREND AUF MANUELLER ANNOTATION UND UNTER VERWENDUNG VERSCHIEDENER COMPUTERGESTÜTZTER UND AUTOMATISCHER LERNTECHNIKEN WERDEN WIR DEN REST DES KORPUS AUTOMATISCH NORMALISIEREN. SOBALD DIE NORMALISIERUNGSARBEITEN ABGESCHLOSSEN SIND, WERDEN WIR DEN MORFOSINTACTICAL-KORPUS MIT HILFE DER VON DER IXA-GRUPPE ENTWICKELTEN PLN-WERKZEUGE BEACHTEN. SCHLIESSLICH KÖNNEN DIE GESAMTEN KOMMENTIERTEN STRUKTUREN VON CORPUS UND SINTACTICAS DURCH DIE ZU DIESEM ZWECK ERSTELLTE SUCHSCHNITTSTELLE KONSULTIERT WERDEN. _x000D_ _x000D_ sowie die Primärprodukte dieses Projekts werden zwei sein. EINERSEITS EIN NOTIERTES KORPUS, DAS ONLINE UND FREI ZUGÄNGLICH IST, VON HISTORISCHEN BASKISCHEN TEXTEN ZWISCHEN DEM 15. JAHRHUNDERT UND DER ERSTEN HÄLFTE DES 20. JAHRHUNDERTS, ALS DER PROZESS DER STANDARDISIERUNG DER SPRACHE BEGANN. DER KORPUS WIRD AUS ETWA 12 MILLIONEN WÖRTERN BESTEHEN, DIE IN BEZUG AUF DIE HISTORISCHE PERIODE, DIALEKT, LITERARISCHES GENRE UND SOZIO-LINGGUISTISCHER KONTEXT KATEGORISIERT WERDEN. DER KORPUS WIRD MORFOSINTACTLY NOTIERT, DIE ES ERMÖGLICHT, DIREKT NACH VERSCHIEDENEN SINTACTICAL STRUKTUREN ZU SUCHEN. ANDERERSEITS HABEN WIR EINE GRAMMATIKALISCHE ONLINE-SUCHOBERFLÄCHE, DIE ES LINGUISTEN ERMÖGLICHT, NACH DEN SINTACTICAL-PHÄNOMENEN IHRES INTERESSES ZU SUCHEN UND SIE DIACHRONISCH ZU STUDIEREN. (German)
    9 December 2021
    0 references
    HET HIER GEPRESENTEERDE PROJECT, DE CREATIE VAN EEN HISTORISCH CORPUS SYNTACTISCH GEANNOTEERD VOOR DE BASKISCHE TAAL (SAHCOBA) IS IN DE EERSTE PLAATS GERICHT OP HET CREËREN VAN BASISINSTRUMENTEN VOOR NATUURLIJKE TAALVERWERKING (PLN) OM ONDERZOEKERS OP HET GEBIED VAN DIACRONISCHE TAAL EN MEER BEPAALD DIACRONICA SYNTAXIS TE HELPEN. _x000D_ in WHAT RESPECTED TO THE METHODOLOGIE TE ZIJN IN HET PROJECT, hebben we een stap te volgen om de primaire baan van het project te bereiken, de creatie van een historisch lichaam van VASC TEXTs syntactisch opgemerkt. TEN EERSTE ZULLEN WE EEN CORPUS SAMENSTELLEN MET HISTORISCHE TEKSTEN DIE IRAN VAN DE 15E TOT DE EERSTE HELFT VAN DE 20E EEUW. VERVOLGENS ZULLEN WE EEN DEEL VAN DAT CORPUS HANDMATIG NOTEREN OM AAN ELK OUD WOORD HET CORRESPONDERENDE IN STANDAARDTAAL TOE TE WIJZEN, WAT BEKEND STAAT ALS NORMALISERING VAN DE TEKST. OP BASIS VAN HANDMATIGE ANNOTATIE EN MET BEHULP VAN VERSCHILLENDE COMPUTATIONELE EN AUTOMATISCHE LEERTECHNIEKEN, ZULLEN WE AUTOMATISCH DE REST VAN HET CORPUS NORMALISEREN. ZODRA DE NORMALISATIEWERKZAAMHEDEN ZIJN VOLTOOID, ZULLEN WE HET MORFOSINTACTICAL CORPUS MET BEHULP VAN DE PLN-TOOLS DIE DOOR DE IXA-GROEP ZIJN ONTWIKKELD, NOTEREN. TOT SLOT KAN HET HELE CORPUS EN SINTACTICAS GEANNOTEERDE STRUCTUREN WORDEN GERAADPLEEGD DANKZIJ DE ZOEKINTERFACE DIE WE HIERVOOR ZULLEN CREËREN. _x000D_ _x000D_ en de primaire producten van dit project zijn twee. ENERZIJDS, EEN GEANNOTEERD CORPUS, BESCHIKBAAR ONLINE EN VRIJ TOEGANKELIJK, VAN HISTORISCHE BASKISCHE TEKSTEN TUSSEN DE 15E EEUW EN DE EERSTE HELFT VAN DE 20E EEUW, TOEN HET PROCES VAN STANDAARDISATIE VAN DE TAAL BEGON. HET CORPUS ZAL BESTAAN UIT ONGEVEER 12 MILJOEN WOORDEN GECATEGORISEERD MET BETREKKING TOT DE HISTORISCHE PERIODE, DIALECT, LITERAIR GENRE EN SOCIO-LINGGUISTIC CONTEXT. HET CORPUS ZAL WORDEN OPGEMERKT MORFOSINTACTLY DIE HET MOGELIJK ZAL MAKEN OM DIRECT TE ZOEKEN NAAR VERSCHILLENDE SINTACTICAL STRUCTUREN. AAN DE ANDERE KANT ZULLEN WE EEN ONLINE GRAMMATICALE ZOEKINTERFACE HEBBEN OM TAALKUNDIGEN IN STAAT TE STELLEN NAAR DE SINTACTICAL FENOMENEN VAN HUN INTERESSE TE ZOEKEN EN ZE DIACHRONISCH TE BESTUDEREN. (Dutch)
    17 December 2021
    0 references
    IL PROGETTO PRESENTATO QUI, LA CREAZIONE DI UN CORPUS STORICO SINTATTICAMENTE COMMENTATO PER IL LINGUAGGIO BASCO (SAHCOBA) MIRA PRINCIPALMENTE A CREARE STRUMENTI DI BASE DI ELABORAZIONE DEL LINGUAGGIO NATURALE (PLN) PER AIUTARE I RICERCATORI NEL CAMPO DELLA LINGUISTICA DIACRONICA E PIÙ SPECIFICAMENTE DELLA SINTASSI DIACRONICA. _x000D_ in COSA RISPETTO ALLA METODOLOGIA DI ESSERE NEL PROGETTO, abbiamo PLANTING un passo da seguire per raggiungere il lavoro primario del progetto, la creazione di un corpo storico di TESTI VASC sintatticamente notato. IN PRIMO LUOGO, RACCOGLIEREMO UN CORPUS CON TESTI STORICI CHE L'IRAN DAL XV ALLA PRIMA METÀ DEL XX SECOLO. POI, NOTEREMO MANUALMENTE PARTE DI QUEL CORPUS PER ASSEGNARE AD OGNI PAROLA ANTICA LA SUA CORRISPONDENTE IN LINGUA STANDARD, CIÒ CHE È NOTO COME NORMALIZZAZIONE DEL TESTO. SULLA BASE DI ANNOTAZIONI MANUALI E UTILIZZANDO VARIE TECNICHE DI APPRENDIMENTO COMPUTAZIONALE E AUTOMATICO, SI NORMALIZZA AUTOMATICAMENTE IL RESTO DEL CORPUS. UNA VOLTA COMPLETATO IL LAVORO DI NORMALIZZAZIONE, NOTEREMO IL CORPUS MORFOSINTACTICAL CON L'AIUTO DEGLI STRUMENTI PLN SVILUPPATI DAL GRUPPO IXA. INFINE, L'INTERO CORPUS E LE STRUTTURE ANNOTATE SINTACTICAS POSSONO ESSERE CONSULTATI GRAZIE ALL'INTERFACCIA DI RICERCA CHE CREEREMO A TAL FINE. _x000D_ _x000D_ così come i prodotti primari di questo progetto saranno due. DA UN LATO, UN CORPUS COMMENTATO, DISPONIBILE ONLINE E LIBERAMENTE ACCESSIBILE, DI TESTI STORICI BASCHI TRA IL XV SECOLO E LA PRIMA METÀ DEL XX SECOLO, QUANDO INIZIÒ IL PROCESSO DI STANDARDIZZAZIONE DELLA LINGUA. IL CORPUS SARÀ COMPOSTO DA CIRCA 12 MILIONI DI PAROLE CATEGORIZZATE RISPETTO AL PERIODO STORICO, AL DIALETTO, AL GENERE LETTERARIO E AL CONTESTO SOCIO-LINGGUISTICO. IL CORPUS SARÀ ANNOTATO MORFOSINTACTLY CHE PERMETTERÀ DI RICERCARE DIRETTAMENTE DIVERSE STRUTTURE SINTACTICAL. D'ALTRA PARTE, AVREMO UN'INTERFACCIA DI RICERCA GRAMMATICALE ONLINE PER CONSENTIRE AI LINGUISTI DI CERCARE I FENOMENI SINTACTICAL DI LORO INTERESSE E DI STUDIARLI DIACRONTICAMENTE. (Italian)
    16 January 2022
    0 references
    Το ΕΡΓΟ ΠΡΟΕΔΡΙΖΕΤΑΙ ΕΔΩ, συντακτικά αναγνωριζόμενο ΙΣΤΟΡΙΚΟ ΚΟΡΠΟΣ σε BASQUE (SAHCOBA) Οπως ΕΙΝΑΙ ΚΥΡΙΟ ΣΤΟΧΟ ΓΙΑ ΤΗΝ ΒΑΣΗ ΒΑΣΙΚΑ ΕΡΓΑΛΕΙΑ ΦΥΣΙΚΗΣ ΕΡΓΑΣΙΑΣ ΓΛΩΣΣΑΣ (NLP) ΣΕ ΕΡΕΥΝΕΣ ΜΕ ΤΟ ΤΟΜΕΑ ΔΙΑΧΡΟΝΙΚΩΝ ΕΡΓΑΛΕΙΩΝ ΚΑΙ ΠΕΡΙΣΣΟΤΕΡΑ ΕΙΔΙΚΟΤΗΤΑ, στο διαχρονικό σύστημα._x000D_ με βάση τη μέθοδο που πρέπει να ολοκληρωθεί στο έργο, έχουμε ήδη πάρει μέρος σε μια διαδικασία που πρέπει να ολοκληρωθεί για να επιτευχθεί ο κύριος στόχος του έργου, η δημιουργία ενός ΙΣΤΟΡΙΚΟΥ ΚΤΙΡΙΟΥ ΤΩΝ ΒΑΖΟΜΕΝΩΝ συντακτικών συντακτικών. ΠΡΏΤΟΝ, ΘΑ ΣΥΝΤΆΞΟΥΜΕ ΈΝΑ ΣΏΜΑ ΜΕ ΙΣΤΟΡΙΚΆ ΚΕΊΜΕΝΑ ΑΠΌ ΤΟΝ XVΟ ΑΙΏΝΑ ΜΈΧΡΙ ΤΑ ΠΡΏΤΑ ΜΈΣΑ ΤΟΥ ΧΧΟΥ ΑΙΏΝΑ. ΣΤΗ ΣΥΝΈΧΕΙΑ, ΟΡΙΣΜΈΝΑ ΤΜΉΜΑΤΑ ΑΥΤΏΝ ΤΩΝ ΚΕΙΜΈΝΩΝ ΘΑ ΣΧΟΛΙΑΣΤΟΎΝ ΧΕΙΡΟΚΊΝΗΤΑ ΓΙΑ ΝΑ ΕΚΧΩΡΉΣΟΥΝ ΣΕ ΚΆΘΕ ΛΈΞΗ ANCIEN ΤΟ ΑΝΤΊΣΤΟΙΧΟ ΠΡΌΤΥΠΟ ΙΣΟΔΎΝΑΜΟ, ΚΑΙ ΜΕ ΒΆΣΗ ΤΙΣ ΧΕΙΡΩΝΑΚΤΙΚΈΣ ΣΗΜΕΙΏΣΕΙΣ ΚΑΙ ΤΙΣ ΤΕΧΝΙΚΈΣ ΕΚΜΆΘΗΣΗΣ, ΤΑ ΥΠΌΛΟΙΠΑ ΚΕΊΜΕΝΑ ΘΑ ΟΜΑΛΟΠΟΙΗΘΟΎΝ ΑΥΤΌΜΑΤΑ ΧΡΗΣΙΜΟΠΟΙΏΝΤΑΣ ΔΙΆΦΟΡΕΣ ΥΠΟΛΟΓΙΣΤΙΚΈΣ ΤΕΧΝΙΚΈΣ. ΜΌΛΙΣ ΤΥΠΟΠΟΙΗΘΕΊ ΤΟ CROPUS, ΘΑ ΕΠΙΣΗΜΆΝΟΥΜΕ ΤΟ CORPUS MORPHOSYNTACTICALLY ΜΕ ΤΗ ΒΟΉΘΕΙΑ ΤΩΝ ΕΡΓΑΛΕΊΩΝ NLP ΠΟΥ ΑΝΑΠΤΎΧΘΗΚΑΝ ΣΤΗΝ ΕΡΕΥΝΗΤΙΚΉ ΟΜΆΔΑ IXA. ΤΈΛΟΣ, ΤΑ ΣΧΟΛΙΑΣΜΈΝΑ ΠΑΡΑΔΕΊΓΜΑΤΑ COULB ΠΡΈΠΕΙ ΝΑ ΣΥΜΒΟΥΛΕΥΘΟΎΝ ΜΈΣΩ ΜΙΑΣ ΔΙΕΠΑΦΉΣ ΑΝΑΖΉΤΗΣΗΣ CORPUS ΠΟΥ ΘΑ ΔΗΜΙΟΥΡΓΉΣΟΥΜΕ ΓΙΑ ΤΟ ΣΚΟΠΌ ΑΥΤΌ. _x000D_ _x000D_ ως εκ τούτου, τα κύρια στοιχεία του έργου θα είναι διττά. ΑΠΌ ΤΗ ΜΊΑ ΠΛΕΥΡΆ, ΜΙΑ ΣΧΟΛΙΑΣΜΈΝΗ ΒΆΣΗ ΔΕΔΟΜΈΝΩΝ, ON-LINE ΚΑΙ ΑΝΟΙΚΤΉ ΠΡΌΣΒΑΣΗ, ΤΩΝ ΒΑΣΚΙΚΏΝ ΙΣΤΟΡΙΚΏΝ ΚΕΙΜΈΝΩΝ ΠΟΥ ΕΚΤΕΊΝΟΝΤΑΙ ΑΠΌ ΤΟΝ XV ΑΙΏΝΑ ΜΈΧΡΙ ΤΟΝ ΧΧΟ ΑΙΏΝΑ (ΤΗΝ ΑΡΧΑΪΚΉ ΚΑΙ ΠΑΛΑΙΆ ΒΑΣΚΙΚΉ ΠΕΡΊΟΔΟ ΚΑΙ ΤΗ ΣΎΓΧΡΟΝΗ ΒΑΣΚΙΚΉ ΠΕΡΊΟΔΟ ΠΡΙΝ ΑΠΌ ΤΗΝ ΤΥΠΟΠΟΊΗΣΗ ΤΗΣ ΓΛΏΣΣΑΣ (1968)). ΤΟ ΣΏΜΑ, ΤΟ ΟΠΟΊΟ ΘΑ ΈΧΕΙ ΜΙΑ ΕΠΈΚΤΑΣΗ ΠΕΡΊΠΟΥ 12 ΕΚΑΤΟΜΜΥΡΊΩΝ ΛΈΞΕΩΝ, ΘΑ ΚΑΤΗΓΟΡΙΟΠΟΙΗΘΕΊ ΑΝΆΛΟΓΑ ΜΕ ΤΗΝ ΠΕΡΊΟΔΟ, ΤΗ ΔΙΆΛΕΚΤΟ, ΤΟ ΛΟΓΟΤΕΧΝΙΚΌ ΦΎΛΟ ΚΑΙ ΤΟ ΚΟΙΝΩΝΙΚΟΓΛΩΣΣΙΚΌ ΥΠΌΒΑΘΡΟ, ΚΑΙ ΘΑ ΕΠΙΣΗΜΑΝΘΕΊ ΜΕ ΚΑΤΗΓΟΡΊΕΣ ΜΈΡΟΥΣ ΤΗΣ ΟΜΙΛΊΑΣ, ΚΑΘΏΣ ΚΑΙ ΣΥΝΤΑΚΤΙΚΈΣ ΚΑΤΗΓΟΡΊΕΣ, ΈΤΣΙ ΏΣΤΕ ΝΑ ΚΑΤΑΣΤΕΊ ΔΥΝΑΤΉ Η ΆΜΕΣΗ ΣΥΝΤΑΚΤΙΚΉ ΑΝΑΖΉΤΗΣΗ. ΑΠΌ ΤΗΝ ΆΛΛΗ ΠΛΕΥΡΆ, ΘΑ ΈΧΟΥΜΕ ΜΙΑ ΓΡΑΜΜΑΤΙΚΉ ΔΙΕΠΑΦΉ ΑΝΑΖΉΤΗΣΗΣ ΓΙΑ ΝΑ ΕΠΙΤΡΈΨΟΥΜΕ ΣΤΟΥΣ ΓΛΩΣΣΟΛΌΓΟΥΣ ΝΑ ΨΆΞΟΥΝ ΓΙΑ ΕΚΕΊΝΑ ΤΑ ΜΕΛΕΤΗΜΈΝΑ ΣΥΝΤΑΚΤΙΚΆ ΦΑΙΝΌΜΕΝΑ, ΔΟΜΈΣ ΠΟΥ ΑΝΉΚΟΥΝ ΣΕ ΣΥΓΚΕΚΡΙΜΈΝΟΥΣ ΧΡΌΝΟΥΣ ΚΑΙ ΤΌΠΟΥΣ. (Greek)
    18 August 2022
    0 references
    Den PROJEKT PRESENTED HER, syntaktisk ANNOTATED HISTORIKAL CORPUS I BASQUE (SAHCOBA) har givet tilladelse til, at der kan udstedes BASIC TOOL af NATURAL LANGUAGE PROCESSING (NLP) til HELP RESEARCHER I FIELD AF diachroniske LINGUISTICER OG MERE SPECIFIKALLY, i den diachroniske SYNTAX._x000D_ Med henvisning til, at det er muligt at finde frem til det i PROJEKT, er der ingen tvivl om, at det er muligt at finde frem til, hvordan man kan finde frem til, hvordan PROJEKT's MAIN OBJEKT kan finde sted, og hvordan en HISTORIKAL CORPUS AF BASQUE-TEXTS ANNOTATATED synkroniseres syntaktisk. FØRST VIL VI KOMPILERE ET KORPUS MED HISTORISKE TEKSTER FRA DET 15. ÅRHUNDREDE TIL DET FØRSTE MIDT I DET XX. ÅRHUNDREDE. DERNÆST VIL NOGLE DELE AF DISSE TEKSTER BLIVE KOMMENTERET MANUELT FOR AT TILDELE HVERT ANCIEN ORD SIN TILSVARENDE STANDARDÆKVIVALENT, OG BASERET PÅ DE MANUELLE ANNOTATIONER OG APLLYING LÆRINGSTEKNIKKER, VIL RESTEN AF TEKSTERNE AUTOMATISK BLIVE NORMALISERET VED HJÆLP AF FLERE BEREGNINGSMÆSSIGE TEKNIKKER. NÅR CROPUS ER STANDARDISERET, VIL VI KOMMENTERE CORPUS MORPHOSYNTACTICALLY VED HJÆLP AF NLP VÆRKTØJER UDVIKLET PÅ IXA FORSKERGRUPPE. ENDELIG, DE KOMMENTEREDE EKSEMPLER COULB KONSULTERES VIA EN CORPUS SØGEGRÆNSEFLADE, SOM VI VIL OPRETTE TIL DETTE FORMÅL. _x000D_ _x000D_ derfor, MAIN DELIVERABLES AF PROJEKT VIL BÅ TWO. PÅ DEN ENE SIDE EN KOMMENTERET DATABASE, ONLINE OG ÅBEN ADGANG, OVER BASKISKE HISTORISKE TEKSTER, DER SPÆNDER FRA DET 15. ÅRHUNDREDE TIL DET XX. ÅRHUNDREDE (DE ARKAISKE OG GAMLE BASKISKE PERIODER OG DEN MODERNE BASKISKE PERIODE FORUD FOR STANDARDISERINGEN AF SPROGET (1968)). KORPUS, SOM VIL HAVE EN UDVIDELSE PÅ OMKRING 12 MILLIONER ORD, VIL BLIVE KATEGORISERET EFTER PERIODE, DIALEKT, LITTERÆRT KØN, OG SOCIOLINGVISTISK BAGGRUND, OG VIL BLIVE MÆRKET MED DEL-OF-SPEECH KATEGORIER SAMT SYNTAKTISKE KATEGORIER, FOR AT GØRE DIREKTE SYNTAKTISK SØGNING MULIG. PÅ DEN ANDEN SIDE, VI VIL HAVE EN CORPUS GRAMMATISK SØGEGRÆNSEFLADE TIL AT TILLADE LINGVISTER AT KIGGE OP EFTER DE STUDEREDE SYNTAKTISKE FÆNOMENER, STRUKTURER, DER TILHØRER BESTEMTE TIDSPUNKTER OG STEDER. (Danish)
    18 August 2022
    0 references
    SASQUE (SAHCOBA) – HISTORICAL CORPUS (SAHCOBA) on TÄSTÄ, syntaktisesti LIITTYVÄT HISTORICAL CORPUS IN BASQUE (SAHCOBA), joka on TÄYTÄNTÖÖNPANOPÄÄTETTÄVÄ TARJOITUKSEN LUOTTAMINEN LANGUAGE PROCESSING (NLP) diakroonisten LINGUISTICS- ja MORE SPECIFICALLY -lajien selvityksissä, vuonna diakroninen SYNTAX._x000D_ Jotta METHODOLOGIA ON TÄYTÄNTÖÖNPAN KOSKEVAT SYNTAXISEN SYNTAXISEN SYNTAXEN SYNTAXEN SYNTAXISEN SYNTAXEN SYNTAXISEN SYNTAXEN SYNTAXEN LIITTYVÄN SYNTAXEN SYNTAXEN SYNTAXEN SYNTAXEN SYNTAXIN ON ON TÄNTÄÄNTÄÄNTÄÄN TÄMÄN OIKEUDELLISESTI ON HISTORICALIAALIIN BASQUE TEKÄNYTTÄMINEN syntaktisesti. ENSIMMÄINEN, ME KOKOAMME CORPUS HISTORIALLISIA TEKSTEJÄ XV-LUVULTA ENSIMMÄISEEN PUOLIVÄLIIN XX VUOSISADAN. SEURAAVAKSI OSA NÄISTÄ TEKSTEISTÄ TEHDÄÄN KÄSIN SELITYKSIN, JOTTA JOKAINEN ANCIEN-SANA MUODOSTAA VASTAAVAN STANDARDIN VASTINEENSA, JA MANUAALISEN HUOMAUTUKSEN JA OPPIMISTEKNIIKOIDEN PERUSTEELLA LOPUT TEKSTIT NORMALISOIDAAN AUTOMAATTISESTI USEILLA LASKENNALLISILLA TEKNIIKOILLA. KUN CROPUS ON STANDARDOITU, ME MERKITSEMME CORPUS MORPHOSYNTACTICALLY AVULLA NLP TYÖKALUJA KEHITETTY IXA TUTKIMUSRYHMÄ. LOPUKSI, SELITYKSIN VARUSTETUT ESIMERKIT COULB KUULLAAN KAUTTA CORPUS HAKULIITTYMÄN, JONKA LUOMME TÄTÄ TARKOITUSTA VARTEN. _x000D_ _x000D_ siis, MAIN DELIVERABLES OF the PROJECT WILL BE TWO. YHTÄÄLTÄ SELITYKSIN VARUSTETTU TIETOKANTA, ONLINE- JA AVOIN PÄÄSY BASKIHISTORIALLISIIN TEKSTEIHIN, JOTKA ULOTTUVAT XV-LUVULTA XX-LUVULLE (ARKAAISET JA VANHAT BASKIKAUDET JA MODERNI BASKIKAUSI ENNEN KIELEN STANDARDOINTIA (1968)). CORPUS, JOKA ON JATKETTU NOIN 12 MILJOONAA SANAA, LUOKITELLAAN AJAN MUKAAN, MURRE, KIRJALLISUUDEN SUKUPUOLI, JA SOSIOLINGVISTINEN TAUSTA, JA MERKITÄÄN OSA-OF-PUHEEN LUOKAT SEKÄ SYNTAKTINEN LUOKAT, JOTTA SUORA SYNTAKTINEN HAKU MAHDOLLISTAISI. TOISAALTA MEILLÄ ON CORPUS KIELIOPILLINEN HAKULIITTYMÄ, JONKA AVULLA KIELITIETEILIJÄT VOIVAT ETSIÄ OPISKELLEITA SYNTAKTISIA ILMIÖITÄ, RAKENTEITA, JOTKA KUULUVAT TIETTYIHIN AIKOIHIN JA PAIKKOIHIN. (Finnish)
    18 August 2022
    0 references
    Il-HERE PREĠENTI PREĠETTI, KORPUS HISTORJALI ANNOTTATI Sintattikament FIL-BASTIMENT (SAHCOBA) KIF GĦANDHOM GĦANDHOM GĦANDHOM GĦANDHOM GĦANDHOM FIL-FIELD TA’ LINGISTICS dijaroniċi U L-ISPEĊIFIKAZZJONI TA’ L-MORE (NLP) GĦAR-RIĊERKA TIEGĦU FIL-FIELD TA’ LINGWI dijakroniċi U L-ISPEĊIFIKAZZJONI TA’ L-MORE, fis-SYNTAX dijakroniku._x000D_ BIL-QASAM TAL-METHODOLOĠIJA LI GĦANDHOM FIL-PROJECT, GĦANDHOM SET STEPS SOME GĦANDHOM GĦANDHOM FIL-MOĦĦA GĦANDHOM JIKKUNSIDRAW L-OBJETTIVA TAL-PRJETTIJIET, il-Ħolqien ta’ KORPUS HISTORIKALI TA’ BASQUE TESTATTI ANNOTTATI sintattikament. L-EWWEL NETT, SE NIĠBRU CORPUS B’TESTI STORIĊI MIS-SEKLU XV SAL-EWWEL NOFS TAS-SEKLU XX. IMBAGĦAD, XI PARTIJIET TA ‘DAWK IT-TESTI SE JKUNU MANWALMENT ANNOTATI BIEX JASSENJAW LIL KULL KELMA ANCIEN FORMA EKWIVALENTI STANDARD KORRISPONDENTI TAGĦHA, U BBAŻATI FUQ L-ANNOTAZZJONI MANWALI U TEKNIKI TA’ TAGĦLIM APLLYING, IL-BQIJA TAT-TESTI SE JIĠU AWTOMATIKAMENT NORMALIZZATI BL-UŻU TA ‘TEKNIKI KOMPUTAZZJONI DIVERSI. LADARBA L-CROPUS HUWA STANDARDIZZAT, AĦNA SE ANNOTATI L-CORPUS MORPHOSYNTACTALLY BL-GĦAJNUNA TA ‘GĦODOD NLP ŻVILUPPATI FIL-GRUPP TA’ RIĊERKA IXA. FL-AĦĦAR NETT, L-EŻEMPJI ANNOTATI COULB JIĠU KKONSULTATI PERMEZZ TA ‘INTERFACE TFITTXIJA CORPUS LI AĦNA SE JOĦOLQU GĦAL DAN IL-GĦAN. _x000D_ _x000D_ għalhekk, DELIVERABLES MAIN TAL-PROJECT JILLIXXI BE TWO. MINN NAĦA, BAŻI TAD-DATA ANNOTATA, ONLAJN U AĊĊESS MIFTUĦ, TA’ TESTI STORIĊI BASKI LI JVARJAW MIS-SEKLU XV SAS-SEKLU XX (IL-PERJODI ARKAJĊI U ANTIKI BASKI U L-PERJODU BASK MODERN TA’ QABEL L-ISTANDARDIZZAZZJONI TAL-LINGWA (1968)). IL-KORPUS, LI SE JKOLLU ESTENSJONI TA’ MADWAR 12-IL MILJUN KELMA, SE JIĠI KKATEGORIZZAT SKONT IL-PERJODU, ID-DJALETT, IS-SESS LETTERARJU, U L-ISFOND SOĊJO-LINGWISTIKU, U SE JIĠI MMARKAT B’KATEGORIJI TA’ PARTI TA’ DISKORS KIF UKOLL B’KATEGORIJI SINTATTIĊI, SABIEX TKUN TISTA’ SSIR TFITTXIJA SINTATTIKA DIRETTA. MIN-NAĦA L-OĦRA, AĦNA SE JKOLLHOM INTERFACE TFITTXIJA GRAMMATIKALI KORPUS BIEX JIPPERMETTU L-LINGWISTI BIEX TFITTEX UP GĦAL DAWK STUDJATI FENOMENI SYNTACTIC, STRUTTURI LI JAPPARTJENU GĦAL ŻMINIJIET U POSTIJIET SPEĊIFIĊI. (Maltese)
    18 August 2022
    0 references
    PROJECT PRESENTED ŠEIT, sintaktiski ANNOTATED HISTORICAL CORPUS BASQUE (SAHCOBA) HAS ITS MAIN OBJECTIVE to CREATE BASIC TOOLS OF NATURAL LANGUAGE PROCESSING (NLP) HELP RESEARCHERS in the FIELD of diachronic LINGUISTICS AND MORE SPECIFICALLY, in the diachronic SYNTAX._x000D_ AR ŅEMOT VĒRĀ METODOLOĢIJU, lai būtu FOLLOWED in the PROJECT, WE HAVE SET OUT SOME STEPS FOLLOW, LŪDZ, lai saņemtu galveno OBJECTIVE of the PROJECTIVE, The CREATION of HISTORICAL CORPUS of BASQUE TEXTS ANNOTATED sintaktiski. PIRMKĀRT, MĒS SASTĀDĪSIM KORPUSU AR VĒSTURISKIEM TEKSTIEM NO XV GADSIMTA LĪDZ XX GADSIMTA PIRMAJAM VIDUM. PĒC TAM DAŽAS ŠO TEKSTU DAĻAS TIKS MANUĀLI ANOTĒTAS, LAI PIEŠĶIRTU KATRAM ANCIEN VĀRDAM TĀ ATBILSTOŠO STANDARTA EKVIVALENTU, UN, PAMATOJOTIES UZ MANUĀLO ANOTĀCIJU UN MĀCĪŠANĀS METODĒM, PĀRĒJIE TEKSTI TIKS AUTOMĀTISKI NORMALIZĒTI, IZMANTOJOT VAIRĀKAS SKAITĻOŠANAS METODES. KAD CROPUS BŪS STANDARTIZĒTS, MĒS ANOTĒT CORPUS MORPHOSYNTACTICALLY, IZMANTOJOT NLP RĪKUS, KAS IZSTRĀDĀTI IXA PĒTNIECĪBAS GRUPĀ. VISBEIDZOT, AR ANOTĒTAJIEM PIEMĒRIEM VAR IEPAZĪTIES, IZMANTOJOT CORPUS MEKLĒŠANAS SASKARNI, KO MĒS IZVEIDOSIM ŠIM NOLŪKAM. _x000D_ _x000D_ tāpēc, PROJEKT galvenās DELIVERABLES BŪs divas reizes. NO VIENAS PUSES, ANOTĒTA DATUBĀZE TIEŠSAISTĒ UN ATVĒRTA PIEKĻUVE BASKU VĒSTURISKAJIEM TEKSTIEM, KAS APTVER NO XV GADSIMTA LĪDZ XX GADSIMTAM (ARHAISKIE UN VECIE BASKU PERIODI UN MŪSDIENU BASKU PERIODS PIRMS VALODAS STANDARTIZĀCIJAS (1968)). KORPUSS, KURA PAPLAŠINĀJUMS BŪS APTUVENI 12 MILJONI VĀRDU, TIKS IEDALĪTS ATBILSTOŠI PERIODAM, DIALEKTAM, LITERĀRAJAM DZIMUMAM UN SOCIOLINGVISTISKAJAM FONAM, UN TAS TIKS ATZĪMĒTS AR RUNAS DAĻAS KATEGORIJĀM, KĀ ARĪ SINTAKTISKAJĀM KATEGORIJĀM, LAI PADARĪTU IESPĒJAMU TIEŠU SINTAKTISKO MEKLĒŠANU. NO OTRAS PUSES, MUMS BŪS CORPUS GRAMATISKĀ MEKLĒŠANAS SASKARNE, LAI LINGVISTI VARĒTU MEKLĒT TĀS PĒTĪTĀS SINTAKTISKĀS PARĀDĪBAS, STRUKTŪRAS, KAS PIEDER KONKRĒTIEM LAIKIEM UN VIETĀM. (Latvian)
    18 August 2022
    0 references
    PROJEKT PRESENTED TU, syntakticky ANNOTATEDNÝ HISTORICKÝ CORPUS IN BASQUE (SAHCOBA) má taký veľký oBJEKT CIEĽ NA VÝROBKU ZÁKLADNÉHO SPRACOVANIA (NLP) NA VEDOMIE VÝROBKOV diachronických LINGUISTICKÝCH A VIAC SPECIFIKÁLNE, v diachronickom SYNTAX._x000D_ so ZRETEĽOM na SMTODOLOGU, ktorá bude zaistená v PROJEKTU, SETOM SET NA SOME STEPS FOLLOWOVÝCH VÝROBKOV V OBJEDNÁVKU PROJEKTU, VÝROBKU HISTORICKÉHO CORPUSU BASQUE TEXTEXY ANNOTATED syntakticky. PO PRVÉ, ZOSTAVÍME KORPUS S HISTORICKÝMI TEXTAMI OD XV. STOROČIA DO PRVEJ POLOVICE XX. STOROČIA. ĎALEJ, NIEKTORÉ ČASTI TÝCHTO TEXTOV BUDÚ RUČNE ANOTOVANÉ TAK, ABY SA KAŽDÉMU SLOVNÉMU TEXTU ANCIEN PRIDELIL ZODPOVEDAJÚCI ŠTANDARDNÝ EKVIVALENT, A NA ZÁKLADE MANUÁLNEJ POZNÁMKY A APLLYZUJÚCICH VZDELÁVACÍCH TECHNÍK SA ZVYŠOK TEXTOV AUTOMATICKY NORMALIZUJE POMOCOU NIEKOĽKÝCH VÝPOČTOVÝCH TECHNÍK. AKONÁHLE BUDE CROPUS ŠTANDARDIZOVANÝ, BUDEME ANOTOVAŤ KORPUS MORPHOSYNTACTICALLY POMOCOU NLP NÁSTROJOV VYVINUTÝCH VO VÝSKUMNEJ SKUPINE IXA. NAKONIEC, ANOTOVANÉ PRÍKLADY COULB BUDÚ KONZULTOVANÉ PROSTREDNÍCTVOM KORPUSOVÉHO VYHĽADÁVACIEHO ROZHRANIA, KTORÉ VYTVORÍME NA TENTO ÚČEL. _x000D_ _x000D_ preto sa MINOVÉ DELIVERABLY PROJEKTU budú DVA. NA JEDNEJ STRANE ANOTOVANÁ DATABÁZA, ON-LINE A OTVORENÝ PRÍSTUP, BASKICKÝCH HISTORICKÝCH TEXTOV SIAHAJÚCICH OD XV. STOROČIA AŽ PO XX. STOROČIE (ARCHAICKÉ A STARÉ BASKICKÉ OBDOBIE A MODERNÉ BASKICKÉ OBDOBIE PRED ŠTANDARDIZÁCIOU JAZYKA (1968)). KORPUS, KTORÝ BUDE MAŤ ROZŠÍRENIE O PRIBLIŽNE 12 MILIÓNOV SLOV, BUDE KATEGORIZOVANÝ PODĽA OBDOBIA, DIALEKTU, LITERÁRNEHO POHLAVIA A SOCIOLINGVISTICKÉHO POZADIA A BUDE OZNAČENÝ KATEGÓRIAMI PART-OF-REČ, AKO AJ SYNTAKTICKÝMI KATEGÓRIAMI, ABY BOLO MOŽNÉ PRIAME SYNTAKTICKÉ VYHĽADÁVANIE. NA DRUHEJ STRANE BUDEME MAŤ KORPUS GRAMATICKÉ VYHĽADÁVACIE ROZHRANIE, KTORÉ UMOŽNÍ LINGVISTOM HĽADAŤ TIE ŠTUDOVANÉ SYNTAKTICKÉ JAVY, ŠTRUKTÚRY, KTORÉ PATRIA DO KONKRÉTNYCH ČASOV A MIEST. (Slovak)
    18 August 2022
    0 references
    [EN] (b) TAR ÉIS AN CHOMHPHOBAL a bhí ann roimhe seo, a bhaineann go díreach le cúrsaí iompair neamhréasúnaí (NLP) chun daoine a earcú in Éirinn agus i limistéir ar leith, sa SYNTAX._x000D & amp; quot; LE DHÉANAMH LE MAIDIR LE MEABHRÚ LEIS AN PRIOECT, SÉANAMH MAIDIR LE MAIDIR LE MAIDIR LE MAIDIR LE DHÉANAMH AR AN gCÓRAS STIÚRTHÓIREACHT STIÚRTHÓIREACHT A DHÉANAMH I dTAOBH AN Ard-Chláraitheora, AN CHOMHPHOBAL STIÚRTHÓIREACHT STIÚRTHÓIREACHT A DHÉANAMH. AR AN GCÉAD DUL SÍOS, TIOMSÓIMID CORPAS LE TÉACSANNA STAIRIÚLA ÓN XVÚ HAOIS GO DTÍ AN CHÉAD LÁR AN XXÚ HAOIS. INA DHIAIDH SIN, BEIDH CODANNA ÁIRITHE DE NA TÉACSANNA SIN ANÓTÁILTE DE LÁIMH A SHANNADH DO GACH FOCAL ANCIEN A CHOIBHÉIS CAIGHDEÁNACH COMHFHREAGRACH, AGUS BUNAITHE AR AN ANÓTÁIL LÁIMHE AGUS TEICNÍCÍ FOGHLAMA APLLYING, DÉANFAR AN CHUID EILE DE NA TÉACSANNA A NORMALÚ GO HUATHOIBRÍOCH AG BAINT ÚSÁIDE AS ROINNT TEICNÍCÍ RÍOMHAIREACHTÚLA. NUAIR A BHEIDH AN CROPUS CAIGHDEÁNAITHE, DÉANFAIMID ANÓTÁIL AR AN GCORPAS MORPHOSYNTACTICALLY LE CABHAIR Ó UIRLISÍ NLP A FORBRAÍODH AG GRÚPA TAIGHDE IXA. AR DEIREADH, FÉACH AR NA SAMPLAÍ ANÓTÁILTE COULB TRÍ CHOMHÉADAN CUARDAIGH CORPAIS A CHRUTHÓIMID CHUN NA CRÍCHE SIN. _x000D_ _x000D_, dá bhrí sin, ba cheart go mbeadh feidhm ag na buntáistí a bhaineann le hábhar. AR THAOBH AMHÁIN, BUNACHAR SONRAÍ ANÓTÁILTE, AR LÍNE AGUS ROCHTAIN OSCAILTE, DE THÉACSANNA STAIRIÚLA NA MBASCACH ÓN XVÚ HAOIS AR AGHAIDH GO DTÍ AN XXÚ HAOIS (TRÉIMHSÍ ÁRSA AGUS SEAN-BASCAIS AGUS TRÉIMHSE NUA-AIMSEARTHA NA MBASCACH SULAR CAIGHDEÁNAÍODH AN TEANGA (1968)). DÉANFAR AN CORPAS, A MBEIDH SÍNEADH DE THART AR 12 MILLIÚN FOCAL AIGE, A CHATAGÓIRIÚ DE RÉIR TRÉIMHSE, CANÚINT, INSCNE LITEARTHA, AGUS CÚLRA SOCHTHEANGEOLAÍOCH, AGUS CLIBEÁLFAR É LE CATAGÓIRÍ CUID CAINTE CHOMH MAITH LE CATAGÓIRÍ SIONTACHTA, IONAS GUR FÉIDIR CUARDACH SIONTRAICEACH DÍREACH A DHÉANAMH. AR AN TAOBH EILE, BEIDH COMHÉADAN CUARDAIGH GRAMADAÍ CORPAIS AGAINN CHUN DEIS A THABHAIRT DO NA TEANGEOLAITHE IAD SIÚD A NDEARNADH STAIDÉAR ORTHU A CHUARDACH LE HAGHAIDH FEINIMÉIN SHINTÉISEACHA, STRUCHTÚIR A BHAINEANN LE HAMANNA AGUS ÁITEANNA AR LEITH. (Irish)
    18 August 2022
    0 references
    The PROJECT PRESENTED ZDE, syntakticky ANNOTATED HISTORICAL CORPUS IN BASQUE (SAHCOBA) má jako hlavní cíl vytvořit BASICKÉ toOLS of NATURAL LANGUAGE PROCESSING (NLP) pro HELP RESEARCHERS ve FIELD diachronických LINGUISTICKŮ A VÍCE SPECIFICLY, v diachronickém SYNTAX._x000D_ S ohledem na to, že METHODOLOGY, které mají být naplněny v PROJECT, jsme se rozhodli, že jsme se stali tak, aby se naplnilo v Opravě, aby se zjistilo, že hlavní část programu, vytvoření HISTORICKÉ KORPUS BASQUE TEXTS ANNOTATED syntakticky. NEJPRVE SESTAVÍME KORPUS S HISTORICKÝMI TEXTY OD XV. STOLETÍ DO PRVNÍ POLOVINY XX. STOLETÍ. DÁLE, NĚKTERÉ ČÁSTI TĚCHTO TEXTŮ BUDOU RUČNĚ ANOTOVÁNY, ABY KAŽDÝ ANCIEN SLOVO TVOŘÍ ODPOVÍDAJÍCÍ STANDARDNÍ EKVIVALENT, A NA ZÁKLADĚ MANUÁLNÍ ANOTACE A APLLYING TECHNIKY UČENÍ, ZBYTEK TEXTU BUDE AUTOMATICKY NORMALIZOVÁN POMOCÍ NĚKOLIKA VÝPOČETNÍCH TECHNIK. JAKMILE BUDE CROPUS STANDARDIZOVÁN, BUDEME KOMENTOVAT KORPUS MORPHOSYNTACTICALLY POMOCÍ NLP NÁSTROJŮ VYVINUTÝCH VE VÝZKUMNÉ SKUPINĚ IXA. A KONEČNĚ, KOMENTOVANÉ PŘÍKLADY JSOU KONZULTOVÁNY PROSTŘEDNICTVÍM VYHLEDÁVACÍHO ROZHRANÍ CORPUS, KTERÉ ZA TÍMTO ÚČELEM VYTVOŘÍME. _x000D_ _x000D_ proto, Hlavní DELIVERABLESY PROJECT budou TWO. NA JEDNÉ STRANĚ KOMENTOVANÁ DATABÁZE, ON-LINE A OTEVŘENÝ PŘÍSTUP, BASKICKÝCH HISTORICKÝCH TEXTŮ OD XV. STOLETÍ DO XX. STOLETÍ (ARCHAICKÉ A STARÉ BASKICKÉ OBDOBÍ A MODERNÍ BASKICKÉ OBDOBÍ PŘEDCHÁZEJÍCÍ STANDARDIZACI JAZYKA (1968)). KORPUS, KTERÝ BUDE MÍT ROZŠÍŘENÍ PŘIBLIŽNĚ O 12 MILIONŮ SLOV, BUDE ROZTŘÍDĚN PODLE OBDOBÍ, DIALEKTU, LITERÁRNÍHO POHLAVÍ A SOCIOLINGVISTICKÉHO ZÁZEMÍ A BUDE OZNAČEN S KATEGORIEMI ČÁSTI ŘEČI A SYNTAKTICKÝCH KATEGORIÍ, ABY BYLO MOŽNÉ PŘÍMÉ SYNTAKTICKÉ VYHLEDÁVÁNÍ. NA DRUHOU STRANU, BUDEME MÍT CORPUS GRAMATICKÉ VYHLEDÁVACÍ ROZHRANÍ, KTERÉ UMOŽNÍ LINGVISTŮM HLEDAT TY, KTEŘÍ STUDOVALI SYNTAKTICKÉ JEVY, STRUKTURY, KTERÉ PATŘÍ DO KONKRÉTNÍCH ČASŮ A MÍST. (Czech)
    18 August 2022
    0 references
    O projecto aqui apresentado tem como objectivo principal a criação de ferramentas básicas de processamento de línguas naturais (NLP) para ajudar os investigadores no domínio das línguas diacrónicas e, mais especificamente, no sistema diacrónico.x000D_ No que diz respeito à metodologia a seguir no âmbito do projecto, criámos alguns passos para seguir ou alcançar o objectivo principal do projecto, a criação de um corpo histórico de textos de base anónimos. Primeiro, vamos compor um corpo com textos históricos desde o século XV até à primeira metade do século XX. Em seguida, algumas partes destes textos serão obrigatoriamente anotadas para atribuir a cada um dos antigos formulários o seu equivalente-padrão e, com base nas técnicas de angariação manual e de aprendizagem, o resto dos textos será automaticamente normalizado, utilizando técnicas informáticas diversas. Assim que o CROPUS for normalizado, anulamos o CORPUS MORPHOSYNTACTICally com a ajuda das ferramentas de PNL desenvolvidas no Grupo de Investigação IXA. Finalmente, os exemplos anunciados podem ser consultados através de uma interface de procura de corpo que criaremos para este fim. _x000D_ _x000D_ Portanto, os principais resultados do projeto serão dois. POR UM LADO, UMA BASE DE DADOS ANOTADA, EM LINHA E AO ACESSO ABERTO, DE TEXTOS HISTÓRICOS DE BASE QUE PARTICIPAM DO SÉCULO XV PARA O SÉCULO XX [PERÍODO ARCÁICO E VELHOS PERÍODOS DE BASE E PERÍODO DE BASE MODERNO ANTERIORES À NORMALIZAÇÃO DA LÍNGUA (1968)]. O corpo, que terá uma extensão de 12 milhões de palavras, será categorizado de acordo com o período, o dialecto, o género literário e o contexto sociolinguístico, e será agrupado com categorias parciais, bem como com categorias sintácticas, de modo a tornar possível uma pesquisa sintáctica directa. Por outro lado, teremos uma interface de pesquisa gráfica para permitir que os lingüistas procurem os fenômenos sintácticos, estruturas que pertencem a tempos e locais específicos. (Portuguese)
    18 August 2022
    0 references
    PROJECT PRESENTENTED SIIN, süntaktiliselt ANNOTATED HISTORICAL CORPUS BASQUE (SAHCOBA) TEADLIKUD KASUTATAVAD OBJEKTIIVID NATURAAL LANGUAGE PROCESSING (NLP) BASTILISE TOOLIDE TULEMUSED diakroonilise LINGUISTIKIDE JA MORE SPETSIFIKATSIOONI TEADUSED, diakroonilises SYNTAX._x000D_MÕTTES, et nad peaksid olema PROJEKTis täidetud, ON TEADLIKUD sünkroonselt. ESITEKS LOOME KORPUSE AJALOOLISTE TEKSTIDEGA XV SAJANDIST KUNI XX SAJANDI ESIMESE KESKPAIGANI. JÄRGMISENA, MÕNED OSAD NEIST TEKSTIDEST ON KÄSITSI ANNOTEERITUD OMISTADA IGALE ANCIEN SÕNA KUJUL OMA VASTAVA STANDARD EKVIVALENT, JA TUGINEDES KÄSITSI MÄRKE JA ÕPPE TEHNIKAID, ÜLEJÄÄNUD TEKSTID AUTOMAATSELT NORMALISEERIDA KASUTADES MITMEID ARVUTUSLIKKE TEHNIKAID. KUI CROPUS ON STANDARDITUD, ANNOTEERIDA CORPUS MORPHOSYNTACTICALLY ABIGA NLP VAHENDID, MIS ON VÄLJA TÖÖTATUD IXA UURIMISRÜHMAS. LÕPUKS, SELGITUSTEGA NÄITED COULB KONSULTEERITAKSE KAUDU CORPUS OTSINGU LIIDES, MILLE ME LUUA SEL EESMÄRGIL. _x000D_ _x000D_ seega, PROJECT WILL BE TWO VÄLJA. ÜHELT POOLT ON-LINE JA AVATUD JUURDEPÄÄSUGA ANNOTEERITUD ANDMEBAAS BASKI AJALOOLISTEST TEKSTIDEST, MIS ULATUVAD XV SAJANDIST KUNI XX. SAJANDINI (ARHAILINE JA VANA BASKI PERIOOD NING TÄNAPÄEVANE BASKIPERIOOD ENNE KEELE STANDARDIMIST (1968)). KORPUS, MILLE PIKENDUS ON UMBES 12 MILJONIT SÕNA, LIIGITATAKSE VASTAVALT PERIOODILE, DIALEKTILE, KIRJANDUSLIKULE SOOLE JA SOTSIOLINGVISTIKA TAUSTALE NING MÄRGISTATAKSE NII KÕNEDE KUI KA SÜNTAKTILISTE KATEGOORIATEGA, ET OTSENE SÜNTAKTILINE OTSING OLEKS VÕIMALIK. TEISEST KÜLJEST ON MEIL KORPUSE GRAMMATILINE OTSINGULIIDES, MIS VÕIMALDAB LINGVISTIDEL OTSIDA UURITUD SÜNTAKTILISI NÄHTUSI, STRUKTUURE, MIS KUULUVAD KONKREETSETELE AEGADELE JA KOHTADELE. (Estonian)
    18 August 2022
    0 references
    A PROJEKT itt, szintaktikailag ANNOTATED HISTORICAL CORPUS IN BASQUE (SAHCOBA) volt, mint ITS MABJECT IRÁNYELV A TERMÉKES LÉGREHAJTÁSOK (NLP) a diaktronikus LINGUISTICS-ek és egyéb SPECIFIKALLIÓI FELHASZNÁLÁSOK FELHASZNÁLÁSA, a diachronikus SYNTAX._x000D_ A PROJECT-ben a MÓDOSÍTÁSOKRA VONATKOZÓ MÓDOSÍTÁSOKRA VONATKOZÓ KÖVETKEZŐKÖNYVEKRE VONATKOZÓ KÖVETKEZETTSÉGEKRE VONATKOZÓ KÖVETELMÉNYEKRE, hogy a PROJEKT MAIN OBJECT IRÁNYELVE, A BASQUE HISTORICAI KORPUSÁJÁT szituálva, szintaktikailag. ELŐSZÖR IS, ÖSSZEÁLLÍTUNK EGY KORPUSZT TÖRTÉNELMI SZÖVEGEKKEL A XV. SZÁZADTÓL A XX. SZÁZAD ELSŐ KÖZEPÉIG. EZT KÖVETŐEN E SZÖVEGEK EGYES RÉSZEIT MANUÁLISAN JEGYZIK, HOGY MINDEN EGYES ANCIEN SZÓHOZ HOZZÁRENDELJÉK A MEGFELELŐ STANDARD EKVIVALENST, ÉS A KÉZI ANNOTÁCIÓ ÉS APLLYING TANULÁSI TECHNIKÁK ALAPJÁN A SZÖVEGEK TÖBBI RÉSZE AUTOMATIKUSAN NORMALIZÁLÓDIK TÖBB SZÁMÍTÁSI TECHNIKÁVAL. A CROPUS STANDARDIZÁLÁSÁT KÖVETŐEN A CORPUS MORPHOSYNTACTICALLY-T A IXA KUTATÓCSOPORT ÁLTAL KIFEJLESZTETT NLP-ESZKÖZÖK SEGÍTSÉGÉVEL JEGYEZZÜK FEL. VÉGÜL, AZ ANNOTÁLT PÉLDÁK A COULB-OT EGY CORPUS KERESÉSI FELÜLETEN KERESZTÜL KELL MEGTEKINTENI, AMELYET ERRE A CÉLRA HOZUNK LÉTRE. _x000D_ _x000D_ ezért a PROJEKT MAIN DELIVERABLLES-je már nem lesz többé. EGYRÉSZT A XV. SZÁZADTÓL A XX. SZÁZADIG TERJEDŐ BASZK TÖRTÉNELMI SZÖVEGEK (AZ ARCHAIKUS ÉS RÉGI BASZK KORSZAKOK ÉS A MODERN BASZK IDŐSZAK A NYELV EGYSÉGESÍTÉSÉT MEGELŐZŐEN (1968)) ANNOTÁLT ADATBÁZISA, ON-LINE ÉS NYÍLT HOZZÁFÉRÉSŰ. A KORPUSZT, AMELY KÖRÜLBELÜL 12 MILLIÓ SZÓVAL BŐVÜL, AZ IDŐSZAK, A DIALEKTUS, AZ IRODALMI NEM ÉS A SZOCIOLLINGVISTA HÁTTÉR SZERINT KATEGORIZÁLJÁK, ÉS A BESZÉDRÉSZ-KATEGÓRIÁKAT ÉS A SZINTAKTIKAI KATEGÓRIÁKAT JELÖLIK MEG, HOGY LEHETŐVÉ TEGYÉK A KÖZVETLEN SZINTAKTIKAI KERESÉST. MÁSRÉSZT, VAN EGY CORPUS NYELVTANI KERESŐ FELÜLETÜNK, AMELY LEHETŐVÉ TESZI A NYELVÉSZEK SZÁMÁRA, HOGY MEGKERESSÉK AZOKAT A SZINTAKTIKAI JELENSÉGEKET, STRUKTÚRÁKAT, AMELYEK BIZONYOS IDŐKHÖZ ÉS HELYEKHEZ TARTOZNAK. (Hungarian)
    18 August 2022
    0 references
    Проектът, изготвен тук, синтактично анотатиран HISTORICAL CORPUS в BASQUE (SAHCOBA) е бил в състояние да създаде база данни за природна среда (NLP), за да помогне на изследователите във формата на диахронични лингвисти и по-голяма СПЕЦИФИКАЦИЯ, в диахронния SYNTAX._x000D_ С оглед на методологията да бъдат изпълнени в рамките на проекта, ние сме се опитали да се слеят в началото на проекта, създаването на HISTORICAL CORPUS OF BASQUE TEXTS, анотатирани синтактични. ПЪРВО, ЩЕ СЪСТАВИМ КОРПУС С ИСТОРИЧЕСКИ ТЕКСТОВЕ ОТ XV ВЕК ДО ПЪРВАТА СРЕДАТА НА XX ВЕК. НА СЛЕДВАЩО МЯСТО, НЯКОИ ЧАСТИ ОТ ТЕЗИ ТЕКСТОВЕ ЩЕ БЪДАТ РЪЧНО АНОТИРАНИ, ЗА ДА СЕ ПРИЧИСЛЯТ КЪМ ВСЯКА ДУМА НА ANCIEN, СЪОТВЕТСТВАЩИЯТ Ѝ СТАНДАРТЕН ЕКВИВАЛЕНТ, И ВЪЗ ОСНОВА НА РЪЧНАТА АНОТАЦИЯ И ТЕХНИКИТЕ ЗА УЧЕНЕ, ОСТАНАЛИТЕ ТЕКСТОВЕ ЩЕ БЪДАТ АВТОМАТИЧНО НОРМАЛИЗИРАНИ, КАТО СЕ ИЗПОЛЗВАТ НЯКОЛКО ИЗЧИСЛИТЕЛНИ ТЕХНИКИ. СЛЕД КАТО CROPUS БЪДЕ СТАНДАРТИЗИРАН, НИЕ ЩЕ АНОТИРАМЕ КОРПУСА MORPHOSYNTACTICALLY С ПОМОЩТА НА НЛП ИНСТРУМЕНТИ, РАЗРАБОТЕНИ В ИЗСЛЕДОВАТЕЛСКА ГРУПА IXA. И НАКРАЯ, АНОТИРАНИТЕ ПРИМЕРИ СЕ КОНСУЛТИРАТ ЧРЕЗ ИНТЕРФЕЙС ЗА ТЪРСЕНЕ НА КОРПУС, КОЙТО ЩЕ СЪЗДАДЕМ ЗА ТАЗИ ЦЕЛ. следователно _x000D_ _x000D_ Главните компоненти на проекта ще бъдат два пъти. ОТ ЕДНА СТРАНА, АНОТИРАНА БАЗА ДАННИ, ОНЛАЙН И ОТКРИТ ДОСТЪП, НА БАСКИТЕ ИСТОРИЧЕСКИ ТЕКСТОВЕ, ОБХВАЩАЩИ ПЕРИОДА ОТ XV ВЕК ДО XX ВЕК (АРХАИЧЕН И СТАР БАСКИ ПЕРИОД И МОДЕРЕН БАСКИ ПЕРИОД, ПРЕДХОЖДАЩ СТАНДАРТИЗАЦИЯТА НА ЕЗИКА (1968 Г.). КОРПУСЪТ, КОЙТО ЩЕ ИМА РАЗШИРЕНИЕ ОТ ОКОЛО 12 МИЛИОНА ДУМИ, ЩЕ БЪДЕ КАТЕГОРИЗИРАН ПО ПЕРИОД, ДИАЛЕКТ, ЛИТЕРАТУРЕН ПОЛ И СОЦИОЛИНГВИСТИЧНО МИНАЛО И ЩЕ БЪДЕ МАРКИРАН С ЧАСТ ОТ РЕЧЕВИТЕ КАТЕГОРИИ, КАКТО И СЪС СИНТАКТИЧНИ КАТЕГОРИИ, ТАКА ЧЕ ДА СТАНЕ ВЪЗМОЖНО ПРЯКОТО СИНТАКТИЧНО ТЪРСЕНЕ. ОТ ДРУГА СТРАНА, НИЕ ЩЕ ИМАМЕ КОРПУС ГРАМАТИЧЕН ИНТЕРФЕЙС ЗА ТЪРСЕНЕ, ЗА ДА ПОЗВОЛИ НА ЛИНГВИСТИТЕ ДА ТЪРСЯТ ТЕЗИ ИЗСЛЕДВАНИ СИНТАКТИЧНИ ЯВЛЕНИЯ, СТРУКТУРИ, КОИТО ПРИНАДЛЕЖАТ КЪМ ОПРЕДЕЛЕНИ ВРЕМЕНА И МЕСТА. (Bulgarian)
    18 August 2022
    0 references
    ATSIŽVELGTI ČIA, sintaksiškai ANNOTATED HISTORICAL CORPUS IN BASQUE (SAHCOBA) KURIUOS PRIEŽIŪROS PRIEŽIŪROS PRIEŽIŪROS PRIEŽIŪROS PRIEŽIŪROS PRIEŽIŪROS PRIEŽIŪRA, diachroniniame SYNTAX._x000D_ SU METHODOLOGIJA, kad būtų galima tilpti į PROJEKTĄ, mes turime turėti tam tikrų veiksmų, kad būtų užtikrinta, kad jie būtų naudojami, siekiant užtikrinti, kad būtų užtikrinta, kad jie būtų naudojami, SUSITARIMAS iš BASQUE TEXPUS PRIEŽIŪROS SANTRAUKAS sintaksiškai. PIRMA, SUDARYSIME RINKINĮ SU ISTORINIAIS TEKSTAIS NUO XV A. IKI XX A. PIRMOSIOS VIDURIO. BE TO, KAI KURIOS ŠIŲ TEKSTŲ DALYS BUS RANKINIU BŪDU ANOTUOTOS, KAD KIEKVIENAM ANCIEN ŽODŽIUI BŪTŲ PRISKIRTAS ATITINKAMAS STANDARTINIS EKVIVALENTAS, O REMIANTIS RANKINIO ANOTAVIMO IR APLLYING MOKYMOSI METODAIS, LIKUSIEJI TEKSTAI BUS AUTOMATIŠKAI NORMALIZUOJAMI NAUDOJANT KELETĄ SKAIČIAVIMO METODŲ. KAI CROPUS YRA STANDARTIZUOTAS, MES ANOTUOTI KORPUSĄ MORPHOSYNTACTICALLY NAUDOJANT NLP ĮRANKIUS, SUKURTUS IXA MOKSLINIŲ TYRIMŲ GRUPĖJE. GALIAUSIAI, ANOTUOTI PAVYZDŽIAI COULB BŪTI KONSULTUOJAMASI PER CORPUS PAIEŠKOS SĄSAJA, KAD MES SUKURTI ŠIAM TIKSLUI. _x000D_ _x000D_ todėl, pagrindiniai PROJEKTO DELIVERABLIAI bus dar du. VIENA VERTUS, BASKŲ ISTORINIŲ TEKSTŲ, APIMANČIŲ XV A. XX A. (ARCHAJIŠKAS IR SENAS BASKŲ PERIODAS IR ŠIUOLAIKINIS BASKŲ PERIODAS IKI KALBOS STANDARTIZAVIMO (1968 M.)), DUOMENŲ BAZĖ INTERNETE IR ATVIRA PRIEIGA. KORPUSAS, KURIS TURĖS MAŽDAUG 12 MILIJONŲ ŽODŽIŲ PRATĘSIMĄ, BUS SKIRSTOMAS Į KATEGORIJAS PAGAL LAIKOTARPĮ, DIALEKTĄ, LITERATŪRINĘ LYTĮ IR SOCIOLINGVISTINĮ FONĄ IR BUS PAŽYMĖTAS KALBOS DALIES KATEGORIJOMIS, TAIP PAT SINTAKSĖS KATEGORIJOMIS, KAD BŪTŲ GALIMA ATLIKTI TIESIOGINĘ SINTAKSINĘ PAIEŠKĄ. KITA VERTUS, MES TURĖSIME CORPUS GRAMATINĖS PAIEŠKOS SĄSAJĄ, KAD LINGVISTAI GALĖTŲ IEŠKOTI TŲ TIRTŲ SINTAKSĖS REIŠKINIŲ, STRUKTŪRŲ, KURIOS PRIKLAUSO KONKRETIEMS LAIKAMS IR VIETOMS. (Lithuanian)
    18 August 2022
    0 references
    OVDJE OVDJE, sintaktički ANNOTATEDNI KORPUS U BASQUE (SAHCOBA) OBAVIJESTI OBAVIJESTI OBAVIJESTI BASIC TOOLS NATURALNI LANGUAGE PROCESSING (NLP) OBAVIJESTI OBAVIJESTI U FIELD diakroničnih LINGUISTICIJA I više SPECIFICALLY, u dijakroničnom SYNTAX-u._x000D_ S REGARDOM NA METHODOLOGU da se FOLLOGIJALI U PROJEKTU, imali smo naredbu kako bismo se oporavili u ORDER-u kako bi dobili najveći OBJEKT PROJEKTA, Stvaranje HISTORIČKOG KORPUSA BASQUE TEXTATE Syntactically. PRVO ĆEMO SASTAVITI KORPUS S POVIJESNIM TEKSTOVIMA OD XV. STOLJEĆA DO PRVE SREDINE XX. STOLJEĆA. ZATIM ĆE NEKI DIJELOVI TIH TEKSTOVA BITI RUČNO OZNAČENI ZA DODJELU SVAKOJ RIJEČI ANCIEN OBLIKU ODGOVARAJUĆEG STANDARDNOG EKVIVALENTA, A NA TEMELJU RUČNE NAPOMENE I TEHNIKA UČENJA, OSTATAK TEKSTOVA AUTOMATSKI ĆE SE NORMALIZIRATI POMOĆU NEKOLIKO RAČUNALNIH TEHNIKA. NAKON ŠTO JE CROPUS STANDARDIZIRAN, ZABILJEŽIT ĆEMO KORPUS MORPHOSYNTACTICALLY UZ POMOĆ NLP ALATA RAZVIJENIH U ISTRAŽIVAČKOJ GRUPI IXA. KONAČNO, PRIMJERI S KOMENTARIMA KONZULTIRAJU SE PUTEM SUČELJA ZA PRETRAŽIVANJE KORPUSA KOJE ĆEMO IZRADITI U TU SVRHU. _x000D_ _x000D_ dakle, glavni DELIVERABLES PROJEKTA će biti dva puta. S JEDNE STRANE, BAZA PODATAKA S KOMENTARIMA, ON-LINE I OTVOREN PRISTUP BASKIJSKIM POVIJESNIM TEKSTOVIMA KOJI SEŽU OD XV. STOLJEĆA DO XX. STOLJEĆA (ARHAIČNO I STARO BASKIJSKO RAZDOBLJE I MODERNO BASKIJSKO RAZDOBLJE PRIJE STANDARDIZACIJE JEZIKA (1968.)). KORPUS, KOJI ĆE IMATI PRODUŽETAK OD OKO 12 MILIJUNA RIJEČI, BIT ĆE KATEGORIZIRAN PREMA RAZDOBLJU, DIJALEKTU, KNJIŽEVNOM RODU I SOCIOLINGVISTIČKOJ POZADINI, A BIT ĆE OZNAČEN S KATEGORIJAMA DIJELA GOVORA, KAO I SINTAKTIČKIM KATEGORIJAMA, KAKO BI SE OMOGUĆILO IZRAVNO SINTAKTIČKO PRETRAŽIVANJE. S DRUGE STRANE, IMAT ĆEMO KORPUS GRAMATIČKI SUČELJE ZA PRETRAŽIVANJE KAKO BI SE OMOGUĆILO LINGVISTIMA DA TRAŽE ONE PROUČAVANE SINTAKTIČKE POJAVE, STRUKTURE KOJE PRIPADAJU ODREĐENIM VREMENIMA I MJESTIMA. (Croatian)
    18 August 2022
    0 references
    Den PROJEKT PRESENTED HÄR, syntaktiskt ANNOTATED HISTORICAL CORPUS I BASQUE (SAHCOBA) HÄR SOM ÄR MIN OBJEKTIV att CREATE BASIC TOOLS OF NATURAL LANGUAGE PROCESSING (NLP) TO HELP RESEARCHERS I THE FIELD of diachronic LINGUISTICER OCH MER SPECIFICALLY, i den diachronica SYNTAX._x000D_ Med BEAKTANDE AV METHODOLOGY SOM ÄR FÖLJANDE I PROJEKT, VI HAVE SOM MÅSTE LÄMNAS SOM ÄR EN HISTORICELLA STAPUS AV BASQUE TEXTS ANNOTATED ANNOTATED Syntactically. FÖRST KOMMER VI ATT SAMMANSTÄLLA EN CORPUS MED HISTORISKA TEXTER FRÅN XV-TALET TILL FÖRSTA MITTEN AV 1900-TALET. DÄREFTER KOMMER VISSA DELAR AV DESSA TEXTER ATT KOMMENTERAS MANUELLT FÖR ATT TILLDELA VARJE ANCIEN ORDFORM DESS MOTSVARANDE STANDARD MOTSVARIGHET, OCH BASERAT PÅ DEN MANUELLA ANNOTATION OCH APLLYING INLÄRNINGSTEKNIKER, RESTEN AV TEXTERNA KOMMER AUTOMATISKT ATT NORMALISERAS MED HJÄLP AV FLERA BERÄKNINGSTEKNIKER. NÄR CROPUS ÄR STANDARDISERAT KOMMER VI ATT KOMMENTERA CORPUS MORPHOSYNTACTICALLY MED HJÄLP AV NLP-VERKTYG SOM UTVECKLATS AV FORSKNINGSGRUPPEN IXA. SLUTLIGEN, DE KOMMENTERADE EXEMPLEN COULB KONSULTERAS VIA EN CORPUS SÖKGRÄNSSNITT SOM VI KOMMER ATT SKAPA FÖR DETTA ÄNDAMÅL. _x000D_ _x000D_ därför kommer PROJEKT:s MAIN DELIVERABLES att bli två gånger. Å ENA SIDAN EN KOMMENTERAD DATABAS, ONLINE OCH ÖPPEN TILLGÅNG, AV BASKISKA HISTORISKA TEXTER SOM STRÄCKER SIG FRÅN 15-TALET TILL 1900-TALET (DEN ARKAISKA OCH GAMLA BASKISKA PERIODER OCH MODERNA BASKISKA PERIODEN FÖRE STANDARDISERINGEN AV SPRÅKET (1968)). CORPUS, SOM KOMMER ATT HA EN FÖRLÄNGNING PÅ CIRKA 12 MILJONER ORD, KOMMER ATT KATEGORISERAS EFTER PERIOD, DIALEKT, LITTERÄRT KÖN OCH SOCIOLINGVISISTISK BAKGRUND, OCH KOMMER ATT MÄRKAS MED DEL AV TALKATEGORIER SAMT SYNTAKTISKA KATEGORIER, FÖR ATT MÖJLIGGÖRA DIREKT SYNTAKTISK SÖKNING. Å ANDRA SIDAN KOMMER VI ATT HA ETT GRAMMATISK SÖKGRÄNSSNITT FÖR ATT LÅTA LINGVISTERNA LETA UPP EFTER DE STUDERADE SYNTAKTISKA FENOMENEN, STRUKTURER SOM HÖR TILL SPECIFIKA TIDER OCH PLATSER. (Swedish)
    18 August 2022
    0 references
    PROJECT PRESENTED AICI, Sintetic AnOTATE CORPUS HISTORIC ÎN BASQUE (SAHCOBA) SAHCOBA ESTE ÎN CADRUL OBJECTIVEI DE Creare BASICĂ a PROCESURILOR DE LANGUAGE NATURALĂ (NLP) la CERCETARE ÎN FIELUL LINGUISTICILOR diacronice și mai mult SPECIFICAL, în SYNTAX-ul diacronic._x000D_ având în vedere că această metodă va fi distrusă în domeniul de aplicare, trebuie să rămânem fără probleme pentru a ne duce la îndeplinire pentru a se ocupa de obiectivul principal al proiectei, de crearea unui CORPUS de tip HISTORICAL de tip BASQUE, după cum urmează: ÎN PRIMUL RÂND, VOM COMPILA UN CORPUS CU TEXTE ISTORICE DIN SECOLUL AL XV-LEA PÂNĂ LA PRIMA JUMĂTATE A SECOLULUI XX. ÎN CONTINUARE, UNELE PĂRȚI ALE ACESTOR TEXTE VOR FI ADNOTATE MANUAL PENTRU A ATRIBUI FIECĂRUI CUVÂNT ANCIEN ECHIVALENTUL SĂU STANDARD CORESPUNZĂTOR ȘI, PE BAZA ADNOTĂRII MANUALE ȘI A INTENSIFICĂRII TEHNICILOR DE ÎNVĂȚARE, RESTUL TEXTELOR VOR FI AUTOMAT NORMALIZATE FOLOSIND MAI MULTE TEHNICI DE CALCUL. ODATĂ CE CROPUS ESTE STANDARDIZAT, VOM ADNOTA CORPUSUL MORPHOSYNTACTICY CU AJUTORUL INSTRUMENTELOR NLP DEZVOLTATE ÎN CADRUL GRUPULUI DE CERCETARE IXA. ÎN CELE DIN URMĂ, EXEMPLELE ADNOTATE DE COULB VOR FI CONSULTATE PRIN INTERMEDIUL UNEI INTERFEȚE DE CĂUTARE CORPUS PE CARE O VOM CREA ÎN ACEST SCOP. _x000D_ _x000D_ prin urmare, MAI MULTE DELIVERABILE PROJECTului vor fi două. PE DE O PARTE, O BAZĂ DE DATE ADNOTATĂ, ON-LINE ȘI CU ACCES LIBER, A TEXTELOR ISTORICE BASCE DIN SECOLUL AL XV-LEA PÂNĂ ÎN SECOLUL XX [PERIOADELE ARHAICE ȘI VECHI BASCE ȘI PERIOADA BASCĂ MODERNĂ ANTERIOARĂ STANDARDIZĂRII LIMBII (1968)]. CORPUL, CARE VA AVEA O EXTENSIE DE APROXIMATIV 12 MILIOANE DE CUVINTE, VA FI CLASIFICAT ÎN FUNCȚIE DE PERIOADĂ, DIALECT, GEN LITERAR ȘI FUNDAL SOCIOLINGVISTIC, ȘI VA FI ETICHETAT CU CATEGORII DE PĂRȚI DE VORBIRE, PRECUM ȘI CATEGORII SINTACTICE, PENTRU A FACE POSIBILĂ CĂUTAREA SINTACTICĂ DIRECTĂ. PE DE ALTĂ PARTE, VOM AVEA O INTERFAȚĂ DE CĂUTARE GRAMATICALĂ CORPUS PENTRU A PERMITE LINGVIȘTILOR SĂ CAUTE ACELE FENOMENE SINTACTICE STUDIATE, STRUCTURI CARE APARȚIN UNOR MOMENTE ȘI LOCURI SPECIFICE. (Romanian)
    18 August 2022
    0 references
    PROJEKT TUKAJ, sintaktično ANNOTATED HISTORICAL CORPUS V BASQUE (SAHCOBA) se je kot MAIN OBJEKTIVE ZA POTRJUJEJO BASIC TOOLS NATURALNO LANGUAGE PROCESSING (NLP) za PREDELOVALNIH RESEARCHERS v FIELD of diahronic LINGUISTICS IN VEČ SPECIFIKACIJ, v diahroničnem SYNTAX-u._x000D_ Z OBVESTILOM, ki ga je treba izpolniti v PROJEKTU, bi se morali dogovoriti, da bi izpolnili svoj cilj, da bi se seznanili z MAIN OBJEKTIVE PROJEKTKA, ZDRAVILO HISTORICALNE KORPUS BASQUE TEXTS, ki se sintaktično pridružujejo. NAJPREJ BOMO SESTAVILI KORPUS Z ZGODOVINSKIMI BESEDILI OD XV. STOLETJA DO PRVE SREDINE XX. STOLETJA. DALJE, NEKATERI DELI TEH BESEDIL BODO ROČNO OZNAČENI, DA BI VSAKI BESEDI ANCIEN DODELILI USTREZEN STANDARDNI EKVIVALENT, IN NA PODLAGI ROČNE OZNAKE IN APLLYING UČNIH TEHNIK SE BODO OSTALA BESEDILA SAMODEJNO NORMALIZIRALA Z VEČ RAČUNALNIŠKIMI TEHNIKAMI. KO BO CROPUS STANDARDIZIRAN, BOMO S POMOČJO ORODIJ NLP, RAZVITIH V RAZISKOVALNI SKUPINI IXA, OZNAČILI KORPUS MORPHOSYNTACTICALLY. NAZADNJE, OBRAZLOŽENI PRIMERI SE LAHKO POSVETUJEJO PREK KORPUSNEGA ISKALNEGA VMESNIKA, KI GA BOMO USTVARILI V TA NAMEN. _x000D_ _x000D_ zato, MAIN DELIVERABLES PROJEKTA BI BI DRUGIH. NA ENI STRANI JE NA ENI STRANI OZNAČENA PODATKOVNA ZBIRKA, SPLETNI IN ODPRT DOSTOP, BASKOVSKIH ZGODOVINSKIH BESEDIL, KI SEGAJO OD XV. STOLETJA DO XX. STOLETJA (ARHAIČNA IN STARA BASKOVSKA OBDOBJA IN MODERNO BASKOVSKO OBDOBJE PRED STANDARDIZACIJO JEZIKA (1968)). KORPUS, KI BO IMEL RAZŠIRITEV ZA PRIBLIŽNO 12 MILIJONOV BESED, BO RAZVRŠČEN GLEDE NA OBDOBJE, NAREČJE, LITERARNI SPOL IN DRUŽBENOJEZIKOVNO OZADJE TER BO OZNAČEN S KATEGORIJAMI DEL GOVORA IN SINTAKTIČNIMI KATEGORIJAMI, DA BO MOGOČE NEPOSREDNO SINTAKTIČNO ISKANJE. PO DRUGI STRANI PA BOMO IMELI KORPUSOV SLOVNIČNI ISKALNI VMESNIK, KI BO JEZIKOSLOVCEM OMOGOČIL ISKANJE TISTIH PREUČEVANIH SINTAKTIČNIH POJAVOV, STRUKTUR, KI PRIPADAJO DOLOČENIM ČASOM IN MESTOM. (Slovenian)
    18 August 2022
    0 references
    PROJEKT PRESENTED TUTAJ, syntaktycznie ZANNOTOWANYCH HISTORYCZNYCH Przedsiębiorstw W BASQUE (SAHCOBA) JEST JAK MAJĄCY WYKORZYTANIA DO WYKORZĄDZENIA DO TEGO PODKREŚLAJĄCEGO WYKORZYSTANIA DIACHRONOWYCH LINGUISTICY I WIĘCEJ SPECYFIKACJI, w SYNTAX diachroniczny._x000D_ Z METHODOLOGII, aby być FOLLOWED W PROJEKT, mamy ZATRZYMUJĄC SIĘ PODKREŚLAJĄCYCH STOSOWANIA W ZAMÓWIENIU, aby osiągnąć główny cel PROJEKTU, CREATION of HISTORICAL CORPUS OF BASQUE TEXTS ANNOTATED Syntactically. PO PIERWSZE, SKOMPILUJEMY KORPUS Z TEKSTAMI HISTORYCZNYMI OD XV WIEKU DO PIERWSZEJ POŁOWY XX WIEKU. NASTĘPNIE NIEKTÓRE CZĘŚCI TYCH TEKSTÓW ZOSTANĄ RĘCZNIE OPATRZONE ADNOTACJĄ W CELU PRZYPISANIA KAŻDEMU ZE SŁÓW ANCIEN Z ODPOWIADAJĄCEGO MU STANDARDOWEGO ODPOWIEDNIKA, A W OPARCIU O RĘCZNE ADNOTACJE I TECHNIKI UCZENIA SIĘ, RESZTA TEKSTÓW ZOSTANIE AUTOMATYCZNIE ZNORMALIZOWANA PRZY UŻYCIU KILKU TECHNIK OBLICZENIOWYCH. GDY CROPUS ZOSTANIE ZNORMALIZOWANY, BĘDZIEMY OPISYWAĆ KORPUS MORPHOSYNTACTICALLY ZA POMOCĄ NARZĘDZI NLP OPRACOWANYCH W GRUPIE BADAWCZEJ IXA. WRESZCIE, PRZYKŁADY Z ADNOTACJAMI SĄ KONSULTOWANE ZA POŚREDNICTWEM INTERFEJSU WYSZUKIWANIA KORPUSÓW, KTÓRY STWORZYMY W TYM CELU. _x000D_ _x000D_ w związku z tym, główne DELIVERABLES PROJEKTU BĘDZI DWA. Z JEDNEJ STRONY, BAZA DANYCH Z UWAGAMI, ON-LINE I OTWARTY DOSTĘP, BASKIJSKICH TEKSTÓW HISTORYCZNYCH ROZCIĄGAJĄCYCH SIĘ OD XV WIEKU DO XX WIEKU (ARCHAICZNE I STARE OKRESY BASKIJSKIE I NOWOCZESNY OKRES BASKIJSKI POPRZEDZAJĄCY STANDARYZACJĘ JĘZYKA (1968)). KORPUS, KTÓRY BĘDZIE MIAŁ ROZSZERZENIE O OKOŁO 12 MILIONÓW SŁÓW, ZOSTANIE SKLASYFIKOWANY WEDŁUG OKRESU, DIALEKTU, PŁCI LITERACKIEJ I SPOŁECZNO-LINGWISTYCZNEJ, I BĘDZIE OZNACZONY KATEGORIAMI CZĘŚCI MOWY, A TAKŻE KATEGORIAMI SYNTAKTYCZNYMI, TAK ABY UMOŻLIWIĆ BEZPOŚREDNIE WYSZUKIWANIE SYNTAKTYCZNE. Z DRUGIEJ STRONY, BĘDZIEMY MIEĆ ZWŁOK GRAMATYCZNY INTERFEJS WYSZUKIWANIA, ABY UMOŻLIWIĆ JĘZYKOZNAWCOM SZUKAĆ TYCH BADANYCH ZJAWISK SYNTAKTYCZNYCH, STRUKTUR, KTÓRE NALEŻĄ DO KONKRETNYCH CZASÓW I MIEJSC. (Polish)
    18 August 2022
    0 references
    Donostia/San Sebastián
    0 references
    20 December 2023
    0 references

    Identifiers

    RTI2018-098082-J-I00
    0 references