it’s TextAnalytics. Text Analytics services for the commercial exploitation of the Spanish DBpedia (esDBpedia) (Q4657294)

From EU Knowledge Graph
Jump to navigation Jump to search
Project Q4657294 in Spain
Language Label Description Also known as
English
it’s TextAnalytics. Text Analytics services for the commercial exploitation of the Spanish DBpedia (esDBpedia)
Project Q4657294 in Spain

    Statements

    0 references
    91,899.75 Euro
    0 references
    168,778.23 Euro
    0 references
    54.45 percent
    0 references
    5 March 2016
    0 references
    31 December 2018
    0 references
    UNIVERSIDAD POLITECNICA DE MADRID
    0 references

    40°24'29.81"N, 3°53'10.39"W
    0 references
    28660
    0 references
    Las tecnologías de Text Analytics analizan el contenido textual no estructurado, que llega hasta el 80% de todos los datos disponibles en las empresas (documentos, correos electrónicos, información de Social Media y otra información basada en texto), con el objetivo de extraer información relevante y transformarla en una ventaja competitiva y estratégica para las empresas. Estas tecnologías tienen prometedoras oportunidades de crecimiento en la industria: se pronostica que el mercado global crecerá desde los 2,65 miles de millones dólares en 2015 a casi 6 mil millones en 2020, a una tasa compuesta anual del 17,5%. Otros estudios inciden en el potencial del área, e incluso mejoran las cifras esperadas . En términos de regiones, se espera que Norteamérica siga siendo el mercado más grande en términos de tamaño, mientras que Europa y Asia experimenten una mayor tracción de mercado durante el periodo de pronóstico. En ese sentido, el Ministerio de Industria ha anunciado recientemente el Plan de Impulso de las Tecnologías del Lenguaje , dotado con 90 millones de euros, con el objetivo de fomentar el desarrollo del procesamiento del lenguaje natural en lengua española, aumentar el número, calidad y disponibilidad de las infraestructuras lingüísticas en español e lenguas cooficiales; impulsar la Industria del lenguaje en España. Sin embargo, a pesar de las soluciones comerciales disponibles, la mayoría de los datos no estructurados permanecen ocultos debido a la falta de herramientas adecuadas para su análisis, que no utilizan las últimas innovaciones tecnológicas en las áreas de procesamiento lingüístico y desambiguación semántica para dominios abiertos en detección de entidades nombradas, minería de opiniones o resúmenes automático de texto, ni los beneficios que supone la utilización de las grandes bases de conocimiento estructurado disponibles. La mayoría de las soluciones comerciales actuales de TextAnalytics se han basado en bases de conocimiento propietarias que son limitadas en tamaño y alcance y, además, son gestionadas por las propias empresas que ofrecen dichos servicios, lo que ralentiza mucho su evolución y curación de datos erróneos. Por otro lado, aquéllas basadas en bases de conocimiento libres (por ejemplo, Wikipedia, DBpedia, etc.) han demostrado la utilidad industrial de Open Data pero con opciones de análisis sencillo (p. e. keywords) o enfoques puramente estadísticos, por lo que obtienen una baja precisión y su base de conocimiento no es mejorada ni curada. El proyecto esTextAnalytics propone el desarrollo de servicios de Text Analytics en la Nube, mediante el uso de procesamiento del lenguaje natural (NLP) y tecnologías semánticas de anotación y desambiguación, y con la utilización de esDBpedia como base de conocimiento, mejorada con la incorporación de mecanismos automáticos de diagnóstico, reparación y actualización de conocimiento erróneo, así como la gestión de automática de licencias para la incorporación de conocimiento externo propietario. En ese sentido, el proyecto esTextAnalytics explotará los beneficios que supone esDBpedia como fuente de grandes volúmenes de datos abiertos y recursos lingüísticos disponibles en la Web de Datos enlazados para mejorar la calidad de las herramientas de procesamiento de lenguaje natural. Por tanto, las ventajas que proporciona frente a otros tipos de recursos cerrados como WordNet, que han sido utilizado como bases de conocimientos en numerosos tareas relacionadas con el procesamiento del lenguaje, son: su naturaleza abierta, su continua evolución de forma colaborativa, y su crecimiento incremental mediante la inclusión de nuevos recursos y la creación de enlaces con los ya existentes. Sin embargo, su uso tampoco está exenta de riesgos, siendo necesaria la provisión de servicios capaces de diagnosticar la calidad de los datos abiertos y de repararlos en caso de que fuera necesario, previo a su utilización en los procesos de análisis del lenguaje necesarios. (Spanish)
    0 references
    Tehnologije analize besedil analizirajo nestrukturirano besedilno vsebino, ki doseže do 80 % vseh podatkov, ki so na voljo v podjetjih (dokumenti, e-pošta, informacije o družbenih medijih in druge informacije, ki temeljijo na besedilu), z namenom pridobivanja ustreznih informacij in njihovega preoblikovanja v konkurenčno in strateško prednost za podjetja. Te tehnologije imajo obetavne priložnosti za rast v industriji: svetovni trg naj bi zrasel z 2,65 milijarde dolarjev v letu 2015 na skoraj 6 milijard dolarjev v letu 2020, po skupni letni stopnji 17,5 %. Druge študije vplivajo na potencial območja in celo izboljšajo pričakovane številke. Kar zadeva regije, se pričakuje, da bo Severna Amerika ostala največji trg po velikosti, medtem ko bosta Evropa in Azija v napovedanem obdobju doživeli večji oprijem trga. V zvezi s tem je ministrstvo za industrijo nedavno napovedalo načrt v višini 90 milijonov EUR za spodbujanje jezikovnih tehnologij, da bi spodbudili razvoj obdelave naravnega jezika v španščini ter povečali število, kakovost in razpoložljivost jezikovnih infrastruktur v španščini in souradnih jezikih; spodbujanje jezikovne industrije v Španiji. Kljub razpoložljivim komercialnim rešitvam pa večina nestrukturiranih podatkov ostaja skrita zaradi pomanjkanja ustreznih orodij za analizo, ki ne uporabljajo najnovejših tehnoloških inovacij na področju jezikovne obdelave in semantične razločevanja za odprta področja pri odkrivanju imenovanih subjektov, rudarskih mnenj ali samodejnih povzetkov besedila, niti koristi uporabe velikih razpoložljivih strukturiranih baz znanja. Večina trenutnih poslovnih rešitev podjetja TextAnalytics temelji na lastniških bazah znanja, ki so omejene po velikosti in obsegu, poleg tega pa jih upravljajo podjetja, ki ponujajo takšne storitve, kar močno upočasnjuje njihov razvoj in zdravljenje napačnih podatkov. Po drugi strani pa so tisti, ki temeljijo na svobodnih bazah znanja (npr. Wikipedia, DBpedia itd.), pokazali industrijsko uporabnost odprtih podatkov, vendar s preprostimi možnostmi analize (npr. ključne besede) ali zgolj statističnimi pristopi, tako da dobijo nizko natančnost in njihova baza znanja ni niti izboljšana niti ozdravljena. Projekt esTextAnalytics predlaga razvoj storitev Text Analytics v oblaku z uporabo obdelave naravnega jezika (NLP) in semantičnih tehnologij zaznave in razločevanja ter z uporabo esDBpedie kot baze znanja, izboljšane z vključitvijo avtomatskih mehanizmov diagnosticiranja, popravljanja in posodabljanja napačnega znanja ter avtomatskega upravljanja licenc za vključitev lastniškega zunanjega znanja. V tem smislu bo projekt esTextAnalytics izkoristil prednosti DDBpedie kot vira velikih količin odprtih podatkov in jezikovnih virov, ki so na voljo na spletu povezanih podatkov, da bi izboljšal kakovost orodij za obdelavo naravnega jezika. Prednosti, ki jih ponuja pred drugimi vrstami zaprtih virov, kot je WordNet, ki so bile uporabljene kot baze znanja pri številnih nalogah, povezanih z obdelavo jezikov, so: njena odprta narava, nenehno sodelovalno evolucijo in postopno rast z vključitvijo novih virov in ustvarjanjem povezav z obstoječimi. Vendar tudi njegova uporaba ni brez tveganj, treba je zagotoviti storitve, ki lahko diagnosticirajo kakovost odprtih podatkov in jih po potrebi popravijo, preden se uporabijo v potrebnih procesih jezikovne analize. (Slovenian)
    0 references
    It-teknoloġiji tal-analiżi tat-test janalizzaw kontenut testwali mhux strutturat, li jilħaq sa 80 % tad-data kollha disponibbli fil-kumpaniji (dokumenti, emails, informazzjoni dwar il-Midja Soċjali u informazzjoni oħra bbażata fuq it-test), bil-għan li tinkiseb informazzjoni rilevanti u tiġi ttrasformata f’vantaġġ kompetittiv u strateġiku għall-kumpaniji. Dawn it-teknoloġiji għandhom opportunitajiet ta’ tkabbir promettenti fl-industrija: is-suq globali huwa mbassar li jikber minn $2.65 biljun fl-2015 għal kważi $6 biljun fl-2020, b’rata annwali komposta ta’ 17.5 %. Studji oħra jaffettwaw il-potenzjal taż-żona, u saħansitra jtejbu ċ-ċifri mistennija. F’termini ta’ reġjuni, l-Amerika ta’ Fuq hija mistennija li tibqa’ l-akbar suq f’termini ta’ daqs, filwaqt li l-Ewropa u l-Asja jesperjenzaw ġibda akbar fis-suq matul il-perjodu mbassar. F’dan ir-rigward, il-Ministeru tal-Industrija dan l-aħħar ħabbar il-Pjan ta’ EUR 90 miljun għall-Promozzjoni tat-Teknoloġiji Lingwistiċi, bil-għan li jippromwovi l-iżvilupp tal-ipproċessar tal-lingwi naturali bl-Ispanjol, iżid in-numru, il-kwalità u d-disponibbiltà tal-infrastrutturi lingwistiċi fl-Ispanjol u fil-lingwi kouffiċjali; tippromwovi l-industrija tal-lingwi fi Spanja. Madankollu, minkejja s-soluzzjonijiet kummerċjali disponibbli, il-biċċa l-kbira tad-data mhux strutturata tibqa’ moħbija minħabba n-nuqqas ta’ għodod xierqa għall-analiżi, li ma jużawx l-aħħar innovazzjonijiet teknoloġiċi fl-oqsma tal-ipproċessar lingwistiku u d-diżambigwazzjoni semantika għal dominji miftuħa fid-detezzjoni ta’ entitajiet imsemmija, opinjonijiet fil-minjieri jew sommarji awtomatiċi tat-test, u lanqas il-benefiċċji tal-użu tal-bażijiet kbar ta’ għarfien strutturat disponibbli. Ħafna mis-soluzzjonijiet tan-negozju attwali TextAnalytics "ġew ibbażati fuq bażijiet ta ‘għarfien proprjetarju li huma limitati fid-daqs u l-ambitu u, barra minn hekk, huma ġestiti mill-kumpaniji li joffru dawn is-servizzi, li jnaqqas ħafna l-evoluzzjoni tagħhom u l-fejqan ta’ data żbaljata. Min-naħa l-oħra, dawk ibbażati fuq bażijiet ta’ għarfien liberu (eż. Wikipedia, DBpedia, eċċ.) urew l-utilità industrijali tad-Data Miftuħa iżda b’għażliet sempliċi ta’ analiżi (eż. keywords) jew approċċi purament statistiċi, sabiex jiksbu preċiżjoni baxxa u l-bażi tal-għarfien tagħhom la titjieb u lanqas tiġi kkurata. Il-proġett esTextAnalytics jipproponi l-iżvilupp ta’ servizzi ta’ Analytics tat-Test fil-Cloud, permezz tal-użu tal-ipproċessar tal-lingwa naturali (NLP) u teknoloġiji semantiċi ta’ annotazzjoni u diżambigwazzjoni, u bl-użu ta’ esDBpedia bħala bażi ta’ għarfien, imtejba bl-inkorporazzjoni ta’ mekkaniżmi awtomatiċi ta’ dijanjożi, tiswija u aġġornament ta’ għarfien żbaljat, kif ukoll il-ġestjoni awtomatika ta’ liċenzji għall-inkorporazzjoni ta’ għarfien estern proprjetarju. F’dan is-sens, il-proġett esTextAnalytics se jisfrutta l-benefiċċji tad-DDBpedia bħala sors ta’ volumi kbar ta’ data miftuħa u riżorsi lingwistiċi disponibbli fuq il-Web tad-Data Marbuta biex tittejjeb il-kwalità tal-għodod tal-ipproċessar tal-lingwa naturali. Għalhekk, il-vantaġġi li tipprovdi fuq tipi oħra ta’ riżorsi magħluqa bħall-WordNet, li ntużaw bħala bażijiet ta’ għarfien f’bosta kompiti relatati mal-ipproċessar tal-lingwi, huma: in-natura miftuħa tagħha, l-evoluzzjoni kollaborattiva kontinwa tagħha, u t-tkabbir inkrimentali tagħha permezz tal-inklużjoni ta’ riżorsi ġodda u l-ħolqien ta’ rabtiet ma’ dawk eżistenti. Madankollu, l-użu tiegħu lanqas ma huwa mingħajr riskji, huwa meħtieġ li jiġu pprovduti servizzi li kapaċi jiddijanjostikaw il-kwalità tad-data miftuħa u jsewwuha jekk ikun meħtieġ, qabel l-użu tagħha fil-proċessi ta’ analiżi lingwistika meħtieġa. (Maltese)
    0 references
    Les technologies d’analyse de texte analysent le contenu textuel non structuré, qui atteint jusqu’à 80 % de toutes les données disponibles dans les entreprises (documents, e-mails, informations sur les médias sociaux et autres informations textuelles), dans le but d’extraire des informations pertinentes et de les transformer en un avantage concurrentiel et stratégique pour les entreprises. Ces technologies ont des opportunités de croissance prometteuses dans l’industrie: le marché mondial devrait passer de 2,65 milliards de dollars en 2015 à près de 6 milliards de dollars en 2020, à un taux annuel composé de 17,5 %. D’autres études affectent le potentiel de la région et améliorent même les chiffres attendus. En ce qui concerne les régions, l’Amérique du Nord devrait rester le plus grand marché en termes de taille, tandis que l’Europe et l’Asie connaissent une plus grande traction sur le marché au cours de la période de prévision. À cet égard, le ministère de l’industrie a récemment annoncé le plan de 90 millions d’euros pour la promotion des technologies linguistiques, dans le but de promouvoir le développement du traitement des langues naturelles en espagnol, d’accroître le nombre, la qualité et la disponibilité des infrastructures linguistiques en espagnol et dans les langues co-officielles; promouvoir l’industrie de la langue en Espagne. Cependant, malgré les solutions commerciales disponibles, la plupart des données non structurées restent cachées en raison de l’absence d’outils d’analyse appropriés, qui n’utilisent pas les dernières innovations technologiques dans les domaines du traitement linguistique et de la désambiguation sémantique pour les domaines ouverts dans la détection d’entités nommées, les opinions minières ou les résumés de texte automatiques, ni les avantages de l’utilisation des grandes bases de connaissances structurées disponibles. La plupart des solutions commerciales actuelles de TextAnalytics sont basées sur des bases de connaissances exclusives qui sont limitées en taille et en portée et, en outre, sont gérées par les entreprises qui offrent de tels services, ce qui ralentit considérablement leur évolution et leur guérison des données erronées. D’autre part, ceux basés sur des bases de connaissances libres (par exemple Wikipédia, DBpedia, etc.) ont démontré l’utilité industrielle de l’Open Data, mais avec des options d’analyse simples (par exemple des mots clés) ou des approches purement statistiques, de sorte qu’ils obtiennent une faible précision et leur base de connaissances n’est ni améliorée ni guérie. Le projet esTextAnalytics propose le développement de services Text Analytics dans le Cloud, à travers l’utilisation de technologies de traitement du langage naturel (NLP) et sémantiques d’annotation et de désambiguation, et avec l’utilisation d’esDBpedia comme base de connaissances, améliorée avec l’incorporation de mécanismes automatiques de diagnostic, de réparation et de mise à jour de connaissances erronées, ainsi que la gestion automatique des licences pour l’incorporation de connaissances externes propriétaires. En ce sens, le projet esTextAnalytics exploitera les avantages de DDBpedia en tant que source de grands volumes de données ouvertes et de ressources linguistiques disponibles sur le Linked Data Web pour améliorer la qualité des outils de traitement du langage naturel. Par conséquent, les avantages qu’il offre par rapport à d’autres types de ressources fermées telles que WordNet, qui ont été utilisés comme bases de connaissances dans de nombreuses tâches liées au traitement du langage, sont: sa nature ouverte, son évolution collaborative continue et sa croissance progressive par l’inclusion de nouvelles ressources et la création de liens avec celles existantes. Cependant, son utilisation n’est pas non plus sans risques, il est nécessaire de fournir des services capables de diagnostiquer la qualité des données ouvertes et de les réparer si nécessaire, avant son utilisation dans les processus d’analyse linguistique nécessaires. (French)
    0 references
    Технологиите за анализ на текст анализират неструктурирано текстово съдържание, което достига до 80 % от всички налични данни в компаниите (документи, имейли, информация в социалните медии и друга текстова информация), с цел извличане на съответната информация и превръщането ѝ в конкурентно и стратегическо предимство за компаниите. Тези технологии имат обещаващи възможности за растеж в индустрията: световният пазар се очаква да нарасне от 2,65 млрд. долара през 2015 г. до близо 6 млрд. долара през 2020 г., при комбиниран годишен темп от 17,5 %. Други проучвания оказват влияние върху потенциала на района и дори подобряват очакваните стойности. По отношение на регионите се очаква Северна Америка да остане най-големият пазар по отношение на размера, докато Европа и Азия имат по-голямо пазарно сцепление през прогнозния период. Във връзка с това Министерството на промишлеността наскоро обяви плана за насърчаване на езиковите технологии в размер на 90 милиона евро с цел насърчаване на развитието на обработката на естествени езици на испански език, увеличаване на броя, качеството и наличността на езикови инфраструктури на испански и съвместни официални езици; насърчаване на езиковата индустрия в Испания. Въпреки наличните търговски решения, повечето неструктурирани данни остават скрити поради липсата на подходящи инструменти за анализ, които не използват най-новите технологични иновации в областта на езиковата обработка и семантичното разминаване за отворени области при откриването на поименни субекти, мненията за извличане на информация или автоматичните текстови резюмета, нито ползите от използването на наличните големи структурирани бази от знания. Повечето от настоящите бизнес решения на TextAnalytics се основават на собствени бази от знания, които са ограничени по размер и обхват и в допълнение се управляват от компаниите, които предлагат такива услуги, което значително забавя тяхната еволюция и изцеление на грешни данни. От друга страна, тези, които се основават на свободни бази от знания (например Уикипедия, DBpedia и т.н.), демонстрират промишлената полезност на отворените данни, но с прости възможности за анализ (напр. ключови думи) или чисто статистически подходи, така че те получават ниска точност и базата им от знания не е нито подобрена, нито излекувана. Проектът esTextAnalytics предлага развитието на услугите на Text Analytics в облака, чрез използване на обработка на естествен език (NLP) и семантични технологии за анотация и разяснение, както и с използването на esDBpedia като база от знания, подобрена с включването на автоматични механизми за диагностика, ремонт и актуализиране на погрешни знания, както и автоматично управление на лицензи за вграждане на собствени външни знания. В този смисъл проектът esTextAnalytics ще използва предимствата на DDBpedia като източник на големи обеми свободно достъпни данни и езикови ресурси, налични в мрежата за свързани данни, за да се подобри качеството на инструментите за обработка на естествен език. Ето защо предимствата, които предоставя пред други видове затворени ресурси като WordNet, които са били използвани като база от знания в множество задачи, свързани с езиковата обработка, са: нейната отворена природа, непрекъснатата ѝ съвместна еволюция и поетапният ѝ растеж чрез включването на нови ресурси и създаването на връзки със съществуващите. Използването му обаче също не е без риск, необходимо е да се предоставят услуги, които могат да диагностицират качеството на отворените данни и да ги поправят, ако е необходимо, преди използването им в необходимите процеси за езиков анализ. (Bulgarian)
    0 references
    Text Analytics technologies analyse unstructured textual content, which reaches up to 80 % of all data available in companies (documents, emails, Social Media information and other text-based information), with the aim of extracting relevant information and transforming it into a competitive and strategic advantage for companies. These technologies have promising growth opportunities in the industry: the global market is forecast to grow from $2.65 billion in 2015 to nearly $6 billion in 2020, at a compound annual rate of 17.5 %. Other studies affect the potential of the area, and even improve the expected figures. In terms of regions, North America is expected to remain the largest market in terms of size, while Europe and Asia experience greater market traction during the forecast period. In this regard, the Ministry of Industry has recently announced the EUR 90 million Plan for the Promotion of Language Technologies, with the aim of promoting the development of natural language processing in Spanish, increasing the number, quality and availability of language infrastructures in Spanish and co-official languages; promote the language industry in Spain. However, despite the commercial solutions available, most unstructured data remain hidden due to the lack of appropriate tools for analysis, which do not use the latest technological innovations in the areas of linguistic processing and semantic disambiguation for open domains in the detection of named entities, mining opinions or automatic text summaries, nor the benefits of using the large structured knowledge bases available. Most of TextAnalytics’ current business solutions have been based on proprietary knowledge bases that are limited in size and scope and, in addition, are managed by the companies that offer such services, which greatly slows down their evolution and healing of erroneous data. On the other hand, those based on free knowledge bases (e.g. Wikipedia, DBpedia, etc.) have demonstrated the industrial utility of Open Data but with simple analysis options (e.g. keywords) or purely statistical approaches, so they obtain low accuracy and their knowledge base is neither improved nor cured. The project esTextAnalytics proposes the development of Text Analytics services in the Cloud, through the use of natural language processing (NLP) and semantic technologies of annotation and disambiguation, and with the use of esDBpedia as a knowledge base, improved with the incorporation of automatic mechanisms of diagnosis, repair and update of erroneous knowledge, as well as the automatic management of licenses for the incorporation of proprietary external knowledge. In this sense, the esTextAnalytics project will exploit the benefits of DDBpedia as a source of large volumes of open data and linguistic resources available on the Linked Data Web to improve the quality of natural language processing tools. Therefore, the advantages it provides over other types of closed resources such as WordNet, which have been used as knowledge bases in numerous tasks related to language processing, are: its open nature, its continuous collaborative evolution, and its incremental growth through the inclusion of new resources and the creation of links with existing ones. However, its use is also not without risks, it is necessary to provide services capable of diagnosing the quality of open data and repairing it if necessary, prior to its use in the necessary language analysis processes. (English)
    0.3632401014263856
    0 references
    Tekstianalüüsi tehnoloogiad analüüsivad struktureerimata tekstisisu, mis ulatub kuni 80 %ni kõigist ettevõtetes kättesaadavatest andmetest (dokumendid, e-kirjad, sotsiaalmeedia teave ja muu tekstipõhine teave), eesmärgiga koguda asjakohast teavet ja muuta see ettevõtete jaoks konkurentsivõimeliseks ja strateegiliseks eeliseks. Need tehnoloogiad pakuvad tööstuses paljutõotavaid kasvuvõimalusi: prognoositakse, et ülemaailmne turg kasvab 2,65 miljardilt dollarilt 2015. aastal peaaegu 6 miljardi dollarini 2020. aastal, kusjuures aastane koondmäär on 17,5 %. Teised uuringud mõjutavad piirkonna potentsiaali ja isegi parandavad eeldatavaid näitajaid. Piirkondade osas eeldatakse, et Põhja-Ameerika jääb suuruse poolest suurimaks turuks, samal ajal kui Euroopa ja Aasia kogevad prognoosiperioodil suuremat turujõudu. Sellega seoses teatas tööstusministeerium hiljuti 90 miljoni euro suurusest keeletehnoloogia edendamise kavast, mille eesmärk on edendada hispaania keele loomuliku töötlemise arengut ning suurendada hispaania keele ja teiste ametlike keelte infrastruktuuride arvu, kvaliteeti ja kättesaadavust; edendada Hispaania keeletööstust. Hoolimata olemasolevatest kaubanduslikest lahendustest on enamik struktureerimata andmeid siiski varjatud, kuna puuduvad asjakohased analüüsivahendid, mis ei kasuta keelelise töötlemise ja semantilise ebakindluse valdkonnas kõige uuemaid tehnoloogilisi uuendusi nimeliste üksuste tuvastamisel, kaevandusarvamuste või automaatsete tekstikokkuvõtete tegemisel ega olemasolevate suurte struktureeritud teadmistebaaside kasutamisest saadava kasu tõttu. Enamik TextAnalytics’i praegustest ärilahendustest on põhinenud varaliste teadmiste baasil, mis on piiratud suuruse ja ulatusega ning mida haldavad selliseid teenuseid pakkuvad ettevõtted, mis aeglustab oluliselt nende arengut ja vigaste andmete paranemist. Teisest küljest on need, mis põhinevad vabadel teadmistebaasidel (nt Wikipedia, DBpedia jne), näidanud avatud andmete tööstuslikku kasulikkust, kuid lihtsate analüüsivõimalustega (nt märksõnad) või puhtalt statistiliste lähenemisviisidega, nii et nad saavutavad madala täpsuse ja nende teadmiste baasi ei parandata ega parandata. Projektis esTextAnalytics tehakse ettepanek arendada Cloudis tekstianalüütika teenuseid, kasutades loomulikku keeletöötlust (NLP) ja semantilist tehnoloogiat annotatsiooni ja segaduse kohta ning kasutades esDBpediat teadmistebaasina, mida täiustatakse automaatsete diagnoosimis-, parandamis- ja ajakohastamismehhanismide lisamisega, samuti litsentside automaatse haldamisega patenteeritud välisteadmiste kaasamiseks. Selles mõttes kasutab projekt esTextAnalytics DDBpediast saadavat kasu suurtes kogustes lingitud andmeveebis kättesaadavate avatud andmete ja keeleressursside allikana, et parandada loomulike keeletöötlusvahendite kvaliteeti. Seetõttu on eelised, mida see annab teistele suletud ressurssidele, nagu WordNet, mida on kasutatud teadmiste baasina paljudes keeletöötlusega seotud ülesannetes, järgmised: selle avatud olemus, pidev koostööareng ja järkjärguline kasv uute ressursside kaasamise ja olemasolevatega sidemete loomise kaudu. Siiski ei ole selle kasutamine ilma riskideta, vaid vaja on osutada teenuseid, mis võimaldavad diagnoosida avatud andmete kvaliteeti ja vajaduse korral neid parandada, enne kui neid kasutatakse vajalikes keeleanalüüsi protsessides. (Estonian)
    0 references
    As tecnologias de análise de texto analisam conteúdos textuais não estruturados, que atingem até 80% de todos os dados disponíveis nas empresas (documentos, e-mails, informações das redes sociais e outras informações baseadas em texto), com o objetivo de extrair informações relevantes e transformá-las numa vantagem competitiva e estratégica para as empresas. Estas tecnologias têm oportunidades de crescimento promissoras na indústria: prevê-se que o mercado mundial cresça de 2,65 mil milhões de dólares em 2015 para quase 6 mil milhões de dólares em 2020, a uma taxa anual composta de 17,5 %. Outros estudos afetam o potencial da área e até melhoram os números esperados. Em termos de regiões, espera-se que a América do Norte continue a ser o maior mercado em termos de tamanho, enquanto a Europa e a Ásia experimentam maior tração do mercado durante o período de previsão. A este respeito, o Ministério da Indústria anunciou recentemente o plano de 90 milhões de euros para a promoção das tecnologias da linguagem, com o objetivo de promover o desenvolvimento do processamento da linguagem natural em espanhol, aumentando o número, a qualidade e a disponibilidade de infraestruturas linguísticas em espanhol e línguas cooficiais; promover a indústria linguística em Espanha. No entanto, apesar das soluções comerciais disponíveis, a maioria dos dados não estruturados permanecem ocultos devido à falta de ferramentas adequadas para análise, que não utilizam as mais recentes inovações tecnológicas nas áreas de processamento linguístico e desambiguação semântica para domínios abertos na detecção de entidades nomeadas, pareceres de mineração ou resumos de texto automáticos, nem os benefícios da utilização das grandes bases de conhecimento estruturadas disponíveis. A maioria das atuais soluções empresariais da TextAnalytics assentam em bases de conhecimento exclusivas, limitadas em termos de dimensão e âmbito e, além disso, geridas pelas empresas que oferecem esses serviços, o que atrasa consideravelmente a sua evolução e a correção de dados erróneos. Por outro lado, aqueles baseados em bases de conhecimento livres (por exemplo, Wikipédia, DBpedia, etc.) demonstraram a utilidade industrial dos Dados Abertos, mas com opções de análise simples (por exemplo, palavras-chave) ou abordagens puramente estatísticas, de modo que obtêm baixa precisão e sua base de conhecimento não é melhorada nem curada. O projeto esTextAnalytics propõe o desenvolvimento de serviços de Text Analytics na Nuvem, através da utilização do processamento de linguagem natural (NLP) e de tecnologias semânticas de anotação e desambiguação, e com a utilização da esDBpedia como base de conhecimento, melhorada com a incorporação de mecanismos automáticos de diagnóstico, reparação e atualização de conhecimentos erróneos, bem como a gestão automática de licenças para a incorporação de conhecimento externo proprietário. Neste sentido, o projecto esTextAnalytics explorará os benefícios da DDBpedia como fonte de grandes volumes de dados abertos e recursos linguísticos disponíveis na Web de Dados Ligados para melhorar a qualidade das ferramentas de processamento de linguagem natural. Portanto, as vantagens que oferece em relação a outros tipos de recursos fechados, como o WordNet, que têm sido utilizados como bases de conhecimento em inúmeras tarefas relacionadas ao processamento de linguagem, são: a sua natureza aberta, a sua contínua evolução colaborativa e o seu crescimento incremental através da inclusão de novos recursos e da criação de ligações com os existentes. No entanto, a sua utilização também não é isenta de riscos, sendo necessário prestar serviços capazes de diagnosticar a qualidade dos dados abertos e repará-los, se necessário, antes da sua utilização nos processos de análise linguística necessários. (Portuguese)
    0 references
    Textanalysteknik analyserar ostrukturerat textinnehåll, som når upp till 80 % av all data som finns tillgänglig i företag (dokument, e-post, sociala medier och annan textbaserad information), i syfte att extrahera relevant information och omvandla den till en konkurrenskraftig och strategisk fördel för företag. Dessa tekniker har lovande tillväxtmöjligheter i branschen: den globala marknaden förväntas växa från 2,65 miljarder dollar 2015 till nästan 6 miljarder dollar 2020, med en sammansatt årlig hastighet på 17,5 %. Andra studier påverkar områdets potential och förbättrar till och med de förväntade siffrorna. När det gäller regioner förväntas Nordamerika förbli den största marknaden sett till storlek, medan Europa och Asien upplever större marknadskraft under prognosperioden. I detta avseende har industriministeriet nyligen aviserat en plan på 90 miljoner euro för främjande av språkteknik, i syfte att främja utvecklingen av naturlig språkbehandling på spanska, öka antalet, kvaliteten på och tillgången till språkinfrastrukturer på spanska och samofficiella språk. främja språkindustrin i Spanien. Trots de tillgängliga kommersiella lösningarna förblir de flesta ostrukturerade data dolda på grund av bristen på lämpliga analysverktyg, som inte använder de senaste tekniska innovationerna inom områdena språklig bearbetning och semantisk disambiguation för öppna områden när det gäller upptäckt av namngivna enheter, åsikter om gruvdrift eller automatiska textsammanfattningar, eller fördelarna med att använda de stora strukturerade kunskapsbaserna som finns tillgängliga. De flesta av TextAnalytics nuvarande affärslösningar har baserats på egenutvecklade kunskapsbaser som är begränsade i storlek och omfattning och hanteras dessutom av de företag som erbjuder sådana tjänster, vilket kraftigt bromsar deras utveckling och läkning av felaktiga data. Å andra sidan har de som bygger på fria kunskapsbaser (t.ex. Wikipedia, DBpedia, etc.) visat den industriella nyttan av öppna data men med enkla analysalternativ (t.ex. sökord) eller rent statistiska metoder, så att de får låg noggrannhet och deras kunskapsbas varken förbättras eller botas. Projektet esTextAnalytics föreslår utveckling av Text Analytics-tjänster i molnet, genom användning av naturlig språkbehandling (NLP) och semantisk teknik för annotering och disambiguation, och med användning av esDBpedia som kunskapsbas, förbättrad med införlivandet av automatiska mekanismer för diagnos, reparation och uppdatering av felaktig kunskap, samt automatisk hantering av licenser för införlivande av egen extern kunskap. I denna mening kommer esTextAnalytics-projektet att utnyttja fördelarna med DDBpedia som en källa till stora volymer av öppna data och språkliga resurser som finns tillgängliga på Linked Data Web för att förbättra kvaliteten på naturliga språkbehandlingsverktyg. Därför, de fördelar det ger jämfört med andra typer av slutna resurser som WordNet, som har använts som kunskapsbaser i många uppgifter relaterade till språkbehandling, är: dess öppna natur, dess kontinuerliga samarbetsutveckling och dess stegvisa tillväxt genom att inkludera nya resurser och skapa kopplingar till befintliga resurser. Användningen av den är dock inte heller utan risker, utan det är nödvändigt att tillhandahålla tjänster som kan diagnostisera kvaliteten på öppna data och reparera dem vid behov, innan de används i nödvändiga språkanalysprocesser. (Swedish)
    0 references
    Tekstanalyseteknologier analyserer ustruktureret tekstindhold, som når op til 80 % af alle data, der er tilgængelige i virksomheder (dokumenter, e-mails, oplysninger på sociale medier og andre tekstbaserede oplysninger), med det formål at udtrække relevante oplysninger og omdanne dem til en konkurrencemæssig og strategisk fordel for virksomheder. Disse teknologier har lovende vækstmuligheder i branchen: det globale marked forventes at vokse fra 2,65 milliarder dollars i 2015 til næsten 6 milliarder dollars i 2020, med en samlet årlig sats på 17,5 %. Andre undersøgelser påvirker områdets potentiale og forbedrer endda de forventede tal. Med hensyn til regioner forventes Nordamerika at forblive det største marked målt i størrelse, mens Europa og Asien oplever større markedstræk i prognoseperioden. I denne forbindelse har industriministeriet for nylig bebudet planen på 90 mio. EUR til fremme af sprogteknologi med det formål at fremme udviklingen af naturlig sprogbehandling på spansk og øge antallet, kvaliteten og tilgængeligheden af sproginfrastrukturer på spansk og medofficielle sprog; fremme sprogindustrien i Spanien. På trods af de tilgængelige kommercielle løsninger er de fleste ustrukturerede data dog fortsat skjult på grund af manglen på passende analyseværktøjer, som ikke anvender de seneste teknologiske innovationer inden for sproglig behandling og semantisk uklarhed for åbne domæner til påvisning af navngivne enheder, mineudtalelser eller automatiske tekstresuméer, eller fordelene ved at anvende de store strukturerede vidensbaser, der er til rådighed. De fleste af TextAnalytics' nuværende forretningsløsninger har været baseret på proprietære vidensbaser, der er begrænset i størrelse og omfang og desuden styres af de virksomheder, der tilbyder sådanne tjenester, hvilket i høj grad bremser deres udvikling og helbredelse af fejlagtige data. På den anden side har de baseret på gratis videnbaser (f.eks. Wikipedia, DBpedia osv.) demonstreret den industrielle nytte af åbne data, men med enkle analysemuligheder (f.eks. søgeord) eller rent statistiske tilgange, så de opnår lav nøjagtighed, og deres videnbase forbedres eller helbredes hverken. Projektet esTextAnalytics foreslår udvikling af Text Analytics-tjenester i skyen, gennem brug af naturlige sprogbehandling (NLP) og semantiske teknologier af annotation og uklarhed, og med brugen af esDBpedia som vidensbase, forbedret med indarbejdelse af automatiske mekanismer til diagnosticering, reparation og opdatering af fejlagtig viden samt automatisk forvaltning af licenser til inkorporering af proprietær ekstern viden. I denne forstand vil esTextAnalytics-projektet udnytte fordelene ved DDBpedia som en kilde til store mængder åbne data og sproglige ressourcer, der er tilgængelige på Linked Data Web, for at forbedre kvaliteten af naturlige sprogbehandlingsværktøjer. Derfor er de fordele, det giver i forhold til andre typer af lukkede ressourcer som WordNet, der er blevet brugt som vidensbaser i mange opgaver relateret til sprogbehandling: dens åbne natur, dens fortsatte samarbejdsudvikling og dens stigende vækst gennem inddragelse af nye ressourcer og skabelse af forbindelser med eksisterende. Brugen af det er imidlertid heller ikke uden risici, det er nødvendigt at levere tjenester, der kan diagnosticere kvaliteten af åbne data og om nødvendigt reparere dem, inden de anvendes i de nødvendige sproganalyseprocesser. (Danish)
    0 references
    Tehnologiile de analiză a textului analizează conținutul textual nestructurat, care ajunge până la 80 % din toate datele disponibile în companii (documente, e-mailuri, informații din social media și alte informații bazate pe text), cu scopul de a extrage informații relevante și de a le transforma într-un avantaj competitiv și strategic pentru companii. Aceste tehnologii au oportunități de creștere promițătoare în industrie: se estimează că piața globală va crește de la 2,65 miliarde de dolari în 2015 la aproape 6 miliarde de dolari în 2020, la o rată anuală compusă de 17,5 %. Alte studii afectează potențialul zonei și chiar îmbunătățesc cifrele așteptate. În ceea ce privește regiunile, se preconizează că America de Nord va rămâne cea mai mare piață în ceea ce privește dimensiunea, în timp ce Europa și Asia se confruntă cu o tracțiune mai mare a pieței în perioada de prognoză. În acest sens, Ministerul Industriei a anunțat recent Planul de 90 de milioane EUR pentru promovarea tehnologiilor lingvistice, cu scopul de a promova dezvoltarea procesării limbajului natural în limba spaniolă, de a crește numărul, calitatea și disponibilitatea infrastructurilor lingvistice în limba spaniolă și în limbile cooficiale; promovarea industriei lingvistice în Spania. Cu toate acestea, în ciuda soluțiilor comerciale disponibile, majoritatea datelor nestructurate rămân ascunse din cauza lipsei de instrumente adecvate de analiză, care nu utilizează cele mai recente inovații tehnologice în domeniul prelucrării lingvistice și al dezambiguizării semantice pentru domenii deschise în detectarea entităților numite, a opiniilor miniere sau a rezumatelor textelor automate, nici beneficiile utilizării bazelor mari de cunoștințe structurate disponibile. Majoritatea soluțiilor actuale de business ale TextAnalytics s-au bazat pe baze de cunoștințe care sunt limitate ca dimensiune și domeniu de aplicare și, în plus, sunt gestionate de companiile care oferă astfel de servicii, ceea ce încetinește foarte mult evoluția și vindecarea datelor eronate. Pe de altă parte, cele bazate pe baze de cunoștințe libere (de exemplu, Wikipedia, DBpedia etc.) au demonstrat utilitatea industrială a datelor deschise, dar cu opțiuni simple de analiză (de exemplu, cuvinte cheie) sau abordări pur statistice, astfel încât să obțină o precizie scăzută și baza lor de cunoștințe nu este nici îmbunătățită, nici vindecată. Proiectul esTextAnalytics propune dezvoltarea serviciilor de analiză text în Cloud, prin utilizarea tehnologiilor de procesare a limbajului natural (NLP) și a tehnologiilor semantice de adnotare și dezambiguizare și cu utilizarea esDBpedia ca bază de cunoștințe, îmbunătățită prin încorporarea mecanismelor automate de diagnosticare, reparare și actualizare a cunoștințelor eronate, precum și gestionarea automată a licențelor pentru încorporarea cunoștințelor externe proprietare. În acest sens, proiectul esTextAnalytics va exploata beneficiile DDBpedia ca sursă de volume mari de date deschise și resurse lingvistice disponibile pe Linked Data Web pentru a îmbunătăți calitatea instrumentelor de procesare a limbajului natural. Prin urmare, avantajele pe care le oferă față de alte tipuri de resurse închise, cum ar fi WordNet, care au fost utilizate ca baze de cunoștințe în numeroase sarcini legate de procesarea limbajului, sunt: natura sa deschisă, evoluția sa colaborativă continuă și creșterea sa incrementală prin includerea de noi resurse și crearea de legături cu cele existente. Cu toate acestea, utilizarea sa nu este lipsită de riscuri, este necesar să se furnizeze servicii capabile să diagnosticheze calitatea datelor deschise și să le repare, dacă este necesar, înainte de utilizarea lor în procesele de analiză lingvistică necesare. (Romanian)
    0 references
    „Text Analytics“ technologijos analizuoja nestruktūrizuotą tekstinį turinį, kuris pasiekia iki 80 % visų įmonių turimų duomenų (dokumentų, el. laiškų, socialinės žiniasklaidos informacijos ir kitos tekstinės informacijos), siekiant išgauti atitinkamą informaciją ir paversti ją konkurenciniu ir strateginiu pranašumu įmonėms. Šios technologijos turi daug žadančių augimo galimybių pramonėje: prognozuojama, kad pasaulinė rinka augs nuo 2,65 mlrd. dolerių 2015 m. iki beveik 6 mlrd. Kiti tyrimai turi įtakos vietovės potencialui ir netgi pagerina numatomus skaičius. Kalbant apie regionus, tikimasi, kad Šiaurės Amerika išliks didžiausia rinka pagal dydį, o Europoje ir Azijoje prognozuojamu laikotarpiu rinkos trauka bus didesnė. Šiuo atžvilgiu Pramonės ministerija neseniai paskelbė 90 mln. EUR vertės Kalbų technologijų skatinimo planą, kuriuo siekiama skatinti natūralios kalbos apdorojimo plėtrą ispanų kalba, didinant kalbų infrastruktūrų ispanų ir kitų oficialiųjų kalbų skaičių, kokybę ir prieinamumą; skatinti kalbos industriją Ispanijoje. Tačiau, nepaisant turimų komercinių sprendimų, dauguma nestruktūrizuotų duomenų lieka paslėpti dėl tinkamų analizės priemonių trūkumo, nes jose nenaudojamos naujausios technologinės naujovės kalbų apdorojimo ir semantinio neatitikimo atvirose srityse aptinkant įvardytus subjektus, kasybos nuomones ar automatines teksto santraukas, taip pat nauda, gaunama naudojantis didelėmis turimomis struktūrizuotomis žinių bazėmis. Dauguma „TextAnalytics“ dabartinių verslo sprendimų buvo pagrįsti nuosavybės žinių bazėmis, kurios yra ribotos apimties ir apimties ir, be to, valdo tokias paslaugas teikiančios įmonės, o tai labai sulėtina jų evoliuciją ir klaidingų duomenų gijimą. Kita vertus, laisvomis žinių bazėmis (pvz., „Wikipedia“, „DBpedia“ ir t. t.) pagrįsti moksliniai tyrimai parodė atvirųjų duomenų pramoninį naudingumą, tačiau su paprastomis analizės galimybėmis (pvz., raktiniais žodžiais) arba grynai statistiniais metodais, todėl jie gauna žemą tikslumą, o jų žinių bazė nėra nei pagerinta, nei išgydoma. Projekte „esTextAnalytics“ siūloma plėtoti „TextAnalytics“ paslaugas debesyje, naudojant natūralios kalbos apdorojimo (NLP) ir anotacijos ir dviprasmiškumo semantines technologijas, taip pat naudojant esDBpedia kaip žinių bazę, patobulintą įdiegus automatinius diagnostikos, taisymo ir klaidingų žinių atnaujinimo mechanizmus, taip pat automatinį licencijų valdymą nuosavybės išorinių žinių įtraukimui. Šia prasme „esTextAnalytics“ projektas išnaudos DDBpedia, kaip didelio kiekio atvirųjų duomenų ir kalbinių išteklių, prieinamų susietų duomenų žiniatinklyje, naudą, siekiant pagerinti natūralios kalbos apdorojimo priemonių kokybę. Todėl privalumai, kuriuos ji teikia prieš kitų rūšių uždarus išteklius, pvz., „WordNet“, kurie buvo naudojami kaip žinių bazės daugelyje su kalbos apdorojimu susijusių užduočių, yra šie: jos atvirumas, nuolatinė bendradarbiavimo raida ir laipsniškas augimas įtraukiant naujus išteklius ir kuriant sąsajas su esamais ištekliais. Tačiau jos naudojimas taip pat yra nerizikingas, būtina teikti paslaugas, kuriomis būtų galima diagnozuoti atvirųjų duomenų kokybę ir prireikus juos pataisyti, prieš naudojant juos reikiamuose kalbos analizės procesuose. (Lithuanian)
    0 references
    Text Analytics tehnologije analiziraju nestrukturirani tekstualni sadržaj, koji doseže do 80 % svih podataka dostupnih u tvrtkama (dokumenti, e-pošta, informacije o društvenim medijima i druge tekstualne informacije), s ciljem izvlačenja relevantnih informacija i pretvaranja tih podataka u konkurentsku i stratešku prednost za tvrtke. Te tehnologije imaju obećavajuće mogućnosti rasta u industriji: predviđa se da će globalno tržište porasti s 2,65 milijardi dolara u 2015. na gotovo 6 milijardi dolara u 2020., po složenoj godišnjoj stopi od 17,5 %. Druge studije utječu na potencijal područja, pa čak i poboljšavaju očekivane brojke. Što se tiče regija, očekuje se da će Sjeverna Amerika ostati najveće tržište po veličini, dok Europa i Azija doživljavaju veću privlačnost tržišta tijekom razdoblja prognoze. U tom je pogledu Ministarstvo industrije nedavno najavilo Plan za promicanje jezičnih tehnologija u vrijednosti od 90 milijuna EUR s ciljem promicanja razvoja obrade prirodnog jezika na španjolskom jeziku, povećanja broja, kvalitete i dostupnosti jezične infrastrukture na španjolskom i suslužbenom jeziku; promovirati jezičnu industriju u Španjolskoj. Međutim, unatoč dostupnim komercijalnim rješenjima, većina nestrukturiranih podataka ostaje skrivena zbog nedostatka odgovarajućih alata za analizu, u kojima se ne koriste najnovije tehnološke inovacije u području jezične obrade i semantičke prepreke za otvorene domene u otkrivanju imenovanih subjekata, rudarskih mišljenja ili automatskih sažetaka teksta, kao ni prednosti korištenja velikih dostupnih strukturiranih baza znanja. Većina postojećih rješenja TextAnalyticsa temeljila se na vlasničkim bazama znanja koje su ograničene veličinom i opsegom, a osim toga njima upravljaju tvrtke koje nude takve usluge, što uvelike usporava njihovu evoluciju i iscjeljivanje pogrešnih podataka. S druge strane, oni koji se temelje na slobodnim bazama znanja (npr. Wikipedija, DBpedia itd.) pokazali su industrijsku korisnost otvorenih podataka, ali s jednostavnim opcijama analize (npr. ključne riječi) ili isključivo statističkim pristupima, tako da dobivaju nisku točnost i njihova baza znanja nije ni poboljšana ni izliječena. Projekt esTextAnalytics predlaže razvoj usluga tekstualne analitike u oblaku, kroz upotrebu obrade prirodnog jezika (NLP) i semantičke tehnologije bilježaka i razjašnjenja, te uz korištenje esDBpedia kao baze znanja, poboljšanu inkorporacijom automatskih mehanizama dijagnoze, popravka i ažuriranja pogrešnih znanja, kao i automatskog upravljanja licencama za ugradnju vlasničkih vanjskih znanja. U tom smislu, projekt esTextAnalytics iskoristit će prednosti DDBpedia kao izvora velikih količina otvorenih podataka i jezičnih resursa dostupnih na Linked Data Webu kako bi se poboljšala kvaliteta alata za obradu prirodnog jezika. Stoga, prednosti koje pruža nad drugim vrstama zatvorenih resursa kao što je WordNet, koji su korišteni kao baze znanja u brojnim zadacima vezanim uz jezičnu obradu, su: njegova otvorena priroda, kontinuirani suradnički razvoj i njezin postupni rast uključivanjem novih resursa i stvaranjem veza s postojećim resursima. Međutim, njegovo korištenje također nije bez rizika, potrebno je pružiti usluge koje mogu dijagnosticirati kvalitetu otvorenih podataka i po potrebi ih popraviti prije njihove upotrebe u potrebnim procesima jezične analize. (Croatian)
    0 references
    Οι τεχνολογίες Text Analytics αναλύουν μη δομημένο περιεχόμενο κειμένου, το οποίο φτάνει μέχρι και το 80 % όλων των δεδομένων που είναι διαθέσιμα στις εταιρείες (έγγραφα, μηνύματα ηλεκτρονικού ταχυδρομείου, πληροφορίες στα μέσα κοινωνικής δικτύωσης και άλλες πληροφορίες που βασίζονται σε κείμενο), με στόχο την εξαγωγή σχετικών πληροφοριών και τη μετατροπή τους σε ανταγωνιστικό και στρατηγικό πλεονέκτημα για τις εταιρείες. Οι τεχνολογίες αυτές έχουν πολλά υποσχόμενες ευκαιρίες ανάπτυξης στη βιομηχανία: η παγκόσμια αγορά προβλέπεται να αυξηθεί από 2,65 δισεκατομμύρια δολάρια το 2015 σε σχεδόν 6 δισεκατομμύρια δολάρια το 2020, με ετήσιο ρυθμό 17,5 %. Άλλες μελέτες επηρεάζουν το δυναμικό της περιοχής και ακόμη βελτιώνουν τα αναμενόμενα αριθμητικά στοιχεία. Όσον αφορά τις περιοχές, η Βόρεια Αμερική αναμένεται να παραμείνει η μεγαλύτερη αγορά όσον αφορά το μέγεθος, ενώ η Ευρώπη και η Ασία έχουν μεγαλύτερη έλξη στην αγορά κατά τη διάρκεια της περιόδου πρόβλεψης. Στο πλαίσιο αυτό, το Υπουργείο Βιομηχανίας ανακοίνωσε πρόσφατα το σχέδιο των 90 εκατομμυρίων ευρώ για την προώθηση των γλωσσικών τεχνολογιών, με στόχο την προώθηση της επεξεργασίας της φυσικής γλώσσας στα ισπανικά, αυξάνοντας τον αριθμό, την ποιότητα και τη διαθεσιμότητα των γλωσσικών υποδομών στα ισπανικά και στις συνεπίσημες γλώσσες· προώθηση της γλωσσικής βιομηχανίας στην Ισπανία. Ωστόσο, παρά τις διαθέσιμες εμπορικές λύσεις, τα περισσότερα μη δομημένα δεδομένα παραμένουν κρυμμένα λόγω της έλλειψης κατάλληλων εργαλείων ανάλυσης, τα οποία δεν χρησιμοποιούν τις τελευταίες τεχνολογικές καινοτομίες στους τομείς της γλωσσικής επεξεργασίας και της σημασιολογικής αποσαφήνισης για ανοικτούς τομείς στον εντοπισμό κατονομαζόμενων οντοτήτων, γνωμών εξόρυξης ή αυτόματων περιλήψεων κειμένων, ούτε τα οφέλη από τη χρήση των μεγάλων δομημένων βάσεων γνώσεων που είναι διαθέσιμες. Οι περισσότερες από τις τρέχουσες επιχειρηματικές λύσεις της TextAnalytics βασίζονται σε ιδιόκτητες βάσεις γνώσεων που είναι περιορισμένες ως προς το μέγεθος και το πεδίο εφαρμογής και, επιπλέον, τις διαχειρίζονται οι εταιρείες που προσφέρουν τέτοιες υπηρεσίες, γεγονός που επιβραδύνει σημαντικά την εξέλιξη και την επούλωση λανθασμένων δεδομένων. Από την άλλη πλευρά, εκείνοι που βασίζονται σε ελεύθερες βάσεις γνώσης (π.χ. Wikipedia, DBpedia κ.λπ.) έχουν αποδείξει τη βιομηχανική χρησιμότητα των Ανοικτών Δεδομένων, αλλά με απλές επιλογές ανάλυσης (π.χ. λέξεις-κλειδιά) ή καθαρά στατιστικές προσεγγίσεις, έτσι ώστε να αποκτήσουν χαμηλή ακρίβεια και η βάση γνώσεων τους δεν βελτιώνεται ούτε θεραπεύεται. Το έργο esTextAnalytics προτείνει την ανάπτυξη υπηρεσιών Text Analytics στο Cloud, μέσω της χρήσης της επεξεργασίας φυσικής γλώσσας (NLP) και σημασιολογικών τεχνολογιών σχολιασμού και αποσαφήνισης, και με τη χρήση της esDBpedia ως βάσης γνώσεων, βελτιωμένη με την ενσωμάτωση αυτόματων μηχανισμών διάγνωσης, επιδιόρθωσης και επικαιροποίησης λανθασμένων γνώσεων, καθώς και την αυτόματη διαχείριση αδειών για την ενσωμάτωση ιδιόκτητων εξωτερικών γνώσεων. Με αυτή την έννοια, το έργο esTextAnalytics θα αξιοποιήσει τα οφέλη της DDBpedia ως πηγή μεγάλων όγκων ανοικτών δεδομένων και γλωσσικών πόρων που διατίθενται στο Linked Data Web για τη βελτίωση της ποιότητας των εργαλείων επεξεργασίας φυσικής γλώσσας. Ως εκ τούτου, τα πλεονεκτήματα που παρέχει σε σχέση με άλλους τύπους κλειστών πόρων, όπως το WordNet, οι οποίοι έχουν χρησιμοποιηθεί ως βάσεις γνώσεων σε πολυάριθμες εργασίες που σχετίζονται με την επεξεργασία της γλώσσας, είναι: ο ανοικτός χαρακτήρας του, η συνεχής συνεργατική του εξέλιξη και η σταδιακή ανάπτυξή του μέσω της συμπερίληψης νέων πόρων και της δημιουργίας δεσμών με τους υπάρχοντες. Ωστόσο, η χρήση του δεν είναι επίσης χωρίς κινδύνους, είναι απαραίτητο να παρέχονται υπηρεσίες ικανές να διαγνώσουν την ποιότητα των ανοικτών δεδομένων και να τα επιδιορθώσουν, εάν είναι απαραίτητο, πριν από τη χρήση τους στις απαραίτητες διαδικασίες γλωσσικής ανάλυσης. (Greek)
    0 references
    Text Analytics-technologieën analyseren ongestructureerde tekstuele inhoud, die tot 80 % van alle beschikbare gegevens in bedrijven (documenten, e-mails, sociale media-informatie en andere op tekst gebaseerde informatie) bereikt, met als doel relevante informatie te extraheren en om te zetten in een concurrerend en strategisch voordeel voor bedrijven. Deze technologieën hebben veelbelovende groeimogelijkheden in de industrie: de wereldwijde markt zal naar verwachting groeien van $ 2,65 miljard in 2015 tot bijna $ 6 miljard in 2020, met een samengesteld jaarlijks tarief van 17,5 %. Andere studies beïnvloeden het potentieel van het gebied en verbeteren zelfs de verwachte cijfers. In termen van regio’s zal Noord-Amerika naar verwachting de grootste markt blijven in termen van omvang, terwijl Europa en Azië tijdens de prognoseperiode meer markttractie ervaren. In dit verband heeft het ministerie van Industrie onlangs het plan van 90 miljoen euro voor de bevordering van taaltechnologieën aangekondigd, met als doel de ontwikkeling van natuurlijke taalverwerking in het Spaans te bevorderen, het aantal, de kwaliteit en de beschikbaarheid van taalinfrastructuren in de Spaanse en co-officiële talen te vergroten; het bevorderen van de taalindustrie in Spanje. Ondanks de beschikbare commerciële oplossingen blijven de meeste ongestructureerde gegevens echter verborgen vanwege het gebrek aan geschikte analyse-instrumenten, die geen gebruik maken van de nieuwste technologische innovaties op het gebied van taalverwerking en semantische deambiguatie voor open domeinen bij de opsporing van genoemde entiteiten, mijnbouwadviezen of automatische tekstsamenvattingen, noch de voordelen van het gebruik van de grote beschikbare gestructureerde kennisbanken. De meeste huidige zakelijke oplossingen van TextAnalytics zijn gebaseerd op eigen kennisbanken die beperkt zijn in omvang en reikwijdte en bovendien worden beheerd door de bedrijven die dergelijke diensten aanbieden, wat hun evolutie en genezing van foutieve gegevens sterk vertraagt. Aan de andere kant hebben degenen die gebaseerd zijn op vrije kennisbanken (bijvoorbeeld Wikipedia, DBpedia, enz.) het industriële nut van Open Data aangetoond, maar met eenvoudige analyseopties (bijv. trefwoorden) of puur statistische benaderingen, zodat ze lage nauwkeurigheid verkrijgen en hun kennisbasis niet wordt verbeterd of genezen. Het project esTextAnalytics stelt de ontwikkeling van Text Analytics-diensten in de Cloud voor, door het gebruik van natuurlijke taalverwerking (NLP) en semantische technologieën van annotatie en door het gebruik van esDBpedia als kennisbasis, verbeterd met de integratie van automatische mechanismen voor diagnose, reparatie en update van foutieve kennis, evenals het automatisch beheer van licenties voor de opname van eigen externe kennis. In deze zin zal het esTextAnalytics-project de voordelen van DDBpedia benutten als een bron van grote volumes open data en taalkundige bronnen die beschikbaar zijn op het Linked Data Web om de kwaliteit van natuurlijke taalverwerkingstools te verbeteren. Daarom zijn de voordelen die het biedt ten opzichte van andere soorten gesloten bronnen, zoals WordNet, die zijn gebruikt als kennisbasis in tal van taken met betrekking tot taalverwerking, zijn: het open karakter ervan, de voortdurende collaboratieve evolutie en de incrementele groei ervan door het opnemen van nieuwe middelen en het creëren van banden met bestaande. Het gebruik ervan is echter ook niet zonder risico’s, maar het is noodzakelijk diensten te verlenen die de kwaliteit van open gegevens kunnen diagnosticeren en indien nodig kunnen herstellen, voordat het wordt gebruikt in de noodzakelijke taalanalyseprocessen. (Dutch)
    0 references
    Tekstianalytiikkatekniikat analysoivat strukturoimatonta tekstisisältöä, joka tavoittaa jopa 80 % kaikesta yritysten saatavilla olevasta datasta (asiakirjat, sähköpostit, sosiaalisen median tiedot ja muut tekstipohjaiset tiedot) tarkoituksena poimia asiaankuuluvaa tietoa ja muuttaa se kilpailulliseksi ja strategiseksi eduksi yrityksille. Näillä teknologioilla on lupaavia kasvumahdollisuuksia teollisuudessa: maailmanmarkkinoiden ennustetaan kasvavan 2,65 miljardista dollarista vuonna 2015 lähes 6 miljardiin dollariin vuonna 2020 yhdistetyllä vuotuisella nopeudella 17,5 %. Muut tutkimukset vaikuttavat alueen potentiaaliin ja jopa parantavat odotettuja lukuja. Alueiden osalta Pohjois-Amerikan odotetaan pysyvän kooltaan suurimpana markkina-alueena, kun taas Euroopassa ja Aasiassa markkinoiden vetovoima kasvaa ennustejaksolla. Teollisuusministeriö on hiljattain ilmoittanut kieliteknologian edistämistä koskevasta 90 miljoonan euron suunnitelmasta, jonka tavoitteena on edistää luonnollisen kielenkäsittelyn kehittämistä espanjaksi ja lisätä kieliinfrastruktuurien määrää, laatua ja saatavuutta espanjan kielellä ja yhteisvirallisilla kielillä. edistää kieliteollisuutta Espanjassa. Käytettävissä olevista kaupallisista ratkaisuista huolimatta suurin osa strukturoimattomista tiedoista on edelleen piilossa, koska käytettävissä ei ole asianmukaisia analyysivälineitä, joissa ei käytetä uusimpia teknologisia innovaatioita kielellisen käsittelyn ja semanttisen semanttisen semanttisen semanttisen semanttisen erittelyn alalla nimettyjen yksiköiden havaitsemisessa, kaivoslausunnot tai automaattiset tekstitiivistelmät, eikä saatavilla olevien laajojen strukturoitujen tietokantojen käytön eduista. Suurin osa TextAnalyticsin nykyisistä liiketoimintaratkaisuista on perustunut omaan tietopohjaan, joka on kooltaan ja laajuudeltaan rajallinen, ja lisäksi niitä hallinnoivat yritykset, jotka tarjoavat tällaisia palveluja, mikä hidastaa huomattavasti niiden kehitystä ja virheellisen tiedon paranemista. Toisaalta ne, jotka perustuvat vapaaseen tietopohjaan (esim. Wikipedia, DBpedia jne.), ovat osoittaneet avoimen datan teollisen hyödyn mutta yksinkertaisilla analyysivaihtoehdoilla (esim. avainsanat) tai puhtaasti tilastollisilla lähestymistavoilla, joten niiden tarkkuus on alhainen eikä niiden tietopohjaa paranneta eikä paranneta. EsTextAnalytics-hankkeessa ehdotetaan Tekstianalytiikkapalvelujen kehittämistä pilvessä käyttämällä luonnollista kielenkäsittelyä (NLP) ja semanttista merkintä- ja semanttista tekniikkaa sekä käyttämällä esDBpediaa tietopohjana, jota parannetaan ottamalla käyttöön automaattiset diagnoosi-, korjaus- ja päivitysmekanismit sekä hallinnoimalla automaattisesti lisenssit omistusoikeuden ulkopuolisen tiedon sisällyttämiseksi. Tässä mielessä esTextAnalytics-hankkeessa hyödynnetään DDBpedian etuja Linked Data Webissä saatavilla olevien suurten avoimen datan ja kieliresurssien lähteenä luonnollisten kielenkäsittelyvälineiden laadun parantamiseksi. Siksi sen tarjoamat edut verrattuna muihin suljettuihin resursseihin, kuten WordNetiin, joita on käytetty tietopohjana lukuisissa kielenkäsittelyyn liittyvissä tehtävissä, ovat: sen avoin luonne, sen jatkuva yhteistoiminnallinen kehitys ja asteittainen kasvu sisällyttämällä siihen uusia resursseja ja luomalla yhteyksiä olemassa oleviin resursseihin. Sen käyttö ei kuitenkaan ole riskitöntä, vaan on tarpeen tarjota palveluja, joilla voidaan diagnosoida avoimen datan laatu ja tarvittaessa korjata se, ennen kuin sitä käytetään tarvittavissa kielianalyysiprosesseissa. (Finnish)
    0 references
    Déanann teicneolaíochtaí Anailísíochta Téacs anailís ar inneachar téacs neamhstruchtúrtha, a shroicheann suas le 80 % de na sonraí ar fad atá ar fáil i gcuideachtaí (doiciméid, ríomhphoist, faisnéis ó na meáin shóisialta agus faisnéis téacsbhunaithe eile), agus é mar aidhm leis sin faisnéis ábhartha a bhaint amach agus buntáiste iomaíoch straitéiseach a dhéanamh de do chuideachtaí. Tá deiseanna fáis a bhfuil gealladh fúthu sa tionscal ag na teicneolaíochtaí sin: tuartar go bhfásfaidh an margadh domhanda ó $2.65 billiún in 2015 go beagnach $6 billiún in 2020, ag ráta bliantúil cumaisc 17.5 %. Bíonn tionchar ag staidéir eile ar acmhainneacht an cheantair, agus fiú feabhas a chur ar na figiúirí a bhfuiltear ag súil leo. Ó thaobh na réigiún de, táthar ag súil go bhfanfaidh Meiriceá Thuaidh ar an margadh is mó ó thaobh méide de, agus bíonn tarraingt mhargaidh níos mó ag an Eoraip agus ag an Áise le linn na tréimhse réamhaisnéise. I ndáil leis sin, d’fhógair an Aireacht Tionscail le déanaí an Plean EUR 90 milliún chun Teicneolaíochtaí Teanga a Chur Chun Cinn, arb é is aidhm dó forbairt ar phróiseáil na dteangacha nádúrtha sa Spáinnis a chur chun cinn, líon, cáilíocht agus infhaighteacht na mbonneagar teanga i Spáinnis agus i dteangacha comhoifigiúla a mhéadú; tionscal na dteangacha a chur chun cinn sa Spáinn. Mar sin féin, in ainneoin na réiteach tráchtála atá ar fáil, tá an chuid is mó de na sonraí neamhstruchtúrtha fós i bhfolach mar gheall ar easpa uirlisí iomchuí le haghaidh anailíse, nach n-úsáideann na nuálaíochtaí teicneolaíochta is déanaí i réimsí na próiseála teangeolaíche agus an débhríocht shéimeantach maidir le fearainn oscailte chun eintitis ainmnithe a bhrath, tuairimí mianadóireachta nó achoimrí téacs uathoibríocha, ná na buntáistí a bhaineann leis na boinn mhóra struchtúrtha eolais atá ar fáil a úsáid. An chuid is mó de TextAnalytics 'réitigh gnó atá ann faoi láthair a bhí bunaithe ar bhoinn eolais dílseánaigh atá teoranta i méid agus raon feidhme agus, ina theannta sin, á mbainistiú ag na cuideachtaí a chuireann seirbhísí den sórt sin, a slows go mór síos a n-éabhlóid agus leighis sonraí earráideach. Ar an taobh eile, léirigh na cinn atá bunaithe ar bhoinn eolais saor in aisce (e.g. Vicipéid, DBpedia, etc.) áirgiúlacht thionsclaíoch Sonraí Oscailte ach le roghanna anailíse simplí (e.g. eochairfhocail) nó cur chuige staitistiúil amháin, ionas go bhfaigheann siad cruinneas íseal agus ní dhéantar a mbonn eolais a fheabhsú ná a leigheas. Molann an tionscadal esTextAnalytics go bhforbrófar seirbhísí Anailísíochta Téacs sa Néal, trí úsáid a bhaint as próiseáil teanga nádúrtha (NLP) agus as teicneolaíochtaí séimeantacha anótála agus disambiguation, agus le húsáid esDBpedia mar bhonn eolais, feabhsaithe le hionchorprú meicníochtaí uathoibríocha diagnóise, deisiúcháin agus nuashonrú eolais earráideach, chomh maith le bainistiú uathoibríoch ceadúnas chun eolas seachtrach dílseánaigh a ionchorprú. Sa chiall sin, bainfidh an tionscadal esTextAnalytics leas as buntáistí DDBpedia mar fhoinse mór sonraí oscailte agus acmhainní teanga atá ar fáil ar an nGréasán Sonraí Nasctha chun feabhas a chur ar cháilíocht na n-uirlisí próiseála teanga nádúrtha. Dá bhrí sin, is iad na buntáistí a chuireann sé ar fáil thar chineálacha eile acmhainní dúnta ar nós WordNet, a úsáideadh mar bhoinn eolais i go leor tascanna a bhaineann le próiseáil teanga: a nádúr oscailte, a héabhlóid chomhoibríoch leanúnach, agus a fás incriminteach trí acmhainní nua a chuimsiú agus trí naisc a chruthú leis na cinn atá ann cheana. Mar sin féin, ní gan rioscaí a bhaineann lena n-úsáid, áfach, is gá seirbhísí a sholáthar atá in ann cáilíocht na sonraí oscailte a dhiagnóisiú agus a dheisiú más gá, sula n-úsáidfear iad sna próisis anailíse teanga is gá. (Irish)
    0 references
    Technologie textové analýzy analyzují nestrukturovaný textový obsah, který dosahuje až 80 % všech dat dostupných ve společnostech (dokumenty, e-maily, informace o sociálních médiích a další textové informace), s cílem získat relevantní informace a přeměnit je na konkurenční a strategickou výhodu pro společnosti. Tyto technologie mají slibné růstové příležitosti v tomto odvětví: očekává se, že globální trh vzroste z 2,65 miliardy dolarů v roce 2015 na téměř 6 miliard dolarů v roce 2020, a to složeným ročním tempem 17,5 %. Další studie ovlivňují potenciál oblasti a dokonce zlepšují očekávané údaje. Pokud jde o regiony, očekává se, že Severní Amerika zůstane největším trhem, pokud jde o velikost, zatímco Evropa a Asie zažívají v prognózovaném období větší tržní trakci. V tomto ohledu ministerstvo průmyslu nedávno oznámilo plán podpory jazykových technologií ve výši 90 milionů EUR s cílem podpořit rozvoj zpracování přirozeného jazyka ve španělštině, zvýšit počet, kvalitu a dostupnost jazykových infrastruktur ve španělštině a spoluoficiálních jazycích; podpora jazykového průmyslu ve Španělsku. Navzdory dostupným komerčním řešením však většina nestrukturovaných dat zůstává skryta kvůli nedostatku vhodných analytických nástrojů, které nevyužívají nejnovější technologické inovace v oblasti jazykového zpracování a sémantického rozkladu pro otevřené domény při odhalování pojmenovaných subjektů, těžebních posudcích nebo automatických textových shrnutích, ani výhody využití velkých dostupných strukturovaných znalostních základen. Většina současných obchodních řešení společnosti TextAnalytics byla založena na proprietárních znalostních základech, které jsou omezené co do velikosti a rozsahu a navíc jsou řízeny společnostmi, které takové služby nabízejí, což značně zpomaluje jejich vývoj a léčení chybných dat. Na druhé straně ty, které jsou založeny na svobodných znalostních základech (např. Wikipedie, DBpedia atd.), prokázaly průmyslovou užitečnost otevřených dat, ale s jednoduchými možnostmi analýzy (např. klíčová slova) nebo čistě statistickými přístupy, takže získávají nízkou přesnost a jejich znalostní základna není ani zlepšována, ani vyléčena. Projekt esTextAnalytics navrhuje vývoj služeb textové analýzy v cloudu prostřednictvím využití zpracování přirozeného jazyka (NLP) a sémantických technologií anotace a disambiguace a s využitím esDBpedia jako znalostní základny, vylepšené začleněním automatických mechanismů diagnostiky, opravy a aktualizace chybných znalostí, jakož i automatické správy licencí pro začlenění proprietárních externích znalostí. V tomto smyslu bude projekt esTextAnalytics využívat výhod DDBpedia jako zdroje velkých objemů otevřených dat a jazykových zdrojů dostupných na webu propojených dat ke zlepšení kvality nástrojů pro zpracování přirozeného jazyka. Proto výhody, které poskytuje oproti jiným typům uzavřených zdrojů, jako je WordNet, které byly použity jako znalostní báze v mnoha úkolech souvisejících se zpracováním jazyků, jsou: jeho otevřená povaha, nepřetržitý vývoj spolupráce a její inkrementální růst prostřednictvím začlenění nových zdrojů a vytváření vazeb se stávajícími zdroji. Jeho použití však také není bez rizik, je nutné poskytovat služby schopné diagnostikovat kvalitu veřejně přístupných dat a v případě potřeby je opravit, a to před jejich použitím v nezbytných jazykových analytických procesech. (Czech)
    0 references
    Le tecnologie text Analytics analizzano contenuti testuali non strutturati, che raggiungono fino all'80 % di tutti i dati disponibili nelle aziende (documenti, email, informazioni sui social media e altre informazioni testuali), con l'obiettivo di estrarre informazioni rilevanti e trasformarle in un vantaggio competitivo e strategico per le aziende. Queste tecnologie hanno promettenti opportunità di crescita nel settore: si prevede che il mercato globale passerà da 2,65 miliardi di dollari nel 2015 a quasi 6 miliardi di dollari nel 2020, ad un tasso annuo composto del 17,5 %. Altri studi influenzano il potenziale dell'area e addirittura migliorano i dati attesi. In termini di regioni, il Nord America dovrebbe rimanere il più grande mercato in termini di dimensioni, mentre Europa e Asia registrano una maggiore trazione di mercato nel periodo di previsione. A tale proposito, il Ministero dell'Industria ha recentemente annunciato il Piano da 90 milioni di euro per la promozione delle tecnologie linguistiche, con l'obiettivo di promuovere lo sviluppo dell'elaborazione delle lingue naturali in spagnolo, aumentando il numero, la qualità e la disponibilità delle infrastrutture linguistiche in spagnolo e nelle lingue co-ufficiali; promuovere l'industria linguistica in Spagna. Tuttavia, nonostante le soluzioni commerciali disponibili, la maggior parte dei dati non strutturati rimangono nascosti a causa della mancanza di strumenti adeguati per l'analisi, che non utilizzano le ultime innovazioni tecnologiche nei settori dell'elaborazione linguistica e della disambiguazione semantica per domini aperti nel rilevamento di entità nominate, opinioni minerarie o sintesi di testo automatico, né i vantaggi dell'utilizzo delle grandi basi di conoscenze strutturate disponibili. La maggior parte delle attuali soluzioni di business di TextAnalytics si è basata su basi di conoscenze proprietarie che sono limitate per dimensioni e portata e, inoltre, sono gestite dalle aziende che offrono tali servizi, che rallenta notevolmente la loro evoluzione e la guarigione di dati errati. D'altra parte, quelli basati su basi di conoscenza libere (ad esempio Wikipedia, DBpedia, ecc.) hanno dimostrato l'utilità industriale degli Open Data ma con semplici opzioni di analisi (ad esempio parole chiave) o approcci puramente statistici, in modo da ottenere una scarsa precisione e la loro base di conoscenze non è né migliorata né curata. Il progetto esTextAnalytics propone lo sviluppo di servizi di Text Analytics in Cloud, attraverso l'utilizzo di tecnologie di elaborazione del linguaggio naturale (NLP) e semantiche di annotazione e disambiguazione, e con l'utilizzo di esDBpedia come base di conoscenza, migliorata con l'incorporazione di meccanismi automatici di diagnosi, riparazione e aggiornamento di conoscenze errate, nonché la gestione automatica delle licenze per l'incorporazione di conoscenze esterne proprietarie. In questo senso, il progetto esTextAnalytics sfrutterà i benefici di DDBpedia come fonte di grandi volumi di dati aperti e risorse linguistiche disponibili sul Linked Data Web per migliorare la qualità degli strumenti di elaborazione del linguaggio naturale. Pertanto, i vantaggi che offre rispetto ad altri tipi di risorse chiuse come WordNet, che sono stati utilizzati come base di conoscenza in numerose attività relative all'elaborazione del linguaggio, sono: la sua natura aperta, la sua continua evoluzione collaborativa e la sua crescita incrementale attraverso l'inclusione di nuove risorse e la creazione di legami con quelle esistenti. Tuttavia, il suo utilizzo non è privo di rischi, è necessario fornire servizi in grado di diagnosticare la qualità dei dati aperti e ripararli se necessario, prima del suo utilizzo nei necessari processi di analisi linguistica. (Italian)
    0 references
    Teksta analīzes tehnoloģijas analizē nestrukturētu tekstuālo saturu, kas sasniedz līdz pat 80 % no visiem uzņēmumos pieejamajiem datiem (dokumenti, e-pasta vēstules, sociālo mediju informācija un cita uz tekstu balstīta informācija), lai iegūtu attiecīgo informāciju un pārveidotu to par konkurētspējīgu un stratēģisku priekšrocību uzņēmumiem. Šīm tehnoloģijām ir daudzsološas izaugsmes iespējas nozarē: tiek prognozēts, ka pasaules tirgus pieaugs no 2,65 miljardiem ASV dolāru 2015. gadā līdz gandrīz 6 miljardiem ASV dolāru 2020. gadā ar salikto gada likmi 17,5 %. Citi pētījumi ietekmē teritorijas potenciālu un pat uzlabo paredzamos skaitļus. Attiecībā uz reģioniem paredzams, ka Ziemeļamerika arī turpmāk būs lielākais tirgus lieluma ziņā, savukārt Eiropā un Āzijā prognozētajā periodā ir vērojama lielāka tirgus saķere. Šajā sakarā Rūpniecības ministrija nesen ir paziņojusi par Valodu tehnoloģiju veicināšanas plānu 90 miljonu euro apmērā, lai veicinātu dabiskās valodas apstrādes attīstību spāņu valodā, palielinot valodu infrastruktūru skaitu, kvalitāti un pieejamību spāņu valodā un citās oficiālajās valodās; veicināt valodu nozari Spānijā. Tomēr, neraugoties uz pieejamajiem komerciālajiem risinājumiem, lielākā daļa nestrukturēto datu joprojām ir slēpti, jo trūkst piemērotu analīzes rīku, kuros nav izmantoti jaunākie tehnoloģiskie jauninājumi lingvistiskās apstrādes jomā un semantiskas neskaidrības attiecībā uz atvērtām jomām, atklājot nosauktās vienības, kalnrūpniecības atzinumus vai automātiskos teksta kopsavilkumus, kā arī ieguvumi no pieejamo lielo strukturēto zināšanu bāzu izmantošanas. Lielākā daļa TextAnalytics pašreizējo biznesa risinājumu ir balstīti uz patentētām zināšanu bāzēm, kuru lielums un apjoms ir ierobežots, turklāt tos pārvalda uzņēmumi, kas piedāvā šādus pakalpojumus, kas ievērojami palēnina to attīstību un kļūdainu datu sadzīšanu. No otras puses, tās, kuru pamatā ir brīvas zināšanu bāzes (piemēram, Vikipēdija, DBpedia u. c.), ir pierādījušas atklāto datu rūpniecisko lietderību, bet ar vienkāršām analīzes iespējām (piemēram, atslēgvārdiem) vai tīri statistiskām pieejām, tāpēc tās iegūst zemu precizitāti un to zināšanu bāze nav nedz uzlabota, nedz izārstēta. Projektā esTextAnalytics tiek piedāvāts izstrādāt Text Analytics pakalpojumus Mākonī, izmantojot dabiskās valodas apstrādi (NLP) un semantiskās anotācijas un neskaidrības tehnoloģijas, kā arī izmantojot esDBpedia kā zināšanu bāzi, kas uzlabota, iekļaujot automātiskos diagnostikas, labošanas un kļūdainu zināšanu atjaunināšanas mehānismus, kā arī licenču automātisku pārvaldību patentētu ārējo zināšanu iekļaušanai. Šajā ziņā projektā esTextAnalytics tiks izmantotas priekšrocības, ko sniedz DDBpedia kā avots liela apjoma atvērto datu un lingvistisko resursu, kas pieejami Linked Data Web, lai uzlabotu dabisko valodu apstrādes rīku kvalitāti. Tāpēc priekšrocības, ko tas sniedz salīdzinājumā ar citiem slēgtu resursu veidiem, piemēram, WordNet, kas ir izmantotas kā zināšanu bāze daudzos ar valodas apstrādi saistītos uzdevumos, ir šādas: tās atklātība, nepārtraukta sadarbības attīstība un pakāpeniska izaugsme, iekļaujot jaunus resursus un veidojot saikni ar esošajiem resursiem. Tomēr tā izmantošana arī nav bez riska, ir nepieciešams sniegt pakalpojumus, kas spēj diagnosticēt atklāto datu kvalitāti un vajadzības gadījumā tos labot, pirms to izmantošanas nepieciešamajos valodas analīzes procesos. (Latvian)
    0 references
    Text Analytics-Technologien analysieren unstrukturierte Textinhalte, die bis zu 80 % aller in Unternehmen verfügbaren Daten (Dokumente, E-Mails, Social-Media-Informationen und andere textbasierte Informationen) erreichen, um relevante Informationen zu extrahieren und in einen wettbewerbsfähigen und strategischen Vorteil für Unternehmen umzuwandeln. Diese Technologien bieten vielversprechende Wachstumschancen in der Branche: der globale Markt wird voraussichtlich von 2,65 Milliarden US-Dollar im Jahr 2015 auf fast 6 Milliarden US-Dollar im Jahr 2020 mit einer durchschnittlichen Jahresrate von 17,5 % wachsen. Andere Studien beeinflussen das Potenzial des Gebiets und verbessern sogar die erwarteten Zahlen. In Bezug auf die Regionen wird davon ausgegangen, dass Nordamerika der größte Markt in Bezug auf die Größe bleiben wird, während Europa und Asien im Prognosezeitraum eine größere Markttraktion erfahren. In diesem Zusammenhang hat das Industrieministerium kürzlich den 90 Mio. EUR-Plan zur Förderung von Sprachtechnologien angekündigt, um die Entwicklung der Verarbeitung natürlicher Sprachen auf Spanisch zu fördern und die Zahl, Qualität und Verfügbarkeit von Sprachinfrastrukturen in Spanisch und Co-Amtssprachen zu erhöhen; Förderung der Sprachindustrie in Spanien. Trotz der verfügbaren kommerziellen Lösungen bleiben die meisten unstrukturierten Daten jedoch aufgrund des Fehlens geeigneter Analyseinstrumente verborgen, die weder die neuesten technologischen Innovationen in den Bereichen sprachliche Verarbeitung und semantische Disambiguation für offene Bereiche bei der Erkennung genannter Entitäten, Mining-Meinungen oder automatischer Textzusammenfassungen nutzen, noch die Vorteile der Nutzung der großen strukturierten Wissensdatenbanken. Die meisten der aktuellen Geschäftslösungen von TextAnalytics basieren auf proprietären Wissensdatenbanken, die in Größe und Umfang begrenzt sind und darüber hinaus von den Unternehmen verwaltet werden, die solche Dienstleistungen anbieten, was ihre Entwicklung und Heilung falscher Daten erheblich verlangsamt. Auf der anderen Seite haben diejenigen, die auf freien Wissensdatenbanken (z. B. Wikipedia, DBpedia, etc.) basieren, den industriellen Nutzen von Open Data aber mit einfachen Analyseoptionen (z. B. Schlüsselwörter) oder rein statistischen Ansätzen demonstriert, so dass sie eine geringe Genauigkeit erhalten und ihre Wissensbasis weder verbessert noch geheilt wird. Das Projekt esTextAnalytics schlägt die Entwicklung von Text Analytics-Diensten in der Cloud vor, durch den Einsatz von Natural Language Processing (NLP) und semantischen Technologien der Annotation und Disambiguation, sowie durch die Verwendung von esDBpedia als Wissensbasis, verbessert durch die Integration von automatischen Mechanismen der Diagnose, Reparatur und Aktualisierung fehlerhafter Kenntnisse sowie die automatische Verwaltung von Lizenzen für die Einbindung von proprietären externen Kenntnissen. In diesem Sinne wird das Projekt esTextAnalytics die Vorteile von DDBpedia als Quelle großer Mengen offener Daten und sprachlicher Ressourcen, die im Linked Data Web verfügbar sind, nutzen, um die Qualität natürlicher Sprachverarbeitungstools zu verbessern. Daher sind die Vorteile, die es bietet gegenüber anderen Arten von geschlossenen Ressourcen wie WordNet, die als Wissensdatenbanken in zahlreichen Aufgaben im Zusammenhang mit der Sprachverarbeitung verwendet wurden, sind: seine offene Natur, seine kontinuierliche kollaborative Entwicklung und sein inkrementelles Wachstum durch die Einbeziehung neuer Ressourcen und die Schaffung von Verbindungen zu bestehenden. Seine Verwendung ist jedoch auch nicht ohne Risiken, es ist notwendig, Dienstleistungen zu erbringen, die die Qualität offener Daten diagnostizieren und gegebenenfalls reparieren können, bevor sie in den erforderlichen Sprachanalyseprozessen verwendet werden. (German)
    0 references
    A Text Analytics technológiák elemzik a strukturálatlan szöveges tartalmakat, amelyek elérik a vállalatoknál rendelkezésre álló adatok 80%-át (dokumentumok, e-mailek, közösségi média információk és egyéb szöveges információk), azzal a céllal, hogy kinyerjék a releváns információkat, és versenyképes és stratégiai előnyt kovácsoljanak a vállalatok számára. Ezek a technológiák ígéretes növekedési lehetőségeket kínálnak az iparágban: a globális piac az előrejelzések szerint a 2015-ös 2,65 milliárd dollárról 2020-ra közel 6 milliárd dollárra fog nőni, éves szinten 17,5%-kal. Más tanulmányok befolyásolják a terület potenciálját, és még a várható számadatokat is javítják. A régiókat tekintve várhatóan Észak-Amerika marad a legnagyobb piac méretét tekintve, míg Európában és Ázsiában az előrejelzési időszakban nagyobb piaci vonzódás tapasztalható. E tekintetben az Ipari Minisztérium nemrégiben bejelentette a nyelvi technológiák előmozdítására irányuló 90 millió eurós tervet azzal a céllal, hogy előmozdítsa a spanyol nyelv természetes feldolgozásának fejlesztését, növelve a nyelvi infrastruktúrák számát, minőségét és elérhetőségét a spanyol és társhivatalos nyelveken; a nyelvipar népszerűsítése Spanyolországban. A rendelkezésre álló kereskedelmi megoldások ellenére azonban a legtöbb strukturálatlan adat továbbra is rejtve marad a megfelelő elemzési eszközök hiánya miatt, amelyek nem használják fel a legújabb technológiai innovációkat a nyelvi feldolgozás és a szemantikai kétértelműség területén a nyílt területeken a megnevezett entitások, bányászati vélemények vagy automatikus szöveges összefoglalók felderítése során, sem a rendelkezésre álló nagy strukturált tudásbázisok használatának előnyei miatt. A TextAnalytics jelenlegi üzleti megoldásainak nagy része korlátozott méretű és hatókörű saját tudásbázisokon alapul, és emellett az ilyen szolgáltatásokat nyújtó vállalatok kezelik őket, ami nagymértékben lassítja a téves adatok fejlődését és gyógyulását. Másrészt a szabad tudásbázison (pl. Wikipédia, DBpedia stb.) alapulók bizonyították a nyílt adatok ipari hasznosságát, de egyszerű elemzési lehetőségekkel (pl. kulcsszavak) vagy tisztán statisztikai megközelítésekkel, így alacsony pontosságúak és tudásbázisuk nem javul és nem gyógyítható. Az esTextAnalytics projekt a szövegelemzési szolgáltatások felhőben történő fejlesztését javasolja a természetes nyelvfeldolgozás (NLP) és szemantikai annotációs és félreérthetőségi technológiák használatával, valamint az esDBpedia tudásbázisként történő használatával, amelyet a hibás ismeretek automatikus diagnosztikai, javítási és frissítési mechanizmusainak beépítésével, valamint a szabadalmaztatott külső ismeretek beépítéséhez szükséges engedélyek automatikus kezelésével javítanak. Ebben az értelemben az esTextAnalytics projekt kihasználja a DDBpedia előnyeit, mint a Linked Data Web-en elérhető nagy mennyiségű nyílt adat és nyelvi erőforrás forrását a természetes nyelvfeldolgozó eszközök minőségének javítása érdekében. Ezért az általa nyújtott előnyök más típusú zárt erőforrásokkal szemben, mint például a WordNet, amelyeket a nyelvfeldolgozással kapcsolatos számos feladatban tudásbázisként használtak, a következők: nyitott jellege, folyamatos együttműködésen alapuló fejlődése és fokozatos növekedése az új források beépítése és a meglévőkkel való kapcsolatok létrehozása révén. Használata azonban nem is kockázatmentes, olyan szolgáltatásokat kell nyújtani, amelyek alkalmasak a nyílt adatok minőségének diagnosztizálására és szükség esetén azok javítására, mielőtt azokat a szükséges nyelvi elemzési folyamatokban felhasználnák. (Hungarian)
    0 references
    Technológie textovej analýzy analyzujú neštruktúrovaný textový obsah, ktorý dosahuje až 80 % všetkých údajov dostupných v spoločnostiach (dokumenty, e-maily, informácie o sociálnych médiách a iné textové informácie) s cieľom získať relevantné informácie a premeniť ich na konkurenčnú a strategickú výhodu pre spoločnosti. Tieto technológie majú sľubné príležitosti na rast v tomto odvetví: predpokladá sa, že globálny trh vzrastie z 2,65 miliardy dolárov v roku 2015 na takmer 6 miliárd dolárov v roku 2020 pri zloženej ročnej sadzbe 17,5 %. Ďalšie štúdie ovplyvňujú potenciál oblasti a dokonca zlepšujú očakávané údaje. Pokiaľ ide o regióny, očakáva sa, že Severná Amerika zostane najväčším trhom z hľadiska veľkosti, zatiaľ čo Európa a Ázia počas prognózovaného obdobia zažívajú väčšiu trakciu na trhu. V tejto súvislosti ministerstvo priemyslu nedávno oznámilo plán na podporu jazykových technológií vo výške 90 miliónov EUR s cieľom podporiť rozvoj spracovania prirodzeného jazyka v španielčine, zvýšiť počet, kvalitu a dostupnosť jazykových infraštruktúr v španielčine a spoluoficiálnom jazyku; podporovať jazykový priemysel v Španielsku. Napriek dostupným komerčným riešeniam však väčšina neštruktúrovaných údajov zostáva skrytá z dôvodu nedostatku vhodných nástrojov na analýzu, ktoré nevyužívajú najnovšie technologické inovácie v oblasti jazykového spracovania a sémantickej dezinformácie pre otvorené domény pri detekcii menovaných subjektov, banských názorov alebo automatických textových zhrnutí, ani výhody využívania dostupných veľkých štruktúrovaných vedomostných báz. Väčšina súčasných obchodných riešení TextAnalytics bola založená na proprietárnych vedomostných základoch, ktoré sú obmedzené veľkosťou a rozsahom a okrem toho sú riadené spoločnosťami, ktoré ponúkajú takéto služby, čo výrazne spomaľuje ich vývoj a liečenie chybných dát. Na druhej strane tie, ktoré sú založené na slobodných vedomostných základniach (napr. Wikipedia, DBpedia atď.), preukázali priemyselnú užitočnosť otvorených dát, ale s jednoduchými možnosťami analýzy (napr. kľúčové slová) alebo čisto štatistickými prístupmi, takže získavajú nízku presnosť a ich vedomostná základňa nie je ani vylepšená, ani vyliečená. Projekt esTextAnalytics navrhuje rozvoj služieb Text Analytics v cloude prostredníctvom využitia prirodzeného spracovania jazyka (NLP) a sémantických technológií anotácie a deaktivácie a s využitím esDBpedia ako vedomostnej základne, vylepšenej začlenením automatických mechanizmov diagnostiky, opravy a aktualizácie chybných znalostí, ako aj automatickej správy licencií na začlenenie vlastníckych externých znalostí. V tomto zmysle bude projekt esTextAnalytics využívať výhody DDBpedia ako zdroja veľkých objemov otvorených dát a jazykových zdrojov dostupných na Linked Data Web na zlepšenie kvality nástrojov na spracovanie prirodzeného jazyka. Preto výhody, ktoré poskytuje v porovnaní s inými typmi uzavretých zdrojov, ako je WordNet, ktoré boli použité ako vedomostné základne v mnohých úlohách súvisiacich so spracovaním jazyka, sú: jeho otvorený charakter, neustály vývoj spolupráce a jeho prírastkový rast prostredníctvom začlenenia nových zdrojov a vytvárania prepojení s existujúcimi zdrojmi. Jeho používanie však nie je bez rizika, je potrebné poskytovať služby schopné diagnostikovať kvalitu otvorených údajov a v prípade potreby ich opraviť pred ich použitím v potrebných procesoch analýzy jazykov. (Slovak)
    0 references
    Boadilla del Monte
    0 references
    20 December 2023
    0 references

    Identifiers

    RTC-2016-4952-7-P01
    0 references