Open Calais – La semantica avanza

logocalais.gif

Il progetto Calais, patrocinato dalla Reuters e realizzato dalla ClearForest, si propone di fornire una base di sviluppo semplice e versatile per costruire applicazioni in grado di aggiungere ai contenuti del Web un livello di metadati semantici.

Più precisamente:

The Calais initiative seeks to help make all the worlds content more accessible, interoperable and valuable via the automated generation of rich semantic metadata, the incorporation of user defined metadata, the transportation of those metadata resources throughout the content ecosystem and the extension of it’s capabilities by user-contributed components.

Il progetto si compone di tre componenti principali:

  • Il Calais Web Service, che si occupa di generare automaticamente metadati in formato RDF
  • Una serie di semplici applicazioni che servono come punto di partenza per dimostrare le potenzialità di Calais e come stimolo agli sviluppatori per la creazione di nuove applicazioni. Il progetto Calais è infatti completamente gratuito e open. Basta registrarsi e richiedere una developer key per ottenere le API. Una sintetica ma utile documentazione consente di mettersi subito al lavoro per creare applicazioni e plugins per piattaforme di blogging e per CMS
  • Un supporto attivo per gli sviluppatori tramite un forum.

 

Per quanto riguarda il semplice utente l’utilizzo delle applicazioni sviluppate a partire da Calais estremamente semplice: basterà inviare un testo (un articolo, un post, un paper, per ora solo in inglese) per vederselo restituito dopo pochi secondi “rivestito” di uno strato semantico. Cosa succeda esattamente “dietro le quinte” non è ancora chiarissimo. Nelle FAQ viene detto che:

Using natural language processing and machine learning techniques, the Calais web service looks inside your text and locates the entities (people, places, products, etc), facts (John Doe works for Acme Corp) and events (Jane Doe was appointed as a Board member of Acme Corp) in the text. Calais then processes the entities, facts and events extracted from the text and returns them to the caller in RDF format.

Un esempio dell’output ottenibile a partire da un semplice documento HTML dopo la trasformazione operata dal Calais Web Service è disponibile alla fine della documentazione.

Viene anche reso disponibile un viewer molto semplice in grado di visualizzare i metadati semantici di un file RDF , il Calais Document Viewer.

Il progetto, che certamente piacerà a Matteo, è sicuramente interessante. L’iniziativa della Reuters di mettere a disposizione di tutti la sua tecnologia semantica aziendale è una mossa in linea con le filosofie di apertura e condivisione che stanno contagiando sempre più il mondo dell’informazione e dell’IT e consentirà, se intorno a Calais si formerà una nutrita comunità di sviluppatori (magari attirati anche dai contests in programma), di nutrire il Web con un’abbondante iniezione di contenuti ricchi di “semanticità”.

via Smart Mobs

10 thoughts on “Open Calais – La semantica avanza

  1. Ho appena letto il tuo articolo.

    Vedo che anche tu hai tovato estremamente interessante Calais.
    La strategia di Reuters nel rendere aperto il servizio credo si rivelerà particolarmente azzeccata. D’altronde il Web Semantico “incombe”, e Reuters possiede le tecnologie di ClearForest, le quali rappresentano tecnologie di avanguardia in quest’area, per cui …
    Allorché tutte le funzionalità di Calais saranno definitivamente rilasciate, valuterò come utilizzare il servizio per Stalkk.ed e per arricchire semanticamente i suoi contenuti, insieme alle altre tecnologie semantiche WordPress-oriented che sto implementando sul blog.

    Si, stavolta ci siamo proprio arrivati insieme.

  2. Aarghh! Ho scritto una fesseria.
    Dimenticavo che l’italiano non sarà supportato da Calais almeno per tutto il 2008. Dopo chissà. Mi sarebbe talmente piaciuto poter utilizzare il servizio che mi è completamente passato di mente. E poi sono talmente abituato a leggere l’inlgese (anche se non lo parlo fluently) che a volte dimentico che il mio blog non è scritto in quella lingua.
    E va bè …

  3. Hai ragione Federico, sembra davvero promettente…

    Il fatto che si susseguano notizie e rilasci in forma sempre piu’ massiva, e che seguendo anche Planetrdf assieme ai riassunti che compila Danny Ayers per Talis, risulta davvero difficile star dietro a tutto, e’ il segno che il 2008 vedra’ le tecnologie semantiche arrivare alla massa di utenti e di sviluppatori, in forme finalmente comprensibili.

    Ed usabili.

    Sto giochicchiando con il Semantic Mediawiki e devo dire che e’ assolutamente fantastico .)

    Concordo in pieno nel sottolineare l’importanza che la Reuters vuole dare anche alla comunita’, rendendo disponibili le tecnologie che ha acquisito e nel diffondere l’importanza e la reale applicazione di tecnologie viste da molti quasi utopie.

    L’unico dubbio di un servizio di questo tipo e’ sempre quello relativo ai termini di utilizzo:

    You understand that Reuters will retain a copy of the metadata submitted by you or that generated by the Calais service. By submitting or generating metadata through the Calais service, you grant Reuters a non-exclusive perpetual, sublicensable, royalty-free license to that metadata. From a privacy standpoint, Reuters use of this metadata is governed by the terms of the Reuters and Calais Privacy Statements.

    Per il resto, come qualcuno ha detto:

    The sky is the limit.

  4. Presto l’analisi semantica “for free” per il web 2.0 e il content 2.0 anche in italiano e in Italia.
    Infatti a breve, sulla falsa riga di Calais, sarà disponibile un servizio “beta” analogo che consentirà gratuitamente di generare metadati semantici sui propri documenti tramite un web service.
    Alla base del servizio c’è la tecnologia OpenEyes di Alethes, (http://www.alethes.it), azienda italiana specializzata nel text analytics e content management che ha deciso di rendere pubblica e “utilizzabile” la sua tecnologia, quindi in linea con la scelta di ClearForest, per promuovere l’uso e la diffusione della semantica applicata ai contenuti digitali.
    Il servizio sarà disponbibile alla fine di marzo e si partirà con i primi “TAG” che prevedono il riconoscimento di Persone, Luoghi, Aziende, Valute, Date, Espressioni temporali, indirizzi, recapiti telefonici, istituzioni e alcuni “eventi”. A berve verrà resa nota la roadmap di sviluppo del servizio che prevede anche un forum per gli sviluppatori. Su richiesta è possibile richiedere TAG specifici per le proprie esigenze, o consulenze sul text analytics per le proprie esigenze di business. Infiene sono previsti innovativi servizi di analisi del testo finalizzati alla ricerca sul web e alla condivisione di informazioni tra i navigatori del web.
    Tenete sott’occhio il sito Alethes (http://www.alethes.it) per gli aggiornamenti ed il lancio del servizio.
    Scrivetemi per ulteriori informazioni.
    Riccardo

  5. Ciao Riccardo e grazie per la segnalazione. Sembra un progetto interessante, vi terremo d’occhio…🙂.

    Per chi volesse contattarti? Deve passare attraverso il sito alethes.it?

  6. Qualche aggiornamento ….
    Il nome in codice del servizio è OpenSemantic, ma ancora non abbiamo deciso il nome pubblico…anzi se qualcuno ci vuole proporre qualche idea saremmo molto lieti…
    Inizialmente il servizi opererà su documenti in lingua italiana.
    I TAG previsti nella beta 1 saranno:
    WIKI Keyword (keyword che trovano corrispondenza in WIKI)
    Persone
    Titolo/Mestiere/Professione
    Organizzazioni
    Aziende
    Città
    Continenti
    Luoghi Geografici
    Luoghi creati dall’uomo
    Valute
    Misure
    Espressioni temporali

    Il servizio sarà totalmente gratuito. Unica limitazione un massimo di 1000 query al giorno per ora…
    Per chi avesse la necessità di riconoscere specifiche entità nel testo sarà possibile richiedere una personalizzazione che verrà quantifica in termini economici sulla base della complessittà.
    Sarà anche possibile collaborare alla sviluppo dei nuoi annotatori richiesti e in questo caso ovviamente il costo scenderà notevolmente.
    Verrano messe a disposizione alcune semplici applicazioni d’esempio per poter utilizzare l’output fornito dal servizio in proprie applicazioni.
    Stiamo ancora vedendo gli utlimi dettagli ma il servizio dovrebbere essere online max entro il 10 aprile.
    Ad oggi la qualità degli annotatori si attesta ai livelli standard di mercato, quindi tra il 75 o l’85% e in alcuni casi superare il 90%.
    Stiamo già pensando ai nuovi annotatori per beta 2 (maggio 2008).. suggerimento sono ben accetti, anzi molto graditi.
    Per ora è tutto vi tengo aggiornati..
    Riccardo

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...