Apache OpenNLP
Apache OpenNLP software | |
---|---|
![]() | |
Genere | Elaborazione del linguaggio naturale |
Sviluppatore | Apache Software Foundation |
Data prima versione | 19 Luglio 2004; 20 anni fa |
Ultima versione | 2.5.3 (10 gennaio 2025) |
Sistema operativo | |
Linguaggio | Java |
Licenza | licenza Apache 2.0 (licenza libera) |
Sito web | opennlp.apache.org |
Apache OpenNLP è un toolkit che sfrutta l'apprendimento automatico per l'elaborazione dei testi in linguaggio naturale. Supporta i compiti più comuni in ambito NLP, come il rilevamento della lingua, la tokenizzazione, la sentence segmentazione, l'etichettatura delle parti del discorso, la named entity extraction, il chunking, il parsing e la coreference resolution. Questo genere di compiti sono solitamente necessari per sviluppare servizi di elaborazione testuale più avanzati.
La libreria è scritta in Java e può essere facilmente integrata in progetti Java o in progetti che utilizzano la Java Virtual Machine (JVM).[1]
Dettagli
- Identificazione della lingua: il “LanguageDetector” richiede un modello addestrato. OpenNLP stesso offre il modello completamente addestrato langdetect-183.bin come download. Questo è in grado di identificare 103 lingue.[2]
- Riconoscimento delle frasi: il “SentenceDetector” riconosce se un punto fermo segna la fine di una frase o se ha un significato diverso. Anche in questo caso è necessaria la specifica di un modello addestrato. OpenNLP fornisce modelli per varie lingue, ad esempio opennlp-it-ud-vit-sentence-1.2-2.5.0.bin per il riconoscimento delle frasi nei testi italiani.[3]
- Tokenizzazione: il tokenizer divide una stringa di caratteri in token. I token sono solitamente parole, segni di punteggiatura, numeri, ecc.
- Etichettatura part-of-speech: OpenNLP dispone di una selezione di modelli pre-addestrati per 32 lingue (tedesco, inglese, spagnolo, portoghese, danese, ecc.). Questi modelli possono essere utilizzati per etichettare automaticamente un corpus di testo in una di queste lingue.[4]
- Estrazione di entità denominate: Il “TokenNameFinder” può riconoscere le entità denominate e i numeri nel testo. Per riconoscere le entità è necessario un modello. Il modello dipende dalla lingua e dal tipo di entità per cui è stato addestrato. Il progetto OpenNLP offre una gamma di modelli pre-addestrati che sono stati addestrati su vari corpora liberamente disponibili. Possono essere scaricati dalla pagina di download dei modelli.
Note
- ^ Apache OpenNLP - Building from Source, su opennlp.apache.org.
- ^ Modello di rilevamento delle lingue di Apache OpenNLP, su opennlp.apache.org.
- ^ Modelli di rilevamento delle frasi di Apache OpenNLP, su opennlp.apache.org.
- ^ Apache Stanbol - OpenNLP POS Tagging Engine, su stanbol.apache.org.
Voci correlate
- Apache UIMA (Unstructured Information Management Architecture)
- Apache Software Foundation
- Licenza Apache
Collegamenti esterni
- Sito ufficiale, su opennlp.apache.org.
- (EN) Apache OpenNLP, su GitHub.
- Repository sorgenti di Apache OpenNLP, su github.com.
- Sito di segnalazione bug, su issues.apache.org.