Apache OpenNLP

Apache OpenNLP; software
	Logo
Genere	Elaborazione del linguaggio naturale
Sviluppatore	Apache Software Foundation
Data prima versione	19 Luglio 2004; 20 anni fa
Ultima versione	2.5.3 (10 gennaio 2025)
Sistema operativo
Linguaggio	Java
Licenza	licenza Apache 2.0; (licenza libera)
Sito web	opennlp.apache.org
	Modifica dati su Wikidata · Manuale

Apache OpenNLP è un toolkit che sfrutta l'apprendimento automatico per l'elaborazione dei testi in linguaggio naturale. Supporta i compiti più comuni in ambito NLP, come il rilevamento della lingua, la tokenizzazione, la sentence segmentazione, l'etichettatura delle parti del discorso, la named entity extraction, il chunking, il parsing e la coreference resolution. Questo genere di compiti sono solitamente necessari per sviluppare servizi di elaborazione testuale più avanzati.

La libreria è scritta in Java e può essere facilmente integrata in progetti Java o in progetti che utilizzano la Java Virtual Machine (JVM).^[1]

Dettagli

Identificazione della lingua: il “LanguageDetector” richiede un modello addestrato. OpenNLP stesso offre il modello completamente addestrato langdetect-183.bin come download. Questo è in grado di identificare 103 lingue.^[2]
Riconoscimento delle frasi: il “SentenceDetector” riconosce se un punto fermo segna la fine di una frase o se ha un significato diverso. Anche in questo caso è necessaria la specifica di un modello addestrato. OpenNLP fornisce modelli per varie lingue, ad esempio opennlp-it-ud-vit-sentence-1.2-2.5.0.bin per il riconoscimento delle frasi nei testi italiani.^[3]
Tokenizzazione: il tokenizer divide una stringa di caratteri in token. I token sono solitamente parole, segni di punteggiatura, numeri, ecc.
Etichettatura part-of-speech: OpenNLP dispone di una selezione di modelli pre-addestrati per 32 lingue (tedesco, inglese, spagnolo, portoghese, danese, ecc.). Questi modelli possono essere utilizzati per etichettare automaticamente un corpus di testo in una di queste lingue.^[4]
Estrazione di entità denominate: Il “TokenNameFinder” può riconoscere le entità denominate e i numeri nel testo. Per riconoscere le entità è necessario un modello. Il modello dipende dalla lingua e dal tipo di entità per cui è stato addestrato. Il progetto OpenNLP offre una gamma di modelli pre-addestrati che sono stati addestrati su vari corpora liberamente disponibili. Possono essere scaricati dalla pagina di download dei modelli.

Note

^ Apache OpenNLP - Building from Source, su opennlp.apache.org.
^ Modello di rilevamento delle lingue di Apache OpenNLP, su opennlp.apache.org.
^ Modelli di rilevamento delle frasi di Apache OpenNLP, su opennlp.apache.org.
^ Apache Stanbol - OpenNLP POS Tagging Engine, su stanbol.apache.org.

Voci correlate

Apache UIMA (Unstructured Information Management Architecture)
Apache Software Foundation
Licenza Apache

Collegamenti esterni

Sito ufficiale, su opennlp.apache.org.
(EN) Apache OpenNLP, su GitHub.
Repository sorgenti di Apache OpenNLP, su github.com.
Sito di segnalazione bug, su issues.apache.org.

Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica

[1] Apache OpenNLP - Building from Source, su opennlp.apache.org.

[2] Modello di rilevamento delle lingue di Apache OpenNLP, su opennlp.apache.org.

[3] Modelli di rilevamento delle frasi di Apache OpenNLP, su opennlp.apache.org.

[4] Apache Stanbol - OpenNLP POS Tagging Engine, su stanbol.apache.org.

[1]

[2]

[3]

[4]

V · D · M Apache Software Foundation
Progetti principali	Accumulo · ActiveMQ · Ambari · Ant · Aries · Apache HTTP Server · APR · Avro · Axis · Axis2 · Beam · Bloodhound · Brooklyn · Buildr · Calcite · Camel · Cassandra · Cayenne · Chemistry · CloudStack · Cocoon · Cordova · CouchDB · cTAKES · CXF · Derby · Directory · Drill · Empire-db · Felix · Flex · Flink · Flume · Geronimo · Gora · Gump · Hadoop · HBase · Hive · Jackrabbit · James · Jini · JMeter · Kafka · Kudu · Kylin · Lucene · Mahout · Maven · MINA · mod_perl · MyFaces · NetBeans · Nutch · OFBiz · Oozie · OpenEJB · OpenJPA · OpenNLP · OpenOffice · PDFBox · Parquet · Phoenix · POI · Pig · Pivot · Qpid · Roller · Samza · ServiceMix · Shiro · Sling · Solr · Spark · Stanbol · Storm · SpamAssassin · Struts 1 · Struts 2 · Subversion · SystemML · Tapestry · Thrift · Tika · Tomcat · Traffic Server · UIMA · Velocity · Wicket · Xalan · Xerces · ZooKeeper
Apache Commons	BCEL · BSF · Daemon · Jelly · Logging
Apache Incubator	NuttX · SINGA · Trafodion · XAP
Altri progetti	Batik · Chainsaw · FOP · Ivy · Log4j
Apache Attic	Abdera · Apex · AxKit · Beehive · Bluesky · iBATIS · Cactus · Click · Continuum · Deltacloud · Excalibur · Forrest · Hama · Harmony · HiveMind · Jakarta · Lenya · Marmotta · ODE · Shale · Shindig · Slide · Sqoop · stdcxx · Tuscany · Wave · Wink · XMLBeans
Licenze	Licenza Apache
Categoria