Un Workshop esclusivo dove vedremo come applicare spaCy, ed altre librerie di Python, alla classificazione del testo sugli articoli di Wikipedia.
spaCy è una potente libreria che permette di eseguire molte attività in ambito NLP.
COSA ESPLOREREMO NELLA LIVE
spaCy è una potente libreria NLP che permette di eseguire molte attività in ambito NLP; alcune delle attività previste includono la classificazione del testo.
In questo workshop, andremo a vedere come applicare la classificazione del testo sugli articoli di Wikipedia utilizzando spaCy, così da imparare come preparare i dati utilizzando il corpus di Wikipedia, come sfruttare oggetti come Categorizer per estrarne le categorie e trasformarli in un formato compatibile con l’addestramento per la text classification.
L’intento è quello di mostrare in che modo si possa applicare la categorizzazione multi-label e single-label e come stimare le performance del modello addestrato su dei dati di test.
SPEAKER DELLA LIVE
Serena Sensini
Enterprise Architech @ Dedalus | Founder @ TheRedCode.it
Serena ha iniziato a programmare in VB all’età di 6 anni, sfruttando la forte passione di suo padre per l’informatica.
Ha sempre sognato di diventare un ingegnere e ha ricoperto diversi ruoli: data scientist, data analyst, sviluppatore web, sysadmin…
Questo le ha dato l’opportunità di acquisire esperienza nella progettazione e sviluppo di soluzioni partendo da zero.
Durante il giorno è un Enterprise Architect, mentre di notte ama scrivere quando beve una tazza di tè caldo!
sei un data scientist, sviluppatore o analista interessato a imparare a usare spaCy per la classificazione del testo su dati complessi come gli articoli di Wikipedia, migliorando le tue competenze nella preparazione e categorizzazione dei dati testuali
interessati a migliorare le loro competenze nell'elaborazione del linguaggio naturale (NLP) e nella classificazione del testo
che vogliono integrare tecniche avanzate di text mining e classificazione del testo nelle loro applicazioni
focalizzati su progetti di ricerca che utilizzano una grande mole di documenti, come gli articoli di Wikipedia, e desiderosi di apprendere strumenti pratici per l'analisi dei dati testuali