Questo paper mira a colmare il gap di accuratezza tra il constituency parsing dell’Italiano e quello Inglese: come primo miglioramento, abbiamo adattato il parser a costituenti per l’Inglese, Bllip, anche noto come Charniak parser, per l’Italiano e lo abbiamo addestrato sul Turin University Treebank. In seguito, abbiamo progettato un reranker basato sulle Macchine a Vettori di Supporto che usano kernel arborei, i quali possono efficacemente generalizzare pattern sintattici, richiedendo pochi dati di training per addestrare il modello. Il nostro approccio supera lo stato dell’arte ottenuto con il Berkeley parser, migliorando la labeled F1 da 84.54 a 86.81.
This paper aims at filling the gap between the accuracy of Italian and English constituency parsing: firstly, we adapt the Bllip parser, i.e., the most accurate constituency parser for English, also known as Charniak parser, for Italian and trained it on the Turin University Treebank (TUT). Secondly, we design a parse reranker based on Support Vector Machines using tree kernels, where the latter can effectively generalize syntactic patterns, requiring little training data for training the model. We show that our approach outperforms the state of the art achieved by the Berkeley parser, improving it from 84.54 to 86.81 in labeled F1
Tree Kernels-based Discriminative Reranker for Italian Constituency Parsers / Uva, Antonio; Moschitti, Alessandro. - ELETTRONICO. - 2:(2016), pp. 303-307. [10.4000/books.aaccademia.1860]
Tree Kernels-based Discriminative Reranker for Italian Constituency Parsers
Antonio Uva;Alessandro Moschitti
2016-01-01
Abstract
Questo paper mira a colmare il gap di accuratezza tra il constituency parsing dell’Italiano e quello Inglese: come primo miglioramento, abbiamo adattato il parser a costituenti per l’Inglese, Bllip, anche noto come Charniak parser, per l’Italiano e lo abbiamo addestrato sul Turin University Treebank. In seguito, abbiamo progettato un reranker basato sulle Macchine a Vettori di Supporto che usano kernel arborei, i quali possono efficacemente generalizzare pattern sintattici, richiedendo pochi dati di training per addestrare il modello. Il nostro approccio supera lo stato dell’arte ottenuto con il Berkeley parser, migliorando la labeled F1 da 84.54 a 86.81.File | Dimensione | Formato | |
---|---|---|---|
Parse_Rerank-IT.pdf
accesso aperto
Tipologia:
Versione editoriale (Publisher’s layout)
Licenza:
Creative commons
Dimensione
233.86 kB
Formato
Adobe PDF
|
233.86 kB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione