In questo lavoro presentiamo MarkIT, un treebank di costruzioni marcate in italiano che contiene circa 800 frasi annotate con strutture a dipendenze. Abbiamo descritto nel dettaglio il processo seguito per estrarre le frasi e correggerne manualmente la struttura sintassi. La risorsa comprende sette tipologie di costruzioni marcate oltre ad alcune costruzioni ambigue che potrebbero essere classificate erroneamente come marcate. Presentiamo inoltre una valutazione preliminare delle performance del parser in cui confrontiamo un modello allenato sui treebank esistenti dell’italiano con il modello ottenuto aggiungendo anche MarkIT.
In this paper we present MarkIT, a treebank of marked constructions in Italian, containing around 800 sentences with dependency annotation. We detail the process to extract the sentences and manually correct them. The resource covers seven types of marked constructions plus some ambiguous sentences, whose syntax can be wrongly classified as marked. We also present a preliminary evaluation of parsing performance, comparing a model trained on existing Italian treebanks with the model obtained by adding MarkIT to the training set.
It Is MarkIT That Is New: An Italian Treebank of Marked Constructions / Paccosi, Teresa; Palmero Aprosio, Alessio; Tonelli, Sara. - 3033:(2022). (Intervento presentato al convegno 8th Italian Conference on Computational Linguistics, CLiC-it 2021 tenutosi a Milano, Italia nel 29th June - 1st July 2021).
It Is MarkIT That Is New: An Italian Treebank of Marked Constructions
Paccosi, Teresa;Palmero Aprosio, Alessio;Tonelli, Sara
2022-01-01
Abstract
In questo lavoro presentiamo MarkIT, un treebank di costruzioni marcate in italiano che contiene circa 800 frasi annotate con strutture a dipendenze. Abbiamo descritto nel dettaglio il processo seguito per estrarre le frasi e correggerne manualmente la struttura sintassi. La risorsa comprende sette tipologie di costruzioni marcate oltre ad alcune costruzioni ambigue che potrebbero essere classificate erroneamente come marcate. Presentiamo inoltre una valutazione preliminare delle performance del parser in cui confrontiamo un modello allenato sui treebank esistenti dell’italiano con il modello ottenuto aggiungendo anche MarkIT.File | Dimensione | Formato | |
---|---|---|---|
paper23.pdf
accesso aperto
Tipologia:
Versione editoriale (Publisher’s layout)
Licenza:
Creative commons
Dimensione
588.03 kB
Formato
Adobe PDF
|
588.03 kB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione