In questo lavoro presentiamo MarkIT, un treebank di costruzioni marcate in italiano che contiene circa 800 frasi annotate con strutture a dipendenze. Abbiamo descritto nel dettaglio il processo seguito per estrarre le frasi e correggerne manualmente la struttura sintassi. La risorsa comprende sette tipologie di costruzioni marcate oltre ad alcune costruzioni ambigue che potrebbero essere classificate erroneamente come marcate. Presentiamo inoltre una valutazione preliminare delle performance del parser in cui confrontiamo un modello allenato sui treebank esistenti dell’italiano con il modello ottenuto aggiungendo anche MarkIT.

In this paper we present MarkIT, a treebank of marked constructions in Italian, containing around 800 sentences with dependency annotation. We detail the process to extract the sentences and manually correct them. The resource covers seven types of marked constructions plus some ambiguous sentences, whose syntax can be wrongly classified as marked. We also present a preliminary evaluation of parsing performance, comparing a model trained on existing Italian treebanks with the model obtained by adding MarkIT to the training set.

It Is MarkIT That Is New: An Italian Treebank of Marked Constructions / Paccosi, Teresa; Palmero Aprosio, Alessio; Tonelli, Sara. - 3033:(2022). (Intervento presentato al convegno 8th Italian Conference on Computational Linguistics, CLiC-it 2021 tenutosi a Milano, Italia nel 29th June - 1st July 2021).

It Is MarkIT That Is New: An Italian Treebank of Marked Constructions

Paccosi, Teresa;Palmero Aprosio, Alessio;Tonelli, Sara
2022-01-01

Abstract

In questo lavoro presentiamo MarkIT, un treebank di costruzioni marcate in italiano che contiene circa 800 frasi annotate con strutture a dipendenze. Abbiamo descritto nel dettaglio il processo seguito per estrarre le frasi e correggerne manualmente la struttura sintassi. La risorsa comprende sette tipologie di costruzioni marcate oltre ad alcune costruzioni ambigue che potrebbero essere classificate erroneamente come marcate. Presentiamo inoltre una valutazione preliminare delle performance del parser in cui confrontiamo un modello allenato sui treebank esistenti dell’italiano con il modello ottenuto aggiungendo anche MarkIT.
2022
Proceedings of the Eighth Italian Conference on Computational Linguistics
Milano, Italia
CEUR
Paccosi, Teresa; Palmero Aprosio, Alessio; Tonelli, Sara
It Is MarkIT That Is New: An Italian Treebank of Marked Constructions / Paccosi, Teresa; Palmero Aprosio, Alessio; Tonelli, Sara. - 3033:(2022). (Intervento presentato al convegno 8th Italian Conference on Computational Linguistics, CLiC-it 2021 tenutosi a Milano, Italia nel 29th June - 1st July 2021).
File in questo prodotto:
File Dimensione Formato  
paper23.pdf

accesso aperto

Tipologia: Versione editoriale (Publisher’s layout)
Licenza: Creative commons
Dimensione 588.03 kB
Formato Adobe PDF
588.03 kB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11572/412715
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus 0
  • ???jsp.display-item.citation.isi??? ND
  • OpenAlex ND
social impact