Explorando Twitter mediante la integración de información estructurada y no estructurada

Procesamiento del Lenguaje Natural(2015)

引用 23|浏览35
暂无评分
摘要
En este articulo mostramos como es posible sacar partido de la informacion estructurada que proporciona la red social Twitter. Los textos escritos en Twitter son cortos y de baja calidad, lo que dificulta la aplicacion de tecnicas y herramientas que tradicionalmente se han venido usando para procesar textos en lenguaje natural. Sin embargo, Twitter ofrece mucho mas que los 140 caracteres de sus mensajes para trabajar. En el ecosistema Twitter hay muchos objetos (tweets, hashtags, usuarios, palabras, ...) y relaciones entre ellos (co-ocurrencia, menciones, re-tuiteos, ...) que ofrecen innumerables posiblidades de procesado alternativo a las tecnicas clasicas de PLN. En este trabajo hemos puesto nuestra atencion en la tarea de clasificacion de tweets. Solo usando la informacion de la relacion Follow hemos conseguido un clasificador que iguala los resultados de un clasificador basado en bolsas de palabras. Cuando usamos las features de los dos modelos, el resultado de la clasificacion mejora en mas de 13 puntos porcentuales con respecto a los modelos originales lo que demuestra que ambos clasificadores aportan informaciones complementarias. Tambien hemos aplicado la misma filosofia a la tarea de recopilacion del corpus con el que hemos trabajado, usando una tecnica de recuperacion dinamica basada en relaciones entre entidades Twitter que nos ha permitido construir una coleccion de tweets mas representativa.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要