Uma Estratégia Híbrida para o Pareamento de Textos Curtos Baseada em Similaridade Léxica e Embeddings Semânticos

Thiago Pereira Meirelles,Eduardo Corrêa Gonçalves, Daniel Takata Gomes

Anais da IV Escola Regional de Informática do Rio de Janeiro (ERI-RJ 2021)(2021)

引用 0|浏览0
暂无评分
摘要
Pareamento de textos é a tarefa de escolher, dentre um conjunto de textos possíveis, qual deles faz menção a um mesmo conceito ou objeto que outro determinado texto de entrada faz. Este trabalho propõe uma nova estratégia híbrida que tem por foco o pareamento de textos curtos, como nomes de produtos, marcas e serviços. A estratégia proposta baseia-se na combinação de medidas de similaridade léxica e embeddings semânticos gerados através do modelo Word2vec. Experimentos preliminares realizados em uma base de dados real contendo nomes de produtos e serviços revelam resultados promissores.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要