Diogo da Silva Magalhães Gomes

Título

PETROVEC: DESENVOLVIMENTO E AVALIAÇÃO DE MODELOS VETORIAIS DE PALAVRAS EM PORTUGUÊS PARA O DOMÍNIO DE ÓLEO E GÁS

Orientador(es)

Alexandre Gonçalves Evsukoff

Resumo

Este trabalho apresenta o PetroVec: um conjunto de modelos vetoriais de palavras em português especializados no domínio de Óleo e Gás. Para viabilizar o treinamento dos modelos, criamos um corpus representativo do domínio, composto por uma extensa coleção de documentos técnicos e acadêmicos publicados em português por Universidades e instituições de referência na indústria nacional de petróleo. O corpus especializado contempla mais de 85 milhões de tokens e representa o maior conjunto textual público atualmente reportado na literatura científica para o domínio de Óleo e Gás.
Os modelos são submetidos a uma abrangente cobertura de avaliações, contemplando metodologias quantitativas baseadas em análises intrínseca e extrínseca, além de uma série de análises qualitativas para explorar propriedades linguísticas codificadas no espaço semântico dos modelos. A análise intrínseca foi realizada a partir da criação de um dataset de similaridade semântica composto por 1500 pares de termos anotados por especialistas em geociências, enquanto a análise extrínseca consistiu na aplicação prática dos modelos em uma tarefa de reconhecimento de entidades nomeadas no subdomínio de geologia. Adicionalmente, realizamos análises comparativas dos nossos resultados em relação a um modelo público de contexto geral de referência em português. Nossas análises convergem ao evidenciar que os modelos PetroVec apresentam resultados consistentemente superiores ao modelo público de referência em todas as avaliações, sugerindo que os modelos especializados são capazes de automaticamente capturar propriedades sintáticas e semânticas específicas do vocabulário técnico de domínio de maneira não-supervisionada a partir do corpus de treinamento.

Abstract

 

This work presents PetroVec, a set of word embedding models in Portuguese for the O&G domain. To make model training feasible, we created a specialized corpus composed of a vast collection of technical and scientific documents, published in Portuguese by Universities and major institutions from national petroleum-related industry. The specialized corpus comprises about 85 million tokens and it is currently the largest public textual resource ever reported for the O&G domain. Our specialized models are thoroughly evaluated, comprising quantitative methodologies based on intrinsic and extrinsic approaches, in addition to a series of qualitative analyses to explore linguistic properties encoded in the models’ semantic space. The intrinsic evaluation is performed by creating a semantic similarity dataset composed of 1500 pairs of terms labeled by experts in geosciences, whereas the extrinsic evaluation consists of a downstream task for named entity recognition in the Geology subdomain. Furthermore, we conducted a comprehensive analysis comparing our models and a pre-trained general-domain model in Portuguese. Our findings confirm that PetroVec consistently outperforms the general-context reference model, suggesting that our models were able to automatically capture syntactic and semantic vocabulary-specific properties from the specialized training corpus.

Print