Jonatas Castro Einsiedler

Título

APLICAÇÃO DE REDES NEURAIS PROFUNDAS NO DESENVOLVIMENTO DE MECANISMO DE BUSCA POR SIMILARIDADE DE IMAGENS TOMOGRÁFICAS DE ROCHAS PRÉ-SAL

 

Orientador(es)

Jonatas Castro Einsiedler

 

Resumo

A PETROBRAS vem adquirindo imagens tomográficas de amostras laterais, plugues e testemunhos de carbonatos da camada Pré-sal. Esta rotina de aquisição gerou dezenas de terabytes de diferentes fácies do carbonato. Atualmente, não existe na companhia mecanismos de busca de imagens tomográficas por similaridade. Os desafios para o desenvolvimento deste sistema estão relacionados as dimensões das imagens e escolhas de atributos representativos. Recentemente, redes neurais profundas vêm sendo utilizadas para extração de atributos de imagens. Esta técnica tem sido utilizada para implementar sistemas de busca por similaridade de imagens, vídeos e sons. Para este trabalho, foram implementadas quatro arquiteturas de redes neurais convolucionais autocodificadoras. A arquitetura da rede SegNet foi adaptada para extração de atributos de imagens na escala de cinza. A partir desta modificação foram geradas as redes A, B, C e D, com as seguintes caracteristicas: rede A - 14 camadas na fase codificadora, 5 funções de agrupamento, 14 camadas na fase decodificadora, 5 funções de interpolação e função de ativação sigmoid para cada camada, totalizando aproximadamente 29x106 parâmetros treináveis , rede B - 11 camadas na fase codificadora, 4 funções de agrupamento, 11 camadas na fase decodificadora; 4 funções de interpolação e função de ativação sigmoid para cada camada, totalizando aproximadamente 15x106 parâmetros treináveis; rede C - 8 camadas na fase codificadora, 3 funções de agrupamento, 8 camadas na fase decodificadora, 3 funções de interpolação e função de ativação sigmoid para cada camada, totalizando aproximadamente 3x106 parâmetros treináveis; rede D - 5 camadas na fase codificadora, 2 funções de agrupamento, 5 camadas na fase decodificadora e 2 funções de interpolação e função de ativação sigmoid para cada camada, totalizando aproximadamente 5x105 parâmetros treináveis. Para analisar a capacidade de cada uma das redes A, B, C e D de gerarem atributos representativos e eficientes para recuperação de imagens, cada uma delas foi treinada com imagens de texturas da base de dados Drexel vision Group. Esta base de imagens é formada por 40.000 amostras classificadas. Para este trabalho, foram empregadas imagens com a mesma distância de aquisição e rotações de 15°, 30°, 45°, 60°, 75°, 90° no plano da imagem e diferentes pontos de iluminação. Com estas restrições, a quantidade de imagens disponíveis para treinamento e teste foi reduzida para 9.600 amostras. Durante o treinamento, foi utilizada o erro médio quadrático como função objetiva. Para minimizar a função objetiva foi utilizado o método baseado na otimização estocástica do gradiente conhecido como adaptive moment estimation (Adam: A Method for stochastic optimization). Os parâmetros utilizados para otimização foram: _1 = 0.9, _2 = 0.9999 e _ = 10๔€€€6. Cada modelo foi treinado com 4000 épocas. Para cada época o erro dos conjuntos de imagens de treinamento e validação foram comparados servindo como critério para parada do treinamento. O modelo que gerou atributos mais robustos foi treinado com imagens tomográficas de testemunhos, os atributos gerados foram utilizados na recuperação das imagens tomográficas obtendo os resultados esperados nos dados do protótipo.

 

Abstract

PETROBRAS has been acquiring tomographic images of side samples, plugs and carbonate cores from the pre-salt layer. This acquisition routine generated tens of terabytes of different carbonate facies. Currently, the company does not have mechanisms for searching tomographic images by similarity. The challenges for the development of this system are related to the dimensions of the images and choices of representative attributes. Recently, deep neural networks have been used to extract features from images. This technique has been used to implement image, video and sound similarity search systems. For this work, four autoencoder convolutional neural network architectures were implemented. The SegNet network architecture was adapted for attribute extraction from grayscale images. From this modification, networks A, B, C and D were generated, with the following characteristics: network A - 14 layers in the coding phase, 5 grouping functions, 14 layers in the decoding phase, 5 interpolation functions and sigmoid activation function for each layer, totaling approximately 29x106 trainable parameters; network B - 11 layers in the encoding phase, 4 grouping functions, 11 layers in the decoding phase, 4 interpolation functions and sigmoid activation function for each layer, totaling approximately 15x106 trainable parameters; C network - 8 layers in the encoding phase, 3 grouping functions, 8 layers in the decoding phase, 3 interpolation functions and sigmoid activation function for each layer, totaling approximately 3x106 trainable parameters; D network - 5 layers in the encoding phase, 2 grouping functions, 5 layers in the decoding phase and 2 interpolation functions and sigmoid activation function for each layer, totaling approximately 5x105 trainable parameters. To analyze the ability of each of the A, B, C and D networks to generate representative and efficient features for image retrieval, each one of them was trained with texture images from the Drexel vision Group database. This image data base is made up of 40,000 classified samples. For this work, images with the same acquisition distance and rotations of 15°, 30°, 45°, 60°, 75°, 90 in the image plane and different lighting points. With these restrictions, the amount of images available for training and testing was reduced to 9,600 samples. During training, the mean squared error was used as an objective function. To minimize the objective function, the method based on the stochastic optimization of the gradient known as adaptive moment estimation (Adam: A Method for stochastic optimization) was used. The parameters used for optimization were: _1 = 0.9, _2 = 0.9999 and _ =10๔€€€6. Each model was trained with 4000 epochs. For each epoch, the error of the training and validation image sets were compared, serving as a criterion for stopping the training. The model that generated more robust attributes was trained with tomographic images of cores, the generated attributes were used in the recovery of tomographic images obtaining the expected results in the prototype data.

 

Print