07/06/2018 Marcos Tanaka

Classificação de imagens com deep learning e TensorFlow

Hoje em dia técnicas de machine learning são utilizadas para resolver problemas em praticamente todo domínio imaginável. Um uso muito popular é no reconhecimento e classificação de imagens, onde técnicas de deep learning podem apresentar ótimos resultados.

Para entender conceitos como redes neurais, deep learning e classificação de imagens, preparei um exemplo onde ensinaremos um algoritmo a separar fotos de gatos de acordo com suas raças.

Relembrando a teoria discutida no artigo anterior (O que é Machine Learning?), nosso algoritmo será de classificação (classificar uma entrada entre determinadas categorias), com aprendizagem supervisionada (treinamento com entradas que possuem um label associado, ou seja, dizemos ao computador o que significa aquela entrada).

Mas antes de implementar o algoritmo, primeiro vamos entender algumas definições:

Rede Neural Artifical

Uma rede neural artifical (ANN) é uma estrutura que simula o funcionamento de um conjunto de neurônios. A ANN mais simples é aquela composta de apenas um neurônio, chamada perceptron. Um perceptron possui:

  • diversas entradas com seus respectivos pesos
  • um valor limite, utilizado para decidir se o perceptron “dispara”, ou seja, se sua saída será igual a 1
  • e o valor de saída, que pode ser 0 ou 1

Exemplo de deep learning, redes neurais, neural networks

Fonte: http://video.udacity-data.com.s3.amazonaws.com/topher/2017/November/5a01aef2_neural-networks/neural-networks.pdf

Ao juntar muitos perceptrons, formamos uma rede, uma rede neural artificial.

Para treinar um perceptron, comparamos o resultado obtido com o resultado esperado, e mudamos os pesos das entradas com o objetivo de minimizar o erro obtido.

Por exemplo: imagine que vamos treinar uma rede neural para classificar se um e-mail é ou não spam. As entradas podem ser:

  • O tamanho do e-mail
  • O horário em que foi enviado
  • Se conheço ou não quem o enviou
  • Se já recebi outros e-mails do mesmo remetente
  • As palavras no assunto e no corpo do e-mail

E a saída é 0 (não spam) ou 1 (spam). Conforme a rede é treinada (usa a diferença entre o resultado obtido e o resultado esperado para alterar os pesos que agem sobre as entradas, afim de minimizar o erro), ela aprende as características e a relevância de cada característica para indicar se um e-mail é ou não spam.

Ou seja, treinamos a estrutura para gerar o resultado correto por meio do ajuste dos pesos que agem sobre as entradas. Este ajuste é feito ao comparar o resultado obtido com o resultado esperado, e calcular a diferença. O ajuste tem o objetivo de diminuir esta diferença. Quanto menor a diferença, mais o algoritmo aprendeu a classificar corretamente.

Rede Neural Convolucional

Rede Neural Convolucional (Convolutional Neural Network – CNN) é uma classe de rede neural utilizada para processamento e análise de imagens. Foi proposta em 1998 em um paper do cientista Yann LeCun, que propôs uma arquitetura capaz de reconhecer dígitos manuscritos com precisão de 99,2%. Esta arquitetura foi inspirada em uma pesquisa de 1968 feita por David Hunter Hubel e Torsten Wiesel sobre o funcionamento do córtex visual dos mamíferos.

A pesquisa sugere que mamíferos percebem visualmente o mundo de forma hierárquica, através de camadas de clusters de neurônios. Quando vemos algo, clusters são ativados hierarquicamente, e cada um detecta um conjunto de atributos sobre o que foi visto.

A arquitetura da CNN simula clusters de neurônios para detectar atributos daquilo que foi visto, organizados hierarquicamente e de forma abstrata o suficiente para generalizar independentemente de tamanho, posição rotação, etc.

Exemplo de Rede Neural Convolucional (Convolutional Neural Network - CNN)
Fonte: https://github.com/llSourcell/Convolutional_neural_network/blob/master/convolutional_network_tutorial.ipynb 

Deep Learning

Acima explicamos o conceito de rede neural. Deep Learning é o uso de uma rede neural com muitas camadas. Usando a mesma lógica, mas com mais níveis, podemos utilizá-la para modelar conceitos mais complexos.

Convolucional

Já entendemos o que é uma rede neural, e que rede neural convolucional é uma classe de redes neurais. Mas qual o significado de convolução? Para nós neste exemplo, convolução pode ser visto como sinônimo de combinação. É o procedimento de combinar duas fontes de informação.

Imagem

O input da CNN é uma imagem, representada como uma matriz. Cada elemento da matriz contém o valor de seu respectivo pixel, que pode variar de 0 a 255. Para imagens coloridas em RGB temos uma matriz “em três dimensões”, onde cada dimensão é uma das camadas de cor (red, green e blue). Assim, uma imagem colorida de 255px por 255px é representada por três matrizes de 255 por 255 (255x255x3).

Atributo

Um atributo é um padrão que a CNN aprende. Normalmente este padrão se repete nas imagens, tornando-o proeminente. O contorno dos objetos (linhas, formas, abstrações) é um exemplo de atributo.

Aplicando a convolução

Um pouco acima explicamos que convolução é a combinação de duas fontes de informação. E que estamos tentando aprender e identificar padrões nas imagens. Neste exemplo, queremos aprender os padrões que diferenciam duas raças diferentes de gatos, quais características diferenciam uma raça da outra. E como treinar nosso algoritmo para identificar estas características.

Pois bem, para isto utilizamos um kernel/filtro que será aplicado à partes da imagem original, com o objetivo de identificar padrões.

Pense nela como uma matriz menor composta de valores. Ela é aplicada à imagem (convolução), para obter regiões de ativação, ou seja, regiões onde atributos específicos deste filtro foram encontrados.

Por exemplo, podemos imaginar um filtro de 16 x 16 percorrendo uma imagem de 256 x 256 x 3. A cada etapa pegamos uma porção de 16 x 16 da imagem e fazemos a convolução (ou seja, calculamos o produto escalar entre as duas matrizes). O valor obtido é adicionado à matriz de ativação. Este processo é repetido até todas as três matrizes terem sido percorridas completamente.

Tutorial de rede convolucional
Fonte: https://github.com/llSourcell/Convolutional_neural_network/blob/master/convolutional_network_tutorial.ipynb 

 

Os valores do filtro mudam a cada iteração de treinamento, com o objetivo de melhorar a identificação de quais regiões contém atributos significativos (da mesma forma que os pesos em um perceptron de uma rede neural são atualizados no treinamento).

Mas como essa série de multiplicações nos ajuda a detectar os atributos de uma imagem? Conforme o filtro aprende a detectar um atributo (através do processo de aprendizado), seus valores se ajustam de forma que o resultado da convolução seja um valor que indique que o determinado atributo foi encontrado. É o mesmo mecanismo utilizado na detecção de spam/não spam explicada anteriormente, só que agora sendo aplicado a uma imagem.

No exemplo abaixo, estamos tentando identificar o ratinho na imagem. O filtro irá trabalhar na detecção daquela curva destacada em amarelo. A representação em pixels do contorno do ratinho contém valores da cor onde ocorre o contorno, e zero (branco) onde não ocorre.

Tutorial de rede convolucional

Quando fazemos o produto escalar entre o filtro e o contorno que procuramos, o resultado é um número bem grande.

Tutorial de rede convolucional

Este resultado sempre é menor em outras partes da imagem, pois o produto escalar é menor.

Tutorial de rede convolucional
Fonte: https://github.com/llSourcell/Convolutional_neural_network/blob/master/convolutional_network_tutorial.ipynb 

 

Ou seja, quando o resultado da convolução é um número grande, o atributo foi detectado. Já quando é um resultado 0 ou muito pequeno, o atributo não foi encontrado.

Treinando nossa CNN

Neste exemplo não iremos escrever uma CNN do zero, mas sim treinar uma pronta utilizando um processo chamado Transfer Learning. Com Transfer Learning, usamos uma CNN já treinada, e adicionamos uma camada a mais, treinando apenas esta camada para nosso objetivo.

No nosso caso, usaremos a CNN Inception-V3 do Google, que foi treinada em cima da base de dados ImageNet, e a ensinaremos a classificar a raça de gatos.

Crie uma pasta em algum lugar do seu computador, abra uma linha de comando nela e siga os passos abaixo.

Passo 1

Baixar e instalar o Docker. Uma vez instalado, podemos executar o seguinte comando para conferir se está tudo ok:

docker run hello-world

Passo 2

Baixar a imagem do TensorFlow:

docker pull tensorflow/tensorflow

Passo 3

Iniciar o container baseado na imagem do TensorFlow, mapeando um diretório entre a máquina física e o container:

docker run -it --volume ${PWD}:/tf_files --workdir /tf_files --publish 6006:6006 tensorflow/tensorflow:1.1.0 bash

Parâmetros:

  • -it: processo interativo
  • --volume <host>:<container>: monta um volume, linkando uma pasta no host com uma no container
  • --workdir <dir>: diretório no container onde vamos executar os comandos
  • --publish <host>:<container>: mapeamento entre porta do host e a porta no container

Passo 4

Colocar neste diretório os arquivos necessários para treinar a CNN (veja as observações abaixo para pegar os arquivos):

  • Uma pasta chamada cats, contendo uma pasta para cada categoria que queremos treinar. No nosso caso teremos uma pasta para cada raça de gato. O nome da pasta será o nome da categoria, o nome da raça do gato. Dentro das pastas, teremos as imagens dos gatos.
  • Script retrain.py que contém os comandos para treinar a CNN.
  • Script label_image.py que usaremos para consultar a CNN treinada, ou seja, passaremos a imagem de um gato e perguntaremos qual sua raça.

Obs 1: Você deve montar ou utilizar um conjunto de dados com as imagens das raças desejadas. Eu utilizei um subconjunto do desafio Dogs vs. Cats do Kaggle.

Para este exemplo, separei mais ou menos 200 imagens de cada raça. Vamos trabalhar com a Birman e a British Shorthair:

Gato Birman, Gato British Shorthair em exemplo de deep learning
Fonte: https://www.kaggle.com/c/dogs-vs-cats 

 

Obs 2: Para baixar os scripts, execute os seguintes comandos:

curl -O https://raw.githubusercontent.com/tensorflow/tensorflow/r1.1/tensorflow/examples/image_retraining/retrain.py
curl -L https://goo.gl/3lTKZs > label_image.py

Feito isto, sua pasta deve estar mais ou menos assim:

Exemplo de deep learning e tutorial de rede convolucional

Passo 5

Iniciar o treinamento:

python -m retrain \
  --bottleneck_dir=bottlenecks \
  --how_many_training_steps=500 \
  --model_dir=models/ \
  --summaries_dir=training_summaries/"${ARCHITECTURE}" \
  --output_graph=retrained_graph.pb \
  --output_labels=retrained_labels.txt \
  --architecture="${ARCHITECTURE}" \
  --image_dir=cats

Este script irá baixar o inception model e depois iniciará o treinamento com base nas imagens e categorias que informamos. Irá iterar 500 vezes para treinar o modelo, e salvará o resultado no arquivo retrained_graph.pb.

O tempo de execução varia de acordo com a quantidade de imagens para treinar e a velocidade do computador. Em um teste que fiz com 12 raças, cada uma contendo em torno de 200 imagens, o treinamento demorou mais ou menos 30 minutos em um i5 com 8 GB de RAM.

Treinamento finalizado:

Exemplo de deep learning e tutorial de rede convolucional

Passo 6

Consultar o modelo gerado. Podemos pesquisar no Google a imagem de um gato qualquer (dentre as duas raças que escolhemos), e colocar na pasta tf_files. Para perguntar ao modelo treinado qual a raça deste gato, basta executar:

python label_image.py gato.jpg

Onde gato.jpg é o nome da imagem que você pesquisou e baixou.

Fiz um teste com o gato da imagem abaixo, e o resultado foi 99,29% British Shorthair, ou seja, o resultado correto!

Exemplo de deep learning e tutorial de rede convolucionalCheezburger cat
Fonte: http://mentalfloss.com/article/16205/lol-cats-i-can-has-cheezburger

Próximos passos

Podemos pegar o modelo que treinamos e criar uma aplicação para disponibilizar uma API que recebe a imagem de um gato e retorna sua raça fazendo consulta a este modelo. Ou podemos também criar uma aplicativo para celular, onde tiramos a foto de um gato e consultamos o modelo para saber a sua raça.

Estes são alguns exemplos de como utilizar isto no mundo real, e lembre-se que podemos utilizar este modelo também para outros tipos de imagens e classificações.

Fontes e créditos

Este tutorial não seria possível sem o estudo das seguintes referências:

Scripts:

Os scripts utilizados fazem parte do tutorial TensorFlow for Poets, e foram obtidos com os segiuntes comandos:

curl -O https://raw.githubusercontent.com/tensorflow/tensorflow/r1.1/tensorflow/examples/image_retraining/retrain.py
curl -L https://goo.gl/3lTKZs > label_image.py

 

 

 

Comentários

comentários

Sobre o autor

Marcos Tanaka Marcos Tanaka é desenvolvedor de software com experiência em tecnologias como Java, Spring Framework, Hibernate, JavaScript, Node.js, Swift, iOS, Kotlin, Python e Machine Learning. Criador dos aplicativos Kiwi Queue e Really Simple Finance. Você pode encontrá-lo no LinkedIn e aqui: https://about.me/marcosatanaka