Aprendizado por poucas amostras baseado em Transformers para classificação de cenas em imagens de abuso sexual infantil
Date
2023Author
Coelho, Thamiris Florindo
Avila, Sandra Eliza Fontes de
Santos, Jefersson Alex dos
Metadata
Show full item recordAbstract
O abuso sexual é um crime que afeta muitas crianças ao redor do mundo. Só no último ano foram feitas mais de 32 milhões de denúncias de abuso sexual infantil foram feitas para o Centro Nacional para Crianças Desaparecidas e Exploradas. Infelizmente, o volume de material multimídia produzido diariamente é muito maior do que a capacidade de análise visual feita por profissionais da aplicação da lei. Nesse contexto, ter uma ferramenta confiável que classifique automaticamente o material de abuso sexual infantil é essencial. Métodos de Aprendizado Profundo, estado da arte para problemas de classificação de imagem, demandam grandes quantidades de dados para treinamento. Mesmo com um grande volume de dados disponíveis, a anotação dessas imagens é muito custosa. Além disso, devido a barreiras legais e éticas, esses dados sensíveis só podem ser acessados por agentes da polícia. Para lidar com isso, alguns métodos tentam ajudar as investigações resolvendo um problema computacional relacionado. A classificação de cenas internas pode ajudar a detectar ambientes nos quais esse tipo de conteúdo é tipicamente composto. No entanto, nesses ambientes, a presença de um objeto pode mudar completamente a classificação. Módulos de atenção da arquitetura Transformers podem ajudar o modelo a focar nas partes essenciais dos dados para resolver algumas tarefas. Assim, para focar em objetos presentes em cenas, esse trabalho utiliza modelos baseados em Transformers. Além disso, para lidar com o desafio de anotar os dados, utilizamos aprendizagem com poucas amostras (few-shot learning), uma técnica de aprendizado supervisionado que aprende utilizando poucas amostras anotadas. Nesta dissertação de mestrado analisamos alguns modelos de few-shot learning clássicos e comparamos modelos baseados em Transformers para classificação de cenas de ambientes internos. Observamos também que a maioria dos trabalhos analisados utiliza um mesmo método de agrupamento de vetores de características, portanto, nesse sentido investigamos o uso de diferentes métodos, concluindo que agregar os vetores utilizando a média é o melhor para o conjunto de cenas internas. Nossos resultados indicam que o uso de Transformers é benéfico no contexto de classificação de cenas internas. Além disso, para o conjunto de dados de cenas internas utilizado, utilizar a média para agregar os vetores de características levou aos melhores resultados, provavelmente porque no nosso contexto a média foi uma boa representação. Nosso modelo final atingiu 73,50 ± 0,09% de acurácia com 95% de confiança na tarefa de classificação de cenas internas utilizando apenas 5 amostras anotadas por classe para a classificação. Em cooperação com especialistas da Polícia Federal Brasileira pudemos avaliar nosso modelo em um conjunto de dados de abuso sexual infantil anotado para cenas internas, nosso modelo atingiu uma acurácia balanceada com 95% de confiança de 63,38 ± 0,09%, avaliamos que os resultados foram promissores, indicando que a utilização da técnica proposta pode auxiliar em um processo de triagem.
