Evaluating autoencoders as a dimensionality reduction mechanism to support clustering Brazilian Agricultural Diversity.
- Authors
- Publication Date
- Dec 20, 2023
- Identifiers
- DOI: 10.14393/rbcv75n0a-68733
- OAI: oai:www.alice.cnptia.embrapa.br:doc/1160100
- Source
- Repository Open Access to Scientific Information from Embrapa
- Keywords
- Language
- Portuguese
- License
- Unknown
- External links
Abstract
Brazilian agricultural production presents high spatial diversity, challenging the conception of public policies. This article proposes an approach for grouping Brazilian municipalities according to their agricultural production. We combine a feature extraction using autoencoders and clustering based on k-means and Self-Organizing Maps. We used panel data from IBGE’s annual estimates of the production value of permanent and temporary crops, animal products, aquaculture, plant extractivism, forestry, planted areas, and herd population between 1999 and 2018. We analyzed different structures of simple stacked and incomplete autoencoders, varying the number of layers and neurons in each, and evaluated the asymmetric exponential linear loss function to handle the sparse data. We applied the Isomap, Kernel PCA, Truncated SVD, and MDS dimensionality reduction methods for comparative purposes. Results showed that the autoencoders could extract characteristics from the transformed raw data to allow the clustering of municipalities to reveal regional and even intra-regional patterns. The autoencoders improved comparative performance as the intrinsic dimensionality increased. A produção agrícola brasileira apresenta elevada diversidade espacial, o que desafia a concepção de políticas públicas. Este artigo propõe uma abordagem de agrupamento dos municípios brasileiros segundo sua produção agrícola. Combinamos extração de características utilizando autoencoders e clusterização baseada em k-médias e Mapas Auto Organizáveis. Utilizamos os dados em painel, entre 1999 e 2018, das estimativas anuais do IBGE sobre valor da produção de culturas permanentes, temporárias, produtos de origem animal, aquicultura, extrativismo vegetal, silvicultura, área plantada e efetivo de animais. Analisamos diferentes estruturas de autoencoders simples empilhados e incompletos, variando o número de camadas e neurônios em cada uma delas, e avaliamos a função de perda linear exponencial assimétrica para lidar com os dados esparsos. Comparamos os autoencoders com os métodos de redução de dimensionalidade Isomap, Kernel PCA, Truncated SVD e MDS. Os resultados mostraram que os autoencoders conseguiram extrair características dos dados brutos de forma a permitir a clusterização dos municípios revelasse padrões regionais e intra-regionais. Os autoencoders melhoram o desempenho comparativo à medida que a dimensionalidade intrínseca aumenta