• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.55.2020.tde-16032020-150627
Documento
Autor
Nome completo
Felipe Provezano Coutinho
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2019
Orientador
Banca examinadora
Rezende, Solange Oliveira (Presidente)
Almeida, Tiago Agostinho de
Lopes, Alneu de Andrade
Nogueira, Bruno Magalhães
Título em português
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical
Palavras-chave em português
Classificação de documentos
Evolução gramatical
Funções de proximidade
Rede de termos
Resumo em português
Com o crescente volume de dados textuais, a simples tarefa de rotulação de documentos tornase onerosa. Algoritmos de aprendizado de máquina podem aprender com dados históricos e então serem capazes de realizar a tarefa de rotulação automática em novos documentos. Geralmente, os algoritmos supervisionados são utilizados. Nessa abordagem uma grande quantidade de exemplos é necessária para que o algoritmo seja capaz de identificar padrões e generalizar esse conhecimento com a rotulação de novos exemplos. Uma alternativa é o uso de algoritmos transdutivos, que necessitam apenas de poucos documentos rotulados para realizar a generalização. Geralmente, algoritmos transdutivos utilizam redes de documentos ou um modelo espaço vetorial para representação de documentos. A rede de documentos cresce a medida que novos documentos são adicionados, enquanto o modelo espaço vetorial sofre de problemas como a independência entre termos e alta esparsidade. Uma rede de termos é uma alternativa interessante aos modelos anteriores porque o número de termos tende a se estabilizar a medida que novos documentos são adicionados, a representação da relação entre termos é natural e é possível realizar a seleção de termos diminuir a rede e acelerar a classificação. O Transductive Classification through Terms Networks (TCTN) é estado-da-arte na classificação de documentos utilizando rede de termos, contudo um de seus hiperparâmetros é a função de proximidade que quantifica a proximidade entre termos e a escolha por uma função pode não ser trivial. Nessa dissertação, uma abordagem para construção automática de funções de proximidade para redes de termos é proposta, implementada e avaliada. A abordagem denominada Grammatical Evolution for Automatically Design Interestingness Measures for Transductive Classification through Term Networks (GE-TCTN) utiliza uma gramática livre de contexto para evolução de novas funções de proximidade através do algoritmo de otimização denominado Evolução Gramatical. Os resultados do GE-TCTN são comparados com os resultados do TCTN com objetivo de verificar se novas funções de proximidade construídas automaticamente pelo GETCTN são capazes de produzir resultados de classificação de documentos melhores do que os resultados produzidos utilizando-se funções de proximidade tradicionais da literatura em termos da medida de avaliação de classificação F1-ponderada. Além disso, o GE-TCTN é comparado aos algoritmos aprendizado transdutivo tradicionais e avaliados estatisticamente. Os resultados do GE-TCTN são competitivos com os algoritmos tradicionais e o GE-TCTN é capaz de produzir funções de proximidade que levam a resultados de classificação de documentos superiores ao TCTN.
Título em inglês
Automatic Construction of Proximity Functions for Term Networks Using Grammatical Evolution
Palavras-chave em inglês
Document classification
Grammatical evolution
Proximity functions
Terms network
Resumo em inglês
With the increasing volume of textual data the simple task document labeling becomes costly. Machine learning algorithms can learn from historical data and then be able to perform the automatic labeling task on new documents. Generally, supervised algorithms are used for this. In this approach a large number of examples are required for the algorithm to be able to identify patterns and generalize this knowledge by labeling new examples. An alternative is the use of transductive algorithms that only require a few labeled documents to generalize. Usually, transductive algorithms use document networks or a vector space model for document representation. The document network grows as new documents are added and the vector space model suffers from problems such as term independence and high sparsity. A term network is an interesting alternative to previous models because the number of terms tends to stabilize as new documents are added, the representation of the relationship between terms is natural and it is possible to select terms to narrow the network and speed up classification. Transductive Classification through Terms Networks (TCTN) is state-of-the-art in document classification using term networks, however one of its hyperparameters is the proximity function that quantifies the proximity between terms and choosing a function may not be trivial. In this dissertation, an approach for automatic construction of proximity functions for term networks is proposed, implemented and evaluated. The approach called textit Grammatical Evolution for Automatically Design Proximity Functions for Transductive Classification through Term Networks (GE-TCTN) uses a context-free grammar to evolve new proximity functions through the optimization algorithm called Grammatical Evolution. The results produced by GE-TCTN are compared to TCTNs results to verify whether new proximity functions built automatically by GE-TCTN are capable of producing better document classification results than results produced by using traditional proximity functions of the literature. In addition, GE-TCTN is compared to traditional algorithms in the literature and statistically evaluated. GE-TCTN results are competitive with traditional algorithms and GE-TCTN is capable of producing proximity functions that lead to document classification results superior to TCTN in terms of F1-measure.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2020-03-16
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.