Exportar registro bibliográfico

Comparação de métodos de aprendizado de máquina para classificação automática de notícias em português (2023)

  • Authors:
  • USP affiliated author: SAAVEDRA, JUAN DAVID OCHOA - ICMC
  • School: ICMC
  • Subjects: APRENDIZADO COMPUTACIONAL; PROCESSAMENTO DE LINGUAGEM NATURAL; ANÁLISE DE TEXTO
  • Keywords: Classificação de textos; Representação de textos; Classificação de notícias
  • Language: Português
  • Abstract: A categorização de notícias de acordo com seus temas é uma tarefa crucial para organizar e gerenciar os fluxos informacionais crescentes característicos da era digital. No entanto, a magnitude da produção jornalística diária inviabiliza a classificação manual, tornando imperativo o desenvolvimento de sistemas automatizados para essa função. Neste contexto, este trabalho realizou uma investigação abrangente de diferentes métodos de represen tação textual e modelos de aprendizado de máquina para a classificação automática do tema de notícias em português. Inicialmente, foi desenvolvido um coletor personalizado que recuperou mais de 18 mil notícias atualizadas de portais brasileiros, as quais foram rotuladas manualmente em 19 classes temáticas distintas. Foram exploradas diversas técnicas de pré-processamento e representação textual, incluindo Word2Vec, Doc2Vec, Bag of Words com TF-IDF e fine-tuning de um modelo Bidirecional Encoder Representations from Transformers (BERT) pré-treinado. Para treinamento e avaliação, algoritmos como regressão logística e support vector machine foram empregados. O modelo BERT obteve o melhor desempenho, com 93% de acurácia e 0,98 de F1 weighted, superando significati vamente as representações tradicionais testadas. No entanto, combinações como Bag of words + support vector machine e Doc2Vec + regressão logística também apresentaram métricas satisfatórias de acurácia e F1-score, emergindo como alternativas interessantes em termos de custo-benefício computacional. Os resultados fornecem insights abrangentes sobre abordagens e representações textuais eficazes para categorização automatizada do tema de notícias em português.
  • Imprenta:

  • Download do texto completo

    Tipo Nome Link
    Versão Publicada Juan David Ochoa Saavedra... Direct link
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      SAAVEDRA, Juan David Ochoa. Comparação de métodos de aprendizado de máquina para classificação automática de notícias em português. 2023. Trabalho de Conclusão de Curso (MBA) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2023. Disponível em: https://bdta.abcd.usp.br/directbitstream/c97a2594-49a1-4fb2-8325-e79904b1ac35/Juan%20David%20Ochoa%20Saavedra.pdf. Acesso em: 30 abr. 2024.
    • APA

      Saavedra, J. D. O. (2023). Comparação de métodos de aprendizado de máquina para classificação automática de notícias em português (Trabalho de Conclusão de Curso (MBA). Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. Recuperado de https://bdta.abcd.usp.br/directbitstream/c97a2594-49a1-4fb2-8325-e79904b1ac35/Juan%20David%20Ochoa%20Saavedra.pdf
    • NLM

      Saavedra JDO. Comparação de métodos de aprendizado de máquina para classificação automática de notícias em português [Internet]. 2023 ;[citado 2024 abr. 30 ] Available from: https://bdta.abcd.usp.br/directbitstream/c97a2594-49a1-4fb2-8325-e79904b1ac35/Juan%20David%20Ochoa%20Saavedra.pdf
    • Vancouver

      Saavedra JDO. Comparação de métodos de aprendizado de máquina para classificação automática de notícias em português [Internet]. 2023 ;[citado 2024 abr. 30 ] Available from: https://bdta.abcd.usp.br/directbitstream/c97a2594-49a1-4fb2-8325-e79904b1ac35/Juan%20David%20Ochoa%20Saavedra.pdf

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Academic Works of Universidade de São Paulo     2012 - 2024