[ABE-L] 1o seminário de ciências de dados e decisão de 2026
Hedibert Lopes
hedibert em gmail.com
Qui Fev 5 10:38:45 -03 2026
Title: Por que Documentos Diferem: Descobrindo Lógica Decisória Hierárquica em Grandes Coleções de Texto
Speaker: Tiago Tavares
https://www.insper.edu.br/pt/docentes/tiago-fernandes-tavares
University: Insper
Abstract: Organizações dependem cada vez mais de grandes coleções de textos — notícias, relatórios, normas regulatórias e comunicações institucionais — para apoiar processos de decisão. No entanto, a maioria das ferramentas analíticas disponíveis ainda organiza documentos com base no assunto tratado (tópicos), e não nas razões pelas quais eles diferem, como sua intenção, função ou lógica subjacente. Essa limitação reduz a capacidade de identificar padrões estratégicos, trade-offs de políticas públicas ou distinções comportamentais que são ambíguos no contexto de classificações convencionais. Este trabalho propõe um novo framework para a exploração de textos em larga escala que concebe a organização documental como um processo de formulação e teste de hipóteses, em vez de simples agrupamento por similaridade lexical. Em lugar de submeter cada documento a análises repetidas e custosas, o método constrói regras decisórias claras e interpretáveis a partir de pequenas amostras representativas (por exemplo, “o texto expressa uma intenção de política pública, e não um benefício privado”) e avalia essas regras de forma eficiente sobre todo o conjunto de documentos. O resultado é uma árvore de decisão interpretável, cujos desdobramentos refletem distinções conceituais substantivas, e não critérios numéricos opacos. Evidências empíricas obtidas a partir de dados de notícias, fóruns de discussão, Wikipedia e legislação dos Estados Unidos indicam que as estruturas identificadas frequentemente divergem de classificações temáticas, mas de maneira informativa. Em documentos de política pública, por exemplo, o método revela distinções associadas à orientação para o bem-estar coletivo e à natureza regulatória dos textos, dimensões que modelos tradicionais de tópicos tendem a ignorar. As regras decisórias obtidas apresentam elevada capacidade de generalização para documentos novos e mantêm estabilidade mesmo quando avaliadas por modelos independentes. O framework é computacionalmente viável em hardware convencional, dispensa custos proporcionais ao número de documentos analisados e permite o refinamento iterativo da lógica identificada. De forma mais ampla, oferece uma alternativa prática para avançar da categorização descritiva para um processo de interpretação estruturada e escalável de grandes acervos textuais, com aplicações relevantes em economia, administração, políticas públicas e ciência de dados.
February 5, 2026
12pm, São Paulo, Brasil (UTC/GMT -03:00)
Via Zoom
The seminar will be streamed at https://zoom.us/j/95781336030
access password : 290524
Sent from Hedibert's iPhone
Mais detalhes sobre a lista de discussão abe