SIMBA

Desenvolvido no Departamento de Informática da Universidade de Lisboa, pelo NLX-Grupo de Fala e Linguagem Natural.

início    |    características    |    english version


Características


Índice

Sumarizador SIMBA

O SIMBA é um sumarizador multi-documento para a língua Portuguesa que está gratuitamente disponível através de um serviço online.

Este sistema foi desenvolvido e é mantido pelo NLX-Grupo de Fala e Linguagem Natural no Departamento de Informática da Universidade de Lisboa.

Características

O SIMBA cria sumários extractivos a partir de conjuntos de documentos escritos em Português. Começa por anotar o texto através de um anotador morfo-sintático. De seguida, executa duas fases de agrupamento em sequência: agrupamento por similaridade e agrupamento por palavras-chave. Este procedimento de duplo-agrupamento procura, primeiramente, remover a redundância no conjunto de documentos de entrada, após o que tem como objectivo identificar e seleccionar o conteúdo relevante encontrado nos mesmos, de forma a que o sumário contenha os tópicos mais significativos mencionados no conjunto de textos de entrada.

O tamanho do sumário é definido através da taxa de compressão referente ao tamanho do conjunto de textos de entrada (por exemplo, uma taxa de compressão de 0.15 implica que o tamanho do sumário será 15% do tamanho do conjunto de textos de entrada).

Este serviço permite criar dois tipos de sumários: "com pós-processamento" e "sem pós-processamento". O módulo de pós-processamento é um procedimento que visa melhorar a qualidade textual dos sumários gerados. Este módulo executa três operações sobre o texto candidato a sumário: redução de frases, criação de parágrafos e inserção de conectores discursivos. A redução de frases gera, a partir das frases originais encontradas nos textos de entrada, frases mais pequenas contendo somente o conteúdo essencial. A criação de parágrafos agrupa as frases em tópicos definindo parágrafos de forma a que o texto seja mais fácil de ler. A inserção de conectores discursivos visa reforçar as ligações entre as frases dos parágrafos através da inserção de expressões que procuram melhorar a fluência do texto. Em suma, o módulo de pós-processamento visa melhorar a legibilidade, coesão e fluência do texto, ou seja a sua qualidade textual.


O SIMBA utiliza várias ferramentas desenvolvidas no NLX-Grupo de Fala e Linguagem Natural, nomeadamente LX-Suite e LX-Parser.

Autoria

O SIMBA foi desenvolvido por Sara Botelho Silveira na sua pesquisa de Doutoramento, orientada por António Branco, no NLX-Grupo de Fala e Linguagem Natural do Departamento de Informática da Universidade de Lisboa.

Agradecimentos

O trabalho que proporcionou o desenvolvimento do SIMBA recebeu apoios da FCT — Fundação para a Ciência e Tecnologia — por meio da bolsa com referência SFRH/BD/45133/2008.

Publicações

Sara Botelho Silveira and António Branco. Extracting multi-document summaries with a double clustering approach. In Proceedings of the 17th International Conference on Applications of Natural Language Processing to Information Systems (NLDB 2012), pages 70–81, Groningen, The Netherlands, June 2012. Springer Berlin/Heidelberg. [ pdf ]

Sara Botelho Silveira and António Branco. Enhancing multi-document summaries with sentence simplification. In Proceedings of the International Conference on Artificial Intelligence (ICAI 2012), pages 742–748, Las Vegas, USA, July 2012. [ pdf ]

Sara Botelho Silveira and António Branco. Combining a double clustering approach with sentence simplification to produce highly informative multi-document summaries. In Proceedings of the 14th International Conference on Artificial Intelligence (IRI 2012), pages 482–489, Las Vegas, USA, August 2012. [ pdf ]

Sara Botelho Silveira and António Branco. Using a double clustering approach to build extractive multi-document summaries. In Proceedings of the 15th International Conference on Text, Speech and Dialogue (TSD 2012), pages 298–305, Brno, Czech Republic, September 2012. Springer Berlin/Heidelberg. [ pdf ]

Sara Botelho Silveira and António Branco. Compressing multi-document summaries through sentence simplification. In ICAART 2013: 5th International Conference on Agents and Artificial Intelligence, Barcelona, Spain, February 2013. [ pdf ]

Sara Botelho Silveira and António Branco. Sentence reduction algorithms to improve multi-document summarization. In Lecture Notes – Communications in Computer and Information Science. Springer-Verlag, 2014. [ pdf ]

Sara Botelho Silveira and António Branco. Uncovering discourse relations to insert connectives between the sentences of an automatic summary. In PolTAL 2014: 9th International Conference on Natural Language Processing. Springer LNCS/LNAI, 2014. [ pdf ]

Para mencionar o SIMBA, usar a seguinte referência canónica:

Sara Botelho Silveira. Enhancing Extractive Summarization with Automatic Post-processing. Tese de Doutoramento, Universidade de Lisboa, Lisboa. 2015. [ pdf ]

Contacto

Para contacto, usar o endereço de e-mail: 'nlxgroup' concatenado com '@' concatenado com 'di.fc.ul.pt'.

Why SIMBA?

SIMBA é um acrónimo para "Summarization Improved By Automatic Post-processing", já que o facto do pós-processamento melhorar a sumarização extractiva é a principal hipótese que este sistema visa validar.