Recuperação de informação

Recuperação de informação (RI) é uma área de pesquisa que lida com o armazenamento de documentos e, principalmente, a recuperação da informação associada a eles a partir de uma necessidade de informação do usuário, por meio de um grupo de tarefas como a busca ad-hoc, a filtragem, o roteamento e possivelmente outras[1].

Atualmente, a maior parte da pesquisa está relacionada ao uso do computador para realizar essas tarefas, sendo importantes as contribuições de pesquisadores da Computação, porém suas origens estão na área de Ciência da Informação e Biblioteconomia, onde também são feitas contribuições de relevo. Seus efeitos, antes restritos a um público mais restrito, os usuários de bibliotecas ou pesquisadores em coleções de documentos, mas seu impacto se tornou essencial ao dia a dia com o aparecimento da World Wide Web[1] e a internet comercial e a necessidade de mecanismos de busca.

Grande parte da pesquisa é sobre como retornar a melhor resposta para uma busca por informações em documentos, busca pelos documentos propriamente ditos ou busca por metadados que descrevam documentos. A mídia pode estar disponível sob forma de textos, de sons, de imagens, vídeos ou filmes ou de dados.

O maior desafio está na questão de bases muito grandes e infinitas na prática, como a World Wide Web.

Um das característica que definem a recuperação da informação e a separa do acesso tradicional aos bancos de dados é que não há uma resposta definitivamente correta a uma consulta, pois tudo depende da necessidade de informação do usuário naquele instante, assim a teoria básica de Bando de Dados e linguagens como SQL não atendem seus requisitos[2][1].

Histórico acadêmico

O termo foi criado por Calvin Mooers entre 1948 e 1950, e o campo de pesquisa é interdisciplinar, baseado em muitas áreas. Por sua abrangência ele não é muito bem compreendido, sendo abordado tipicamente sob uma ou outra perspectiva. Ele está posicionado na junção de muitos campos já estabelecidos, tais como psicologia cognitiva, arquitetura da informação, projeto da informação, comportamento da informação humana, linguística, semiótica, ciência da informação, ciência da computação, biblioteconomia e estatística.

A partir da década de 1950, alguns pesquisadores, principalmente ligados a bibliotecas e gestão de documentos, perceberam que as capacidades dos computadores poderiam ser utilizadas para gerar sistemas de índices para consultas semelhantes aos catálogos das bibliotecas. Isso depois evoluiu para sistemas que poderiam acessar os resumos e finalmente o texto completo dos documentos[3].

Entre os marcos da área estão a proposta do WRU Searching Selector[4], talvez o primeiro sistema que tenha funcionado na prática, e o sistema SMART, apresentado por Gerard Salton[2], considerado o pai da Recuperação da Informação. Os experimentos Cranfield, liderados por Cyril W. Cleverdon também tiveram grande impacto na área, praticamente definindo a forma como sistemas de RI são comparados[5].

Em 1992 o Departamento de Defesa dos Estados Unidos, em conjunto com o Instituto Nacional de Padrões e Tecnologia (NIST), do mesmo país, patrocinou a Text Retrieval Conference (TREC, Conferência de Recuperação de Textos) como parte do programa TIPSTER. O objetivo disto foi observar a transformação da comunidade de recuperação de informações a partir do provimento de uma infraestrutura de suporte que era necessária para tal gigantesca avaliação das metodologias de recuperação de textos.

Objetivo

Os documentos são geralmente textos ou partes do texto de documentos e o principal objetivo de um sistema de RI é recuperar informação (contida nos documentos) que possa ser útil ou relevante para o usuário. Tal informação (de interesse do usuário) é normalmente chamada de necessidade de informação do usuário. Infelizmente, caracterizar a necessidade de informação do usuário não é uma tarefa simples. Considere, por um momento, a seguinte necessidade de informação de um usuário no contexto da World Wide Web (ou simplesmente Web):

"Encontre todos os documentos contendo informações sobre a doença Neoplasma Benigno de forma que: (1) O paciente com a doença possua idade inferior a 50 anos e (2) seja diabético."

Consultas

Para obter documentos de seu interesse, o usuário deverá traduzir uma necessidade de informação em uma consulta.

Apesar de haver uma forte área de pesquisa para responder perguntas em linguagem natural, muita da pesquisa feita em Recuperação da Inforamação é baseada em uma consulta formada por uma lista de palavras-chave fornecida pelo usuário, sendo essa a forma padrão de busca, circa 2023, das interfaces do utilizador das máquinas de busca na Web .

Uma inconveniência imediata dessa abordagem é que o uso de palavras-chave usualmente introduz uma diferença de semântica entre a intenção do usuário e o conjunto de documentos retornados. Além disso, essa diferença de semântica pode ser ampliada devido à dificuldade adicional em se lidar com textos em linguagem natural, que nem sempre são bem estruturados e podem ser semanticamente ambíguos.[6]

Resultados

O objetivo geral de um sistema de recuperação de informação é retornar os documentos mais relevantes para o usuário naquele instante. Relevância[7], porém, é um termo que pode ser definido de acordo com várias formas, incluindo as relevâncias afetiva, situacional, cognitiva, tópica e algoritmica. Além disso é um conceito que muda no tempo, pois após ler um documento encontrado por um sistema de recuperação de informação, o documento seguinte pode deixar de ser relevante.

Devido a ambiguidade da língua e as necessidades específicas de diferentes usuários, a presença de documentos (textos) pouco ou não relevantes entre os documentos retornados por uma consulta é praticamente certa. Nesse cenário, o principal objetivo dos sistemas de RI é recuperar o maior número possível de documentos relevantes e o menor número possível de documentos não relevantes.

Uma forma simples de obter um conjunto de respostas para uma consulta de usuário é determinar quais documentos em uma coleção contém as palavras da consulta, no que é conhecido como full-text retrieval. Todavia, isto não é o suficiente para satisfazer ao usuário em um sistema de RI. Técnicas tradicionais para resolver esse problema incluem a classificação do documento dentro de um conjunto de tópicos pré-determinados, usando técnicas típicas da Ciência da Informação como a classificação facetada; o uso de thesaurus ou técnicas de expansão de consulta, uso de informação da rede, como o algoritmo PageRank, técnicas de sistemas de recomendação, etc[1].

As Tarefas da Recuperação da Informação

Entre as tarefas da recuperação de informação estão[1]:

  • Busca Ad-Hoc, buscar documentos em uma coleção fixa a partir de uma consulta gerada pelo usuário
  • Filtragem, verificar se documentos que chegam em uma coleção atendem a uma consulta previamente cadastrada por um usuário
  • Roteamento, fazer a tarefa de filtragem e ordenando os documentos por relevância
  • Browsing ou navegação, navegação entre documentos como feito na Web.

Relevância

Relevância é o "A de um B existindo entre C e D como determinado por E", sendo que:

  • A pode ser medida, grau, estimativa, ...;
  • B pode ser correspondência, utilidade, ...;
  • C pode ser documento, texto , informação, ...;
  • D pode ser consulta, pedido, ..., e
  • E pode ser usuário, especialista, juiz, ....[7]

Uma definição comum de relevância para sistemas de recuperação de informação foi dada por van Rijsbergen[8]: a medida ou grau de correspondência ou utilidade existente entre um texto ou documento e uma consulta ou requisito de infomação para uma determinada pessoa.

Para ser eficaz na tarefa de satisfazer a necessidade de informação do usuário, os sistemas de RI devem ordenar os documentos de uma coleção de acordo com o seu grau de relevância com a consulta do usuário.

A noção de relevância é um conceito fundamental em recuperação de informação e é um componente chave para calcular a classificação (ordenação) de documentos em um conjunto de respostas a uma consulta do usuário.a

Principais passos

  • Operação de Consulta - envolve a especificação de um conjunto de termos, associados ou não por operadores booleanos, que representa a necessidade de informação do usuário.
  • Operação de Indexação - envolve a criação de estruturas de dados associados aos documentos de uma coleção. Uma estrutura de dados bastante utilizada são as listas invertidas de termos/documentos.
  • Pesquisa e Ordenação - envolve o processo de recuperação de documentos de acordo com a consulta do usuário e sua ordenação através de um grau de similaridade entre o documento e a consulta.

Modelos de Recuperação de Informação

Para calcular uma classificação, o sistema de RI usualmente adota um modelo para representar os documentos e a consulta do usuário. Muitos modelos ou abordagens para a computação da classificação tem sido propostos ao longo dos anos, sendo três modelos considerados clássicos[1]:

Esses modelos servem de base para construção de muitos outros modelos, como o modelo booleano fuzzy, a Indexação por Semântica Latente, Modelos de Linguagem e modelos baseados em redes neurais.

Um modelo de recuperação de informação necessita de[1]:

  1. Um conjunto de representações de documentos
  2. Um conjunto de representações de consulta
  3. Um arcabouço que modela documentos, consultas e seus relacionamentos, e
  4. Uma função de ordenação que associa um número real para cada documento dada uma consulta.

Termos de Indexação

Os modelos clássicos de recuperação de informação consideram que cada documento é representado por um conjunto de palavras-chave representativas, ou termos de indexação, que são consideradas como mutuamente independentes, o que é uma simplificação.

Como um mesmo termo pode aparecer em diferentes documentos, é necessário distinguir a ocorrência de um termo em um documento da ocorrência deste mesmo termo em outro documento . Para isso, a cada par termo-documento associa-se um peso . A fórmula de calcular esse peso é uma dos principais áreas de estudo dos modelos derivados dos modelos vetorial e probabilístico. Já no modelo booleano, esse valor é 0 ou 1.

Este peso deve ser utilizado para refletir a importância do termo no documento , como discutido adiante. Analogamente, a cada par termo-consulta associa-se um peso . Esses pesos quantificam a importância da palavra chave em relação as outras palavras chaves em um mesmo documento ou consulta e em relação a outras palavras chaves em outros documentos de uma coleção.

Exemplos de sistemas de recuperação da informação

  • Biblioteca virtual de saúde - Recupera a informação de diversos periódicos, e alguns são disponibilizados online, sendo que todos estes são voltados para a area de saúde.[9]
  • Domínio público - Reúne livros que já podem ser disponibilizados online, ou seja, são de domínio público
  • Portal Capes - Disponibiliza artigos de periódicos de varias revistas nacionais e internacionais.
  • Google, Bing e todos os mecanismos de busca na Web.

Ver também

Referências

  1. a b c d e f g Baeza-Yates, R. (2011). Modern information retrieval : the concepts and technology behind search. Berthier Ribeiro-Neto Second edition ed. New York: Addison Wesley. OCLC 683591535 
  2. a b Salton, Gerard (1971). The SMART retrieval system; experiments in automatic document processing. Englewood Cliffs, N.J.,: Prentice-Hall. OCLC 214899 
  3. Harman, Donna (2019). «Information Retrieval: The Early Years». Foundations and Trends® in Information Retrieval (em inglês) (5): 425–577. ISSN 1554-0669. doi:10.1561/1500000065. Consultado em 28 de fevereiro de 2023 
  4. Rees, Janet; Kent, Allen (outubro de 1958). «Mechanized searching experiments using the wru searching selector». American Documentation (em inglês) (4): 277–303. doi:10.1002/asi.5090090404. Consultado em 28 de fevereiro de 2023 
  5. Cleverdon, Cyril W. (outubro de 1962). «Aslib Cranfield research project: report on the testing and analysis of an investigation into the comparative efficiency of indexing systems» (em inglês). Consultado em 28 de fevereiro de 2023 
  6. LOPES., Ilza Leite (2002). Uso das linguagens controlada e natural em bases de dados: revisão da literatura. v. 31, n. 1, p. 41-52,. Brasília: [s.n.] 
  7. a b Saracevic, Tefko (2017). The notion of relevance in information science : Everybody knows what relevance is. But, what is it really?. Cham, Switzerland: [s.n.] OCLC 958587067 
  8. Van Rijsbergen, C. J. (1979). Information retrieval 2nd ed ed. London: Butterworths. OCLC 4494554 
  9. «Sistemas de recuperação de informação na área Médica». RI. Consultado em 7 de Novembro de 2010 

Bibliografia

Ícone de esboço Este artigo sobre informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.