LARGE LANGUAGE MODELS PARA RECUPERAÇÃO DE INFORMAÇÃO EM DOCUMENTOS DIGITALIZADOS

um estudo com o modelo GPT-4

Autores

Palavras-chave:

Digitalização, Inteligência artificial generativa, Recuperação da informação, Modelos de linguagem de larga escala

Resumo

Os avanços tecnológicos que ampliaram o acesso à informação em meio digital têm impulsionado a produção científica, técnica, artística e cultural. Contudo, o grande volume de informações disponíveis também apresenta desafios, especialmente para a recuperação de informações relevantes e acessíveis para pessoas com diferentes necessidades e capacidades. Documentos textuais digitalizados, comuns em acervos institucionais, amplificam esses desafios, pois muitas vezes não possuem os caracteres reconhecíveis por softwares de leitura. Este estudo investigou o uso do modelo GPT-4 na recuperação de informações em documentos digitalizados de repositórios institucionais. A pesquisa, de caráter aplicado e exploratório, adotou uma abordagem quali-quantitativa para avaliar o reconhecimento de caracteres e buscas semânticas em um GPT customizado. Foram analisadas 20 teses do repositório da Universidade Federal de Minas Gerais utilizando cinco prompts. O modelo alcançou 98% de respostas precisas e coerentes, demonstrando alto desempenho, embora desafios técnicos ainda limitem sua aplicação em larga escala.

Downloads

Não há dados estatísticos.

Biografias Autor

Daiane Campos Procópio, Escola de Ciência da Informação, Universidade Federal de Minas Gerais (UFMG)

Mestranda em Gestão e Organização do Conhecimento pela Escola de Ciência da Informação da Universidade Federal de Minas Gerais.

Patrícia Nascimento Silva, Escola de Ciência da Informação, Universidade Federal de Minas Gerais (UFMG)

Doutora em Gestão e Organização do Conhecimento pela Escola de Ciência da Informação da Universidade Federal de Minas Gerais.

Renato Rocha Souza, Escola de Ciência da Informação, Universidade Federal de Minas Gerais (UFMG)

Doutor em Ciência da Informação pela Escola de Ciência da Informação da Universidade Federal de Minas Gerais.

Referências

ALAMMAR, Jay; GROOTENDORST, Maarten
2024 Hands-On Large Language Models: language understanding and generation. Sebastopol, CA: O’Reilly, 2024.

ALLAN, James [et al.]
2003 Challenges in information retrieval and language modeling: report of a workshop held at the Center for Intelligent Information Retrieval, University of Massachusetts Amherst, September 2002. ACM SIGIR Forum. [Online]. 37:1 (2003) 31-47. [Retrieved 14 Aug. 2024]. Available at: https://dl.acm.org/doi/10.1145/945546.945549.

ALTOUNIAN, Márcia Martins de Araújo; GOMES, Beatriz Pinheiro de Melo
2016 A Recuperação semântica da informação no contexto do controle externo. Revista do TCU. [Online]. 137 (2016) 31-41. [Retrieved 22 Dec. 2024]. Available at: https://revista.tcu.gov.br/ojs/index.php/RTCU/article/view/1376/1522.

ÁLVAREZ, Alberto Cáceres
2007 Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem. [Online]. São Carlos, 2007. [Retrieved 21 Dec. 2024]. Available at: https://teses.usp.br/teses/disponiveis/55/55134/tde-21062007-144352/pt-br.php. Master dissertation in Computer Sciences and Computational Mathematics - Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo.

AMARATUNGA, Thimira
2023 Understanding Large Language Models: learning their underlying concepts and technologies. Nugegoda: Apress, 2023.

ARAÚJO, Carlos Alberto Ávila
2010 O Conceito de informação na Ciência da Informação. Informação & Sociedade: Estudos. [Online]. 20:3 (2010) 95-105. [Retrieved 31 Jul. 2024]. Available at: https://periodicos.ufpb.br/ojs/index.php/ies/article/view/6951/4808.

ARAÚJO, Carlos Alberto Ávila
2009 Correntes teóricas da ciência da informação. Ciência da Informação. [Online]. 38:3 (2009) 192-204. [Retrieved 9 Jan. 2024]. Available at: https://revista.ibict.br/ciinf/article/view/1240.

BACA, Murtha
2016 Introduction. In Introduction to Metadata. Ed. Murtha Baca. 3ª ed. Los Angeles: Getty Publications, 2016.

BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier
2013 Recuperação da informação: conceitos e tecnologia das máquinas de busca. 2nd ed. Porto Alegre: Bookman, 2013.

BAKTASH, Jawid Ahmad; DAWODI, Mursal
2023 Gpt-4: A Review on advancements and opportunities in Natural Language Processing. arXiv. [Online]. 2305.03195v1, 2023. [Retrieved 17 Dec. 2024]. Available at: https://arxiv.org/abs/2305.03195.

BUSH, Vnnevar
1945 As we may think. Atlantic Monthy. [Online]. 176:1 (1945) 101-108. [Retrieved 18 Jan. 2024]. Available at: https://www.theatlantic.com/magazine/archive/1945/07/as-we-may-think/303881/.

CHATGPT
2024 Recuperação de informações em digitalizações. Prompts e respostas. [Online]. 2024. [Retrieved 12 Jan. 2025]. Available at:
https://chatgpt.com/share/676f1c17-4430-800d-9e56-05d3f2c5b5da.

CORRÊA, Luiz Nilton
2008 Metodologia científica: para trabalhos acadêmicos e artigos científicos. Florianópolis: Ed. do autor, 2008.

CRESWELL, John W.; CRESWELL, J. David
2021 Projeto de pesquisa: métodos qualitativo, quantitativo e misto. 5ª ed. Porto Alegre: Penso, 2021.

CROW, Raym
2002 The Case for institutional repositories: A SPARC position paper. [Online]. Washington, DC: The Scholarly Publishing and Academic Resources Coalition, 2002. [Retrieved 16 Aug. 2024]. Available at:
https://ils.unc.edu/courses/2014_fall/inls690_109/Readings/Crow2002-CaseforInstitutionalRepositoriesSPARCPaper.pdf.

FALCÃO, Luander Cipriano de Jesus; LOPES, Brenner; SOUZA, Renato Rocha
2022 Absorção das tarefas de processamento de Linguagem Natural (NLP) pela Ciência da Informação (CI): uma revisão da literatura para tangibilização do uso de NLP pela CI. Em Questão. [Online]. 28:1 (2022) 13-34. [Retrieved 12 Jan. 2025]. Available at:
https://doi.org/10.19132/1808-5245281.13-34.

FEIJÓ, Amanda Monteiro; VICENTE, Ernesto Fernando Rodrigues; PETRI, Sérgio Murilo
2020 O Uso das escalas Likert nas pesquisas de contabilidade. Revista Gestão Organizacional. [Online]. 13:1 (2020) 27-41. [Retrieved 7 Jan. 2025]. Available at: https://bell.unochapeco.edu.br/revistas/index.php/rgo/article/view/5112.

FERNEDA, Edberto
2012 Introdução aos modelos computacionais de recuperação de informação. Rio de Janeiro: Ciência Moderna, 2012.

FERNEDA, Edberto
2003 Recuperação de informação: análise sobre a contribuição da Ciência da Computação para a Ciência da Informação. [Online] São Paulo, 2003. [Retrieved 9 Jan. 2024]. Available at: https://www.teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/pt-br.php. PhD thesis in Information Science and Documentation - Escola de Comunicação e Artes, Universidade de São Paulo.

GIL, Antônio Carlos
2023 Como elaborar projetos de pesquisa. 7ª ed. Barueri: Atlas, 2023.

GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron
2016 Deep learning. [Online]. Cambridge: MIT Press, 2016. [Retrieved 24 Jan. 2024]. Available at: https://www.deeplearningbook.org/.

INSTITUTO FEDERAL DO RIO GRANDE DO SUL. Centro Tecnológico de Acessibilidade
2018 Ferramentas OCR: entenda o que são e sua relação com a acessibilidade. [Online]. Bento Gonçalves: CTA, 2018. [Retrieved 21 Nov. 2024]. Available at: https://cta.ifrs.edu.br/ferramentas-ocr-entenda-o-que-sao-como-funcionam-e-qual-sua-relacao-com-a-acessibilidade/.

KALLENS, Pablo Contreras; KRISTENSEN-MCLACHLAN, Ross Deans; CHRISTIANSEN, Morten H.
2023 Large Language Models demonstrate the potential of statistical learning in language. Cognitive Science. [Online]. 47:3 (2023). [Retrieved 23 Aug. 2024]. Available at: https://onlinelibrary.wiley.com/doi/epdf/10.1111/cogs.13256.

LARSON, Ray R.
2012 Information Retrieval Systems. In Understanding Information Retrieval Systems: management, types, and standards. Ed. Marcia J. Bates. Boca Raton: CRC Press, 2012.

LUZ, Larissa Pavarini da; CONEGLIAN, Caio Saraiva; SEGUNDO, José Eduardo Santarem
2019 Tecnologias da web semântica para a recuperação da informação no Wikidata. Revista Digital de Biblioteconomia e Ciência da Informação. [Online]. 17:e019003 (2019) 1-20. [Retrieved 9 Jan. 2025]. Available at: https://doi.org/10.20396/rdbci.v17i0.8651791.

MACULAN, Benildes Coura Moreira dos Santos
2020 Ambiguidade e o contexto na representação de informações em domínios de especialidade. Perspectivas em Ciência da Informação. [Online]. 25:número especial (2020) 98-124. [Retrieved 12 Jan. 2025]. Available at: https://periodicos.ufmg.br/index.php/pci/article/view/22284.

MARCONDES, Carlos Henrique
2005 Metadados: descrição e recuperação de informações na web. In Bibliotecas digitais: saberes e práticas. Org. Carlos Henrique Marcondes et al. Salvador: UFBA; Brasília: IBICT, 2005, p. 97-113.

MARCONDES, Carlos Henrique; SAYÃO, Luis Fernando
2002 Documentos digitais e novas formas de cooperação entre sistemas de informação em C&T. Ciência da Informação. [Online]. 31:3 (2002) 42-54. [Retrieved 16 Aug. 2024]. Available at: https://www.scielo.br/j/ci/a/NKhjHgVf63bYGmkHJWQkWhB/?format=pdf&lang=pt.

MARTINS, Júlio Serafim [et al.]
2020 Processamento de linguagem natural. Porto Alegre: SAGAH, 2020.

MATTAR, João; RAMOS, Daniela Karine
2021 Metodologia da pesquisa em educação: abordagens qualitativas, quantitativas e mistas. São Paulo: Almedina Brasil, 2021.

MCCARTHY, John [et al.]
1955 A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955. AI Magazine. [Online]. 27:4 (1955) 12. [Retrieved 29 Mar. 2024]. Available at: https://ojs.aaai.org/aimagazine/index.php/aimagazine/article/view/1904.

MICHAELIS
2025a Dicionário Brasileiro da Língua Portuguesa. [Online]. São Paulo: Melhoramentos, 2025. [Retrieved 15 Jan. 2025]. Available at:
https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/correto/.

MICHAELIS
2025b Dicionário Brasileiro da Língua Portuguesa. [Online]. São Paulo: Melhoramentos, 2025. [Retrieved 15 Jan. 2025]. Available at:
https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/coerente/.

MIRANDA, Tânia Lúcia dos Santos
1995 Estudos com a calicreína urinária humana: A - um novo método para purificação da enzima em larga escala, B - caracterização cinética com substratos sintéticos dos tipos amida e éster, derivados da arginina N-substituída e com os inibidores aprotinina e benzamidina. [Online]. Belo Horizonte, 1995. [Retrieved 9 Jan. 2024]. Available at:
http://hdl.handle.net/1843/BUOS-9NBKNE. PhD thesis in Biochemistry and Immunology - Instituto de Ciências Biológicas, Universidade de Federal de Minas Gerais.

MOOERS, Calvin N.
1951 Zatocoding applied to mechanical organization of knowledge. American Documentation. [Online] 2:1 (1951) 20-32. [Retrieved 21 Nov. 2024]. Available at: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.5090020107.

OPENAI
2024a About. [Online]. 2024. [Retrieved 17 Dec. 2024]. Available at: https://openai.com/about/.

OPENAI
2024b File Uploads FAQ. [Online]. 2024. [Retrieved 17 Dec. 2024]. Available at: https://help.openai.com/en/articles/8555545-file-uploads-faq.

PATIL, Rajvardhan; GUDIVADA, Venkat
2024 A Review of current trends, techniques, and challenges in Large Language Models (LLMs). Applied Sciences. [Online]. 14:5 (2024). [Retrieved 1 Sept. 2024]. Available at: https://www.mdpi.com/2076-3417/14/5/2074.

ROSA, Flávia; GOMES, Maria João
2010 Comunicação científica: das restrições ao acesso livre. In Repositórios institucionais: democratizando o acesso ao conhecimento. Org. Maria João Gomes e Flávia Rosa. Salvador: EDUFBA, 2010, p. 11-34.

SARACEVIC, Tefko
1996 Ciência da informação: origem, evolução e relações. Perspectivas em Ciência da Informação. [Online]. 1:1 (1996) 41-62. [Retrieved 3 Aug. 2024]. Available at: https://periodicos.ufmg.br/index.php/pci/article/view/22308.

SHAHRIAR, Sakib; HAYAWI, Kadhim
2023 Let’s have a chat!; A conversation with ChatGPT: Technology, applications, and limitations. arXiv. [Online]. 2302.13817v4 (2023). [Retrieved 17 Dec. 2024]. Available at: https://arxiv.org/abs/2302.13817?utm_source=chatgpt.com.

SOUZA, Rodrigo Ananias da Silva; RODAS, Cecílio Merlotti
2020 Recuperação da informação em dispositivos móveis. Biblos: Revista do Instituto de Ciências Humanas e da Informação. [Online]. 34:2 (2020) 147-166. [Retrieved 9 Jan. 2025]. Available at: https://doi.org/10.14295/biblos.v34i2.11840.

STATISTA
2024 Volume of data/information created, captured, copied, and consumed world wide from 2010 to 2023, with forecasts from 2024 to 2028: in zettabytes. [Online]. New York: Statista, 2025. [Retrieved 2 Sept. 2025]. Available at: https://www.statista.com/statistics/871513/worldwide-data-created/.

STOCK, Wolfgang G.; STOCK, Mechtild
2013 Handbook of Information Science. Berlin: De Gruyter, 2013.

TOPOL, Eric
2024 Medicina profunda, deep medicine: como a inteligência artificial pode reumanizar os cuidados de saúde. Porto Alegre: Artmed, 2024.

UNIVERSIDADE FEDERAL DE MINAS GERAIS
2024a UFMG em rankings. [Online]. Belo Horizonte, 2024. [Retrieved 29 Aug. 2024]. Available at: https://ufmg.br/a-universidade/apresentacao/ufmg-em-rankings.

UNIVERSIDADE FEDERAL DE MINAS GERAIS. Repositório Institucional
2024b Formulário de contato do RI-UFMG: Dúvida: Comunidade trabalhos acadêmicos, teses, dissertações e TCC digitalizadas, To: campos-daiane@ufmg.br. Belo Horizonte, 11 Dec. 2024. Electronic message.

VAJJALA, Sowmya [et al.]
2020 Practical Natural Language Processing: A Comprehensive guide to building real-world NLP systems. Sebastapol, CA: O’Reilly, 2020.

WEI, Wendy Ran; HUANG, Ling; WANG, Jay Jianqiang
2025 Retrieval-Augmented Generation for LLM applications: transforming search, recommendation, and AI assistants. Sebastopol, CA: O’Reilly, 2025.

Downloads

Publicado

2025-07-30

Como Citar

Procópio, D. C., Silva, P. N., & Souza, R. R. (2025). LARGE LANGUAGE MODELS PARA RECUPERAÇÃO DE INFORMAÇÃO EM DOCUMENTOS DIGITALIZADOS: um estudo com o modelo GPT-4. Páginas a&b: Arquivos E Bibliotecas, 293–313. Obtido de https://ojs.letras.up.pt/index.php/paginasaeb/article/view/14818

Edição

Secção

Artigos