LARGE LANGUAGE MODELS PARA RECUPERAÇÃO DE INFORMAÇÃO EM DOCUMENTOS DIGITALIZADOS
um estudo com o modelo GPT-4
Palavras-chave:
Digitalização, Inteligência artificial generativa, Recuperação da informação, Modelos de linguagem de larga escalaResumo
Os avanços tecnológicos que ampliaram o acesso à informação em meio digital têm impulsionado a produção científica, técnica, artística e cultural. Contudo, o grande volume de informações disponíveis também apresenta desafios, especialmente para a recuperação de informações relevantes e acessíveis para pessoas com diferentes necessidades e capacidades. Documentos textuais digitalizados, comuns em acervos institucionais, amplificam esses desafios, pois muitas vezes não possuem os caracteres reconhecíveis por softwares de leitura. Este estudo investigou o uso do modelo GPT-4 na recuperação de informações em documentos digitalizados de repositórios institucionais. A pesquisa, de caráter aplicado e exploratório, adotou uma abordagem quali-quantitativa para avaliar o reconhecimento de caracteres e buscas semânticas em um GPT customizado. Foram analisadas 20 teses do repositório da Universidade Federal de Minas Gerais utilizando cinco prompts. O modelo alcançou 98% de respostas precisas e coerentes, demonstrando alto desempenho, embora desafios técnicos ainda limitem sua aplicação em larga escala.
Downloads
Referências
ALAMMAR, Jay; GROOTENDORST, Maarten
2024 Hands-On Large Language Models: language understanding and generation. Sebastopol, CA: O’Reilly, 2024.
ALLAN, James [et al.]
2003 Challenges in information retrieval and language modeling: report of a workshop held at the Center for Intelligent Information Retrieval, University of Massachusetts Amherst, September 2002. ACM SIGIR Forum. [Online]. 37:1 (2003) 31-47. [Retrieved 14 Aug. 2024]. Available at: https://dl.acm.org/doi/10.1145/945546.945549.
ALTOUNIAN, Márcia Martins de Araújo; GOMES, Beatriz Pinheiro de Melo
2016 A Recuperação semântica da informação no contexto do controle externo. Revista do TCU. [Online]. 137 (2016) 31-41. [Retrieved 22 Dec. 2024]. Available at: https://revista.tcu.gov.br/ojs/index.php/RTCU/article/view/1376/1522.
ÁLVAREZ, Alberto Cáceres
2007 Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem. [Online]. São Carlos, 2007. [Retrieved 21 Dec. 2024]. Available at: https://teses.usp.br/teses/disponiveis/55/55134/tde-21062007-144352/pt-br.php. Master dissertation in Computer Sciences and Computational Mathematics - Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo.
AMARATUNGA, Thimira
2023 Understanding Large Language Models: learning their underlying concepts and technologies. Nugegoda: Apress, 2023.
ARAÚJO, Carlos Alberto Ávila
2010 O Conceito de informação na Ciência da Informação. Informação & Sociedade: Estudos. [Online]. 20:3 (2010) 95-105. [Retrieved 31 Jul. 2024]. Available at: https://periodicos.ufpb.br/ojs/index.php/ies/article/view/6951/4808.
ARAÚJO, Carlos Alberto Ávila
2009 Correntes teóricas da ciência da informação. Ciência da Informação. [Online]. 38:3 (2009) 192-204. [Retrieved 9 Jan. 2024]. Available at: https://revista.ibict.br/ciinf/article/view/1240.
BACA, Murtha
2016 Introduction. In Introduction to Metadata. Ed. Murtha Baca. 3ª ed. Los Angeles: Getty Publications, 2016.
BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier
2013 Recuperação da informação: conceitos e tecnologia das máquinas de busca. 2nd ed. Porto Alegre: Bookman, 2013.
BAKTASH, Jawid Ahmad; DAWODI, Mursal
2023 Gpt-4: A Review on advancements and opportunities in Natural Language Processing. arXiv. [Online]. 2305.03195v1, 2023. [Retrieved 17 Dec. 2024]. Available at: https://arxiv.org/abs/2305.03195.
BUSH, Vnnevar
1945 As we may think. Atlantic Monthy. [Online]. 176:1 (1945) 101-108. [Retrieved 18 Jan. 2024]. Available at: https://www.theatlantic.com/magazine/archive/1945/07/as-we-may-think/303881/.
CHATGPT
2024 Recuperação de informações em digitalizações. Prompts e respostas. [Online]. 2024. [Retrieved 12 Jan. 2025]. Available at:
https://chatgpt.com/share/676f1c17-4430-800d-9e56-05d3f2c5b5da.
CORRÊA, Luiz Nilton
2008 Metodologia científica: para trabalhos acadêmicos e artigos científicos. Florianópolis: Ed. do autor, 2008.
CRESWELL, John W.; CRESWELL, J. David
2021 Projeto de pesquisa: métodos qualitativo, quantitativo e misto. 5ª ed. Porto Alegre: Penso, 2021.
CROW, Raym
2002 The Case for institutional repositories: A SPARC position paper. [Online]. Washington, DC: The Scholarly Publishing and Academic Resources Coalition, 2002. [Retrieved 16 Aug. 2024]. Available at:
https://ils.unc.edu/courses/2014_fall/inls690_109/Readings/Crow2002-CaseforInstitutionalRepositoriesSPARCPaper.pdf.
FALCÃO, Luander Cipriano de Jesus; LOPES, Brenner; SOUZA, Renato Rocha
2022 Absorção das tarefas de processamento de Linguagem Natural (NLP) pela Ciência da Informação (CI): uma revisão da literatura para tangibilização do uso de NLP pela CI. Em Questão. [Online]. 28:1 (2022) 13-34. [Retrieved 12 Jan. 2025]. Available at:
https://doi.org/10.19132/1808-5245281.13-34.
FEIJÓ, Amanda Monteiro; VICENTE, Ernesto Fernando Rodrigues; PETRI, Sérgio Murilo
2020 O Uso das escalas Likert nas pesquisas de contabilidade. Revista Gestão Organizacional. [Online]. 13:1 (2020) 27-41. [Retrieved 7 Jan. 2025]. Available at: https://bell.unochapeco.edu.br/revistas/index.php/rgo/article/view/5112.
FERNEDA, Edberto
2012 Introdução aos modelos computacionais de recuperação de informação. Rio de Janeiro: Ciência Moderna, 2012.
FERNEDA, Edberto
2003 Recuperação de informação: análise sobre a contribuição da Ciência da Computação para a Ciência da Informação. [Online] São Paulo, 2003. [Retrieved 9 Jan. 2024]. Available at: https://www.teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/pt-br.php. PhD thesis in Information Science and Documentation - Escola de Comunicação e Artes, Universidade de São Paulo.
GIL, Antônio Carlos
2023 Como elaborar projetos de pesquisa. 7ª ed. Barueri: Atlas, 2023.
GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron
2016 Deep learning. [Online]. Cambridge: MIT Press, 2016. [Retrieved 24 Jan. 2024]. Available at: https://www.deeplearningbook.org/.
INSTITUTO FEDERAL DO RIO GRANDE DO SUL. Centro Tecnológico de Acessibilidade
2018 Ferramentas OCR: entenda o que são e sua relação com a acessibilidade. [Online]. Bento Gonçalves: CTA, 2018. [Retrieved 21 Nov. 2024]. Available at: https://cta.ifrs.edu.br/ferramentas-ocr-entenda-o-que-sao-como-funcionam-e-qual-sua-relacao-com-a-acessibilidade/.
KALLENS, Pablo Contreras; KRISTENSEN-MCLACHLAN, Ross Deans; CHRISTIANSEN, Morten H.
2023 Large Language Models demonstrate the potential of statistical learning in language. Cognitive Science. [Online]. 47:3 (2023). [Retrieved 23 Aug. 2024]. Available at: https://onlinelibrary.wiley.com/doi/epdf/10.1111/cogs.13256.
LARSON, Ray R.
2012 Information Retrieval Systems. In Understanding Information Retrieval Systems: management, types, and standards. Ed. Marcia J. Bates. Boca Raton: CRC Press, 2012.
LUZ, Larissa Pavarini da; CONEGLIAN, Caio Saraiva; SEGUNDO, José Eduardo Santarem
2019 Tecnologias da web semântica para a recuperação da informação no Wikidata. Revista Digital de Biblioteconomia e Ciência da Informação. [Online]. 17:e019003 (2019) 1-20. [Retrieved 9 Jan. 2025]. Available at: https://doi.org/10.20396/rdbci.v17i0.8651791.
MACULAN, Benildes Coura Moreira dos Santos
2020 Ambiguidade e o contexto na representação de informações em domínios de especialidade. Perspectivas em Ciência da Informação. [Online]. 25:número especial (2020) 98-124. [Retrieved 12 Jan. 2025]. Available at: https://periodicos.ufmg.br/index.php/pci/article/view/22284.
MARCONDES, Carlos Henrique
2005 Metadados: descrição e recuperação de informações na web. In Bibliotecas digitais: saberes e práticas. Org. Carlos Henrique Marcondes et al. Salvador: UFBA; Brasília: IBICT, 2005, p. 97-113.
MARCONDES, Carlos Henrique; SAYÃO, Luis Fernando
2002 Documentos digitais e novas formas de cooperação entre sistemas de informação em C&T. Ciência da Informação. [Online]. 31:3 (2002) 42-54. [Retrieved 16 Aug. 2024]. Available at: https://www.scielo.br/j/ci/a/NKhjHgVf63bYGmkHJWQkWhB/?format=pdf&lang=pt.
MARTINS, Júlio Serafim [et al.]
2020 Processamento de linguagem natural. Porto Alegre: SAGAH, 2020.
MATTAR, João; RAMOS, Daniela Karine
2021 Metodologia da pesquisa em educação: abordagens qualitativas, quantitativas e mistas. São Paulo: Almedina Brasil, 2021.
MCCARTHY, John [et al.]
1955 A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955. AI Magazine. [Online]. 27:4 (1955) 12. [Retrieved 29 Mar. 2024]. Available at: https://ojs.aaai.org/aimagazine/index.php/aimagazine/article/view/1904.
MICHAELIS
2025a Dicionário Brasileiro da Língua Portuguesa. [Online]. São Paulo: Melhoramentos, 2025. [Retrieved 15 Jan. 2025]. Available at:
https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/correto/.
MICHAELIS
2025b Dicionário Brasileiro da Língua Portuguesa. [Online]. São Paulo: Melhoramentos, 2025. [Retrieved 15 Jan. 2025]. Available at:
https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/coerente/.
MIRANDA, Tânia Lúcia dos Santos
1995 Estudos com a calicreína urinária humana: A - um novo método para purificação da enzima em larga escala, B - caracterização cinética com substratos sintéticos dos tipos amida e éster, derivados da arginina N-substituída e com os inibidores aprotinina e benzamidina. [Online]. Belo Horizonte, 1995. [Retrieved 9 Jan. 2024]. Available at:
http://hdl.handle.net/1843/BUOS-9NBKNE. PhD thesis in Biochemistry and Immunology - Instituto de Ciências Biológicas, Universidade de Federal de Minas Gerais.
MOOERS, Calvin N.
1951 Zatocoding applied to mechanical organization of knowledge. American Documentation. [Online] 2:1 (1951) 20-32. [Retrieved 21 Nov. 2024]. Available at: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.5090020107.
OPENAI
2024a About. [Online]. 2024. [Retrieved 17 Dec. 2024]. Available at: https://openai.com/about/.
OPENAI
2024b File Uploads FAQ. [Online]. 2024. [Retrieved 17 Dec. 2024]. Available at: https://help.openai.com/en/articles/8555545-file-uploads-faq.
PATIL, Rajvardhan; GUDIVADA, Venkat
2024 A Review of current trends, techniques, and challenges in Large Language Models (LLMs). Applied Sciences. [Online]. 14:5 (2024). [Retrieved 1 Sept. 2024]. Available at: https://www.mdpi.com/2076-3417/14/5/2074.
ROSA, Flávia; GOMES, Maria João
2010 Comunicação científica: das restrições ao acesso livre. In Repositórios institucionais: democratizando o acesso ao conhecimento. Org. Maria João Gomes e Flávia Rosa. Salvador: EDUFBA, 2010, p. 11-34.
SARACEVIC, Tefko
1996 Ciência da informação: origem, evolução e relações. Perspectivas em Ciência da Informação. [Online]. 1:1 (1996) 41-62. [Retrieved 3 Aug. 2024]. Available at: https://periodicos.ufmg.br/index.php/pci/article/view/22308.
SHAHRIAR, Sakib; HAYAWI, Kadhim
2023 Let’s have a chat!; A conversation with ChatGPT: Technology, applications, and limitations. arXiv. [Online]. 2302.13817v4 (2023). [Retrieved 17 Dec. 2024]. Available at: https://arxiv.org/abs/2302.13817?utm_source=chatgpt.com.
SOUZA, Rodrigo Ananias da Silva; RODAS, Cecílio Merlotti
2020 Recuperação da informação em dispositivos móveis. Biblos: Revista do Instituto de Ciências Humanas e da Informação. [Online]. 34:2 (2020) 147-166. [Retrieved 9 Jan. 2025]. Available at: https://doi.org/10.14295/biblos.v34i2.11840.
STATISTA
2024 Volume of data/information created, captured, copied, and consumed world wide from 2010 to 2023, with forecasts from 2024 to 2028: in zettabytes. [Online]. New York: Statista, 2025. [Retrieved 2 Sept. 2025]. Available at: https://www.statista.com/statistics/871513/worldwide-data-created/.
STOCK, Wolfgang G.; STOCK, Mechtild
2013 Handbook of Information Science. Berlin: De Gruyter, 2013.
TOPOL, Eric
2024 Medicina profunda, deep medicine: como a inteligência artificial pode reumanizar os cuidados de saúde. Porto Alegre: Artmed, 2024.
UNIVERSIDADE FEDERAL DE MINAS GERAIS
2024a UFMG em rankings. [Online]. Belo Horizonte, 2024. [Retrieved 29 Aug. 2024]. Available at: https://ufmg.br/a-universidade/apresentacao/ufmg-em-rankings.
UNIVERSIDADE FEDERAL DE MINAS GERAIS. Repositório Institucional
2024b Formulário de contato do RI-UFMG: Dúvida: Comunidade trabalhos acadêmicos, teses, dissertações e TCC digitalizadas, To: campos-daiane@ufmg.br. Belo Horizonte, 11 Dec. 2024. Electronic message.
VAJJALA, Sowmya [et al.]
2020 Practical Natural Language Processing: A Comprehensive guide to building real-world NLP systems. Sebastapol, CA: O’Reilly, 2020.
WEI, Wendy Ran; HUANG, Ling; WANG, Jay Jianqiang
2025 Retrieval-Augmented Generation for LLM applications: transforming search, recommendation, and AI assistants. Sebastopol, CA: O’Reilly, 2025.
Downloads
Publicado
Como Citar
Edição
Secção
Licença
Direitos de Autor (c) 2025 Páginas a&b: arquivos e bibliotecas

Este trabalho encontra-se publicado com a Licença Internacional Creative Commons Atribuição 4.0.
Os autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
