LLM-based AI: gdzie kończy się prawda, a zaczynają halucynacje?
Pomimo rosnącej popularności dużych modeli językowych (LLM), takich jak Generative Pre-trained Transformer (GPT), możliwości ich zastosowania w audytach jakości serwisów internetowych są nadal stosunkowo mało poznane.
Opublikowano:
Król, K. (2025). Between Truth and Hallucinations: Evaluation of the Performance of Large Language Model-Based AI Plugins in Website Quality Analysis. Appl. Sci., 15(5), 2292. DOI: 10.3390/app15052292
W związku z tym, za cel pracy przyjęto ocenę przydatności wtyczek AI (Modeli GPT) w audytach jakości stron i aplikacji internetowych. Za pomocą ChatGPT (OpenAI) utworzono i przetestowano dwie autorskie wtyczki AI – Website Quality Auditor (WQA) oraz WebGIS Quality Auditor (WgisQA). Sposób działania wtyczek przeanalizowano w porównaniu do tradycyjnych narzędzi pomiarowych, kierując się zasadą ograniczonego zaufania.
Niniejsze badanie wypełnia lukę badawczą prezentując wyniki analizy możliwości i ograniczeń wtyczek AI w zadaniach audytowych, jednocześnie wskazując kierunki ich dalszego doskonalenia.
Badania dowiodły, że wtyczki AI oparte na dużych modelach językowych mogą skutecznie wspierać audyt jakości serwisów internetowych, automatyzując analizę i wykrywanie problemów technicznych oraz związanych z treścią. Jednak ich zastosowanie wiąże się z istotnymi ograniczeniami, w tym skłonnością do generowania nieprawdziwych wyników, co jest określane jako halucynacje AI. Wnioski sugerują, że korzystanie z takich narzędzi wymaga krytycznego podejścia oraz dodatkowej weryfikacji wyników. Konkludując, konieczne jest dalsze doskonalenie (wtyczek) AI, aby zwiększyć ich wiarygodność i precyzję w zastosowaniach audytowych.
Wyniki badań ujawniły ograniczenia wtyczek AI, w tym tendencję do generowania przez nie nieprawdziwych wyników. Z badań płynie ogólny wniosek, że korzystanie z narzędzi AI bez zrozumienia ich specyfiki może prowadzić do uwzględnienia halucynacji AI w raportach pokontrolnych.
Co-financed by the Minister of Science under the ‘Regional Initiative of Excellence’ programme. Agreement No. RID/SP/0039/2024/01. Subsidised amount PLN 6,187,000.00. Project period 2024–2027.