MultiMedQA es un importante modelo del lenguaje (LLM) para fines médicos que combina HealthSearchQA y seis conjuntos de datos actuales de respuesta a preguntas abiertas publicada el 26 de diciembre de 2022 por Google Research y Deepmind. Transforma la forma en que los profesionales de la medicina, los investigadores y los consumidores acceden a la información y las preguntas médicas.[1][2][3]

El modelo se creó para evaluar la calidad de las respuestas humanas a cuestiones complicadas. Para ello, se utilizó un intrincado método de evaluación para examinar la precisión, profundidad, daño potencial y sesgo de las respuestas.

MultiMedQA se creó a partir de seis conjuntos de datos de respuestas actuales, a saber, MedQA[4][5]​, MedMCQA[6]​, PubMedQA[7][8]​, LiveQA[9]​, MedicationQA[10]​ y MMLU clinical topics[11]​. MultiMedQA combinó esos conjuntos de datos con uno propio llamado HealthSearchQA, que consta de 3375 preguntas de salud comúnmente buscadas.[1]​ Para evaluar los LLM con MultiMedQA, la investigación de Google se basó en PaLM, un LLM de 540 billones de parámetros[12][13][14]​, y su variante ajustada por instrucciones Flan-PaLM.[15][16]

El conjunto de datos MedQA consta de preguntas del tipo USMLE (US Medical License Exam), 194.000 preguntas de opción múltiple de 4 opciones de los exámenes de acceso a la medicina de la India (AIIMS/NEET), 1.000 pares de preguntas-respuesta etiquetadas por expertos en las que la tarea consiste en producir una respuesta de opción múltiple sí/no/tal vez, 674 de preguntas habituales de los consumidores sobre medicamentos y 3.375 preguntas habituales de los consumidores (HealthCareQA).

Referencias

editar
  1. a b Singhal, Karan (26 de diciembre de 2022). «Large Language Models Encode Clinical Knowledge». Google AI. Consultado el 03.01.2023. 
  2. «Google introduce MultiMedQA, un “modelo de lenguaje grande” (LLM) para fines médicos, similar a ChatGPT - Gaceta Dental». 30 de diciembre de 2022. Consultado el 3 de enero de 2023. 
  3. «Google Launched ChatGPT For Healthcare». www.theinsaneapp.com (en inglés estadounidense). 29 de diciembre de 2022. Consultado el 3 de enero de 2023. 
  4. Jin, Di; Pan, Eileen; Oufattole, Nassim; Weng, Wei-Hung; Fang, Hanyi; Szolovits, Peter (2021-01). «What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams». Applied Sciences (en inglés) 11 (14): 6421. ISSN 2076-3417. doi:10.3390/app11146421. Consultado el 3 de enero de 2023. 
  5. Jin, Di; Pan, Eileen; Oufattole, Nassim; Weng, Wei-Hung; Fang, Hanyi; Szolovits, Peter (28 de septiembre de 2020). «What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams». arXiv:2009.13081 [cs]. Consultado el 3 de enero de 2023. 
  6. Pal, Ankit; Umapathi, Logesh Kumar; Sankarasubbu, Malaikannan (6 de abril de 2022). «MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering». Conference on Health, Inference, and Learning (en inglés) (PMLR): 248-260. Consultado el 3 de enero de 2023. 
  7. Jin, Qiao; Dhingra, Bhuwan; Liu, Zhengping; Cohen, William W.; Lu, Xinghua (13 de septiembre de 2019). «PubMedQA: A Dataset for Biomedical Research Question Answering». arXiv:1909.06146 [cs, q-bio]. Consultado el 3 de enero de 2023. 
  8. «Qiao Jin». scholar.google.com. Consultado el 3 de enero de 2023. 
  9. Abacha, Asma Ben; Agichtein, Eugene; Pinter, Yuval; Demner-Fushman, Dina (2017). «Overview of the Medical Question Answering Task at TREC 2017 LiveQA.». TREC: 1-12. Consultado el 3 de enero de 2023. 
  10. Abacha, Asma Ben; Mrabet, Yassine; Sharp, Mark; Goodwin, Travis R.; Shooshan, Sonya E.; Demner-Fushman, Dina (21 de agosto de 2019). «Bridging the Gap Between Consumers' Medication Questions and Trusted Answers». Studies in Health Technology and Informatics 264: 25-29. ISSN 1879-8365. PMID 31437878. doi:10.3233/SHTI190176. Consultado el 3 de enero de 2023. 
  11. Hendrycks, Dan; Burns, Collin; Basart, Steven; Zou, Andy; Mazeika, Mantas; Song, Dawn; Steinhardt, Jacob (12 de enero de 2021). «Measuring Massive Multitask Language Understanding». arXiv:2009.03300 [cs]. Consultado el 3 de enero de 2023. 
  12. Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; Bosma, Maarten; Mishra, Gaurav; Roberts, Adam; Barham, Paul; Chung, Hyung Won et al. (5 de octubre de 2022). «PaLM: Scaling Language Modeling with Pathways». arXiv:2204.02311 [cs]. Consultado el 3 de enero de 2023. 
  13. «Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance». ai.googleblog.com (en inglés). Consultado el 3 de enero de 2023. 
  14. Press, Europa (5 de abril de 2022). «Google presenta PaLM, su nuevo modelo lenguaje capaz de programar, explicar chistes y resolver problemas matemáticos». www.europapress.es. Consultado el 3 de enero de 2023. 
  15. Chung, Hyung Won; Hou, Le; Longpre, Shayne; Zoph, Barret; Tay, Yi; Fedus, William; Li, Yunxuan; Wang, Xuezhi et al. (6 de diciembre de 2022). «Scaling Instruction-Finetuned Language Models». arXiv:2210.11416 [cs]. Consultado el 3 de enero de 2023. 
  16. «google/flan-t5-xxl · Hugging Face». huggingface.co. Consultado el 3 de enero de 2023.