MultiMedQA
MultiMedQA es un importante modelo del lenguaje (LLM) para fines médicos que combina HealthSearchQA y seis conjuntos de datos actuales de respuesta a preguntas abiertas publicada el 26 de diciembre de 2022 por Google Research y Deepmind. Transforma la forma en que los profesionales de la medicina, los investigadores y los consumidores acceden a la información y las preguntas médicas.[1][2][3]
El modelo se creó para evaluar la calidad de las respuestas humanas a cuestiones complicadas. Para ello, se utilizó un intrincado método de evaluación para examinar la precisión, profundidad, daño potencial y sesgo de las respuestas.
MultiMedQA se creó a partir de seis conjuntos de datos de respuestas actuales, a saber, MedQA[4][5], MedMCQA[6], PubMedQA[7][8], LiveQA[9], MedicationQA[10] y MMLU clinical topics[11]. MultiMedQA combinó esos conjuntos de datos con uno propio llamado HealthSearchQA, que consta de 3375 preguntas de salud comúnmente buscadas.[1] Para evaluar los LLM con MultiMedQA, la investigación de Google se basó en PaLM, un LLM de 540 billones de parámetros[12][13][14], y su variante ajustada por instrucciones Flan-PaLM.[15][16]
El conjunto de datos MedQA consta de preguntas del tipo USMLE (US Medical License Exam), 194.000 preguntas de opción múltiple de 4 opciones de los exámenes de acceso a la medicina de la India (AIIMS/NEET), 1.000 pares de preguntas-respuesta etiquetadas por expertos en las que la tarea consiste en producir una respuesta de opción múltiple sí/no/tal vez, 674 de preguntas habituales de los consumidores sobre medicamentos y 3.375 preguntas habituales de los consumidores (HealthCareQA).
Referencias
editar- ↑ a b Singhal, Karan (26 de diciembre de 2022). «Large Language Models Encode Clinical Knowledge». Google AI. Consultado el 03.01.2023.
- ↑ «Google introduce MultiMedQA, un “modelo de lenguaje grande” (LLM) para fines médicos, similar a ChatGPT - Gaceta Dental». 30 de diciembre de 2022. Consultado el 3 de enero de 2023.
- ↑ «Google Launched ChatGPT For Healthcare». www.theinsaneapp.com (en inglés estadounidense). 29 de diciembre de 2022. Consultado el 3 de enero de 2023.
- ↑ Jin, Di; Pan, Eileen; Oufattole, Nassim; Weng, Wei-Hung; Fang, Hanyi; Szolovits, Peter (2021-01). «What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams». Applied Sciences (en inglés) 11 (14): 6421. ISSN 2076-3417. doi:10.3390/app11146421. Consultado el 3 de enero de 2023.
- ↑ Jin, Di; Pan, Eileen; Oufattole, Nassim; Weng, Wei-Hung; Fang, Hanyi; Szolovits, Peter (28 de septiembre de 2020). «What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams». arXiv:2009.13081 [cs]. Consultado el 3 de enero de 2023.
- ↑ Pal, Ankit; Umapathi, Logesh Kumar; Sankarasubbu, Malaikannan (6 de abril de 2022). «MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering». Conference on Health, Inference, and Learning (en inglés) (PMLR): 248-260. Consultado el 3 de enero de 2023.
- ↑ Jin, Qiao; Dhingra, Bhuwan; Liu, Zhengping; Cohen, William W.; Lu, Xinghua (13 de septiembre de 2019). «PubMedQA: A Dataset for Biomedical Research Question Answering». arXiv:1909.06146 [cs, q-bio]. Consultado el 3 de enero de 2023.
- ↑ «Qiao Jin». scholar.google.com. Consultado el 3 de enero de 2023.
- ↑ Abacha, Asma Ben; Agichtein, Eugene; Pinter, Yuval; Demner-Fushman, Dina (2017). «Overview of the Medical Question Answering Task at TREC 2017 LiveQA.». TREC: 1-12. Consultado el 3 de enero de 2023.
- ↑ Abacha, Asma Ben; Mrabet, Yassine; Sharp, Mark; Goodwin, Travis R.; Shooshan, Sonya E.; Demner-Fushman, Dina (21 de agosto de 2019). «Bridging the Gap Between Consumers' Medication Questions and Trusted Answers». Studies in Health Technology and Informatics 264: 25-29. ISSN 1879-8365. PMID 31437878. doi:10.3233/SHTI190176. Consultado el 3 de enero de 2023.
- ↑ Hendrycks, Dan; Burns, Collin; Basart, Steven; Zou, Andy; Mazeika, Mantas; Song, Dawn; Steinhardt, Jacob (12 de enero de 2021). «Measuring Massive Multitask Language Understanding». arXiv:2009.03300 [cs]. Consultado el 3 de enero de 2023.
- ↑ Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; Bosma, Maarten; Mishra, Gaurav; Roberts, Adam; Barham, Paul; Chung, Hyung Won et al. (5 de octubre de 2022). «PaLM: Scaling Language Modeling with Pathways». arXiv:2204.02311 [cs]. Consultado el 3 de enero de 2023.
- ↑ «Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance». ai.googleblog.com (en inglés). Consultado el 3 de enero de 2023.
- ↑ Press, Europa (5 de abril de 2022). «Google presenta PaLM, su nuevo modelo lenguaje capaz de programar, explicar chistes y resolver problemas matemáticos». www.europapress.es. Consultado el 3 de enero de 2023.
- ↑ Chung, Hyung Won; Hou, Le; Longpre, Shayne; Zoph, Barret; Tay, Yi; Fedus, William; Li, Yunxuan; Wang, Xuezhi et al. (6 de diciembre de 2022). «Scaling Instruction-Finetuned Language Models». arXiv:2210.11416 [cs]. Consultado el 3 de enero de 2023.
- ↑ «google/flan-t5-xxl · Hugging Face». huggingface.co. Consultado el 3 de enero de 2023.