Herramientas

HTML

PDF

Metadatos de indexación

Cómo citar un elemento

Imprimir este artículo

Política de revisión

Envía por correo este artículo (Se requiere entrar)
Enviar un correo electrónico al autor/a (Se requiere entrar)

ARTÍCULO ORIGINAL

HistoBCAD: herramienta de código abierto para detección de cáncer de mama en imágenes histopatológicas

HistoBCAD: Open-source tool for breast cancer detection in histopathological images

1 Universidad de Oriente, Facultad de Ingeniería en Telecomunicaciones, Informática y Biomédica, Centro de Estudios de Neurociencias, Procesamiento de Imágenes y Señales, Cuba
2 Global Artificial Intelligence Accelerator (GAIA), Ericsson, Canada


RESUMEN

Fundamento: la detección y clasificación precisa del cáncer de mama mediante el diagnóstico histopatológico es de vital importancia para el tratamiento efectivo de la enfermedad. Entre los tipos de cáncer de mama, el carcinoma ductal invasivo es el más frecuente. El análisis visual de las muestras de tejido en el microscopio es un proceso manual que consume tiempo y depende del observador. Sin embargo, en muchos países, incluido Cuba, es escaso el uso de herramientas software para asistir el diagnóstico.
Objetivo: desarrollar una herramienta software para detectar tejido de cáncer de mama, del subtipo carcinoma ductal invasivo, en imágenes histopatológicas.
Métodos: la herramienta se implementó en Python e incluye métodos de detección de carcinoma ductal invasivo en imágenes histopatológicas, basados en algoritmos de extracción de características de color y textura en combinación con un clasificador de bosques aleatorios.
Resultados: la herramienta de código abierto brinda una serie de facilidades para la lectura, escritura y visualización de imágenes histopatológicas, delineación automática y manual de zonas cancerígenas, gestión de los datos diagnósticos del paciente y evaluación colaborativa a distancia. Fue evaluada en una base de datos con 162 imágenes de pacientes diagnosticados con carcinoma ductal invasivo y se obtuvo una exactitud balanceada de 84 % y factor F1 de 75 %.
Conclusiones: la herramienta permitió un análisis interactivo, rápido, reproducible y colaborativo mediante una interfaz gráfica sencilla e intuitiva. En versiones futuras se prevé incluir nuevos métodos de aprendizaje automático incremental para el análisis de imágenes histopatológicas digitales.



Palabras clave: aprendizaje automático, neoplasias de la mama, carcinoma ductal de mama, diagnóstico, inteligencia artificial

ABSTRACT

Background: the accurate detection and classification of breast cancer through histopathological diagnosis is of vital importance for the effective treatment of the disease. Among the types of breast cancer, invasive ductal carcinoma (IDC) is the most common. Visual analysis of tissue samples under the microscope is a manual, time-consuming and observer-dependent process. However, in many countries, including Cuba, the use of software tools to assist diagnosis is scarce.
Objective: to develop a software tool to detect IDC subtype breast cancer tissue in histopathological images.
Methods:
the tool is implemented in Python and includes IDC detection methods in histopathological images, based on algorithms for extraction of color and texture features in combination with a random forest classifier.
Results: the open source tool provides a series of facilities for the reading, writing and visualization of histopathological images, automatic and manual delineation of cancer areas, management of patient diagnostic data and collaborative remote evaluation. It was evaluated in a database with 162 images of patients diagnosed with IDC, obtaining a balanced accuracy of 84 % and a F1 factor of 75 %.
Conclusions: the tool allowed an interactive, fast, reproducible, precise and collaborative analysis through a simple and intuitive graphical interface. Future versions are expected to include new incremental machine learning methods for the analysis of digital histopathology images.



Keywords: machine learning, breast neoplasms, carcinoma, ductal, breast, diagnosis, artificial intelligence

INTRODUCCIÓN

Actualmente, el cáncer de mama es el tipo de cáncer diagnosticado con más frecuencia en las mujeres en todo el mundo.(1) En Cuba, según reportes del registro nacional del cáncer, este representó la segunda causa de muerte por cáncer en las mujeres en 2015.(2,3) Entre todas las variantes histológicas del cáncer de mama, el carcinoma ductal invasivo (CDI) es la más frecuente entre las lesiones invasivas, con alrededor del 80 % de los casos.(4)

El diagnóstico histopatológico preciso de la enfermedad es de vital importancia para guiar su tratamiento efectivo.(5) La detección y delineación de células tumorales en las muestras de tejido es un primer paso en el diagnóstico, seguido de un análisis de estas regiones para determinar el grado y estado del tumor. El análisis visual de dichas muestras en el microscopio es un proceso manual, cualitativo, que consume tiempo y está sujeto a variaciones interobservador, incluso entre patólogos expertos.(6)

Las herramientas de diagnóstico asistido por computadora (CAD, por las siglas del inglés Computer Aided Diagnosis) intentan reducir la carga de los patólogos, automatizando varias tareas de análisis en las imágenes histopatológicas. El objetivo de estos sistemas es complementar el diagnóstico médico mediante la estimación de indicadores cuantitativos que permitan obtener resultados más rápidos, reproducibles y precisos. En este contexto, los algoritmos de aprendizaje automático han demostrado tener alto desempeño en tareas complejas de análisis computarizado de imágenes.(7,8,9) A pesar de esto, el uso de sistemas CAD es escaso en muchos países, incluyendo el nuestro.

Hasta la fecha se ha desarrollado en Cuba un reducido número de sistemas CAD para el análisis computarizado de imágenes histopatológicas digitales. En uno de ellos se desarrolló una herramienta software para el análisis morfométrico de diferentes estructuras celulares en imágenes histopatológicas.(10) La herramienta permitió la estimación de diferentes variables como el área, perímetro, factor de forma y circularidad de las estructuras. Estas métricas fueron utilizadas para la estimación del grado histológico de tumores de CDI mediante un modelo bayesiano de análisis estadístico multivariado; sin embargo, los resultados preliminares mostraron un desempeño de clasificación discreto.(11)

Por otra parte, se desarrolló un sistema para el análisis cuantitativo semiautomático y morfométrico de estructuras celulares en imágenes histopatológicas digitales.(12) Las variables estimadas por este sistema son similares a las descritas en el estudio del software para el análisis morfométrico de diferentes estructuras celulares en imágenes histopatológicas,(10) no obstante se incluyen otras funciones como el conteo de unidades y generación de reportes de datos diagnósticos.

Las herramientas antes mencionadas contienen valiosas funciones para el análisis patológico cuantitativo; sin embargo, no disponen de algoritmos para la detección y delineación automatizada del cáncer de mama en las imágenes. Según el conocimiento de los autores, en Cuba no se cuenta con ningún sistema CAD para la detección/diagnóstico de cáncer de mama en imágenes histopatológicas.

El objetivo de este trabajo fue desarrollar una herramienta software de código abierto que permita detectar y delinear de manera automática las regiones tumorales de CDI en imágenes histopatológicas digitales.

El código fuente de la herramienta se encuentra disponible[a] en la plataforma GitHub.

 

[a] https://github.com/abrahampm/histobcad

MÉTODOS

En esta sección se describen brevemente los métodos de procesamiento digital de imágenes y aprendizaje automático que soportan la herramienta actual, así como los elementos de desarrollo de software empleados en su diseño.

Método de detección de regiones tumorales

La detección de regiones tumorales de CDI en las imágenes se realiza mediante diferentes bloques de procesamiento. (Fig. 1).

A pesar de que los diferentes tipos de formatos de imágenes histopatológicas contienen múltiples resoluciones, el análisis se realiza a una escala de aumento de 40  ya que esta demostró mejores resultados que otras escalas en un estudio realizado.(13) La imagen de entrada de alta resolución se secciona en mosaicos de 50  50 píxeles para el procesamiento por bloques. Cada mosaico de imagen se procesa de manera independiente en el bloque de extracción de características. Este permite reducir el volumen de información original en la imagen a un conjunto más pequeño de características representativas de color y textura.

Las características de color se calculan mediante el histograma de color normalizado,(14) aplicado a cada canal de la imagen en el espacio de color RGB. Estas brindan información de color de las estructuras celulares (núcleo, estroma, citoplasma) presentes en la imagen, las cuales toman cierta coloración dependiendo del agente de tinción utilizado durante la preparación de las muestras.

Las características de textura permiten obtener información acerca de la distribución espacial y apariencia de las estructuras celulares presentes en las imágenes. Estas se calculan a partir  de una serie de matrices descriptivas (GLCM , GLRLM, GLSZM, GLDM)(15,16,17) que caracterizan la dependencia espacial de los niveles de gris en la imagen. Para el cómputo de dichas matrices se convierten los mosaicos de imagen del espacio de color RGB a escala de grises por el método basado en la luminancia.(14) La cantidad de niveles de gris en la imagen influye notablemente en el tamaño de las matrices, por lo que para hacer el cálculo computacionalmente manejable se debe realizar una reducción de los niveles de gris de los mosaicos.(15) El proceso de reducción se realiza dividiendo el rango de intensidades de gris en intervalos discretos de ancho fijo como se define en la ecuación:

El conjunto total de características de color y textura calculadas se proporcionan como entradas al clasificador de bosques aleatorios. Este predice la presencia o no de CDI en cada mosaico de imagen analizado. El entrenamiento del clasificador se realizó utilizando la base de datos pública[b] introducida por Cruz-Roa et al.(9) Esta consiste en 162 imágenes histopatológicas correspondientes a pacientes diagnosticados con CDI. Cada imagen fue anotada manualmente por un patólogo experto y dividida en mosaicos de 50  50 píxeles no superpuestos mediante un muestreo en cuadrícula. Los mosaicos con más del 80 % dentro de la máscara de anotación fueron considerados como positivos (CDI).

La base de datos contiene un total de 277 524 mosaicos de imágenes, 196 454 (71 %) pertenecientes a la clase 0 (No CDI) y 78 768 (29 %) a la clase 1 (CDI). De estos, se seleccionaron para el entrenamiento 123 849 imágenes (45 % del total) realizando un muestreo aleatorio estratificado para preservar las proporciones de las clases presentes en el conjunto original. Para el conjunto de pruebas, se seleccionaron 151 373 imágenes (55 % del total) no empleadas en el entrenamiento, utilizando la misma técnica de muestreo. Las imágenes restantes se descartaron por presentar dimensiones inferiores a 50  50 píxeles.

El clasificador de bosques aleatorios fue entrenado con un total de 100 árboles. Para evitar el sobreajuste del modelo al conjunto de entrenamiento se limitó la cantidad de nodos terminales en cada árbol a 500. Para ser considerado, cada nodo terminal debió apartar al menos 10 ejemplos de entrenamiento a cada rama izquierda y derecha del nodo. Esta configuración de parámetros mostró mejores resultados que otras configuraciones exploradas a través de una búsqueda en malla.

A partir de la probabilidad de pertenencia a la clase predicha por el clasificador para cada mosaico de imagen, se confecciona un mapa de probabilidades que permite finalmente resaltar en colores más cálidos las regiones con alta probabilidad de presencia de CDI en la imagen de entrada.

Desarrollo de herramienta software

El diseño de la herramienta software se realizó en función de una serie de requisitos funcionales y no funcionales descritos a continuación. Entre los requisitos funcionales que debe cumplir la aplicación se encuentran:

  • Cargar, visualizar y guardar imágenes histopatológicas digitales.
  • Analizar las imágenes y realizar la detección automática de las zonas tumorales de CDI.
  • Delinear manual y automáticamente las zonas tumorales detectadas en las imágenes.
  • Gestionar y evaluar los datos relativos al diagnóstico del paciente de manera colaborativa.

Por otra parte, la herramienta debe cumplir con requerimientos no funcionales como ser multiplataforma y tener un costo computacional moderado que permita su ejecución en ordenadores con prestaciones limitadas. La aplicación se desarrolló utilizando el lenguaje de programación Python, el cual cumple con el requerimiento multiplataforma, al igual que el marco de trabajo Qt, utilizado para el desarrollo de la interfaz gráfica a través de la integración para Python, PySide2. Se agregó soporte para la lectura de imágenes histopatológicas digitales de distintos formatos a través de la interfaz para Python de la librería OpenSlide. Esta es compatible con varios formatos como Aperio SVS, Leica SCN, Hamamatsu NDPI, entre otros. Debido al gran tamaño en disco y resolución de estas imágenes, la herramienta visualiza solamente la imagen a la escala de aumento en que se realiza el análisis.

La aplicación fue diseñada para que su ejecución se distribuya en diferentes procesos en el sistema operativo anfitrión. Los cálculos intensivos realizados por los algoritmos de procesamiento de imágenes y aprendizaje automático son distribuidos por varios procesos que se ejecutan de manera concurrente en los distintos núcleos disponibles en la CPU del ordenador. Este paralelismo reduce considerablemente los tiempos de ejecución de los algoritmos. Por su parte, la interfaz gráfica se ejecuta por separado en el proceso principal de la aplicación, manteniendo su interactividad mientras se ejecutan las tareas de procesamiento.

Para la evaluación colaborativa se implementó una interfaz de programación de aplicaciones en el lenguaje PHP utilizando el marco de trabajo Laravel. La interfaz se ejecuta en un servidor y permite a los usuarios de la herramienta autenticarse y compartir de manera segura, con otros especialistas, secciones de imágenes histopatológicas, así como datos diagnósticos del paciente para su evaluación colaborativa a distancia. La gestión y almacenamiento de los datos diagnósticos en el servidor se realiza mediante el sistema de gestión de bases de datos MySQL.

 

[b] Disponible en https://andrewjanowczyk.com/wp-static/ IDC_regular_ps50_idx5.zip

 

RESULTADOS

La herramienta de código abierto desarrollada se denominó HistoBCAD (del inglés, Histopathological Breast cancer Computer Aided Diagnosis).

 La interfaz gráfica de usuario principal está compuesta por las siguientes partes:

  • Barra de menú: contiene una serie de elementos de menú que permiten acceder a las funcionalidades de la aplicación.
  • Panel lateral izquierdo: permite previsualizar y acceder rápidamente a todas las imágenes histopatológicas localizadas en el directorio de trabajo actual.  
  • Panel principal: permite visualizar en detalle la imagen seleccionada, aumentar y disminuir la escala de visualización y desplazar el área visualizada de la imagen.
  • Panel lateral derecho: permite gestionar la información de diagnóstico y datos del paciente. (Fig. 2).

Los elementos que integran la barra de menú incluyen las siguientes funciones:

  • Menú Archivo: cargar y visualizar una imagen, guardar imagen delineada y cerrar aplicación.
  • Menú Análisis: detección automática de regiones tumorales de CDI en la imagen y delineación manual.
  • Menú Diagnóstico: crear, editar y compartir datos diagnósticos de los pacientes.
  • Menú Configuración: cambiar idioma de la interfaz y ajustes del servidor para el trabajo colaborativo en la aplicación.
  • Menú Ayuda: abrir el manual de usuario y mostrar información acerca de la aplicación.
  • Elemento de menú Iniciar sesión: gestionar la cuenta de usuario, registro e inicio de sesión en el servidor para el trabajo colaborativo.

El panel lateral derecho contiene varios campos para registrar la información básica del paciente y de diagnóstico. (Fig. 3).

El campo de subtipo histológico permite especificar el tipo de cáncer de mama diagnosticado. En caso de CDI, se habilita otro campo para especificar el grado del tumor (bien diferenciado, moderadamente diferenciado y poco diferenciado). De manera similar, en caso de carcinoma ductal in situ, el subtipo más frecuente entre las variantes in situ de cáncer de mama, se puede especificar su variación histológica (comedo, cribiforme, micropapilar, papilar y sólido). Finalmente, se dispone el campo de información de diagnóstico adicional para introducir en forma de párrafo otros datos y observaciones realizadas durante el diagnóstico.

En la figura 4 se muestra la detección automática de regiones tumorales de CDI en una imagen realizada con la herramienta desarrollada. Se resaltan las zonas de alta probabilidad de CDI según la predicción del clasificador realizada para cada mosaico de 50  50 píxeles en la imagen. La detección se realiza en mosaicos para disminuir el costo computacional ya que una detección a nivel de píxel puede resultar excesivamente costosa en ordenadores con recursos computacionales limitados, debido a la alta resolución de las imágenes histopatológicas. (Fig. 4).

El desempeño del algoritmo fue evaluado en el conjunto de pruebas utilizando las métricas de exactitud balanceada y factor F1 como se define en las ecuaciones (2) y (3) respectivamente. Estas métricas son más robustas para la evaluación en conjuntos donde existe desbalance en la cantidad de ejemplos de cada clase.(18)

En la figura 5 se muestran los resultados de la evaluación del algoritmo de clasificación para la detección de regiones tumorales de CDI en el conjunto de pruebas mediante la matriz de confusión. La exactitud balanceada alcanzada por el clasificador fue de 84 % y el factor F1 75 %, lo cual representa un resultado competitivo con otros alcanzados por algoritmos de aprendizaje automático convencionales en el tema. (Fig. 5).

De manera cualitativa, se pudo constatar en las imágenes que, en algunos casos, los falsos positivos o negativos son causados por el bajo nivel de precisión en la anotación manual de referencia realizada en la base de datos original. En la figura 6 se observa un ejemplo, en (a) regiones anotadas manualmente por el patólogo en una imagen original, y (b) regiones detectadas por el algoritmo de aprendizaje automático implementado en la misma imagen reconstruida de la base de datos. (Fig. 6).

Si bien el algoritmo falla detectando incorrectamente algunas regiones, en otros casos el error de clasificación es causado por el bajo nivel de precisión en la delineación manual aproximada realizada por el especialista a una escala de aumento pequeña. La obtención de anotaciones de alta precisión constituye un reto hoy en día en el campo de la histopatología digital debido a la laboriosidad y cantidad de tiempo requerida por dicha tarea.(8)

DISCUSIÓN

HistoBCAD constituye una nueva plataforma de código abierto para el análisis interactivo, reproducible y colaborativo de imágenes histopatológicas digitales en el diagnóstico del cáncer de mama. Esta provee funciones necesarias para la detección automática precisa de regiones tumorales de CDI y demostró ser de ayuda como un primer paso en el proceso de diagnóstico.

 El uso de esta herramienta contribuirá a disminuir la carga de trabajo durante el proceso de análisis de grandes volúmenes de imágenes de muestras histopatológicas. Las funcionalidades para la evaluación colaborativa a distancia integradas en la herramienta permiten, además, complementar el diagnóstico con otros criterios aportados por otros especialistas.

En futuras versiones de la aplicación se prevé incorporar nuevos algoritmos de detección y clasificación basados en técnicas de aprendizaje automático supervisado e incremental que permitan asistir otras tareas de análisis durante el proceso de diagnóstico. Se prevé además agregar soporte para la visualización y el análisis de imágenes histopatológicas a diferentes escalas de aumento.

Como trabajo futuro, se propone el estudio y evaluación del método de delineación de regiones tumorales de CDI implementado utilizando otras bases de datos con anotaciones de referencia más precisas.

La herramienta está disponible en: https://github.com/abrahampm/histobcad.

 

Conflicto de intereses

Los autores declaran que no existen conflictos de interés.

Contribuciones de los autores

Conceptualización: Francisco Perdigón Romero.

Curación de datos: Carlos Abraham Pérez Marrero.

Análisis formal: Carlos Abraham Pérez Marrero.

Adquisición de fondos: Carlos R. Vázquez Seisdedos.

Investigación: Carlos Abraham Pérez Marrero, Francisco Perdigón Romero.

Metodología: Carlos Abraham Pérez Marrero, Carlos R. Vázquez Seisdedos, Francisco Perdigón Romero.

Software: Carlos Abraham Pérez Marrero, Talía Vázquez Romaguera.

Supervisión: Francisco Perdigón Romero.

Redacción – borrador original: Carlos Abraham Pérez Marrero.

Redacción – revisión y edición: Carlos R. Vázquez Seisdedos, Talía Vázquez Romaguera, Alexander Mulet De Los Reyes, Francisco Perdigón Romero.

Financiamiento

El presente artículo fue financiado parcialmente por el proyecto territorial de Monitoreo al adulto mayor en ambientes controlados del Centro de Estudios de Neurociencias, Procesamiento de Imágenes y Señales, Facultad de Ingeniería en Telecomunicaciones, Informática y Biomédica. Universidad de Oriente, Cuba.

REFERENCIAS BIBLIOGRÁFICAS
1 Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, et al. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA Cancer J Clin. 2021;71(3):209-49
2 Registro Nacional del Cáncer. Anuario de incidencia de cáncer en Cuba 2015 [Internet]. La Habana: RNC; 2016 [citado 6 Sep 2020]. Disponible en: http://www.rnc.sld.cu/wp-content/uploads/2016/07/Incidencia-de-Cancer-2015_General-vers2.pdf
3 Registro Nacional de Cáncer de Cuba. Mortalidad de cáncer según sexo y localización. Número de casos, tasas crudas y ajustadas. Cuba. 2015 [Internet]. La Habana: RNC; 2016 [citado 6 Sep 2020]. Disponible en: http://www.rnc.sld.cu/wp-content/uploads/2013/07/Mortalidad-de-cancer-segun-sexo-y-localización.pdf
4 Malhotra GK, Zhao X, Band H, Band V. Histological, molecular and functional subtypes of breast cancers. Cancer Biol Ther. 2010;10(10):955-60
5 Robertson S, Azizpour H, Smith K, Hartman J. Digital image analysis in breast pathology-from image processing techniques to artificial intelligence. Transl Res J Lab Clin Med. 2018;194:19-35
6 Elmore J, Longton G, Carney P, Geller B. Diagnostic Concordance Among Pathologists Interpreting Breast Biopsy Specimens. Am Med Assoc. 2015;313(11):1122-32
7 Sadoughi F, Kazemy Z, Hamedan F, Owji L, Rahmanikatigari M, Azadboni TT. Artificial intelligence methods for the diagnosis of breast cancer by image processing: A review. Breast Cancer (Dove Med Press). 2018;10:219-301
8 Janowczyk A, Madabhushi A. Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases. J Pathol Inform. 2016;7(1):29
9 Cruz-Roa A, Basavanhally A, González F, Gilmore H, Feldman M, Ganesan S, et al. Automatic detection of invasive ductal carcinoma in whole slide images with convolutional neural networks. Med Imaging Digit Pathol. 2014;9041(216):904103
10 Coro RM, Borrajero I. DIGIPAT: Un sistema cubano para morfometría de imágenes. Rev Latinoam Patol. 1996;34:9-10
11 Antúnez Potashkina I, Coro Antich R, Rodriguez Ceballos S. Morfometría computerizada en aspirados celulares del carcinoma ductal infiltrante de la mama. Modelo de estadística multivariada. Rev Esp Patol. 1997;30(3):193-9
12 Morales RR, Martínez T, Cuello L. MADIP: Morphometrical analysis by digital image processing. En: Sánchez JS. Pattern Recognition and Image Analysis. Castellón de la Plana: Universitat Jaime I; 2001. p. 291-8
13 Sharma S, Mehra R. Conventional Machine Learning and Deep Learning Approach for Multi-Classification of Breast Cancer Histopathology Images — a Comparative Insight. J Digit Imaging. 2020;3(3):632-54
14 Masters BR, Gonzalez RC, Woods RE. Digital Image Processing. J Biomed Opt. 2009;14(2):029901
15 Zwanenburg A, Leger S, Vallières M, L ̈ock S. Image biomarker standardisation initiative.arXiv preprint arXiv:1612.07003 [Internet]. Ithaca: Cornell University; 2019 [citado 14 May 2020]. Disponible en: https://arxiv.org/pdf/1612.07003.pdf
16 Haralick RM, Shanmugam K, Dinstein IH. Textural features for image classification. IEEE Trans Syst Man Cybern [revista en Internet]. 1973 [citado 8 Sep 2021];3(6):[aprox. 12p]. Disponible en: https://ieeexplore.ieee.org/abstract/document/4309314/
17 Afshar P, Mohammadi A, Plataniotis KN, Oikonomou A, Benali H. From handcrafted to deep-learning-based cancer radiomics: Challenges and opportunities. IEEE Signal Process Mag. 2019;36(4):132-60
18 Brodersen KH, Ong CS, Stephan KE, Buhmann JM. The balanced accuracy and its posterior distribution. En: 20th International Conference on Pattern Recognition, 2010. Estambul: Interaction Design Foundation; 2010 [citado 8 Sep 2021]. Disponible en: https://ieeexplore.ieee.org/document/5597285

Enlaces refback

  • No hay ningún enlace refback.


Editada en la Universidad de las Ciencias Médicas de Cienfuegos