Data Science Bowl 2017

Ziel des Data Science Bowl 2017 war es, die frühzeitige Diagnostik von Lungenkrebs signifikant zu verbessern – es handelte sich um den bis dahin höchstdotierten Kaggle-Wettbewerb überhaupt. Mehr als 10.000 Teilnehmer verschiedener Nationen traten gegeneinander an. Als einziges deutsches Team konnten sich die Mitarbeiter von Hellsicht, Niklas Köhler und Julian Jungwirth, mit zusätzlicher Unterstützung durch das Helmholtz Zentrum München in den Top 10 positionieren und zählen somit zu den Gewinnerteams.

 

Abb. 1 Horizontalschnitt des CT-Scans einer Lunge. Ein grüner Pfeil markiert eine potenziell bösartige Wucherung. Die Teilnehmer und Teilnehmerinnen des Data Science Bowl 2017 arbeiteten an der Entwicklung einer Software, die derartige Tumor-Kandidaten entdecken und zusätzlich als gut- oder bösartig klassifiziert.

 

Beim Data Science Bowl handelt es sich um einen alljährlichen, von der Plattform Kaggle ausgeschriebenen Wettbewerb, in dem Experten aus aller Welt antreten, um Probleme von sozialer Relevanz möglichst effektiv zu lösen. Unter den Teilnehmer finden sich neben engagierten Privatpersonen zudem führende Unternehmen und Top-Forscher und -forscherinnen aus der Data Science-Gemeinschaft.

 

Ziel des Data Science Bowls 2017 war es, eine Softwarelösung zu entwickeln, die dazu in der Lage ist, anhand eines einzelnen 3D-Computertomographie-Scans (auch CT-Scan) Lungenkrebs zu diagnostizieren (siehe Abb. 1). Manuelle Sichtung des Bildmaterials durch geschultes, medizinisches Personal erfordert enormen zeitlichen Aufwand. Doch kann selbst auf diese Weise keine absolute Exaktheit garantiert werden. Mithilfe der entsprechenden Software lässt sich, sowohl die Arbeit des Fachpersonals erleichtern als auch Lungenkrebs früher und mit höherer Genauigkeit erkennen.

 

Bei der Erkennung von Lungenkrebs stößt selbst modernste Bilderkennungssoftware an ihre Grenzen, da Lungen-CT-Scans die Analysealgorithmen mit einer enormen Menge an Informationen konfrontieren. Bestehend aus bis zu 600 Schichten auf hoher Auflösung (1000×1000 Pixel) beinhaltet ein einzelner CT-Scan über 600 Millionen Pixel, die nach kleinsten Tumoren und erkranktem Gewebe durchsucht werden müssen. Tumore messen teilweise nur wenige Pixel Durchmesser und werden sogar von erfahrenen Radiologen regelmäßig übersehen. Erschwert wird diese Suche durch den Fakt, dass keine menschliche Lunge identisch ist, was hohe Erkennungsraten bei manueller Definition von Suchkriterien unmöglich macht. Das Team von HELLSICHT entwickelte daher auf künstlicher Intelligenz basierende Software, die in der Lage ist, eigenständig tausende Lungen-CT-Scans zu durchforsten und relevante Kriterien selbst zu erlernen.
Bild 2 Skizze zum mehrstufigen Verfahren zur Diagnostik von Lungenkrebs. In der ersten Stufe werden übersensitiv mittels künstlicher Intelligenz basierend auf Deep Learning potenzielle Tumor-Kandidaten gefunden. Anschließend werden diese mittels eines neuronalen Netzes auf Gut-/Bösartigkeit hin untersucht. Die Analyseergebnisse der einzelnen Tumor-Kandidaten wird aggregiert. Es resultiert eine Patientendiagnose.

 

Bei unserem finalen Modell handelt es sich um ein mehrstufiges 3D-Deep Learning-System. Die erste algorithmische Stufe markiert übersensitiv alle verdächtigen Stellen in der gesamten Lunge und extrahiert die potenziell gefährlichen Stellen. Die Tumor-Kandidaten werden anschließend in eine zweite Stufe intelligenter Algorithmen übergeben, die nun entscheiden, ob die markierten Stellen gut- oder bösartig sind. Im letzten Schritt werden die Einzelanalysen aller potenziellen Tumore eines Patientens aggregiert und eine Patientendiagnose erstellt.

 

Diese Trennung in unterschiedliche Verarbeitungsschichten steigert die Erkennungsrate des entwickelten Systems maßgeblich. Gleichzeitig wird damit ein erheblicher Gewinn an Effizienz bezüglich Rechenzeit und Speicherplatz erreicht, da es erlaubt, auf der für die jeweilige Aufgabe idealen Auflösungsstufe zu arbeiten. Das Finden von potenziellen Tumoren benötigt eine niedrigere Auflösung, als es für die Unterscheidung in Gut- und Bösartigkeit der Fall ist. Mithilfe dieses mehrstufigen Verfahrens ist es nun möglich, in nur wenigen Sekunden hunderte Millionen Pixel auf kleinste Unstimmigkeiten hin mit ärztlicher Genauigkeit zu untersuchen.

 

Besuchen Sie Data Science Bowl 2017, um zur offiziellen Kaggle-Website des Wettbewerbs zu gelangen und sehen Sie hier die Rangliste sämtlicher Teilnehmer und Teilnehmerinnen ein. Eine entsprechende Pressemitteilung zur Platzierung unseres Teams wurde vom Helmholtz Zentrum München veröffentlicht: https://www.helmholtz-muenchen.de/aktuelles/uebersicht/pressemitteilungnews/article/40386/index.html.

 

Haben Sie Interesse an ähnlichen Software-Lösungen oder fragen Sie sich, ob diese Verfahren auch Ihre Anwendung verbessern können? Gerne sind wir Ihnen bei Fragen zu Machine Learning, Deep Learning oder Machine Vision behilflich und stehen Ihnen mit unserem Know-How jederzeit unverbindlich zur Verfügung.

 

Kontaktieren Sie mich gerne – ich freue mich auf das Gespräch mit Ihnen!

Julian Jungwirth
Data Scientist & Project Manager