Vertragstyp: | Freiberuflicher Mitarbeiter |
Klient: | Max-Planck-Institut und Helmholtz-Institut |
Aufgabe: | Web Scraping und Data Wrangling von Geodatensätzen mit Python, Entwicklung einer (end-to-end) ML-App und Dashboards für Training/Validierung von Datensätzen mit Python |
Zeitraum: | 10/2022 bis 12/2022 |
Technologien: | Python, Requests, Pandas, Geopandas, Numpy, Sklearn, Matplotlib, Seaborn, Streamlit, Plotly, Ray, Jupyter Lab, VS Code, Insomnia, Gitlab, AWS |
Für ein Max-Planck-Institut und Helmholtz-Institut entwickelte ich durch Web Scraping und Data Wrangling Techniken mit Python einen georäumlichen Datensatz, der auf unterschiedliche Landschaftsbeeinflussungsfaktoren aus dem Erdzeitalter Holozän Bezug nimmt. Auf der Basis dieses Datensatzes können schließlich ML-Algorithmen validiert werden.
Des Weiteren entwickelte ich zusammen mit unseren Teammitgliedern eine streamlit-App mit Python, die darauf abzielt durch maschinelle Datenanalysen von Inputdaten samt einer visuellen Aufbereitung der Ergebnisse eine Datengrundlage für wissenschaftliche Hypothesenbildungen zu bilden. In dieser App kann der Nutzer seine Datensätze einspeisen, seine Prozessumgebung für die Analyse auswählen (macOS/Ubuntu) und zwischen unterschiedlichen ML-Verfahren mit dazugehörigen Hyperparametern für die Datenanalyse selektieren. Abschließend werden diese Ergebnisse visuell durch unterschiedliche Plottingverfahren dargestellt, sodass der Nutzer seine wissenschaftlichen Fragestellungen und Hypothesen festigen kann.
Seit 2023 wird dieses ML-Projekt als Open-Source Projekt fortgeführt.