PyCon Taiwan 2023|Talk 演講|Day 1, R1 13:05–13:35
🪄 說明 Description 🪄
公司長期以來存在某些工作排程需要較長的執行時間,由於專案使用的資料表本身就較為肥大,大家很容易"自然"的就接受了這些排程需要較長執行時間、資源的現狀。然而隨著上線的工作排程數量的快速增加,系統負擔、效能的問題也就開始受到越來越多的重視。在盲目加大硬體資源的處理方案外,其實我們還可以從 spark的資源配置、pyspark參數設定以及程式邏輯等面向進行優化,讓工作排程能有最佳的執行效率,同時又不佔用過多的系統資源
用說的很簡單,實際要開始優化程式時還是得先了解 spark 的運作邏輯,以及 pyspark 提供的 API 參數意義開始。在這次的演講中我將以公司某項工作排程為例,和大家分享我分析這項工作排程的思路,並說明我逐步測試、優化的過程,最終成功將排程的執行時間從 5 小時大幅縮短至 30 分鐘。希望通過這次的分享幫助資料科學家、商業分析師與資料工程師更有效率的完成手上的工作!
🪧 投影片 Slides:https://speakerdeck.com/tlyu0419/why-...
🚀 講者介紹 About Speaker - 游騰林 🚀
Hi, I'm a Data scientist from Cathay United Bank in Taiwan. I have over eight years of hands-on experience in large-scale backend and AI/ML technology applications in digital marketing and customer service.
Follow “PyCon Taiwan”
⭐️ Official Website: https://tw.pycon.org
⭐️ Facebook: / pycontw
⭐️ Instagram: / pycontw
⭐️ Twitter: / pycontw
⭐️ LinkedIn: / pycontw
⭐️ Blogger: https://conf.python.tw/
Смотрите видео Spark Task Optimization Journey: How I Increased 10x Speed by Performance Tuni|游騰林|PyCon Taiwan 2023 онлайн без регистрации, длительностью часов минут секунд в хорошем качестве. Это видео добавил пользователь PyCon Taiwan 22 Ноябрь 2023, не забудьте поделиться им ссылкой с друзьями и знакомыми, на нашем сайте его посмотрели 55 раз и оно понравилось 0 людям.