Spark Task Optimization Journey: How I Increased 10x Speed by Performance Tuni|游騰林|PyCon Taiwan 2023

Published: 22 November 2023
on channel: PyCon Taiwan
55
0

PyCon Taiwan 2023|Talk 演講|Day 1, R1 13:05–13:35

🪄 說明 Description 🪄
公司長期以來存在某些工作排程需要較長的執行時間,由於專案使用的資料表本身就較為肥大,大家很容易"自然"的就接受了這些排程需要較長執行時間、資源的現狀。然而隨著上線的工作排程數量的快速增加,系統負擔、效能的問題也就開始受到越來越多的重視。在盲目加大硬體資源的處理方案外,其實我們還可以從 spark的資源配置、pyspark參數設定以及程式邏輯等面向進行優化,讓工作排程能有最佳的執行效率,同時又不佔用過多的系統資源
用說的很簡單,實際要開始優化程式時還是得先了解 spark 的運作邏輯,以及 pyspark 提供的 API 參數意義開始。在這次的演講中我將以公司某項工作排程為例,和大家分享我分析這項工作排程的思路,並說明我逐步測試、優化的過程,最終成功將排程的執行時間從 5 小時大幅縮短至 30 分鐘。希望通過這次的分享幫助資料科學家、商業分析師與資料工程師更有效率的完成手上的工作!

🪧 投影片 Slides:https://speakerdeck.com/tlyu0419/why-...

🚀 講者介紹 About Speaker - 游騰林 🚀
Hi, I'm a Data scientist from Cathay United Bank in Taiwan. I have over eight years of hands-on experience in large-scale backend and AI/ML technology applications in digital marketing and customer service.


Follow “PyCon Taiwan”
⭐️ Official Website: https://tw.pycon.org
⭐️ Facebook:   / pycontw  
⭐️ Instagram:   / pycontw  
⭐️ Twitter:   / pycontw  
⭐️ LinkedIn:   / pycontw  
⭐️ Blogger: https://conf.python.tw/


Watch video Spark Task Optimization Journey: How I Increased 10x Speed by Performance Tuni|游騰林|PyCon Taiwan 2023 online without registration, duration hours minute second in high quality. This video was added by user PyCon Taiwan 22 November 2023, don't forget to share it with your friends and acquaintances, it has been viewed on our site 55 once and liked it 0 people.