打造針對小型社群/個人的內容資料庫：基於微調預訓練語言模型的自動標記方案｜James Chen｜PyCon Taiwan 2023

Published: 22 November 2023
on channel: PyCon Taiwan

111

PyCon Taiwan 2023｜Talk 演講｜Day 2, R1 13:45–14:15

🪄 說明 Description 🪄
ChatGPT爆紅後，大模型似乎成爲一切自然語言處理問題的解方，坊間各種呼叫OpenAI的API和使用ChatGPT的教學層出不窮。然而，ChatGPT不論有多優秀的表現，都不如專門為任務目的訓練的模型更懂你、更懂你的資料。另外，面對來勢洶洶的AI生成内容趨勢，網路資訊爆炸勢必更加凶猛，如何保存優質的内容建立資料系統也將變得越來越重要。

本演講將介紹如何使用NLP技術（更具體地說，微調預訓練語言模型）建立一個全自動的智慧化内容資料庫。內容資料庫指的是為特定目的而建立的具有完整分類、層級系統的資料庫，現實中的例子包括新聞報紙資料庫、法規資料庫等都是這種資料庫的例子，它們為相關領域的工作者提供便利，是許多研究、寫作、倡議的基礎資源。藉助AI方法，我們將不再需要大量手工整理、編輯，更多缺乏資源的小型社群、獨立媒體、NGO也可以建立屬於自己的資料庫。演講重點放在與Python最相關的微調預訓練語言模型方法部分。我將提出一種簡單、高效的多任務訓練方法，用來解決個人或小型社群面對的計算資源不足問題。同時，我還會介紹一些人工標記訓練資料和ChatGPT自動標記訓練資料的方法和可能遇到的問題，因爲優質的資料是成功的一大半。

🚀 講者介紹 About Speaker - James Chen 🚀
來回走跳於資料科學、社會運動等領域的學徒工。

Follow “PyCon Taiwan”
⭐️ Official Website: https://tw.pycon.org
⭐️ Facebook:   / pycontw
⭐️ Instagram:   / pycontw
⭐️ Twitter:   / pycontw
⭐️ LinkedIn:   / pycontw
⭐️ Blogger: https://conf.python.tw/

Watch video 打造針對小型社群/個人的內容資料庫：基於微調預訓練語言模型的自動標記方案｜James Chen｜PyCon Taiwan 2023 online without registration, duration hours minute second in high quality. This video was added by user PyCon Taiwan 22 November 2023, don't forget to share it with your friends and acquaintances, it has been viewed on our site 111 once and liked it 1 people.

71,018

2.3K