Тёмный

Tutorial Natural Language Processing Bahasa Indonesia dengan Sastrawi | Google Colab Python -  

Eko Wahyudiharto
Подписаться 2,6 тыс.
Просмотров 9 тыс.
50% 1

Definition of terms:
Sastrawi adalah perpustakaan PHP sederhana yang memungkinkan Anda untuk mengurangi kata-kata yang terinfleksi dalam Bahasa Indonesia (Bahasa Indonesia) ke bentuk dasarnya (batang).
Cleansing adalah aktivitas perbaikan data secara sistematis menggunakan algoritma tertentu.
Stemming adalah proses mengubah kata berimbuhan menjadi kata dasar.
Tokenizing adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu. Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut.
Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini).

Опубликовано:

 

18 сен 2021

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 21   
@ArifahTrisnawati
@ArifahTrisnawati Месяц назад
Halo pak.. Kalau mau bikin library semacam sastrawi ini apakah ada tutorialnya? Case nya ingin mencocokkan teks dengan daftar nama objek semacam toko, masjid, dst
@EkoWahyudiharto
@EkoWahyudiharto Месяц назад
Menarik nih... Rasa2nya chatGPT bisa kasih tutorial lengkapnya sampe ke sample2 code-nya 😀 Selain itu, keknya pernah liat base lib-nya di github deh. Cmn waktu itu gak di save sih. So, find it, trial & error yah 🫰
@arroziirfan7109
@arroziirfan7109 2 месяца назад
solusi lemmatization untuk bahsa indonesia gimana pak gk nemu klo bahasa inggris banyak
@EkoWahyudiharto
@EkoWahyudiharto 2 месяца назад
Kalo native library Py atau nltk yaaa ngga ada. Kalo utk objek research, ya banyak, beberapa diantaranya dituangkan di GitHub. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi. Happy research!
@fariziilham9736
@fariziilham9736 10 дней назад
bikin lemmatization indonesian ver. kuy..
@lukmanulhakim1758
@lukmanulhakim1758 9 месяцев назад
Bang, klo sumber link warta yang menjadi objek text diganti dengan file CSV yang sudah kita sediakan gimana? misal saya sudah menyediakan data scrape dari twitter dalam bentuk csv, tapi perlu di proses seperti video di atas. Thanks ilmunya
@EkoWahyudiharto
@EkoWahyudiharto 9 месяцев назад
Prinsipnya input file diubah dgn teknik import file kayak di 👉 ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-emWBntUUc_w.htmlsi=GqQMZ9WZMmZnhkWx
@arthatirtayasa4667
@arthatirtayasa4667 Год назад
Bang jika membuat sebuah logika pengecualian terhadap suatu kata agar tidak error di pyhton, soalnya di sastrawi : susi -> sus (harusnya : susi) bali -> bal (harusnya : bali)
@EkoWahyudiharto
@EkoWahyudiharto Год назад
Sebaiknya stopword di add di datalist ketimbang membuat exceptional logic
@derryljunior5644
@derryljunior5644 Год назад
pak izin mau nanya, penerapan unigram bigram trigram itu di tokenize atau bukan? saya dapet revisian kata pembimbing pembobotan make fitur itu, tapi di refrensi jurnal yg saya baca fitur tsb masuk kedalam tahap word tokenize. Mungkin ada referensi pengganti fitur pembobotan selain tfidf?mohon pencerahannya pak
@EkoWahyudiharto
@EkoWahyudiharto Год назад
Langsung aja ke inti pertanyaannya ya. Utk konteks analisa sentimen, maka setidaknya ada 9 pre-processing text mining, yaitu: 1. Cleansing (dari karakter non alfabet) 2. Translating (penyesuaian language) 3. Spelling normalization (perbaikan kata baku) 4. Case folding (penyeragaman huruf) 5. Tokenizing 6. n-Gram extraction 7. Stopword filtering 8. Stemming (kata dasar) 9. Sentiment scoring & labeling Pembobotannya bs menggunakan banyak metode, salah 1 nya bisa dengan NBC 👉 ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-ih9D9B1vz1c.html
@garpu3586
@garpu3586 Год назад
Izin bertanya, apakah untuk lemmatization bisa menggunakan sastrawi? Jika tidak apakah ada referensi untuk lemmatization indonesia?
@EkoWahyudiharto
@EkoWahyudiharto Год назад
Rasa2nya Sastrawi blm diextend desainnya utk lemmatization Bahasa - CMIIW. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi
@lemoniall6553
@lemoniall6553 Год назад
Pak izin bertanya, apakah dalam text processing, stopword bisa kita modif?, Maksudnya ada kata yg kita biarkan. Kalau memang bisa apakah ada referensinya?. Terima kasih.
@EkoWahyudiharto
@EkoWahyudiharto Год назад
Nice question! IMHO - stopword itu kan deretan kata dlm datalist. Prinsip modif yg paling logis itu bisa add/remove datalist (manual jar yg di unpack & repack) atau by function set(). Yg rumit? Blom pernah coba sih. Bisa jadi dengan (k-mean) clustering lanjut ke stemming. Tp feeling2 bakal ngefek ke performance.
@badarmuhamad2135
@badarmuhamad2135 10 месяцев назад
Halo bg saya Subscribe baru
@EkoWahyudiharto
@EkoWahyudiharto 10 месяцев назад
Halo & selamat datang di channel ini 🫰 Resume link video 17 algorithma Machine Learning: A. Supervised Learning Terbagi dalam 2 model: 1. Regression * Linear (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-3V_mdvRx5Zc.html) * Logistic (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-MqZvStQrKAc.html) * Polynomial (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-GdXy6qEPmVo.html) 2. Classification * K-Nearest Neighbors (KNN) (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-0WpK5g4EOq4.html) * Decision Tree (DT) (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-WVvLK6RwIoY.html) * Naive Bayes (NB) (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-ih9D9B1vz1c.html) * Support Vector Machine (SVM) (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-nE-2uG7RU28.html) B. Unsupervised Learning Terbagi dalam 3 model & 2 metode (ML & DL): A. Machine Learning 1. Clustering * K-Means (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-vlouPyMa1AA.html) * Hierarchical Clustering (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-t_9WXQVC-q0.html) * T-SNE Clustering (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-2sWGlS8Wnic.html) * DBScan (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-gKQu31ZTB9g.html) 2. Dimension Reduction * Principal Component Analysis (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-LoEtynX4NRk.html) * Anomaly Detection (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Hgl2wUTjxMI.html) * Auto-Encoder (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Y1xaiZpvR_c.html) * Hebbian Learning (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-lQ3Tm5P7228.html) B. Deep Learning Generative Models * Generative Adversarial Network (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-vHdoOOCGr0I.html) * Self Organizing Maps (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-iVLixLtNYbk.html) Selamat mencoba & praktek ✌
@Apakek
@Apakek Год назад
Halo pak. Apa ada solusi untuk mempercepat proses stemming dengan sastrawi?
@EkoWahyudiharto
@EkoWahyudiharto Год назад
Hmm, bentar... issue nya apa ya?
Далее
Seri Machine Learning | ROC vs AUC adalah... - #90
6:35
Me: Don't cross there's cars coming
00:16
Просмотров 12 млн
Looks realistic #tiktok
00:22
Просмотров 19 млн
Me: Don't cross there's cars coming
00:16
Просмотров 12 млн