Tutorial Natural Language Processing Bahasa Indonesia dengan Sastrawi | Google Colab Python -

Подписаться 2,6 тыс.

Просмотров 9 тыс.

50% 1

Definition of terms:
Sastrawi adalah perpustakaan PHP sederhana yang memungkinkan Anda untuk mengurangi kata-kata yang terinfleksi dalam Bahasa Indonesia (Bahasa Indonesia) ke bentuk dasarnya (batang).
Cleansing adalah aktivitas perbaikan data secara sistematis menggunakan algoritma tertentu.
Stemming adalah proses mengubah kata berimbuhan menjadi kata dasar.
Tokenizing adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu. Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut.
Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini).

Опубликовано:

18 сен 2021

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 21

@ArifahTrisnawati Месяц назад

Halo pak.. Kalau mau bikin library semacam sastrawi ini apakah ada tutorialnya? Case nya ingin mencocokkan teks dengan daftar nama objek semacam toko, masjid, dst

@EkoWahyudiharto Месяц назад

Menarik nih... Rasa2nya chatGPT bisa kasih tutorial lengkapnya sampe ke sample2 code-nya 😀 Selain itu, keknya pernah liat base lib-nya di github deh. Cmn waktu itu gak di save sih. So, find it, trial & error yah 🫰

@arroziirfan7109 2 месяца назад

solusi lemmatization untuk bahsa indonesia gimana pak gk nemu klo bahasa inggris banyak

@EkoWahyudiharto 2 месяца назад

Kalo native library Py atau nltk yaaa ngga ada. Kalo utk objek research, ya banyak, beberapa diantaranya dituangkan di GitHub. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi. Happy research!

@fariziilham9736 10 дней назад

bikin lemmatization indonesian ver. kuy..

@lukmanulhakim1758 9 месяцев назад

Bang, klo sumber link warta yang menjadi objek text diganti dengan file CSV yang sudah kita sediakan gimana? misal saya sudah menyediakan data scrape dari twitter dalam bentuk csv, tapi perlu di proses seperti video di atas. Thanks ilmunya

@EkoWahyudiharto 9 месяцев назад

Prinsipnya input file diubah dgn teknik import file kayak di 👉 ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-emWBntUUc_w.htmlsi=GqQMZ9WZMmZnhkWx

@arthatirtayasa4667 Год назад

Bang jika membuat sebuah logika pengecualian terhadap suatu kata agar tidak error di pyhton, soalnya di sastrawi : susi -> sus (harusnya : susi) bali -> bal (harusnya : bali)

@EkoWahyudiharto Год назад

Sebaiknya stopword di add di datalist ketimbang membuat exceptional logic

@derryljunior5644 Год назад

pak izin mau nanya, penerapan unigram bigram trigram itu di tokenize atau bukan? saya dapet revisian kata pembimbing pembobotan make fitur itu, tapi di refrensi jurnal yg saya baca fitur tsb masuk kedalam tahap word tokenize. Mungkin ada referensi pengganti fitur pembobotan selain tfidf?mohon pencerahannya pak

@EkoWahyudiharto Год назад

Langsung aja ke inti pertanyaannya ya. Utk konteks analisa sentimen, maka setidaknya ada 9 pre-processing text mining, yaitu: 1. Cleansing (dari karakter non alfabet) 2. Translating (penyesuaian language) 3. Spelling normalization (perbaikan kata baku) 4. Case folding (penyeragaman huruf) 5. Tokenizing 6. n-Gram extraction 7. Stopword filtering 8. Stemming (kata dasar) 9. Sentiment scoring & labeling Pembobotannya bs menggunakan banyak metode, salah 1 nya bisa dengan NBC 👉 ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-ih9D9B1vz1c.html

@garpu3586 Год назад

Izin bertanya, apakah untuk lemmatization bisa menggunakan sastrawi? Jika tidak apakah ada referensi untuk lemmatization indonesia?

@EkoWahyudiharto Год назад

Rasa2nya Sastrawi blm diextend desainnya utk lemmatization Bahasa - CMIIW. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi

@lemoniall6553 Год назад

Pak izin bertanya, apakah dalam text processing, stopword bisa kita modif?, Maksudnya ada kata yg kita biarkan. Kalau memang bisa apakah ada referensinya?. Terima kasih.

@EkoWahyudiharto Год назад

Nice question! IMHO - stopword itu kan deretan kata dlm datalist. Prinsip modif yg paling logis itu bisa add/remove datalist (manual jar yg di unpack & repack) atau by function set(). Yg rumit? Blom pernah coba sih. Bisa jadi dengan (k-mean) clustering lanjut ke stemming. Tp feeling2 bakal ngefek ke performance.

@badarmuhamad2135 10 месяцев назад

Halo bg saya Subscribe baru

@EkoWahyudiharto 10 месяцев назад

Halo & selamat datang di channel ini 🫰 Resume link video 17 algorithma Machine Learning: A. Supervised Learning Terbagi dalam 2 model: 1. Regression * Linear (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-3V_mdvRx5Zc.html) * Logistic (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-MqZvStQrKAc.html) * Polynomial (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-GdXy6qEPmVo.html) 2. Classification * K-Nearest Neighbors (KNN) (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-0WpK5g4EOq4.html) * Decision Tree (DT) (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-WVvLK6RwIoY.html) * Naive Bayes (NB) (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-ih9D9B1vz1c.html) * Support Vector Machine (SVM) (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-nE-2uG7RU28.html) B. Unsupervised Learning Terbagi dalam 3 model & 2 metode (ML & DL): A. Machine Learning 1. Clustering * K-Means (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-vlouPyMa1AA.html) * Hierarchical Clustering (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-t_9WXQVC-q0.html) * T-SNE Clustering (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-2sWGlS8Wnic.html) * DBScan (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-gKQu31ZTB9g.html) 2. Dimension Reduction * Principal Component Analysis (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-LoEtynX4NRk.html) * Anomaly Detection (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Hgl2wUTjxMI.html) * Auto-Encoder (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-Y1xaiZpvR_c.html) * Hebbian Learning (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-lQ3Tm5P7228.html) B. Deep Learning Generative Models * Generative Adversarial Network (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-vHdoOOCGr0I.html) * Self Organizing Maps (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-iVLixLtNYbk.html) Selamat mencoba & praktek ✌