Modeling dengan Latent Dirichlet Allocation (LDA)

Apa itu Topic Modeling?

Topic modeling adalah teknik dalam Natural Language Processing (NLP) yang digunakan untuk menemukan pola tersembunyi atau “topik” dalam kumpulan dokumen teks yang besar.

Intinya topik modeling adalah kita ingin mendifine sekumpulan teks itu secara topik akan membahasa apa

Catatan Penting

Tip

Sebelum masuk ke LDA, telah memahami apa itu Topik Modeling di previous chapter Topic Modeling LDA adalah salah satu algoritma topic modeling yang paling populer dan banyak digunakan dalam berbagai hal..Studi kasus dalam pertemuan sebelumnya..

Mengapa LDA Penting?

LDA adalah salah satu algoritma topic modeling yang paling populer dan banyak digunakan dalam:

graph LR
  style A fill:#f9f,stroke:#333,stroke-width:1px
  A["<b>Mengapa LDA Penting?</b>"]

  A --> B[Analisis media sosial<br/><i>menemukan trending topics</i>]
  A --> C[Riset akademik<br/><i>menganalisis literatur penelitian</i>]
  A --> D[Business intelligence<br/><i>memahami feedback pelanggan</i>]
  A --> E[Digital humanities<br/><i>menganalisis dokumen sejarah</i>]

  classDef center fill:#ffd,stroke:#333,stroke-width:1px;
  class A center;
  class B center;
  class C center;
  class D center;
  class E center;

Latent Dirichlet Allocation (LDA)

Algoritma unsupervised yang mencoba menemukan grup kata yang sering muncul bersama.

Konsep Utama

Membagi dokumen menjadi beberapa topik
Tiap topik terdiri dari kata-kata kunci

Contoh topik:
- Topik 1: Money, Financial, Rupiah, Dollar, Euro
- Topik 2: Corruption, Fraud, Cases

Tools untuk LDA

Gensim → library Python untuk NLP & topic modeling
pyLDAvis → untuk memvisualisasikan hasil LDA

G money money financial financial money--financial obligasi obligasi financial--obligasi dollar dollar obligasi--dollar korupsi korupsi fraud fraud korupsi--fraud cases cases fraud--cases

Dataset untuk Praktik

LDA Link 20 Newsgroups