Pengantar visual untuk pembelajaran mesin

language: :

Dalam pembelajaran mesin, komputer menerapkan teknik pembelajaran statistik untuk secara otomatis mengidentifikasi pola dalam data. Teknik ini dapat digunakan untuk membuat prediksi yang sangat akurat.

Teruslah scroll ke bawah. Menggunakan kumpulan data tentang rumah, kita akan membuat model pembelajaran mesin untuk membedakan rumah di New York dari rumah di San Francisco.

Scroll ke bawah

Pertama, beberapa intuisi

Katakanlah Anda harus menentukan apakah sebuah rumah terletak di San Francisco atau di New York. Dalam istilah pembelajaran mesin, menggolongkan titik data adalah suatu tugas penggolongan.

Karena San Francisco relatif berbukit, ketinggian rumah mungkin menjadi cara yang baik untuk membedakan dua kota.

Berdasarkan data ketinggian rumah di kanan, Anda bisa berpendapat bahwa rumah di atas 73 meter harus digolongkan sebagai salah satu rumah yang terletak di San Francisco.

Menambahkan nuansa

Menambahkan dimensi (pengukuran) lain menjadikan prediksi lebih bernuansa. Misalnya, apartemen di New York bisa sangat mahal per kaki persegi.

Jadi memvisualisasikan kettinggian dan harga per kaki persegi pada diagram tebar (scatterplot) membantu kita membedakan rumah dengan kettinggian rendah.

Data menunjukkan bahwa, di antara rumah-rumah pada atau di bawah 73 meter, rumah yang harganya lebih dari 19.116,7 $ per meter persegi terletak di New York City.

Dimensi dalam kumpulan data disebut fitur, prediktor, atau variabel.

Menentukan batas

Anda dapat memvisualisasikan kettingian (> 73 m) dan harga per kaki persegi (> 19.116,7 $) pengamatan Anda sebagai batas-batas wilayah pada diagram sebar. Rumah yang terletak di daerah hijau dan biru masing-masing akan berada di San Francisco dan New York.

Mengidentifikasi batas-batas pada data menggunakan matematika adalah inti dari pembelajaran statistik.

Tentu saja, Anda akan memerlukan informasi tambahan untuk membedakan rumah dengan ketinggian dan harga per kaki persegi lebih rendah.

Kumpulan data yang kita gunakan untuk membuat model memiliki 7 dimensi yang berbeda. Membuat model juga dikenal sebagai pelatihan model.

Di sebelah kanan, kita memvisualisasikan variabel pada matriks diagram sebar untuk menunjukkan hubungan antara setiap pasangan dimensi.

Ada pola yang jelas dalam data, namun batas-batas untuk menggambarkan mereka tidak jelas.

Dan sekarang, pembelajaran mesin

Menemukan pola dalam data adalah di mana pembelajaran mesin digunakan. Metode pembelajaran mesin menggunakan pembelajaran statistik untuk mengidentifikasi batas-batas tersebut.

Salah satu contoh metode pembelajaran mesin adalah pohon keputusan. Pohon keputusan memeriksa satu variabel pada suatu waktu dan merupakan metode pembelajaran mesin yang bisa diakses/digunakan (meskipun belum sempurna).

Menemukan batas yang lebih baik

Mari kita tinjau kembali batas ketinggian 73-m yang diusulkan sebelumnya untuk melihat bagaimana kita dapat memperbaiki intuisi kita.

Jelas, ini membutuhkan perspektif yang berbeda.

Dengan mengubah visualisasinya menjadi histogram, kita dapat melihat seberapa sering rumah muncul pada setiap ketinggian dengan lebih baik.

Sementara rumah tertinggi di New York berketinggian 73m, mayoritas dari rumah-rumah tersebut tampaknya memiliki ketinggian yang jauh lebih rendah.

Percabangan pertama

Pohon keputusan menggunakan pernyataan jika-maka untuk menentukan pola dalam data.

Sebagai contoh, jika ketinggian rumah lebih tinggi dari beberapa angka, maka rumah tersebut kemungkinan besar terletak di San Francisco.

Dalam pembelajaran mesin, pernyataan ini disebut percabangan, dan mereka membagi data menjadi dua cabang berdasarkan beberapa nilai.

Nilai antara cabang disebut titik pemisahan. Rumah yang terletak di sebelah kiri titik bisa digolongkan dalam satu cara, sedangkan yang di kanan digolongkan dengan cara lain. Titik pemisahan merupakan batas pada pohon keputusan.

Timbal balik

Memilih titik pemisahan memiliki timbal balik. Titik awal pemisahan kita (~ 73 m) secara tidak benar mengklasifikasikan beberapa rumah yang terletak di San Francisco sebagai rumah yang terletak New York.

Lihatlah potongan besar hijau pada grafik pie (pie chart) di kiri, itu menggambarkan semua rumah di San Francisco yang salah diklasifikasikan. Ini disebut negatif palsu.

Namun, titik pemisahan yang dimaksudkan untuk mencakup setiap rumah di San Francisco akan mencakup banyak rumah di New York juga. Ini disebut positif palsu.

Pemisahan terbaik

Pada pemisahan terbaik, hasil masing-masing cabang harus sehomogen (atau semurni) mungkin. Ada beberapa metode matematika yang dapat Anda pilih untuk menghitung pemisahan terbaik.

Seperti yang kita lihat di sini, bahkan pemisahan terbaik pada fitur tunggal tidak sepenuhnya memisahkan rumah di San Francisco dari yang terletak di New York.

Rekursi

Untuk menambah titik pemisahan lain, algoritma mengulangi proses di atas pada subhimpunan data. Pengulangan ini disebut rekursi, dan itu adalah sebuah konsep yang sering muncul dalam model pelatihan.

Histogram di sebelah kiri menunjukkan distribusi masing-masing subhimpunan, diulang untuk setiap variabel.

Pemisahan terbaik akan beragam berdasarkan cabang pohon yang Anda tinjau.

Untuk rumah dengan ketingggian lebih rendah, harga terletak pada 1.061 $ per kaki persegi adalah variabel terbaik untuk pernyataan jika-maka berikutnya. Untuk rumah dengan ketinggian yang lebih tinggi, harganya terletak pada 514.500 $

Merancang pohon

Percabangan tambahan akan menambah informasi baru yang dapat meningkatkan akurasi prediksi pohon.

Dengan memisahkan satu lapisan lebih mendalam, akurasi pohon membaik menjadi 84%.

Dengan menambahkan beberapa lapisan lebih banyak, kita bisa mencapai 96%.

Anda bahkan bisa terus menambah cabang hingga prediksi pohon menjadi 100% akurat, sehingga pada akhir setiap cabang, rumah-rumah benar terletak di San Francisco atau benar-benar terlerak di New York.

Cabang-cabang utama dari pohon disebut simpul daun. Model pohon keputusan kita akan mengklasifikasikan rumah di setiap simpul daun berdasarkan pada kelas mana mayoritas rumah terletak.

Membuat prediksi

Model pohon keputusan yang baru dilatih menentukan apakah sebuah rumah terletak di San Francisco atau di New York dengan menulusur setiap titik data melalui cabang.

Di sini Anda dapat melihat data yang digunakan untuk melatih pohon mengalir melalui pohon.

Data ini disebut data pelatihan karena digunakan untuk melatih model.

Karena kita merancang pohon ini sampai 100% akurat, pohon ini memetakan setiap titik data training sempurna pada kota di mana titik data tersebut terletak.

Pengecekan kenyataan

Tentu saja, yang lebih penting adalah bagaimana kinerja pohon pada data yang tak dilihat sebelumnya.

Untuk menguji kinerja pohon pada data baru, kita perlu menerapkannya pada titik data yang tidak pernah dilihat sebelumnya. Data yang belum terpakai sebelumnya disebut data uji.

Idealnya, pohon harus memiliki kinerja yang sama pada kedua data baik yang dikenal maupun yang tidak dikenal.

Jadi yang satu ini kurang dari ideal.

Kesalahan ini disebabkan oleh overfitting. Model kita telah belajar untuk memperlakukan setiap rincian dalam data pelatihan sama pentingnya, bahkan rincian yang ternyata menjadi tidak relevan.

Overfitting merupakan bagian dari konsep mendasar dalam pembelajaran mesin yang akan kami jelaskan pada posting berikutnya.

Rangkuman

Pembelajaran mesin mengidentifikasi pola menggunakan pembelajaran statistik dan komputer dengan menemukan batas-batas dalam himpunan data. Anda dapat menggunakannya untuk membuat prediksi.
Salah satu metode untuk membuat prediksi adalah pohon keputusan, yang menggunakan serangkaian pernyataan jika-maka untuk mengidentifikasi batas-batas dan menentukan pola dalam data.
Overfitting terjadi ketika beberapa batasan didasarkan pada sifat khusus yang tidak membuat perbedaan. Anda dapat melihat apakah model mengalami overfitting dengan menggunakan data uji untuk diproses melalui model.

Posting yang akan datang

Pada postingan berikutnya, kita akan mengeksplorasi overfitting, dan bagaimana kaitannya dengan asas timbal balik pada pembelajaran mesin.

Pertanyaan? Pikiran? Kami akan senang mendengar dari Anda. Kirim tweet Anda ke @r2d3us atau kirim email ke team@r2d3.us.

Akhirnya, terima kasih kepada Haries Ramdhani (LinkedIn, Twitter) karena telah menerjemahkan teks ini untuk kami!

Follow kami di Twitter...

Pengantar visual untuk pembelajaran mesin
Posted by @r2d3us on Twitter

...atau Facebook...

Pengantar visual untuk pembelajaran mesin
Posted by R2D3 on Facebook

...atau tetap berhubungan lewat email

Catatan kaki

Konsep pembelajaran mesin telah muncul di seluruh disiplin ilmu (ilmu komputer, statistik, teknik, psikologi, dll), oleh sebab itu penyebutannya pun terkadang bisa berbeda.
Untuk mempelajari lebih lanjut tentang cara menghitung pemisahan optimal, Anda dapat mencari 'indeks gini' atau 'entropi silang' (cross entropy)
Salah satu alasan komputer begitu baik dalam menerapkan teknik pembelajaran statistik adalah karena mereka mampu melakukan tugas yang berulang, sangat cepat dan tanpa merasa bosan.
Algoritma yang dijelaskan di sini adalah algoritma serakah (greedy algorithm), karena dibutuhkan pendekatan atas-bawah (top-down) untuk memisahkan data. Dengan kata lain, algoritma tersebut mencari variabel yang membuat setiap subhimpunan paling homogen pada saat itu.
Arahkan kursor pada titik-titik untuk melihat jalur yang dilalui di pohon.
Spoiler alert: Ini adalah timbal balik bias/varians!