Setiap harinya, ada informasi dalam jumlah yang sangat besar masuk ke dalam internet. Angka pastinya bahkan sangat sulit untuk dipahami! Jumlah data yang sangat besar tersebut haruslah dibuatkan struktur dan diorganisir agar dapat dipahami. Peran inilah yang dilakukan oleh apa itu data science. Data science menolong kita untuk dapat memahami semua informasi tersebut secara terstruktur. Itu berarti, ada kebutuhan yang sangat besar untuk mengisi lowongan data scientist di pasar lapangan kerja. Kesempatan karier untuk bekerja dalam bidang data science meningkat dengan sangat pesat. Jadi, jika anda sedang mempertimbangkan untuk bekerja sebagai seorang data scientist, maka anda harus tahu pertanyaan apa yang akan diajukan dalam wawancara kerja anda. Tutorial ini akan menolong anda untuk mendapatkan gambaran tersebut.
Tutorial ini akan dibagi menjadi dua bagian - bagian dasar dan bagian tingkat lanjut. Kita akan membahas pertanyaan-pertanyaan wawancara kerja untuk lowongan data scientist, lalu kita juga akan membedakan data scientist dan ahli analisis data dan seterusnya. Pada bagian akhir, saya akan memberikan beberapa tip dan kesimpulan untuk tutorial ini.
Daftar Isi
- 1. Lowongan Data Scientist: Pengantar
- 1.1. Pertanyaan 1: Apa itu Data Science?
- 1.2. Pertanyaan 2: Apa perbedaan antara Data Science dan Big Data?
- 1.3. Pertanyaan 3: Apa perbedaan antara Data Scientist dengan ahli Analisis Data?
- 1.4. Pertanyaan 4: Apa fitur fundamental yang merepresentasikan Big Data?
- 1.5. Pertanyaan 5: Apa itu Recommender System?
- 1.6. Pertanyaan 6: Sebutkan alasan kenapa Python lebih sering digunakan dalam Data Science ketimbang bahasa pemrograman lainnya.
- 1.7. Pertanyaan 7: Apa itu A/B testing?
- 1.8. Pertanyaan 8: Apa itu Hadoop dan kenapa itu penting?
- 1.9. Pertanyaan 9: Apa itu Selection Bias?
- 1.10. Pertanyaan 10: Apa itu Power Analysis?
- 2. Pertanyaan Wawancara Lowongan Data Scientist Tingkat Lanjut
- 2.1. Pertanyaan 1: Jelaskan apa itu Collaborative Filtering
- 2.2. Pertanyaan 2: Apa itu FSCK?
- 2.3. Pertanyaan 3: Apa itu Cross-validation?
- 2.4. Pertanyaan 4: Mana yang lebih bagus - Good Data atau Good Models?
- 2.5. Pertanyaan 5: Apa perbedaan antara proses learning Supervised dan Unsupervised?
- 2.6. Pertanyaan 6: Apa perbedaan antara Expected Value dan Mean Value?
- 2.7. Pertanyaan 7: Apa perbedaan antara Bivariate, Multivariate dan Univariate?
- 2.8. Pertanyaan 8: Apa yang terjadi jika ada dua user yang mengakses HDFS yang sama pada saat yang bersamaan?
- 2.9. Pertanyaan 9: Ada berapa banyak format input Hadoop? Apa saja?
- 2.10. Pertanyaan 10: Apa itu Cluster Sampling?
- 3. Tips Umum dan Kesimpulan
- 4. Kesimpulan
Lowongan Data Scientist: Pengantar
Mari mulai dari paling awal, yaitu pembahasan soal definisi.
Penawaran Terakhir yang Aktif Saat Ini:Unlock a year of unlimited data and AI learning at half the price! This is your final call to save big on expertise for 2025. Act fast and secure your 50% discount with DataCamp's End of Year Sale – the clock is ticking!
Bagian awal dari wawancara kerja untuk lowongan data scientist kebanyakan adalah soal membedakan topik yang kelihatannya serupa, namun sebenarnya berbeda. Itulah alasan kenapa kita harus mulai dari pembahasan soal definisi agar anda dapat memiliki pemahaman yang jelas soal topik-topik yang ada.
Pertanyaan 1: Apa itu Data Science?
Data science adalah sebuah bentuk metodologi yang digunakan untuk melakukan ekstraksi dan mengorganisir berbagai macam data dan informasi dari sumber data yang sangat masif (baik yang terstruktur maupun yang tidak terstruktur).
Cara kerja dari metodologi ini adalah menggunakan berbagai macam algoritma dan aplikasi matematika untuk menyedot informasi yang berguna lalu mengaturnya sedemikian rupa agar dapat mudah untuk dipahami dan digunakan.
Pertanyaan 2: Apa perbedaan antara Data Science dan Big Data?
Pertanyaan ini adalah salah satu pertanyaan jebakan dalam wawancara kerja, dan ada begitu banyak orang yang gagal untuk menjelaskan perbedaan keduanya. Kegagalan ini disebabkan karena memang ada informasi yang kurang jelas soal topik ini.
Hanya saja, jawabannya sebenarnya sangat sederhana. Istilah 'big data' mengimplikasikan adanya data dan informasi dalam volume yang besar, sehingga diperlukan sebuah metode spesifik untuk dapat menganalisisnya. Jadi, big data adalah obyek yang dianalisis oleh data scientist.
Pertanyaan 3: Apa perbedaan antara Data Scientist dengan ahli Analisis Data?
Biarpun pertanyaan ini juga merupakan salah satu pertanyaan dasar dari wawancara kerja untuk lowongan data scientist, istilah ini sendiri sering kali tercampur aduk.
Data scientists mengambil, memproses dan menganalisis data. Mereka bertanggung jawab untuk memberikan prediksi komersial, sepertinya misalnya dalam konteks bisnis agar perusahaan mereka dapat mengantisipasi masalah yang akan muncul.
Data analysts atau ahli analisis data, mencari solusi untuk masalah ketimbang membuat prediksi soal masalah yang akan muncul. Jadi mereka mengidentifikasi, lalu melakukan analisis soal statistik informasi dan membuat dokumen laporan.
Pertanyaan 4: Apa fitur fundamental yang merepresentasikan Big Data?
Setelah kita selesai membahas soal definisi, sekarang kita dapat membahas soal pertanyaan wawancara yang lebih spesifik. Jangan lupa, besar kemungkinan anda akan mendapat pertanyaan soal data scientist, analisis data dan juga seputar big data. Tentu alasannya adalah karena semua topik ini saling berhubungan satu sama lain.
Ada lima kategori yang menjadi representasi dari big data. Mereka disebut juga sebagai 5V:
- Value;
- Variety;
- Velocity;
- Veracity;
- Volume.
Semua istilah ini saling berkorespondensi dengan big data.
Pertanyaan 5: Apa itu Recommender System?
Adalah sebuah sistem yang digunakan untuk memprediksi seberapa besar rating yang diberikan oleh user terkait beberapa obyek spesifik (film, musik, barang, dsb.). Secara logika, ada begitu banyak formula rumit yang digunakan dalam sistem tersebut.
Pertanyaan 6: Sebutkan alasan kenapa Python lebih sering digunakan dalam Data Science ketimbang bahasa pemrograman lainnya.
Python memiliki banyak sintaks dalam library data science, dan juga bahasa pemrograman ini sangat cepat dan mudah untuk dipelajari. Python sangat cocok untuk deep learning atau library machine learning lainnya yang populer seperti misalnya scikit-learn, Keras, dan TensorFlow. Ketiga tools ini menolong para data scientist untuk membuat sebuah model data canggih yang dapat langsung digunakan dalam sistem produksi.
Untuk mendapatkan informasi dari data, anda harus menggunakan Pandas, yaitu sebuah library analisis data khusus Python. Library ini dapat menampung jumlah data yang besar tanpa mengalami lag seperti pada Excel. Anda juga dapat membuat model analisis angka dengan Numpy. Anda dapat membuat komputasi dan kalkulasi saintifik menggunakan SciPy. Anda dapat mengakses banyak algoritma machine learning yang canggih menggunakan scikit-learn. Anda juga dapat membuat visualisasi data dengan menggunakan Python API dan IPython Notebook yang ada dalam Anaconda.
Pertanyaan 7: Apa itu A/B testing?
Biarpun A/B testing dapat diaplikasikan dalam berbagai konteks yang berbeda, testing ini juga merupakan salah satu pertanyaan wawancara kerja untuk mengisi lowongan data scientist yang bisa muncul. Jadi, apa itu A/B testing?
A/B testing adalah sebuah bentuk tes yang dilakukan untuk mencari tahu versi apa yang harus digunakan agar tujuan yang diinginkan dapat tercapai.
Sebagai contoh, bayangkan anda ingin menjual buah apel. Anda tidak yakin jenis apel mana yang diinginkan oleh pembeli, entah itu apel merah atau hijau. Jadi, anda ingin mencoba untuk menjual keduanya. Pertama-tama, anda akan menjual apel merah, lalu apel hijau. Setelah selesai, anda tinggal mengkalkulasi buah apel mana yang lebih menguntungkan untuk dijual. Itulah A/B testing!
Pertanyaan 8: Apa itu Hadoop dan kenapa itu penting?
Hadoop adalah sebuah framework distributed processing open source yang mengatur dan menyimpan proses data untuk aplikasi big data yang dijalankan dalam sistem cluster.
Apache Hadoop adalah sebuah kompilasi software open source yang memfasilitasi jaringan komputer untuk mencari solusi masalah dari komputasi jumlah data yang besar. Software ini memiliki framework yang dilengkapi distributed storage dan kemampuan memproses big data menggunakan model programming MapReduce.
Hadoop membagi file menjadi block besar dan mendistribusikannya ke dalam nodes yang ada di dalam cluster. Hadoop juga mentransfer packaged code ke dalam nodes untuk memproses data secara paralel. Proses ini memungkinkan dataset untuk diproses dengan lebih cepat dan lebih efisien jika dibandingkan dengan kerangka supercomputer konvensional.
Pertanyaan 9: Apa itu Selection Bias?
Selection bias adalah bias yang muncul karena pilihan individu, grup atau data yang digunakan untuk analisis dilakukan dengan suatu cara tertentu sehingga proses pengacakan tidak tercapai. Akibatnya, sampel yang didapatkan tidak akurat atau tidak merepresentasikan populasi yang dituju untuk proses analisis data.
Jika selection bias terjadi, maka kesimpulan dari suatu proses analisis data akan menjadi tidak akurat.
Pertanyaan 10: Apa itu Power Analysis?
Adalah sebuah tipe analisis yang digunakan untuk menentukan efek apa yang akan terjadi pada sebuah unit berdasarkan ukurannya.
Power analysis sangat terkait secara langsung dengan tes hipotesa. Tujuan utama dari power analysis adalah untuk menolong para data scientist menentukan ukuran sampel terkecil yang paling cocok untuk mendeteksi efek dari sebuah tes sesuai dengan signifikansi hipotesa awal.
Pertanyaan Wawancara Lowongan Data Scientist Tingkat Lanjut
Setelah kita selesai membahas pertanyaan dasar dari wawancara kerja untuk mengisi lowongan data scientist, sekarang kita akan lanjut ke pertanyaan tingkat yang lebih tinggi.
Materi di bawah ini merupakan pertanyaan campuran mengenai data scientist, big data, dan analisis data. Pertanyaan-pertanyaan di bawah ini adalah tipe pertanyaan spesifik di mana anda mungkin akan diminta untuk menjabarkan masing-masing topik dengan lebih dalam.
Pertanyaan 1: Jelaskan apa itu Collaborative Filtering
Collaborative Filtering, sesuai dengan namanya, adalah sebuah proses filtering yang paling sering digunakan oleh recommender system. Tipe filtering ini digunakan untuk menemukan dan membuat kategori dari beberapa pola tertentu.
Collaborative filtering adalah sebuah metode untuk membuat prediksi otomatis (filtering) dari pola pencarian user dengan cara mengoleksi preferensi atau informasi kesukaan dari berbagai user (collaborating). Tipe filtering ini digunakan untuk mencari dan membuat kategori pola tertentu.
Pertanyaan 2: Apa itu FSCK?
‘fsck’ adalah singkatan dari "File System Check". Fsck adalah sebuah tipe command yang mencari possible error dalam sebuah file. Jika memang didapati ada error atau masalah, maka fsck akan mengirimkan laporan ini ke Hadoop Distributed File System.
Pertanyaan 3: Apa itu Cross-validation?
Adalah salah satu pertanyaan terkait analisis data. Cross-validation cukup sulit untuk dijelaskan, apalagi secara sederhana dan mudah dimengerti.
Cross-validation digunakan untuk menganalisis apakah sebuah obyek akan beroperasi sesuai dengan ekspektasi begitu obyek ini ditempatkan dalam live server. Dengan kata lain, cross-validation akan melakukan pengecekan apakah sebuah analisis data statistik akan menghasilkan efek yang sesuai jika dimasukkan ke dalam rangkaian data independen.
Pertanyaan 4: Mana yang lebih bagus - Good Data atau Good Models?
Pertanyaan ini termasuk dalam kategori pertanyaan big data. Pertanyaan ini sendiri juga dapat masuk ke dalam kategori pertanyaan seputar data scientist juga.
Jawaban dari pertanyaan ini sangatlah subyektif dan tergantung dari kasus yang ada. Perusahaan-perusahaan besar akan lebih memilih good data, karena good data adalah inti penting dari sebuah bisnis yang sukses. Di sisi lain, good models tidak dapat dibuat tanpa adanya good data.
Anda dapat menjawab pertanyaan ini sesuai dengan preferensi pribadi. Tidak ada jawaban yang benar atau salah (kecuali jika perusahaan yang memberikan anda wawancara memang secara spesifik menginginkan jawaban yang spesifik).
Pertanyaan 5: Apa perbedaan antara proses learning Supervised dan Unsupervised?
Biarpun pertanyaan ini bukanlah pertanyaan seputar data science yang umum dan lebih terkait dengan konteks machine learning, pertanyaan ini sendiri masih ada di bawah payung data science, jadi anda tetap harus mengetahuinya.
Dalam supervised learning, anda dapat memberikan sebuah fungsi dari porsi data spesifik yang ditujukan untuk melatih proses machine learning. Pada dasarnya, artificial intelligence akan belajar dari obyektif dan contoh konkrit yang anda sediakan.
Unsupervised learning adalah ketika metode pelatihan artificial intelligence tidak mengikutsertakan sebuah obyektif. AI akan belajar dari deskripsi input data.
Pertanyaan 6: Apa perbedaan antara Expected Value dan Mean Value?
Ketika kita bicara soal fungsionalitas, tidak ada perbedaan antara kedua value ini. Hanya saja, kedua value ini digunakan dalam situasi yang berbeda.
Expected values biasanya merefleksikan variabel acak, sementara mean values merefleksikan sampel populasi.
Pertanyaan 7: Apa perbedaan antara Bivariate, Multivariate dan Univariate?
Bivariate adalah proses analisis data dari dua variabel pada saat bersamaan. Multivariate adalah analisis data menggunakan variabel yang lebih banyak. Univariate adalah bentuk paling sederhana dari proses analisis data. Uni berarti satu, jadi dengan kata lain, data anda hanya memiliki satu variabel. Variabel tersebut tidak terkait dengan cause atau relationship (seperti misalnya regression) dan juga tujuannya adalah untuk mendeskripsikan data. Jadi, univariate mengambil data, lalu menyimpulkan data tersebut dan mengidentifikasi pola di dalam data.
Pertanyaan 8: Apa yang terjadi jika ada dua user yang mengakses HDFS yang sama pada saat yang bersamaan?
Pertanyaan ini juga adalah pertanyaan wawancara lowongan data scientist yang umum ditanyakan. Pertanyaan ini juga adalah pertanyaan jebakan. Jawabannya sendiri sama sekali tidak sulit, hanya saja ada kecenderungan untuk mencampur aduk jawabannya dengan program yang mirip dengan HDFS.
Jika ada dua user yang mencoba untuk mengakses sebuah file dalam HDFS, maka user pertama akan mendapatkan akses, namun user kedua (yang mungkin agak sedikit berselisih waktu) akan mendapat penolakan akses.
Pertanyaan 9: Ada berapa banyak format input Hadoop? Apa saja?
Salah satu pertanyaan untuk topik analisis data juga akan muncul dalam pertanyaan wawancara kerja untuk lowongan data scientist. Pertanyaan ini sulit karena anda harus tahu jumlah pastinya dan juga format-format yang ada itu sendiri.
Secara total, ada tiga format input Hadoop yang umum. Mereka adalah: format key-value, format sequence file dan format text.
- Mudah digunakan
- Menawarkan konten berkualitas
- Harga transparan
- Gratis sertifikat penyelesaian
- Fokus pada keahlian data science
- Waktu belajar yang fleksibel
- Desain yang sederhana (tidak ada informasi yang tidak perlu)
- Kursus-kursus berkualitas tinggi (bahkan untuk kategori yang gratis)
- Terdapat berbagai fitur khusus
- Program Nanodegree
- Cocok untuk perusahaan/firma
- Sertifikat kelulusan berbayar
- Cukup terkemuka di pasaran
- Tersedia beragam fitur
- Kursus setingkat universitas
- Kursus setingkat universitas
- Cocok untuk kalangan korporasi
- Sertifikat kelulusan berbayar
Pertanyaan 10: Apa itu Cluster Sampling?
Cluster Sampling adalah metode tipe sampling. Dengan menggunakan cluster sampling, seorang data scientist dapat membagi populasi data menjadi tiga kelompok terpisah, yang disebut juga dengan cluster. Sebuah sampel cluster akan dipilih secara acak dari populasi data. Lalu, data scientist tersebut akan melakukan analisis data berdasarkan cluster yang telah diambil.
Tips Umum dan Kesimpulan
Kita telah membahas pertanyaan-pertanyaan wawancara kerja lowongan data scientist, baik yang paling dasar maupun juga yang tingkat lanjut. Sekarang kita akan menyimpulkan secara singkat apa yang telah kita pelajari.
Hal paling penting yang harus anda ingat sejak awal wawancara dimulai adalah soal definisi. Jika anda dapat menjelaskan definisi dan menjabarkan dengan cara mudah dimengerti, maka saya jamin anda akan memberikan kesan yang bagus kepada para pewawancara anda.
After that, make sure to revise all of the advanced topics. You don’t necessarily need to go in-depth with each one of the thousands of data science interview questions out there. Revising the main topics and simply getting to know the concepts that you're still unfamiliar with should be your aim before the job interview. Setelah itu, pastikan anda juga menguasai topik-topik pertanyaan tingkat lanjut. Anda tidak perlu belajar terlalu dalam untuk satu pertanyaan dari ribuan pertanyaan yang ada soal wawancara lowongan data scientist. Cukup mengulang topik-topik dasar dan kuasailah konsep yang masih anda belum mengerti. Prinsip ini harus menjadi gol anda sebelum menjalani wawancara kerja.
Tujuan utama anda dalam wawancara adalah menunjukkan pengetahuan yang anda kuasai. Entah itu pertanyaan seputar analisis data atau data science - jika calon bos anda melihat bahwa anda memiliki pengetahuan soal topik tersebut, maka besar kemungkinan dia akan mempertimbangkan anda sebagai seorang calon karyawan potensial.
Ingat, pengetahuan hanyalah salah satu faktor. Hal lain yang akan dinilai oleh calon bos anda adalah kerendahan hati, respek, reputasi, sifat dapat dipercaya, dsb. Anda harus berusaha untuk menunjukkan kualitas-kualitas tersebut selama wawancara kerja berlangsung. Jangan takut untuk membicarakan soal diri anda sendiri, namun tetaplah rendah hati. Ada garis tipis antara memahami nilai diri anda dan kesombongan.
Apakah kamu tahu?
Pernahkah Anda bertanya-tanya situs belajar online mana yang terbaik untuk pengembangan karier Anda?
Kesimpulan
Dengan munculnya jumlah informasi yang besar setiap hari, maka semakin sulit juga untuk mengatur data dan membuat keputusan berdasarkan data yang telah dikumpulkan. Itulah kenapa diperlukan mesin-mesin yang canggih agar mereka dapat mengorganisir informasi yang ada dan menyajikannya secara tepat agar mudah dipahami. Hanya saja, mesin-mesin tersebut membutuhkan data scientist untuk dapat mengaturnya, agar mereka dapat bekerja memberikan hasil yang diinginkan.
Melalui tutorial ini, saya telah memberikan gambaran soal wawancara kerja lowongan data scientist yang mungkin akan ditanyakan kepada anda pada saat wawancara kerja berlangsung. Setidaknya, anda dapat memiliki gambaran kasar soal apa yang akan terjadi dan mungkin terjadi dalam proses wawancara tersebut. Jadi, sediakan waktu dan tenaga untuk mempersiapkan diri, maka anda merasa lebih baik dan semakin baik dalam bidang anda!
Saya harap anda dapat sukses untuk mendapatkan pekerjaan sebagai seorang data scientist (atau analisis data), dan semoga beruntung!