Jumat, 27 Februari 2015

Pemrosesan Bahasa Alami

Natural language processing (NLP) atau dalam bahasa Indonesia berarti Pemrosesan Bahasa Alami (PBA) merupakan cabang dari ilmu komputer dan linguistik yang membahas tentang interaksi antara bahasa manusia (bahasa alami) dan komputer. NLP juga sering disebut sebagai cabang dari kecerdasan buatan (Artificial Inteligence) dan memiliki kajian yang berhubungan dengan linguistik komputasional.
Bahasa dapat dibedakan menjadi 2 yaitu Bahasa Alami dan Bahasa Buatan. Bahasa Alami adalah bahasa yang digunakan manusia untuk berkomunikasi, misalnya Bahasa daerah, bahasa inggris, jepang dan sebagainya. Sedangkan Bahasa buatan merupakan bahasa yang sengaja dibuat secara khusus untuk kebutuhan tertentu, seperti bahasa-bahasa pemrograman komputer atau bahasa pemodelan.
Sedikit melihat sejarahnya, NLP dimulai pada tahun 1950-an. Bapak ilmu komputer “Alan Turing” menerbitkan sebuah artikel. Didalam artikel terkenalnya ini Alan Turing mengusulkan sebuah tes yang sekarang dikenal Turing Test. Sebuah tes yang akan mengukur kemampuan mesin (program komputer) untuk menunjukan kecerdasannya. Ilustrasinya seorang juri (manusia) akan melakukan percakapan dengan manusia dan mesin yang dites tersebut. Peserta akan dipisahkan satu sama lain. Mesin tersebut akan dinyatakan lulus tes jika juri tidak bia membedakan antara manusia dan mesin.
Tujuan dari bidang Bahasa  Alami ini adalah untuk melakukan proses pembuatan model komputasi dari bahasa manusia, sehingga antara manusia dan komputer dapat melakukan interaksi dengan perantaranya bahasa alami. Sebuah Sistem Bahasa Alami harus memperhatikan pengetahuan dari bahasa itu sendiri baik dari segi kata yang digunakan, apa arti dari sebuah kata, fungsi kata dari sebuah kalimat dan bagaimana dari kata-kata tersebut dapat membentuk sebuah kalimat.
Bahasa alami pada prinsipnya merupakan bentuk dari representasi suatu pesan yang ingin dikomunikasikan oleh antar manusia, bisa berupa suara atau ucapan tetapi juga bisa dalam bentuk tulisan. Intinya adalah dalam pemrosesan bahasa alami, penguraian dari parser atau yang lebih dikenal dengan kalimat. Parser itu sendiri berfungsi untuk membaca kalimat dengan kata demi kata serta menentukan jenis kata apa yang dapat mengikuti kata tersebut.
NLP memiliki beberapa kajian antara lain mencakup, segmentasi teks, segmentasi tuturan, penandaan kelas kata, dan pengawataksaan makna.
Ada 2 bagian utama dari pengolahan bahasa alami, yaitu : parser, sistem representasi pengetahuan dan pengolahan output. Penjelasaannya sebagai berikut :
1. Parser : merupakan suatu sistem yang mengambil kalimat input bahasa alami dan menguraikannya kedalam bagian gramatikal (kata kerja, kata benda, kata sifat dan sebagainya).
2. Sistem representasi pengetahuan dan pengolahan output : Sistem representasi pengetahuan merupakan sistem yang menganalisis output parser sehingga dapat menentukan maknanya.
Pengolahan Natural Language Processing
Natural Language Processing memiliki beberapa tingkatan pengolahan yaitu :
1. Fonetik dan Fonologi : berhubungan dengan hasil kata yang dikenali melalui suara yang diinputkan. Sangat penting untuk aplikasi yang memakai metoda speech bases system.
2. Morfologi : manfaatnya untuk membedakan antara kata yang satu dan kata yang lainnya.  Antara kata, tanda baca atau lainnya akan dipisahkan.
3. Sintaksis : pengetahuan tentang pemahaman urutan kata untuk membentuk kalimat dan proses perubahan hubungan antar kata yang membentuk kalimat menjadi bentuk yang terstruktur (sistematis).
4. Semantik : tidak bergantung pada struktur kalimat, bentuk struktur sintaksis akan dipetakan berdasarkan tiap kata ke dalam bentuk yang lebih mendasar. Pada tingkatan ini akan mempelajari arti suatu kata dan bagaimana arti dari setiap kata tersebut membentuk suatu arti dalam suatu kalimat yang utuh.
5.  Pragmatik : pada tingkat ini, konteksnya akan berbeda-beda tergantung dari sistem yang dibuat.
6. Discource Knowledge : pengetahuan tentang pengenalan apakah kalimat yang sudah diinputkan akan terbaca dan dikenali serta apakah arti dari sebelumnya akan mempengaruhi arti kalimat yang selanjutnya.
7. World Knowledge : pada tahap ini apakah dalam suatu kalimat tersebut ada arti khusus bagi suatu kata. World knowledge mencakup arti kata secara umum.
Tingkatan pengolahan bahasa alami ini definisinya tidak bersifat kaku. Bisa lebih spesifik dengan menambahkan tambahan proses sesuai dengan karakter dari bahasa yang digunakan dan sistem yang dibentuk atau pada beberapa masalah mungkin akan mengambil beberapa pendekatannya saja.
Makna ganda dari suatu kata atau suatu kalimat, atau biasa disebut Ambiguitas, juga merupakan kendala dalam NLP, misalnya bisa saja akan memiliki arti yang berbeda dengan nilai yang sama benar dari masukan yang sama, hal ini tergantung dari keperluan yang memakai.
Aplikasi Natural Language
Dalam bidang Natural Language pada umumnya  ada 2 jenis aplikasi yang bisa dibuat yaitu :
1. Text – based application : mencakup segala macam aplikasi yang melakukan proses dengan text tertulis misalnya berupa e-mail, berita di surat kabar, buku dan sebagainya. Sebagai contoh : mencari judul buku pada perpustakaan. Dengan menggunakan Text – based application pencarian akan lebih efisien dari sistem database.
Dialogue – based applications : berhubungan dengan pengenalan suara atau bisa juga dengan cara memasukkan text melalui keyboard. Contoh penerapaannya pada sistem tanya jawab, dimana bahasa alami digunakan dalam mendapatkan informasi dalam database. Selain itu penerapannya juga bisa pada kontrol suara peralatan elektronik.

Referensi :
http://id.wikipedia.org/wiki/Pemrosesan_bahasa_alami
https://ariefrahmansyah.wordpress.com/tag/pemrosesan-bahasa-alami/
http://yuliana.lecturer.pens.ac.id/Kecerdasan Buatan/Buku/Bab5 Natural Language Processing.pdf

Nama : Anisa D03112030 & Annisa D03112066

Kamis, 26 Februari 2015

Oleh : M. Dwi Etsa Putra (D03112013)
           M. Fauzan Fakhrullah (D03112006)

Natural Language Processing

Natural Language Processing (NLP) merupakan cabang ilmu AI yang berfokus pada pengolahan bahasa alami. Bahasa alami adalah bahasa yang secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain.  Bahasa yang diterima oleh komputer harus diproses dan dipahami terlebih dahulu agar maksud dari pengguna bisa dipahami dengan baik oleh komputer.
Beberapa terapan aplikasi dari NLP, Diantaranya Chatbot (membuat pengguna seolah-olah melakukan komunikasi interaktif dengan computer), Stemming/Lemmatization (pemotongan kata menjadi bentuk dasar pengenalan fungsi setiap kata dalam kalimat), Summarization (ringkasan dari bacaan), Translation Tools (menterjemahkan bahasa).
Klasifikasi Natural Language Processing
Pustejovsky dan Stubbs (2012) menjelaskan beberapa area utama penelitian pada NLP, diantaranya:
•    Question Answering Systems (QAS). Kemampuan komputer untuk menjawab pertanyaan yang diberikan oleh pengguna.
•    Summarization. Pembuatan ringkasan dari sekumpulan konten dokumen atau email. Dengan menggunakan aplikasi ini, pengguna dibantu untuk mengkonversikan dokumen teks yang besar ke dalam bentuk slide presentasi.
•    Translation Machine. Aplikasi yang dapat memahami bahasa manusia dan menterjemahkannya ke dalam bahasa lain.
•    Speech Recognition. Kemampuan telpon/komputer dalam mengenali bahasa yang diucapkan. Bahasa yang sering digunakan biasanya berupa pertanyaan dan perintah.
•    Document classification. Menentukan dimana lokasi terbaik dokumen yang baru diinput ke dalam penyimpanan. Hal ini sangat berguna pada aplikasi news article classification, spam filtering, dan movie review.
Terminologi Natural Language Processing
Poole dan Mackworth (2010) menjelaskan bahwa ada 3 aspek utama pada teori pemahaman mengenai Bahasa alami:
•    Syntax: menjelaskan bentuk dari bahasa. Syntax sering dispesifikasikan sebagai sebuah pola kalimat (grammer). Bahasa alami jauh lebih daripada Bahasa formal yang digunakan untuk logika kecerdasan buatan dan program komputer
•    Semantics: menjelaskan arti dari sebuah kalimat dalam satu Bahasa. Teori semantics secara umum sudah ada, pada saat membangun sistem natural language understanding untuk  sebuah aplikasi, akan digunakan representasi yang paling sederhana.
•    Pragmatics: menjelaskan bagaimana pernyataan yang ada berhubungan dengan dunia. Untuk memahami bahasa, pengembang harus mempertimbangan lebih dari hanya sekedar kalimat. Pengembang aplikasi harus melihat lebih ke dalam konteks kalimat, keadaan dunia, tujuan dari penutur dan pendengar, konvensi khusus, dan sejenisnya.



Contoh Aplikasi NLP
Pada tahun 2013 Suhartono, Christiandy, dan Rolando melakukan penelitian dengan merancang sebuah algoritma lemmatization untuk Bahasa Indonesia. Algoritma itu dibuat untuk menambahkan fungsionalitas pada algoritma Stemming yang sudah pernah dikerjakan sebelumnya yaitu Enhanced Confix-Stripping Stemmer (ECS) (2009). ECS merupakan pengembangan dari algoritma Confix-Stripping Stemmer (2007). Pengembangan yang dikerjakan terdiri dari penambahan beberapa rule dan modifikasi dari rule yang ada. Langkah untuk melakukan suffix backtracking juga ditambahkan. Hal ini untuk menambah akurasi algoritma.

Secara mendasar, algoritma lemmatization ini tidak bertujuan untuk mengembangkan dari metode ECS, karena tujuannya berbeda. Algoritma lemmatization bertujuan untuk mengoptimalkan ECS, supaya lebih tepat dengan konsep lemmatization. Namun, masih ada beberapa kemiripan pada proses yang ada pada ECS. Pada beberapa kasus dimana ECS belum berhasil untuk digunakan, namun  bisa diselesaikan dengan algoritma lemmatization ini.

 
Gambar Indonesian Lemmatizer


Pengujian validitas pada algoritma ini dengan menggunakan beberapa artikel yang ada di situs Kompas, dan diperoleh hasil sebagai berikut:

Kategori    FULL    UNIK
    Total data    Data Valid    Berhasil di Stemming    Error    Ketepatan    Total data    Data Valid    Berhasil di Stemming    Error    Ketepatan
Business    6344    5627    5550    77    0,98632    1868    1580    1559    21    0,98671
Regional    6470    4802    5846    81    0,98313    1213    1011    995    16    0,98417
Education    4165    5927    3598    32    0,99460    868    637    623    14    0,97802
Science    6246    5504    5398    73    0,98674    874    643    630    13    0,97978
Sports    6231    3242    5522    42    0,98705    838    608    604    4    0,99342
International    10953    3630    9917    75    0,97934    2037    1593    1575    18    0,98870
Megapolitan    3998    5471    3214    28    0,99488    610    302    297    5    0,98344
National    5499    5564    4764    38    0,99317    559    326    324    2    0,99387
Oasis    6087    9992    5462    42    0,99580    820    528    524    4    0,99242
Travel    8379    7502    7457    45    0,99400    892    611    607    4    0,99345
All    64372    57261    56728    533    0,99069    10579    7839    7738    101    0,98712

Dari hasil pengujian diperoleh bahwa akurasi  Algoritma Lemmatization Untuk Bahasa Indonesia mencapai  98,71%.

Sumber :

Ingason, Helgadóttir, Loftsson,  Rögnvaldsson. (2008). A Mixed Method Lemmatization Algorithm Using a Hierarchy of Linguistic Identities (HOLI). Aarne Ranta (Eds,). Advances in Natural Language Processing.
Jurafsky D. dan Martin, J.H. (2008). Speech and Language Processing : An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2ndEdition. New Jersey : Pearson, Prentice Hall.
Kowalski, M. (2011). Information Retrieval Architecture and Algorithms. New York : Springer.
Nirenburg, S. (2009). Language Engineering for Lesser-Studied Languages. Amsterdam : IOS Press.
Pustejovsky, J., Stubbs A. (2012). Natural Language Annotation for Machine Learning. Beijing : O’Reilly.
Russel, S. J., Norvig, P. (2010). Artificial Intelligence A Modern Approach. New Jersey : Pearson Education Inc.
Suhartono, D., Christiandy D., Rolando (2013). Lemmatization Technique in Bahasa: Indonesian Language. Kuwait: Journal of Software (unpublished)
Massachusetts Institute of Technology (2010). Advanced Natural Language Processing. http: //people.csail.mit.edu/regina/6864/. Cambridge
Suhartono Derwin, S.Kom., MTI. (2013). Natural Language Processing.
http://socs.binus.ac.id/2013/06/22/natural-language-processing/


Rabu, 25 Februari 2015

Pemrosesan Bahasa Alami

Pemrosesan Bahasa Alami
Bahasa Pemrosesan Alami atau Natural Language processing adalah salah satu bidang ilmu komputer maupun  kecerdasan buatan yang berhungan dengan interaksi komputer dengan bahasa alami manusia, misalnya seperti bahasa inggris, indonesia, china dan sebagainya. Adapun interaksi tersebut dapat berupa suara maupun tulisan.
Adapun tujuan utama dibuatnya BPA adalah untuk membuat mesin-mesin yang mengerti bahasa atau perintah manusia sehingga nantinya diharapkan dapt memberikan respon yang sesuai dengan kebutuhan manusia. BPA sendiri mulai muncul pada tahun 1950-an, meskipun pada tahun-tahun sebelumnya sudah ada penelitan yang mirip.
Alan Touring atau sering dikenal sebagai bapak Ilmu Komputer, melalui artikelnya yang berjudul “ Computing Machinery and Intelligence”, mengusulkan adanya  “Touring Test”.Yaitu sebuah tes yang bertujuan untuk mengukur kemampuan komputer dalam berperilaku cerdas atau sesuai dengan pemikiran manusia. Konsepnya, Seorang penilai (Juri) yang merupakan manusia akan melakukan penilaian terhadap percakapan antara manusia dan komputer yang dipisahkan satu sama lain. Jika Juri kesulitan untuk membedakan antara manusi dan komputer maka dapat dikatakan bahwa komputer tersebut telah lulus tes.
Bahasa Pemrosesan Alami sendiri muncul setelah munculnya pemikiran dari seorang tokoh bernama Chomsky. Ia mempresentasikan bahasa sebagai rangkaian simbol, kemudian ia berhasil membuktikan bahwa bahasa apapun dapat di represntasikan dengan sebuah cara yang universal. Menurutnya, dengan menggunakan simbol-simbol dan aturan untuk mengatur susunan simbol-simbol ini akan membuka peluang untk melakukanproses bahasa secara simbolik dengan teknologi komputer.
Sistem pemrosesan bahasa alami secara lisan terbagi menjadi tiga, yaitu:

  1. Sub-system Natural Language Prosessing (NLP), dimana fungsinya adalah untuk melakukan pemrosesan secara simbolik terhadap bahasa tulisan. Contoh bentuk aplikasinya adalah sistem translator dan sistem pemeriksaan sintaks bahasa.
  2. Sub-System Text to Speech (TTS), berguna untuk mengubah textmenjadi suara/ucapan.
  3. Sub-System Speech Recognation (SR), fungsinya adalah untuk mengubah atau mengenali suara/ ucapan menjadi text.
Pada Pemrosesan Bahasa Alami (PBA), teknik-teknik yang digunakan bersifat sangat ‘Language Independent’, maksudnya adalah teknik yang berlaku pada sistem tersebut tidak mudah untuk diterapkan di sistem lain,dimana umumnya bersifat generik. 

    • System Speech Recognation

Pada System Speech Recognation ( Sistem Pengenalan Ucapan), inputnya berupa ucapan manusia, setelah diproses dan diidentifikasi oleh sistem maka akan mendapatkan outpunt berupa text yang sesuai dengan kata yang diucapkan.
Penganalis inputan akan mentransformasikan sinyal ucapan dari domain waktu ke domain frekuensi. Setiap sinyal akan mempunyai ciri yang unik. Setiap fonem (pengucapan suatu unit bunyi ucapan) kebanyakan akan berbeda antara orang yang satu dengan yang lainnya, tergantung pada fonem-fonem disekitarnya, situasi emosi, noise (kebisingan), dan faktor-faktor lainnya. Sistem akan mengidentifikasi ucapan/suara kemudian fonem itu akan dicari  kombinasinya, sehingga hasil ucapannya dapat diterima/ sesuai dengan apa yang diucapkan oleh manusia tersebut.
Pada umumnya Speech Recognation dioperasikan dengan dua mode, yakni mode belajar dan mode produksi. Mode belajar akan melatih sistem menggunaan beberapa kata ata kalimat dengan kriteria tertentu. Setiap kata atau kalimat akan menghasilkan pola-pola tertentu  untuk dipelajari oleh sistem dan disimpan sebagai sebuah referensi. Sedangkan mode produksi (pengenalan ucapan), masing-masing kalimat yang akan diidentifikasi akan di analisis polanya, setelah itu, hasil perbandingan referensi, modul klasifikasi pola, dan pengambilan keputusannya akan mengidentifikasi kata atau kalimat  yang diucapkan.
Kemampuan sistem untuk mengenali ucapan sangat bergantung pada referensi yang dihasilkannya melalui proses belajar dalamsistem tersebut. Namun, kemampuan ini dapat dilatih menggunakan korpus (rekaman suara yang heterogen dalam volume yang sangat besar serta memenuhi kriteria teknis).

    • System Text to Speech

Sistem ini mempunyai proses yang berkebalikan dengan Sistem Pengenalan Ucapan, namun pendekatannya sangatlah berbeda. Pada Umumnya sistem ini terdiri dari dua bagian sebagai berikut:

  1. Bagian Konverter Text ke Fonem, yang berfungsi untuk mengubah inputan text menjadi kode-kode suara yang direpresentasikan  dengan kode-kode fonem, durasi, serta pitch-nya
  2. Bagian Konverter Fonem ke Ucapan, berfungsi untuk menerima masukan kode-kode dari proses sebelumnya kemudian mengubahnya menjadi bunyi atau ucapan sesuai dengan inputan textnya.

    •  System Natural Language Prosessing
Bahasa Pemrograman Alami tumbuh secara alami guna memenuhi kebutuhan manusia, sehingga akan sulit diproses dibandingkan dengan bahasa buatan  karena bahasa alami tidak dirancang dengan memperhatikan kendala-kendala untuk kemudahan proses. Hingga kini, masalah-masalah mendasar mengenai bahasa pemrosesan aami masih belum terselesaikan.
Berikut adalah beberapa alasan yang menyulitkan pemrosesan bahasa alami:

  1. Sering terjadi ambigu (makna ganda)
  2.  Kosa kata dalam bahasa alami sangat banyak karena selalu berkembang seiring dengan berjalannya waktu
Ada banyak contoh aplikasi yang dikembangkan mengunakan teknologi bahasa, iantaranya:

  1. Alat bantu membaca untuk tunanetra, inputannya berupa text tercetak dan outputnya berupa ucapan dari text yang diinputkan
  2.  Alat bantu bicara untuk tunawicara, inputannya berupa posisi tangan yang diditeksi oleh sensor dan unit identifikasi, kemudian rangkaian huruf yang teridentifikasi akan disusun membentuk kata-kata kemudian akan dihasilkan suara.
Oleh :
  1. Rini Apriyani  (D03112033)
  2. Suti Kurnia Dewi (D03112063)


Referensi : Orasi Ilmiah Dr. Arry Akhmad Arman (Departemen Teknik Elektro, Fakultas Teknologi  Industri – ITB), pada acara Sidang Terbuka Institut Teknologi Bandung dengan acara Peresmian Penerimaan Mahasiswa Baru ITB 2004, 23 Agustus 2004

Pemrosesan Bahasa Alami oleh : Amiriyanti & Duwi Juliyatin


Pemrosesan Bahasa Alami
oleh : Amiriyanti & Duwi Juliyatin

Pemrosesan Bahasa Alami merupakan salah satu bidang ilmu komputer, kecerdasan buatan dan bahasa yang berkaitan dengan interaksi antara komputer dan bahasa alami manusia yang secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain. Tujuan utama dari belajar pemrosesan bahasa alami adalah membuat mesin yang mampu berinteraksi dengan bahasa alami manusia baik berupa suara/ucapan (spoken language) atau berupa tulisan seperti bahasa Inggris atau bahasa Indonesia yang dapat berguna untuk keperluan ilmiah seperti meneliti sifat-sifat dari suatu bentuk bahasa alami maupun untuk keperluan sehari-sehari, dalam hal ini memudahkan interaksi antara manusia dengan komputer. Adapun bidang-bidang pengetahuan yang berhubungan dengan pengolahan bahasa alami adalah sebagai berikut :
  1. Fonetik dan fonologi
    Fonetik dan fonologi merupakan apa-apa yang berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. Bidang ini sangat penting dalam aplikasi yang menggunakan metode speech-based system.
  2. Morfologi
    Morfologi merupakan cabang pengetahuan tentang bentuk dan kata yang dimanfaatkan untuk membedakan satu kata dengan kata lainnya yang dapat dipisahkan antara kata dan elemen lain seperti tanda baca.
  3. Sintaksis
    Sintaksis merupakan pemahaman tentang urutan kata dan pembentukan kalimat dan hubungan antar kata tersebut dalam proses perubahan bentuk dari kalimat menjadi sesuatu yang tersusun secara sistematis.
  4. Semantik
    Semantik merupakan pemetaan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung dengan struktur kalimat tersebut.
  5. Pragmatik
    Pragmatik merupakan apa-apa yang berkaitan dengan tingkatan pengetahuan masing-masing konteks yang berbeda tergantung pada situasi dan tujuan pembuatan sistem.
  6. Discourse knowledge
    Discourse knowledge merupakan pengenalan apakah suatu kalimat yang sudah dibaca dan dikenali sebelumnya dalam mempengaruhi arti dari kalimat selanjutnya. Pada informasi ini penting diketahui dalam melakukan pengolahan arti terhadap kata ganti orang dan untuk mengartikan aspek sementara dari informasi yang akan dikelola.
  7. World knowledge
    World knowledge merupakan hal yang berkaitan dengan arti dari sebuah kata secara umum dan apakah ada arti khusus bagi suatu kata dalam suatu percakapan dengan konteks tertentu.
    Adapun jenis-jenis aplikasi yang terdapat pada pemrosesan bahasa alami antara lain adalah sebagai berikut :
  1. Text-based application
    Text-based application merupakan apa-apa yang mencakup segala macam aplikasi yang melakukan terhadap teks tertulis seperti berita di surat kabar, buku, e-mail dan lain sebagainya. Contoh penerapan yang digunakan dalam aplikasi ini antara lain adalah mencari topik tertentu dari buku yang ada di sebuah perpustakaan, mencari nama pengirim dari surat atau e-mail, dan menerjemahkan dokumen dari satu bahasa ke bahasa yang lainnya. Akan tetapi, tidak semua sistem dapat melakukan hal yang demikian, contohnya pada pencarian topik dari suatu buku di perpustakaan dapat dilakukan dengan pendekatan sistem database yang lengkap. Salah satu bentuk yang menarik adalah jika sistem diminta mencari isi dari suatu buku atau blog, dengan melakukan pendekatan yang dilakukan oleh manusia jika menghadapi suatu tes reading and comprehension.
  2. Dialogue-based application
    Dialogue-based application merupakan pendekatan yang melibatkan bahasa lisan atau pengenalan suara. Akan tetapi, pada bidang ini pendekatan juga dilakukan dengan memasukkan interaksi dengan cara memasukkan teks pertanyaan melalui keyboard. Aplikasi yang sering digunakan dalam bidang ini antara lain seperti sistem tanya jawab dimana natural language digunakan dalam mendapatkan informasi dari sebuah database, sistem pelayanan melalui telepon, kontrol suara yang terdapat pada alat elektronik, sistem problem-solving yang membantu untuk melakukan penyelesaian masalah yang umum dihadapi dalam suatu pekerjaan. Untuk sistem yang dapat melakukan interaksi melalui bahasa lisan ada pada bagian speech recognition yang merupakan bagian terpisah dari natural language.
    Adapun istilah-istilah yang terdapat dalam pemrosesan bahasa alami adalah sebagai berikut :
  1. Parsing
    Parsing merupakan proses untuk mengurai kalimat menjadi bentuk kata-kata dan frasa-frasa. Menurut Klas Buren terdapat dua model parsing yaitu :
  • Keyword based parsing yaitu model parsing yang sederhana dan efektif dalam mengterjemahkan teks input. Keyword based parsing tidak dapat melibatkan pengetahuan sintaks. Dalam praktek keyword based parsing bisa berjalan baik dengan sederhana (dalam pengertian sintaksisnya memiliki sedikit arti) dan input umum (dalam domain tetentu) tetapi memiliki masalah pada input yang lebih rumit dan tidak umum.
  • Grammar based parsing yaitu cara parsing yang lebih kompleks dimana dalam parsing ini melibatkan pengetahuan dalam sintaksis. Secara teori memiliki keakuratan lebih tinggi dalam memahami dan mengerti arti dari input yang diberikan, akan tetapi pada grammar based parsing memiliki kendala dalam performa atau kinerjanya karena diperlukan komputasi atau perhituangan serta kata-kata dan struktur kalimat yang diberikan harus dimengerti. Dalam penerapan aplikasinya, grammar based parsing memiliki potensi yang sangat tinggi dalam memahami input dengan baik tetapi sangat sulit dalam membuat desain.
  1. Stemming
    Pengertian Stemming :
  • Menurut Lily stemming merupakan proses untuk mencari akar (root) dari kata dengan menghilangkan imbuhan yang melekat dalam sebuah kata. Dengan kata lain stemming adalah proses untuk mencari kata dasar dari input kata yang diberikan dengan menghilangkan imbuhan yang melekat pada kata input.
  • Jelita Asian menyatakan bahwa stemming dapat digunakan untuk menghilangkan awalan atau akhiran, sisipan dari kata yang akan diaplikasikan pada pencarian teks, mesin translasi (mesin penerjemah), peringkasan dokumen dan pengklasifikasian teks. Contoh stemming antara lain “membaca” dikonstruksi dari awalan “me”+”baca”, awalam “me” dihilangkan sehingga hasil stemming yang diharapkan adalah kata dasar “baca”.
Proses stemming melibatkan daftar kata yang di sebut “stop word” yang berisi kata-kata yang tidak perlu lagi dilakukan stemming karena sudah merupakan kata dasar atau kata yang tidak mungkin dilakukan stemming, serta dilibatkan kamus kata dasar yang digunakan untuk menguji apakah kata yang dilakukan proses stemming merupakan kata dasar.

Referensi :

Artikel Pemrosesan bahasa alami

Nama: -Hafidz Ardhi             (D03112060)   
           -M. Iqbal Kamiluddin (D03112004)

ARTIKEL PEMROSESAN BAHASA ALAMI

Pemrosesan Bahasa Alami atau disebut juga Natural Languange Procesing (NLP) adalah cabang ilmu komputer yang membahasa tentang hubungan manusia dengan komputer yang mana komputer dapat mengartikan bahasa manusia baik berupa lisan ataupun tulisan. Pemrosesan bahasa alami ini merupakan percabangan dari kecerdasan buatan. NLP ini berguna untuk pengetahuan ilmiah, jadi bisa dapat mengetahui bahasa-bahasa dari daerah lain ataupun negara lain. Pemroresan  bahasa alami sangat bergantung terhadap parser. Parser ini berguna untuk membaca dan menguraikan kata demi kata ke dalam beberapa bagian gramatikal. Adapun masalah yang sering terjadi dalam pemrosesan bahasa alami ini adalah sebagai berikut :
a) Informasi yang diberikan tidak lengkap. Sehingga informasi yang di berikan tidak terlalu jelas dan lengkap.
b) Suatu kalimat dapat memiliki makna ganda atau berbeda dalam penerjemahan
c) Belum ada pemograman bahasa alami yang komplit dikarenakan bahasa selalu berkembang kosa kata nya.
d) Suatu maksud atau pengertian bisa diungkapkan dalam berbagai kalimat..

Secara garis besar permasalahan pemrosesan bahasa alami ini dibagi dengan dua:
a) Pemrosesan  naskah tertulis
Pemrosesan yang menggunakan informasi tentang leksikal,sintaks dan semantik
b) Pemrosesan bahasa lisan
Pemrosesan ini menggunakan semua informasi dari pemrosesan naskah tertulis ditambah dengan informasi dari phonolgy
Menurut Rich NLP dapat dibagi ke dalam beberapa proses:
a) Morpholgi analysis
Pada proses ini tiap kata dianalisi ke dalam komponen nya dan yang bukan termasuk ke dalam kata seperti tanda baca dipisahkan
b) Syntatic analysis
Proses ini deretan kata dimasukkan ke dalam struktur kata yang akan memperlihatkan hubungan satu kata dengan kata lainnya. Deretan kata akan ditolak jika deretan kata tersebut tidak memenuhi aturan yang ada.
c) Semantic analysis
Proses ini membuat deretan kata yang sudah terbentuk akan memiliki arti. Dengana kata lain mapping akan dibuat antara struktur sintaks dengan objek.
d) Discourse integration
Pada proses ini arti pada suatu kalimat disesuaikan dengan kalimat yang lain karena arti pada suatu kalimat akan berhubungan dengan kalimat sesudah nya atau sebelum nya
e) Pragmatic analysis
Struktur yang sudah terbentuk dinterprentasikan ulang dari apa yang sudah dituliskan atau dikatan untuk menentukan arti yang sebenar nya.
Grammar dan Parser
grammar merupakan aturan yang berlaku dalam menentukan cara bagaimana suatu kalimat yang terdapat di suatu bahasa akan di bentuk. grammar terdiri dari kumpulan sintax yang benar atau baku dari bahasa. contoh: di dalam bahasa indonesia terdapat subject-predikat-object-keterangan yang terdapat dalam suatu kalimat.
pasrsers merupakan suatu program atau metode yang menghasilkan atau memproduksi bahsau/kalimat yang disesuaikan dengan grammer.parser dapat memeriksa kalimat atau bahasa yang di olah sesuai dengan grammer atau tidak.
Kategori Aplikasi Natural Language Processing (NLP)
Teknologi Pemrosesan Bahasa Alami atau yang biasa di sebut Natural Language Processing (NLP) adalah suatu teknologi yang dapat  memungkinkan untuk melakukan adanya  berbagai macam pemrosesan terhadap bahasa alami atau bahasa yang biasa di gunakan oleh manusia. Sistem NLP(Natural Language Processing) ini dapat mempunyai suatu masukan maupun keluaran yang dapat  berupa teks (bahasa tulisan). Natural Language Processing(NLP)mempunyai beberapa aplikasi yang sangat luas, diantaranya terdapat beberapa kategori apikasi NLP yang di kategorikan sebagai beriut:
1. Natural Language Translator/bahasa alami translator, yaitu translator atau penterjemah  dari satu bahasa alami ke dalam bahasa alami lainnya, seperti  translator bahasa Indonesia ke dalam bahasa Iinggris, Bahasa Indonesia ke Bahasa Jawa dan bahasa lainnya. Translator bahasa alami tidak  hanya sebagai  kamus yang dapat  menterjemahkan pada kata per kata atau kalimat perkalimat, tetapi dapat juga mentranslasikan sintaks yang berasal dari bahasa asal ke dalam bahasa tujuan.
2. Penterjemah bahasa alami ke dalam bahasa buatan, merupakan penterjemah/translator yang di gunakan untuk mengubah perintah-perintah dalam bahasa alami yang di eksekusi menjadi bahasa buatan yang dapat di proses/dieksekusi oleh komputer atu mensin sebagai penterjemah. Sebagai contoh, translator yang dapat memberikan kita suatu  perintah dalam bahasa alami kepada komputer. Dengan adaanya sistem ini, pengguna sistem dapat melakukan suatu  perintah dengan bahasa alamai (bahasa sehari-hari), seperti, jika kita ingin melakukan perintah menghapus sebuah file, pengguna sistem  cukup memberikan perintah pada komputer” tolong hapus  file !” Translator pada komputer  akan mentranslasikan perintah bahasa alami yang di berikan  tersebut menjadi perintah bahasa formal dapat dipahami dan di mengerti oleh mesin atau komputer seperti perintah ”dir *.* ”.

3. Text Summarization, yang merupakan  suatu sistem yang dapat digunakan sebagai pembuat  ringkasan tentang hal-hal yang penting dari sebuah wacana yang diberikan.
Aplikasi pemrosesan bahasa alami:
Machine Translation/ mesin penterjemah
merupakan suatu program yang mampu mentranlasikan atau menterjemahkan teks kalimat maupun bahasa yang berbeda, seperti google translate
Chatbot
merupakan aplikasi/program komputer  yang di rancang untuk dapat mensimulasikan percakapan dari pengguna dengan melalui inputan yang berupa teks maupun suara. contoh simsimi.
Intelligent personal assistant
merupakan aplikasi perangkat lunak yang dapat menjalankan tugas-tugas yang berdasakn inputan dari lokasi tempat, pengguna dan juga dapat mengakses informasi online dari bebreapa sumber seperti cuaca, berita , lokasi. contoh perangkat ini adalah Siri ari apple dan s-voice dari samsung.

http://omar_pahlevi.staff.gunadarma.ac.id/Downloads/files/31496/pertemuan+10.ppt
http://irdaloves.blogspot.com/2009/03/natural-language-processing-nlp.html


 


Selasa, 24 Februari 2015

Pemrosesan Bahasa Alami

Oleh : Wasis wibowo (D03112017)

- Pengertian Bahasa Alami

Pengertian bahasa alami yang kita ketahui  adalah bahasa yang dipelajari oleh manusia yang berasal dari Iingkungan dimana digunakan untuk berkomunikasi atau berinteraksi dengan manusia lainnya atau antar sesama manusia. Bahasa alami apabila dihubungkan dengan intelegensia semu merupakan suatu bahasa yang dibuat manusia untuk berinteraksi atau  berkomunikasi antara  komputer dengan dan manusia dimana bahasa yang digunakan adalah bahasa manusia.
Belajar  bahasa sudah pada umumnya dilakukan oleh manusia saat masih dini. Dimana manusia belajar mengenal  suara dan frase yang berhubungan dengan suatu peristiwa atau kejadian dan  obyek yang ditemukan oleh manusia. Proses komunikasi dan pengembangan suatu  bahasa  tidak dapat dijelaskan dengan baik, karena proses komunikasi dan pengembangan terbentuk secara alami dan sendirinya, juga bahasa yang digunakan berinteraksi atau berkomunikasi berkembang dengan seiringnya waktu. Dengan alasan tersebut maka untuk membuat sebuah  komputer , dimana komputer tersebut  mengerti bahasa alami itu sangat sulit untuk dilakukan. Bahasa alami  berbeda dengan bahasa  pemrograman pada komputer yang biasa kita lakukan.  Bahasa komputer adalah bahasa buatan manusia  dalam bentuk format tertentu, dan setiap kata  mempunyai satu arti atau maksud tertentu.

- Natural Language Processing (NLP)

Natural Language Processing merupakan operasi komputer menggunakan bahasa alami manusia misalnya bahasa inggris yang sering digunakan untuk menerima suatu respons maupun memberikan suatu instruksi.  Natural Language Processing  juga bisa diartikan suatu formulasi dan penelitian terhadap suatu mekanisme perhitungan yang efektif pada suatu  komputer agar bisa berinteraksi atau  berkomunikasi dengan menggunakan bahasa alami. Mekanisme ini melibatkan natural language generation (NLG) dan understanding. Sebuah arsitektur yang memuat tentang salah satu natural language generator maupun Natural Language Understanding (NLU) dapat dikatakan memuat tentang  Natural Language Processing. Apabila user dapat berinteraksi dengan komputer dengan  bahasa alami maka terbukti  arsitektur tersebut mempunyai Natural Language Processing didalamnya. Secara teori kebanyakan arsitektur dapat diterapkan ke dalam suatu  program dengan suatu  cara tertentu agar dapat mendukung Natural Language Processing. Misalnya dengan cara  mengimplementasikan arsitektur yang sudah ada untuk menunjukan apakah arsitektur tersebut  mendukung Natural Language Processing atau tidak. Penggunaan bahasa alami di dunia komputer biasanya digunakan pada sebuah laporan  misalnya prakiraan cuaca, laboratorium medis dan lain-lain.

Tahap- Tahap dalam  Natural Language Processing menurut  para ahli :
Menurut Rich dan Knight (1991, pp379-380) tahapan Natural Language Processing terdiri dari beberapa level analisis . Level analisis tersebut adalah:

a. Morphological Analysis
Kata-kata secara individu dilakukan analisis berdasarkan komponennya, dan token yang tidak termasuk, seperti tanda baca dipisahkan dari kata-kata yang ada. Analisis ini memperhatikan arti dari setiap komponen yang ada  membentuk suatu kata. Analisis morfologi sangat penting untuk menentukan aturan kata yang ada dalam pada kalimat, termasuk tata bahasa.

b. Syntax Analysis
Urutan-mutan linear dari kata-kata diubah menjadi struktur yang menunjukkan bagaimana satu kata berhubungan dengan kata yang lain.Dimana analisis ini mempelajari aturan untuk menggabungkan kata menjadi frase dan kalimat, serta menggunakan aturan tersebut untuk menguraikan (parse) dan membentuk kalimat. Level analisis ini yang lebih banyak berhasil.

c. Semantic Analysis
Struktur yang diciptakan dari hasil  analisis sintaksis akan diperiksa arti yang sebenarnya. Kalau struktur tersebut tidak memenuhi persyaratan kaidah bahasa, maka kalimat tersebut dapat dianggap anomali semantik
.
d. Discourse Integration
Mungkin saja arti dari suatu kalimat bergantung dari kalimat sebelumnya dan mungkin dapat mempengaruhi kalimat-kalimat selanjutnya.

e. Pragmatics Analysis
Meinterpretasikan lagi apa yang di katakan dimana sebelumnya telah direpresentasikan oleh struktur tersebut guna untuk menentukan apa yang dimaksud sebenarnya.
Batasan-batasan dari kelima fase ini kadang-kadang belum jelas. Fase tersebut kadang dilakukan secara bertahap, tetapi kadang-kadang dilaksanakan sekaligus.

- Kategori  Aplikasi Pengolah Bahasa Alami
Teknologi sekarang yang memungkinkan untuk melakukan pemrosesan bahasa alami yang pada umumnya digunakan manusia. Untuk sekarang karena sudah banyak manusia yang mengembangkan NLP ini sehingga masukan dan keluaran yang dihasilkan bisa berupa suara dan text. Salah satunya adalah  Natural Language Translator.

 1. Natural Language Translator
Natural Language Translator  merupakan translator yang dapat mengubah suatu bahasa alami ke bahasa alami lainnya. Sebagai contoh yang biasa kita gunakan yaitu google translate. yaitu mengubah dari bahasa  Indonesia ke bahasa inggris, atau ke bahasa alami  lainnya yang tersedia.

2. Translator bahasa alami (bahasa sehari-hari) ke bahasa buatan
Translator bahasa alami ke bahasa buatan merupakan translator yang dapat mengubah bahasa alami menjadi bahasa buatan yang dapat dilakukan oleh suatu mesin atau sebuah komputer.Dengan ini manusia dapat memberikan perintah kepada komputer dengan menggunakan bahasa alami manusia atau bahasa sehari - hari. Dengan sistem seperti ini, pengguna sistem dapat memberikan perintah dengan bahasa sehari-hari. Contohnya, untuk menghapus semua file, pengguna cukup memberikan perintah ”komputer, hapus semua file !” Translator akan mentranslasikan perintah bahasaalami tersebut menjadi  perintah bahasa formal yang dipahami oleh komputer, yaitu ”dir *.*<ENTER>”.

3. Text Summarization
Text Summarization merupakan translator yang dapat membuat ringkasan yang penting dari suatu wacana yang  diberikan sebagai masukan.

Sekian dan terimakasih.

Sumber :

Pemrosesan Bahasa Alami

Pemrosesan Bahasa Alami
Teknik Informatika
Oleh :  Lian Ardiani    (D03112025)
            Merriana          (D03112041)

            Teknologi berkembang semakin cepat dari waktu ke waktu, penemuan satu teknologi dapat mempercepat penemuan teknologi berikutnya. Penemuan - penemuan yang dihasilkan juga memberikan pengaruh yang cukup besar pada kehidupan manusia. Bahkan teknologi yang dikenal sebagai penerjermah bahasa adalah suatu teknologi yang sekarang ini sudah tidak asing. Bahasa dapat dibedakan menjadi dua yaitu bahasa alami dan bahasa buatan. Bahasa alami merupakan bahasa yang digunakan sehari-hari untuk berkomunikasi antar manusia, sedangkan bahasa buatan merupakan bahasa yang sengaja dibuat untuk memenuhi kebutuhan sebagai contoh pemodelan atau pemrograman komputer.
Komputer menggunakan bahasa alami sebagai input dan/atau output. Pemrosesan bahasa alami adalah pendekatan komputerisasi untuk menganalisis teks yang berdasarkan set teori dan set teknologi. Pemrosesan Bahasa alami dapat didefinisikan sebagai sebuah cabang dari ilmu komputer yang memfokuskan pada pengembangan sistem yang mengizinkan komputer untuk berkomunikasi dengan orang-orang menggunakan bahasa sehari-hari. Pemrosesan bahasa alami juga dikenal dengan ‘Computional Linguistic’.
            Bahasa alami sangatlah ambigu dan perlu untuk disatukan. Tujuan dari pemrosesan bahasa alami seperti yang telah dijelaskan di atas adalah untuk “ menyelesaikan pemrosesan bahasa manusia” atau “komunikasi” . pemilihan kata “Pemrosesan” sangat disengaja, dan tidak boleh digantikan dengan “Pemahaman”. Walaupun sebenarnya bidang dari pemrosesan bahasa alami sebenarnya mengacu pada pemahaman bahasa alami pada waktu pertama kali muncul AI, hal ini juga disepakati bahwa tujuan dari pemrosesan bahasa alami adalah sebenarnya pemahaman bahasa alami, yang dimana tujuannya belum tercapai.

ALASAN PEMROSESAN BAHASA ALAMI MENYULITKAN
1. Ambigu adalah faktor utama perbedaan antara bahasa alami dan bahasa komputer.Sebagai contoh kata “bisa” yang bisa memiliki pengertian “racun” atau “dapat”. Ambiguity terdapat dimana-mana sebagai contoh “the dog is in the pendengan “the ink is in the pen. Manusia sendiri juga dapat menghadapi masalah ambiguitas itu sendiri.
2. Jumlah kosakata dalam bahasa alami berkembang dan bertambah pada waktu ke waktu.
3. Terdapat berbagai tingkat informasi dalam bahasa kita.

SEJARAH PEMROSESAN BAHASA ALAMI
            Penelitian tentang pemrosesan bahasa alami sudah dilakukan pada beberapa dekade yang lalu tahun 1940’an. Komputer pertama yang berdasar pada aplikasi yang berhubungan dengan bahasa alami adalahmachine translation (MT). Projek MT dimulai oleh Weaver dan Booth pada tahun 1946 yang dimana bertujuan untuk memecahkan kode-kode musuh selama perang dunia ke II, ini dikenal dengan memorandum Weaver tahun 1949 yang membawa ide dari machine translation kepada khalayak dan menginspirasi berbagai projek. Dia memberikan ide untuk menggunakan ide kriptrografi dan teori informasi untuk penerjemahan bahasa. Penelitian dimulai  dari berbagai macam institusi penelitian di Amerika dalam beberapa tahun.
            Selama periode ini, berbagai aplikasi pemrosesan bahasa alami mulai muncul seperti speech recognition atau sistem pengenalan ucapan yang berfungsi untuk mengubah bahasa lisan menjadi bahasa tulisan.

SUB-SYSTEM PEMROSESAN BAHASA ALAMI
1.      Sub-System natural language processing melakukan pemrosesan secara simbolik terhadap bahasa tulisan, seperti translator Bahasa Inggris ke Bahasa Indonesia.
2.      Sub-System text to speech yang mengubah teks menjadi ucapan.
3.      Sub-Sytem speech recognition yang mengubah suatu ucapan menjadi teks.

KATEGORI APLIKASI PEMROSESAN BAHASA ALAMI
            Pemrosesan bahasa alami menyediakan antara teori dan implementasi dalam ruang lingkup aplikasinya. Kenyataannya, banyak aplikasi yang hanya penggunaan teks saja pada pemrosesan bahasa alami. Kategori aplikasi yang dikembangkan dengan pemrosesan bahasa alami adalah sebagai berikut:
1.      Pengembalian informasi ( information retrieval )
Pada aplikasi ini memberikan teks secara signifikan.
2.      Pengambilan informasi  ( information extraction )
Pengambilan informasi , berfokus pada pengenalan, tagging , dan pengambilan ke dalam representasi yang terstruktur.

3.      Penjawab pertanyaan
Perbedaan kontras dengan pengembalian informasi adalah pengembalian informasi menyediakan list dokumen yang relevan dimana berpontensi menjawab query dari user. Sedangkan penjawab pertanyaan ( question – answering ) menyediakan
4.      Text Summarization
Semakin tinggi level dari pemrosesan bahasa alami, dapat melakukan penyingkatan suatu teks dari wacana menjadi lebih singkat.
5.      Mesin Translator
Program yang mampu menerjemahkan bahasa baik berupa bahasa alami, atau bahasa yang sudah di enkripsi ke dalam bahasa alami lainnya.
6.      Dialog sistem
           
APLIKASI-APLIKASI PEMROSESAN BAHASA ALAMI
1. Pengenal karakter
            Aplikasi pengenal karakter ini menggunakkan teknologi optical character recognition dengan text to speech. Alat ini merupakan alat yang membantu tunanetra untuk membaca suatu buku ataupun dokumen.

2. Identifikasi bahasa isyarat
            Merupakan alat bantu bicara dimana hasil dari indentifikasi akan menghasilkam text to speech. Aplikasi ini merupakan alat bantu bicara bagi tunawicara.

3. Online translator    
            Online translator adalah translator yang secara otomatis dapat menerjermahkan bahasa alami ke bahasa alami lainnya seperti Bahasa Inggris ke Bahasa Indonesia.

4. Aplikasi Telephony
            Text to speech  juga dapat diimplementasikan ke sistem informasi yang diucapkan secara lisan, seperti konversi SMS ( Short Messages Service ) ke dalam ucapan, sehingga pesan dapat didengar.

Referensi :
Arman, Arry Akhmad. Teknologi Pemrosesan Bahasa Alami sebagai Teknologi Kunci untuk Meningkatkan Cara Interaksi Manusia dengan Mesin. 2004


Liu, Xiaoyong. Natural Language Processing.2001

Pemrosesan Bahasa Alami

Bahasa merupakan salah satu bagian yang terpenting dalam kehidupan manusia, bahasa dalam bentuk tulisan merupakan catatan dari pengetahuan ataupun pengalaman dan kisah-kisah hidup yang didapat oleh seseorang dari satu generasi ke generasi lainnya, sedangkan dalam bentuk lisan bahasa merupakan sarana komunikasi antar individu. Tujuan dari Pemrosesan Bahasa Alami (Natural Language Processing) adalah membuat model komputasi dari bahasa alami tersebut, sehingga dapat terjadi interaksi antara manusia dengan komputer. Model komputaasi ini dapat berguna untuk keperluan ilmiah misalnya meneliti sifat-sifat dari suatu bentuk bahasa alami ataupun untuk keperluan sehari-hari agar dapat memudahkan komunikasi antara manusia dengan komputer.
Dalam Pemrosesan Bahasa Alami (Natural Language Processing) harus memperhatikan pengetahuan terhadap bahasa itu sendiri, baik dari kata yang digunakan, penggabungan kata-kata tersebut untuk menghasilkan suatu kalimat yang baik, arti dari sebuah kata, fungsi dari sebuah kata dalam sebuah kalimat dan lain sebagainya. Selain itu kita juga harus mempertimbangkan hal yang sangat berperan dalam bahasa alami, yaitu kemampuan manusia untuk memahami ataupun mengerti bahasa dan kemampuan itu didapat dari pengetahuan oleh manusia itu sendiri. Sebagai contoh dalam sebuah percakapan, seseorang mungkin dapat menjawab pertanyaan ataupun ikut serta dalam percakapan tersebut dengan tidak hanya berdasar pada kemampuan berbahasa tetapi juga harus mengerti istilah-istilah yang umum digunakan dalam percakapan tersebut bahkan harus tahu maksud dari percakapan itu.
Pemrosesan Bahasa Alami (Natural Language Processing) dibagi dalam beberapa bidang pengolahan bahasa, antara lain:
1. Fonetik dan fonologi : merupakan bidang pengetahuan yang berhubungan dengan suara yang menghasilkan kata yang dapat dikenali. Bidang pengolahan ini menjadi penting dalam proses aplikasi yang menggunakan metode speech based system.
2. Morfologi : merupakan pengetahuan yang berhubungan dengan kata dan bentuknya dimanfaatkan untuk membedakan kata. Pada bidang ini dapat dipisahkan antara kata dan tanda baca.
3. Sintaksis : merupakan pemahaman tentang urutan kata dalam pembentukan kalimat dan hubungan antar kata dalam proses perubahan bentuk dari kalimat menjadi bentuk yang sistematis. Bidang ini meliputi proses pengaturan tata letak suatu kata dalam kalimat yang akan membentuk kalimat yang dapat dikenali. Selain itu bidang ini dapat pula mengenali bagian-bagian kalimat dalam suatu kalimat yang lebih panjang.
4. Semantik : merupakan pemetaan bentuk struktur sintaksis dengan menggunakan tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung pada struktur kalimat. Bidang ini mempelajari arti kata dari sebuah kalimat yang utuh. Dalam bidang ini belum mencakup konteks dari kalimat tersebut.
5. Pragmatik : bidang ini berkaitan dengan masing-masing konteks yang berbeda tergantung pada situasi dan tujuan dibuatnya sistem.
6. Discourse Knowledge : pada bidang ini dilakukan pengenalan pada suatu kalimat yang sudah dibaca atau dikenali sebelumnya apakah akan mempengaruhi arti dari kalimat berikutnya. Hal ini sangat penting untuk diketahui untuk melakukan pengolahan arti dari pada kata ganti orang untuk mengartikan aspek sementara dari informasi tersebut.
7. World Knowledge : bidang pengetahuan ini mencakup arti dari sebuah kata secara umum, apakah ada arti khusus bagi suatu kata dalam suatu percakapan dengan konteks tertentu.

Definisi mengenai bahasa alami tidaklah kaku, dan untuk setiap bentuk bahasa alami yang ada biasanya ada pendefinisian lagi yang lebih spesifik sesuai dengan karakter bahasa alami tersebut. Pada beberapa masalah mungkin hanya mengambil beberapa dari pendekatan tersebut bahkan mungkin ada yang melakukan tambahan proses sesuai dengan karakter dari bahasa yang digunakan dan sistem yang dibuat.
Selain itu, masih ada lagi satu masalah yang cukup menantang dalam Pemrosesan Bahasa Alami (Natural Language Processing) yaitu ambiguitas atau bermakna ganda dari suatu kata atau suatu kalimat. Dari sebuah masukan yang sama dapat menghasilkan beberapa arti yang berbeda dan masing-masing dapat bernilai benar tergantung pada keperluan pemakainya. Hal ini dapat terjadi pada hampir semua tingkatan pendekatan-pendekatan diatas.

Dalam bidang Pemrosesan Bahasa Alami (Natural Language Processing) dapat dibuat beberapa jenis aplikasi seperti text-based application dan dialogue-based applications.  Dillihat dari namanya kedua aplikasi di atas memiliki perbedaan yang mencolok, pertama kita bahas tentang Text-Based application, aplikasi ini mencakup semua aplikasi yang melakukan proses  terhadap text tertulis seperti misalnya e-mail, buku, berita pada surat kabar, dan sebagainya. Beberapa contoh penggunaan dari Text-Based application ini adalah :
1. Mencari  isi dari e-mail atau surat.
2. Mencari judul tertentu dari sebuah buku atau artikel yang ada pada perpustakaan.
3. Menterjemahkan dokumen dari bahasa satu ke bahasa lainnya.

Perlu kita ketahui bahwa tidak semua system dapat melakukan hal-hal seperti di atas dengan  pendekatan terhadap Natural Language, misal pada contoh mencari judul tertentu dari sebuah buku atau artikel yang ada pada perpustakaan dapat didekatai dengan system database yang lumayan lengkap.  
Berikutnya kita akan bahas  bentuk dialogue-based application. Dilihat dari namanya sudah jelas ini melibatkan bahasa lisan atau pengenalan suara,  tetapi tidak mutlak hanya itu. Bidang ini juga melakukan interaksi dengan cara memasukan teks pertanyaan melalui keyboard. Aplikasi yang sering dipakai  dalam bidang ini sebagai berikut :
1. Sistem pelayanan otomatis pada telepon
2. Control suara pada peralatan elektronik
3. Sistem tanya jawab, yang mana bahasa alami digunakan untuk mendapatkan informasi dari suatu database.
Perlu diketahui bahwa batasan untuk sistem yang dapat melakukan interaksi melalui bahasa lisan ada pada bagian speech recognition yang merupakan bagian terpisah dari Natural Language.

Diposting Oleh :
D03112068  Prayudi Aditya Nugraha
D03112069  Eggi Chandra

Pemrosesan Bahasa Alami (Try Wahyudinata - D03112021)

TRY WAHYUDINATA
D03112021

Pemrosesan Bahasa Alami

Natural Language Processing (NLP) atau dikenal juga dengan Pemrosesan Bahasa Alami didefinisikan sebagai sebuah metode dalam bidang Artificial Intelligence (AI) yang berfungsi untuk berhubungan dengan komputer dalam bahasa alami atau bahasa yang dipahami oleh manusia seperti bahasa Indonesia, bahasa Inggris, ataupun bahasa alami manusia yang lainnya. 

Pemrosesan Bahasa Alami ini memiliki tujuan untuk melakukan proses pembuatan suatu model komputasi dari bahasa (linguistik), sehingga diharapkan dapat terjadi suatu interaksi antara manusia dengan komputer dimana bahasa alami (bahasa sehari-hari) sebagai perantaranya.

Sebuah sistem Pemrosesan Bahasa Alami diharuskan memperhatikan beberapa pengetahuan terhadap bahasa yang digunakan, baik itu dari segi kata yang akan digunakan, bagaimana kata-kata tersebut divariasikan untuk menghasilkan suatu kalimat, apa arti sebuah kata, serta apa fungsi dari sebuah kata dalam sebuah kalimat dan sebagainya. Kemampuan manusia untuk mengerti juga harus kita pertimbangkan dan kemampuan tersebut bisa didapat dari pengetahuan yang didapat secara terus menerus atau continue selama hidup

Peranan Pengetahuan dalam bahasa adalah sebagai berikut,
Komunikasi dengan bahasa alami (bahasa sehari-hari) baik itu teks atau ucapan akan bergantung pada pengetahuan dari domain pembicaraan.
Pemahaman bahasa tidak hanya dapat ditransmisikan dari kata-kata, akan tetapi membutuhkan inferensi tentan tujuan dan asumsi-asumsu dari pembicara dan tentang konteks sebuah interaksi.
Implementasi dari progra Pemrosesan Bahasa Alami membutuhkan representasi dari sejumlah besar pengetahuan dan alasan-alasan.

Bidang Pengetahuan dalam Bahasa Alami (bahasa sehari-hari)
Untuk mengatasi kekompleks-an dari bahasa ini didefinisikan tingkat analisis bahasa alami: 
1. Prosody, memahami ritme dan intonasi dari sebuah bahasa
2. Phonology, menguji suara yang dikombinasikan untuk membentuk sebuah bahasa
3. Morphology, pengujian mengenai komponen-komponen (morfem-morfem) yang membentuk kata-kata. Termasuk aturan-aturan dalam pengembangan formasi kata-kata seperti efek dari prefix (un-, non-, anti-, dll), dan sufiks (-ing, -ly, dll) yang mengubah arti dari akar sebuah kata.
4. Syntax, pemahaman tentang urutan kata dalam pembentukan sebuah kalimat dan hubungan antar kata tersebut dalam proses perubahan bentuknya dari kalimat menjadi bentuk yang lebih sistematis. Meliputi proses pengaturan tata letak suatu kata dalam sebuah kalimat akan membentuk kalimat yang mudah dikenali. Selain itu dapat pula diketahui bagian-bagian dari sebuah kalimat dalam suatu kalimat yang lebih besar lagi. Contohnya, kalimat S dibentuk dari noun phrase (NP) dan verb phrase (VP)
Sintaksis: yaitu S à NP, VP
Dan selanjutnya:
NP à DET, N
VP à V, NP
NP à N
5. Semantics, merupaka pemetaan bentuk struktur sintaksis dengan memanfaatkan tiap-tiap kata ke dalam bentuk yang lebih mendasar dan tidak bergantung pada struktur kalimat. Semantik juga mempelajari arti suatu kata dan bagaimana dari arti kata-arti kata tersebut membentuk suatu arti dari kalimat yang seutuhnya. 
6. Pragmatics, merupakan analisa pada cara dimana bahasa digunakan dan efeknya pada si pendengar bahasa tersebut.
7. World Knowledge, mencakup arti sebuah kata secara umum dan apakah ada arti khusus bagi suatu kata tersebut dalam suatu percakapan dengan konteks tertentu.
Selain 7 poin diatas, masih ada lagi sebuah masalah yang cukup menantang dalam Bahasa Alami, yaitu ambiguitas atau makna ganda dari suatu kata atau suatu kalimat tertentu.

SISTEM PEMROSESAN BAHASA ALAMI
Suatu sistem Pemrosesan Bahasa Alami secara lisan dibagi dalam tiga bentuk sub-sistem, yaitu antara lain:
1) Sub-Sistem Natural Language Processing (NLP), sub-sistem ini berfungsi untuk melakukan  pemrosesan secara simbolik terhadap teks. Beberapa bentuk aplikasi dari sub-sistem  ini  adalah  penerjemah bahasa alami (misalnya transalsi dari Bahasa Indonesia ke Bahasa Inggris ), sistem  pemeriksa struktur bahasa, sistem yang dapat menyimpulkan suatu narasi dan sebagainya.
2) Sub-sistem Text  to Speech (TTS), sub-sistem ini berfungsi untuk mengubah bahasa tulisan (teks) menjadi bahasa lisan (ucapan).
3) Sub-Sistem Speech Recognition (SR), sub-sistem ini merupakan kebalikan dari teknologi Text to Speech, yaitu sebuah sistem yang berfungsi untuk mengubah/mengenali suatu bahasa lisan (ucapan) menjadi bahasa tulisan (teks).

Berbeda dengan sistem lain yang bersifat generik, teknik yang digunakan dalam Pemrosesan Bahasa Alami akan bersifat  sangat language dependent atau bergantung pada bahasa yang dipakai. Suatu sistem atau teknik yang digunakan untuk suatu bahasa yang tidak mudah diterapkan untuk bahasa lainnya.

Seperti yang telah dijelaskan sebelumnya, bahwa bahasa dapat diklasifikasikan menjadi bahasa buatan dan bahasa alami. Bahasa buatan digunakan untuk memenuhi kebutuhan tertentu dan dirancang dengan  sangat hati-hati agar memenuhi aturan-aturan dalam bahasa yang diperlukan untuk kemudahan pemrosesannya.

Akan tetapi, bahasa alami tumbuh secara alami untuk memenuhi kebutuhan komunikasi antar sesama manusia. Bahasa alami tidak dirancang unutk memperhatikan berbagai kendala yang ada untuk kemudahan pemrosesannya. Akibatnya, Pemrosesan Bahasa Alami jauh lebih sulit untuk dilakukan dibandingkan dengan bahasa buatan. Selin itu, beberapa masalah dasar dalam bahasa alami masih belum terpecahkan bahkan hingga saat ini.

Implementasi dari Pemrosesan Bahasa Alami tidak mudah dilakukan. Beberapa alasan yang cukup menyulitkan Pemrosesan Bahasa Alami adalah sebagai berikut:
1) Dalam bahasa alami, sering terjadi ambiguitas atau makna ganda. Fenomena ini sering terjadi pada  berbagai tingkatan implementasi bahasa, mulai dari tanda baca dan simbol huruf sebagai unit terkecil bahasa tulisan, frasa, tingkat kata, kalimat, bahkan paragraf. Simbol titik (“.”) tidak selalu berfungsi sebagai tanda akhir dari sebuah kalimat, akan tetapi juga dapat menjadi bagian dari singkatan-singkatan (seperti Ir., Dr., Jl.) atau bagian dari sebuah bilangan. 
2) Jumlah kosa kata (vocabulary) dalam bahasa alami sangatlah besar dan selalu berkembang dari waktu ke waktu.

Karakteristik-karakteristik diatas menyebabkan sulitnya melakukan Pemrosesan Bahasa Alami. Apalagi manusia itu sendiri menghadapi masalah pada ambiguitas tersebut berdasarkan analisis konteks yang  didukung oleh pengetahuan yang dimilikinya. Komputer atau mesin yang tidak dilengkapi pengetahuan seperti itu akan sulit melakukannya. Jika Pemrosesan Bahasa Alami diterapkan untuk aplikasi bahasa lisan, kesulitan-kesulitan lain yang mungkin terjadi. Dalam bahasa lisan (ucapan), manusia sangat sering membentuk ucapan yang tidak sesuai dengan aturan-aturan yang berlaku dalam bahasa yang digunakan.




Referensi: