Selasa, 31 Maret 2015

Pemrosesan Bahasa Alami (Veronika Apriani D03112032 & Indah Jong D03112024)

Mata Kuliah    : Pemrosesan Bahasa Alami
Semester    : VI
Nama        : Veronika Apriani D03112032 & Indah Jong D03112024

PEMROSESAN BAHASA ALAMI

Pemrosesan Bahasa Alami (disingkat PBA) atau Natural Languange Processing (disingkat NLP), merupakan salah satu ilmu komputer yang membahas tentang interaksi antara komputer dan bahasa manusia atau bahasa alami. Bahasa alami pada umumnya merupakan bentuk suatu pesan yang ingin disampaikan melalui komunikasi antar manusia. Bentuk utamanya dari bahasa alami yaitu berupa suara atau ucapan (spoken languange), dan juga bisa dalam bentuk berupa tulisan. Pemrosesan bahasa alami juga merupakan cabang dari kecerdasan buatan (Artificial Intelegent) dan bidang kajiannya bersinggungan dengan linguistik (bahasa)  komputasional. Kajian dari pemrosesan bahasa alami ini antara lain mengenai segmentasi tuturan (speech segmentation), segmentasi teks (text segmentation), penandaan kelas kata (part-of-speech tagging), serta pengawataksaan makna (word sense disambiguation).
Tujuan manusia mempelajari tentang pemrosesan bahasa ini adalah dapat melakukan proses pembuatan model komputasi dari bahasa yaitu dapat membuat suatu mesin mampu untuk mengerti dan memahami makna dari bahasa manusia (bahasa alami) kemudian mesin tersebut dapat memberikan respon/tanggapan yang tepat dan sesuai, sehingga dapat terjadi interaksi antara komputer dan manusia dan dengan perantaranya adalah bahasa alami. 
Berikut ini adalah bidang-bidang yang berkaitan dengan pengolahan bahasa alami:
1.    Fonetik dan Fonologi   
Fonetik dan Fonologi merupakan bidang yang berhubungan dengan pengolahan suara yang dapat menghasilkan kata-kata yang dapat dikenali. Penggunaannya yaitu pada aplikasi yang menggunakan metode speech-based system.
2.    Morfologi
Morfologi merupakan bidang pengetahuan mengenai kata dan bentuknya yang dimanfaatkan dalam membedakan satu kata dengan kata yang lainnya , serta terdapat  pemisahan antara kata dan elemen-elemen lainnya (tanda baca).



3.    Sintaksis
Sintaksis merupakan bidang yang mencakup pemahaman tentang urutan-urutan kata dan pembentukkan kata-kata menjadi sebuah kalimat , serta mencakup hubungan antar kata dalam proses perubahan bentuk dari kalimat menjadi hal yang sistematis.
4.    Semantik
Semantik merupakan bidang yang memetakan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih dasar dengan tidak terpengaruh dengan struktur suatu kalimat.
5.    Pragmatik
Pragmatik merupakan bidang yang berkaitan dengan tingkatan suatu pengetahuan dari masing-masing konteks yang berbeda dan dikondisikan pada situasi dan tujuan dari pembuatan sistem.
6.    Discourse knowledge
Discourse knowledge merupakan bidang yang mengenalkan apakah suatu kalimat yang telah dibaca dan dikenali sebelumnya mempengaruhi  arti dari kalimat selanjutnya. Informasi diketahui untuk melakukan pengolahan arti terhadap kata ganti orang dan untuk mengartikan aspek sementara dari informasi.
7.    World knowledge
World knowledge merupakan bidang yang mencakup arti dari suatu kata secara umum dan khusus dalam percakapan.

Kategori Aplikasi
Teknologi Natural Language Processing (NLP) atau Pemrosesan Bahasa Alami adalah teknologi yang memungkinkan melakukan berbagai pemrosesan bahasa alami yang biasa digunakan oleh manusia. Sistem ini biasanya mempunyai input dan output berupa teks. Pemrosesan bahasa alami mempunyai banyak aplikasi dan di bawah ini beberapa kategori aplikasinya adalah sebagai berikut:
1.      Natural Language Translator
Translator yang menerjemahkan satu bahasa alami ke bahasa alami lainnya, misalnya translator bahasa Indonesia ke bahasa Inggris, bahasa Indonesia ke bahasa Mandarin dan contoh-contoh lainnya. Translator bahasa alami tidak hanya kamus yang menerjemahkan kata per kata namun harus bisa menerjemahkan sintaks dari bahasa asal ke bahasa tujuannya.


2.       Translator bahasa alami ke bahasa buatan
yaitu translator yang di mana sebuah mesin atau komputer mampu mengubah perintah-perintah dalam bahasa alami menjadi bahasa buatan. Contoh: translator yang memungkinkan kita memberikan perintah bahasa alami kepada komputer. Dengan sistem seperti ini, pengguna sistem dapat memberikan perintah dengan bahasa sehari-hari.

3.       Text Summarization
yaitu sistem yang dapat ”membuat ringkasan” hal-hal penting dari suatu kalimat-kalimat yang diberikan.

Jenis-jenis aplikasi yang terdapat pada bidang pengolahan bahasa alami, antar lain:
1.    Text-based application
Text-based application merupakan berbagai macam aplikasi yang dapat memproses teks tertulis seperti untuk mencari topik utama dari sebuah buku, mencari isi dari e-mail, menerjemahkan suatu dokumen dan suatu bahasa ke bahasa yang lain.
2.    Dialogue-base application
Dialogue-base application merupakn sutu pendekatan yang mencakup bahasa lisan seperti pengenalan suara, dan juga interaksi yang dilakukan dengan cara menginput atau memasukkan teks melalui keyboard. Aplikasi yang diterapkan pada dialogue-base:
-    sistem tanya jawab, dimana pemrosesan bahasa alami digunakan untuk mendapatkan inforamasi dari database
-    sistem pelayanan melalui telepon secara otomatis
-    pengontrol suara pada alat elektronik
-    sistem problem solving membantu melakukan penyelesaian masalah yang umum dihadapi dalam suatu pekerjaan

Komponen Utama Bahasa Alami
Ada tiga komponen utama:
•         Parser
sistem yang dimana mengambil kalimat input bahasa alami dan menguraikan kalimat tersebut ke dalam bagian-bagian gramatikal (kata benda, kata kerja, kata sifat, dan lain-lain).
•         Sistem Representasi Pengetahuan
sistem yang menganalisis output dari parser untuk menentukan artinya.
•         Output Translator
Merupakan terjemahan yang merepresentasikan sistem pengetahuan dan melakukan langkah- langkah yang berupa jawaban bahasa alami sesuai dengan program komputer lainnya.

 Referensi:
http://mozictapps.blogspot.com/2013/12/natural-language-processing.html

Pemrosesan Bahasa Alami (Muhammad Zulfikar D03112058 & Ninda Fitria Pratiwi D03112023)

Natural Language Processing

A.Pengertian Natural Language Processing (NLP)

Bahasa adalah suatu hal yang sangat amat terpenting dalam kehidupan manusia baik itu dalam bentuk tulis yang terbentuk dalam catatan pengetahuan yang didapat oleh umat manusia dari generasi ke generasi berkutnya, maupun dalam bentuk lisan yang disini adalah sebagai sarana komunikasi antar individu dengan individu maupun kelompok dengan kelompok dalam suatu masyarakat.
Tujuan bidang "Natural Language" ini adalah melakukan suatu proses pembuatan model yang terkomputerisasi dengan perantaranya adalah bahasa, sehingga dapat terjadi suatu interaksi antara manusia dengan komputer engan perantaranya adalah bahasa alami. Model komputerisasi ini dapat berguna dalam ilmiah misalnya meneliti sebuah sifat dari bentuk suatu bahasa alami maupun memudahkan komunikasi antara manusia dan komputer.
Natural Language Processing “NLP” adalah salah satu ilmu/bidang dalam ilmu komputer, kecerdasan buatan, dan bahasa (linguistik) yang selalu berkaitan dengan interaksi antara komputer dengan bahasa alami manusia.  Tujuan utama dari studi bidang Natural Language Processing “NLP” adalah untuk membuat mesin yang mampu, mengerti dan memahami makna dan arti dari bahasa manusia lalu memberikan respon yang sesuai yang diinginkan.
Natural Language Processing “NLP” atau Pemrosesan Bahasa Alami adalah merupakan salah satu tujuan untuk jangka panjang dari Artficial Intelegence “A.I” (kecerdasan buatan) yaitu sebuah metode pembuatan program yang memiliki kemampuan dan kepintaran untuk memahami bahasa manusia. Pada dasarnya bahasa alami adalah suatu bentuk representasi/wujud dari sebuah pesan yang ingin dikomunikasikan antar manusia. Bentuk utama dari representasinya adalah berupa suara atau berupa ucapan (spoken language), yang sering pula dinyatakan dan diwujudkan dalam bentuk tulisan.

Inti dari Natural Language Processing atau pemrosesan bahasa alami adalah penguraian kalimat atau sering disebut dengan Parser. Parser sendiri berfungsi untuk membaca sebuah kalimat, kata per kata dan menentukan jenis kata apa saja yang boleh diikuti dari kata-kata tersebut. Dalam sebuah pemahaman suatu bahasa ada beberapa bidang-bidang atau ilmu yang juga harus dan diwajibkan diikut sertakan yaitu adalah Morfologi, Semantik, Fonologi, Sintaksis, dan Pragmatik.


B.Sejarah Natural Language Processing (NLP)

Sejarah Natural Language Processing “NLP” sendiri dimulai pada tahun 1950-an, Dan pada tahun 1950, Alan Turing mempublikasikan sebuah artikel terkenal yang berjudul “Computing Machinery and Intelligence” yang di dalamnya terdapat seorang Alan Turing mengusulkan sebuah tes yang sekarang terkenal disebut dengan istilah Turing Test.  Tes Turing sendiri adalah sebuah tes yang dimana mengukur kemampuan mesin (dalam hal ini sebuah program komputer) untuk dapat menunjukan perilaku cerdas.  Dalam sebuah ilustrasi contoh aslinya, seorang juri yang dimana disini manusia akan terlibat dalam percakapan dengan manusia dan mesin yang akan ditest. Semua peserta dipisahkan antara satu sama lain. Jika sang juri tidak bisa membedakan yang antara manusia dan mesin, maka sebuah mesin tersebut dikatakan lulus test.

C.Komponen Utama Natural Language Proccesing /Bahasa Alami

Natural Language Processing atau Pengolahan bahasa alami terdiri dari 3 bagian atau komponen utama, yaitu : Parser, Pengolahan Output, dan Sistem Representasi Pengetahuan
1.Parser
Suatu sistem/metode yang mengambil kalimat inputan bahasa alami dan memecahnya ke dalam beberapa bagian gramatikal (kata benda, kata kerja, kata sifat, dan lain-lain).
2.Output Translator
Suatu sistem/metode terjemahan yang dapat menampilkan sistem pengetahuan dan dapat melakukan langkah- langkah yang bisa saja berupa jawaban atas sebuah bahasa alami atau sebuah output khusus yang pas/sesuai dengan program komputer yang lainnya.
3.Sistem Representasi Pengetahuan
Suatu sistem/metode yang dapat menganalisis sebuah output Parser untuk menentukan makna atau artinya.

D.Kategori Aplikasi Natural Language Procesing /Pengolahan Bahasa Alami

Teknologi Natural Language Processing (NLP) atau Pemrosesan Bahasa Alami adalah teknologi yang memungkinkan untuk melakukan berbagai macam proses pemrosesan terhadap sebuah bahasa alami yang biasa digunakan oleh manusia dikehidupan sehari-hari. Sebuah Sistem ini biasanya dapat mempunyai sebuah masukan dan sebuah keluaran berupa Teks. Natural Language Processing mempunyai aplikasi yang sangat luas ruang lingkupnya. Beberapa diantara terdapat berbagai kategori aplikasi NLP adalah sebagaimana sebagai berikut :

1. Natural Language Translator, yaitu sebuah translator dari satu bahasa alami ke sebuah bahasa alami lainnya, misalnya translator bahasa Indonesia ke bahasa Inggris, Bahasa Indonesia ke Bahasa Spanyol dan sebagainya. Sebuah Translator bahasa alami yang bukan hanya kamus yang dapat menerjemahkan kata per kata seperti biasa, tetapi harus juga mentranslatekan sintaks-sintaks dari bahasa asal ke bahasa tujuan yang diinginkan.

2. Translator bahasa alami ke bahasa buatan, yaitu sistem translator yang dapat mengubah sebuah  perintah-perintah dari bahasa alami menjadi sebuah bahasa buatan yang dapat dieksekusi dengan mudah oleh mesin atau komputer. Sebagai sebuah contoh, translator yang memungkinkan kita dapat memberikan suatu perintah dengan bahasa alami kepada komputer. Dengan sistem seperti ini, maka pengguna sistem dapat memberikan perintah-perintah dengan menggunakan bahasa sehari-hari, misalnya, untuk mengcopy semua file, pengguna cukup memberikan perintah kepada komputer yaitu ”komputer, tolong copy semua file !” Translator akan otomatis mentranslatekan  perintah dari bahasa alami tersebut menjadi sebuah perintah dalam bahasa formal yang dapat dipahami oleh komputer, yaitu ”dir *.* ”.

3. Text Summarization, yaitu sebuah sistem yang mampu  ”membuat ringkasan” dari hal-hal yang penting dari sebuah wacana yang diberikan.

Pemrosesan Bahasa Alami (RENNY WULANDARI SS D03112012 & DHITA DEVIACITA D03112039)

Pemrosesan Bahasa Alami

PBA (Pemrograman Bahasa Alami) atau NLP (Natural Language Processing) merupakan salah satu cabang dari ilmu komputer dan linguistik atau ilmu tentang bahasa (manusia) yang berhubungan dengan interaksi  antara seperangkat alat komputer dan bahasa alami (manusia). Pemrograman Bahasa Alami juga sering dikatakan bagian dari kecerdasan buatan dan bidang kajian atau bahasan yang berkaitan dengan linguistik komputer. 
Tujuan dalam bidang ini adalah melakukan pemrosesan model komputasi dari bahasa, sehingga akan terjadi suatu hubungan atau interaksi antara manusia dengan komputer dengan perantara bahasa alami. Model ini berguna untuk keperluan ilmiah maupun untuk keperluan sehari-hari yaitu memudahkan komunikasi antara manusia itu sendiri dan komputer.

Tingkat Pemrograman Bahasa Alami (Natural Language Processing) memiliki hubungan dengan bidang-bidang pengetahuan yang digunakan yaitu sebagai berikut :
1.    Fonetik dan Fonogi : bidang yang berhubungan dengan voice (suara) yang dapat menghasilkan kata-kata yang dapat dikenali. Bidang ini bisa menjadi penting dalam suatu proses suatu aplikasi yang menggunakan metode speech based system.
2.    Morfologi : bidang yang berkaitan pengetahuan tentang kata dan bentuknya digunakan untuk membedakan satu kata dengan kata lainnya. Pada bidang ini atau tingkat ini juga dapat dipisahkan antara kata atau kalimat dan bentuk lain, tanda baca dsb.
3.    Sintaksis : bidang yang membahas tentang pemahaman tentang urutan kata dalam pembentukan kalimat dan interaksi antar kata tersebut dalam proses perubhana bentuk dari kalimat itu sendiri menjdi bentuk yang lebih sistematis. Meliputi proses pengaturan atau pengolahan tata letak kata dalam kalimat akan membentuk kalimat yang dapat dikenali dan dapat pula dikenali bagian-bagian kalimat dalam suatu kalimat yang lebih besar lagi.
4.    Semantik : bidang yang mengolah pemetaan bentuk susunan sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih mendasar dan mandiri dari susunan kalimat. Semantik mempelajari arti suatu dan bagaimana arti kata tersebut membentuk suatu arti dari kalimat yang utuh. 
5.    Pragmatik : bidang pengtahuan yang ada disini berkaitan dengan konteks yang tidak sama tergantung pada situasi dan tujuan dari pemrosesan sistem.
6.    Discourse Knowledge : bidang tentang pengenalan suatu kalimat itu sudah dibaca dan dikenali sebelumnya akan mempengaruhi arti dari kalimat selanjutnya. Informasi ini tergolong penting untuk proses pengolahan arti terhadap kata ganti orang dan mengartikan aspek sementara dari informasi.
7.    World Knowledge : bidang yang meliputi arti sebuah kata secara umum dan apakah arti khusus atau spesifik bagi suatu kata dalam suatu perbincangan dengan konteks tertentu.
Definisi-definisi tersebut bersifat fleksibel atau tidak baku, dan untuk bentuk bahasa alami yang sudah ada biasanya ada pendefinisian lagi yang lebih khuus sesuai karakter bahasa tersebut. Selanjutnya, masih ada satu masalah dalam Pemrograman Bahasa Alami yaitu ambiguitas atau makna lain dari suatu kata atau kalimat itu sendiri. 

Jenis-jenis aplikasi yang digunakan atau dibuat pada bidang-bidang ini, adalah :
Text – Based Application dan Dialogue – Based Applications
Text – Based Application mencakup segala macam aplikasi-aplikasi yang melakukan proses atau pengolahan terhadap teks tertulis misalnya buku, surat kabar, email dan sebagainya. Sedangkan Dialogue – Based Applications melibatkan bahasa lisan atau pengenalan voice (suara), akan tetapi bidang ini juga memasukkan hubungan atau interaksi dengan cara memasukkan teks pertanyaan melalui keyboard. Salah satu aplikasi yang digunakan adalah : Sistem tanya jawab, pemrograman bahasa alami digunakan mendapatkan informasi dari suatu database. Tetapi, sebelumnya harus diberikan batasan bahwa untuk sistem yang dapat melakukan hubungan melalui bahasa lisan ada bagian speech recognition yang merupakan bagian terpisah dari bahasa alami.

Gramatika
Grammar dari Chomsky Hierarchy yaitu Context Free Grammar mempunyai sifat-sifat lebih mudah dimengerti perilakunya dan pengolahan serta masih dapat diolah dalam bentuk program yang tersusun. Sebuah bahasa L disebut symbol yaitu string yang dbentuk dari bagian terkecil bisa dijelaskan sebagai set dari string. Suatu kelompok v dari symbol biasa dikenal sebagai perbendaraan kata. Grammar adalah sebuah kata atau kalimat yang dapat dikenali dengan berdasarkan atuan-aturan yang sudah ada. Grammar dapat dibentuk dari 4 tuple yaitu : simbol non-terminal, simbol terminal, simbol pertama atau awal dan rules penulisan. Tetapi, betul dalam grammar bukan berarti pasti benar, bisa saja benar secara struktural tapi bukan berarti selalu benar dalam arti.

Parsing
Parsing merupakan suatu proses atau pengolahan menganalisa suatu kumpulan kata dengan memisahkan kata tersebut dan menentukan susunan atau struktur sintaksis dari tiap kata tersebut. Proses parsing dapat dibagi menjadi dua bagian besar yaitu Bottom Up Parsing dan Top Down Parsing dalam mengenali struktur suatu kalimat. Mencari dari simbol-simbol terminal menuju ke arah pembentukan simbol awal s yang disebut Bottom Up Parser dan Bottom Up Parsing sebaliknya.

Semantik
Semantik memiliki kumpulan aturan-aturan dalam basis pengetahuan untuk menginterprestasikan sebuah kalimat.
Aturan 1 : IF derminer merupakan bagian awal dalam kalimat dan diikuti oleh noun THEN noun tersebut dianggap sebagai subyek.
Aturan 2 : IF verb menjelaskan tentang apa yang dikerjakan oleh subyek yang diikuti subyek THEN.
Aturan 3 : IF noun dianggap sebagai obyek dikarenakan diikuti subyek dan verb THEN.
Aturan 4 : IF kalimat mempunyai bentuk subyek, ver, obyek THEN subyek mengerjakan (verb) yang ada hubungannya dengan obyek.
Kalimat yang diinginkan akan ditrigger aturan 1 yang mengindentifikasikan plane sebagai subyek, kemudian aturan 2 menjelaskan bahwa plan flew. Selanjutkan aturan 3 dan 4 mengindentifkasikan home sebagai subyek. Jadi, semantik adalah proses yang rumit dikarenakan hal ini tergantung pada maksud atau makna dalam kalimat dan juga adanya kemungkinan arti lain dalam kalimat. Pendekatan yang digunakan merupakan pendekatan Semantic Grammar yang dipadukan dengan Dictionary tambahan dan Template Grammar. Semantic Grammar dipilih sebagai grammar utama dikarenakan didalam grammar sudah terkandung unsur semantic yang dapat digunakan dalam pembentukan semantic dari kalimat dan format dari kalimat sudah dibatasi pada bentuk tertentu jadi dapat diandalkan untuk bentuk-bentuk tanya dan perintah.















REFERENSI :

Refensi dari internet :
•    http: //id.wikipedia.org/wiki/Pemrosesan_bahasa_alami
•    refensi dari internet berupa pdf yang berjudul “Bab 5 Natural Language Processing”

Pemrosesan Bahasa Alami (Asteria Marceline D03112018 & Muhammad Iqbal Meslilesi D03112038)

PEMROSESAN BAHASA ALAMI
Bahasa merupakan bagian yang terpenting dalam kehidupan manusia sehari-hari,baik dalam bentuk tulisan yaitu catatan dari ilmu pengetahuan yang didapat oleh manusia dari satu generasi ke generasi berikutnya,sedangkan dalam bentuk lisan merupakan komunikasi antar sesama individu.
Natural Language Processing adalah sebuah proses pembuatan model komputasi dari bahasa,sehingga dapat terjadi suatu interaksi antara manusia dengan komputer dengan perantara bahasa alami,yaitu bahasa yang sering digunakan dalam kehidupan sehari-hari.
Sebuah Natural Language System harus mampu mengerti terhadap bahasa yang ada di dalamnya,baik itu dari segi fungsi kata,bagaimana apabila kata-kata tersebut digabung dapat menjadi sebuah kalimat,arti dari kata,dan fungsi kata tersebut dalam sebuah kalimat.Dan tentunya ada faktor yang paling penting dalam bahasa yaitu kemampuan manusia untuk mengerti dari bahasa yang diberikan.
Didalam pemrosesan bahasa alami (Natural Language Processing) mengenal beberapa tingkat pemrosesan yaitu :
1. Fonetik Dan fonologi : proses pemrosesan suara yang menghasilkan kata yang dapat dikenali,pemrosesan ini menggunakan metode speech based system.
2. Morfologi : pemrosesan kata dan bentuknya sebagai pembeda antara satu kata dengan yang lainnya.pada pemrosesan tingkat ini dipisahkan antara  kata dan elemen lain.
3. Sintaksis : pemrosesan tentang urutan kata didalam pembentukan  kata dan relasi antar kata itu dalam proses perubahan bentuk kalimat menjadi sebuah bentuk kalimat yang sistematis.dalam proses ini terjadi pengaturan tata letak kata sebagai faktor pembentuk kalimat yang dapat dikenali.
4. Semantik : mempelajari arti kata dan bagaimana dari arti kata tersebut dapat membentuk suatu arti dari kalimat yang utuh.
5. Pragmatik : berkaitan dengan tujuan pembuatan sistem dengan konteks yang berbeda.
6. Discourse Knowledge : proses terjadinya pengenalan suatu kalimat yang sudah dikenali sebelumnya dan akankah mempengaruhi arti kalimat setelahnya.Informasi ini penting untuk melakukan pengolahan arti terhadap kata ganti,misalnya kata ganti orang dan informasi ini penting untuk mengartikan aspek sementara dari informasi.
7. World Knowledge : mencakup arti kata secara umum dan arti khusus jika ada dalam suatu percakapan dengan konteks tertentu.

Pengertian ini tidak bersifat terpaku, dalam setiap bahasa alami yang ada, selalu terdapat definisi yang lebih spesifik sesuai dengan jenis bahasa tersebut. Beberapa masallah mungkin bisa mengambil sebagian dari pendekatan tersebut dan mungkin melakukan tambahan preses sesuai dengan jenis bahasa yang digunakan dan sistem yang dibuat.
Masalah yang dihadapi dalam Natural Language yaitu ambiguitas yaitu makna ganda dari suatu kata atau kalimat.Ambiguitas ini dapat terjadi di semua tingkat pemrosesan di atas.

Macam-macam aplikasi yang bisa dibuat pada bidang bidang Natural Language Processing adalah :
1. Text – text application dan dialogue – based applications. Text – text application mencakup semua aplikasi yang memproses terhadap text yang ditulis seperti buku bacaan,koran,dan lain-lain.
Contoh penggunaan : mencari topik buku dari perpustakaan,mencari isi dari surat atau e-mail.
2. Dialogue – based application.Pendekatan ini melibatkan pengenalan suara, akan tetapi bidang ini juga melibatakan interaksi dengan cara memasukkan teks melalui keyboard.
Contoh penggunaan : sistem tanya jawab dengan database,sistem otomatis pelayanan melalui telepon,control suara pada peralatan elektronik,sistem problem – solving.

Lalu di Natural Language Processing ada Grammar yaitu aturan kata yang menentukan apakah suatu kumpulan kata dapat diterima sebagai kalimat oleh bahasa tersebut.Dari grammar kita dapat mempelajari bahasa dari segi struktur dan bukan dari segi makna bahasa itu sendiri.
Lalu ada Parsing,yaitu proes analisa suatu kumpulan kata dengan memisahkan kata tersebut dan menentukan struktur sintaksis dari kata tersebut.Gramatika yang dipakai pasti berkaitan dengan proses parsing apa yang digunakan.Dari pendekatan dalam mengenali struktur kalimat,parsing di bagi dua bagian besar yaitu Top Down parsing dan Bottom Up parsing. Top Down parser memulai pemeriksaan dan mecoba mencari bentuk simbol berikutnya dan Bottom Up parsing bekerja sebaliknya.
Dan ada semantik,yaitu proses yang sulit karena definisinya tergantung pada maksud dalam kalimat.didalam semantik ada himpunan rule dalam dasar pengetahuan untuk memaparkan sebuah kalimat.Pendekatan yang dipakai adalah pendekatan Semantic Grammar yang dipadukan dengan Dictionary dan Template Grammar.
Pada Semantik Grammar, dipakai sekumpulan aturan yang bersifat sintaksis, semantis, dan pragmatis. Hasil dari pasing dengan grammar ialah langsung seperti reprentasi semantis dari kalimat yang dibuat. Dengan pendekatan tersebut, interprentasi dari rule yang bersangkutan lebih mudah karena informasi semantic yang di butuhkan dapat dilihat dari rule yang dipakai. Terdapat beberapa kekurangan dari pendekatan ini yaitu domain sistem yang tidak begitu besar, dan domain yang akan memerlukan aturan yang baru yang lebih sesuai. Tidak hanya terjadi pembengkakan jumlah rule yang digunakan, ini terjadi karena langsung mengacu ke semantik maka terdapat banyak generalisasi linguistik yang harus di rinci lebih jauh. 


refrensi:

yuliana.lecturer.pens.ac.id (pdf)

Senin, 16 Maret 2015

Perintah terminal mesin penerjemah statistik


cd ~/moses-pba/mesin-a

>>>>cleaning + tokenisasi
~/mosesdecoder/scripts/training/clean-corpus-n.perl corpus/untan ind pnk corpus/untan.clean 1 40
perl ~/myperl/siappakai/clean.plx corpus/untan.clean.pnk corpus/untan.clean1.pnk
perl ~/myperl/siappakai/clean.plx corpus/untan.clean.ind corpus/untan.clean1.ind
~/mosesdecoder/scripts/tokenizer/lowercase.perl < corpus/untan.clean1.pnk > corpus/untan.lowercased.pnk
~/mosesdecoder/scripts/tokenizer/lowercase.perl < corpus/untan.clean1.ind > corpus/untan.lowercased.ind

>>>> training Model bahasa
~/srilm/bin/i686/ngram-count -order 3 -interpolate -unk -text corpus/untan.clean.pnk -lm lm/melayu.lm

>>>> training Model translasi
~/mosesdecoder/scripts/training/train-model.perl -root-dir . --corpus corpus/untan.lowercased --f ind --e pnk --lm 0:3:/home/herry/moses-pba/mesin-a/lm/melayu.lm:0

>>>> RUN DECODER
~/mosesdecoder/moses-cmd/src/moses -f model/moses.ini

>>>> Pengujian otomatis dengan BLEU
~/mosesdecoder/moses-cmd/src/moses -f model/moses.ini < indo.txt > pnk.abcd
~/mosesdecoder/scripts/generic/multi-bleu.perl pnk.txt < pnk.abcd


Source code cleaning dan tokenisasi


#!/usr/bin/perl
# nl.plx
# tokenisasi dan cleaning
# by. Herry S
# perintah : perl clean.plx fileinput fileoutput
use warnings;
use strict;

my $input = shift;
my $output = shift;

open INPUT, $input or die $!;
my @kalimat;
@kalimat = <INPUT>;

my $i;
my $j;
my $string;
my $string1;
my $string2;
my $string3;
my @kalimat2;


open OUT, ">$output" or die "Can't write on file $output: $!\n";
print "Proses...\n";

my $no=0;
#spasi dan length
foreach $i (@kalimat) {
#buang enter
  for ($i) {s/\n+$//;}
  $string = $i;
  my $mypj=length($string);
  if ($mypj>0 and $mypj<1000) {
    my $k1="  ";
    my $k2=" ";
    $string=~ s/$k1/$k2/g;
    $string=~ s/$k1/$k2/g;
    $kalimat2[$no]=$string;
    $no++;
  }
}

$no=0;
#spasi ujung
foreach $j (@kalimat2) {
    my $k1=substr($j,length($j)-1,1);
  if ($k1 eq " ") {
 $kalimat2[$no]=substr($j,0,length($j)-1);
}
else
{
 $kalimat2[$no]=$j;
}
  $no++;

}

$no=0;
#garis miring /
foreach $j (@kalimat2) {
    my $k1="/";
    my $k2=" / ";
  $string=$j;
  $string=~ s/$k2/$k1/g;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#koma
foreach $j (@kalimat2) {
    my $k1=",";
    my $k2=" , ";
  $string=$j;
  $string=~ s/$k2/$k1/g;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#titik
foreach $j (@kalimat2) {
  if (substr($j,  -1) eq '.') {
  $string = substr($j, 0, - 1);
  } else {$string =$j}

    my $k1='\. ';
    my $k2=" ";
  $string1=$string;
  $string1=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#tanda tanya
foreach $j (@kalimat2) {
  if (substr($j,  -1) eq '?') {
  $string = substr($j, 0, - 1).' ?';
  } else {$string =$j}

    my $k1='  \?';
    my $k2=' ?';
  $string1=$string;
  $string1=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#tanda seru
foreach $j (@kalimat2) {
  if (substr($j,  -1) eq '!') {
  $string = substr($j, 0, - 1).' !';
  } else {$string =$j}

    my $k1='  \!';
    my $k2=' !';
  $string1=$string;
  $string1=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#kurung buka
foreach $j (@kalimat2) {
    my $k1='\(';
    my $k2=' ( ';
  $string=$j;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#kurung tutup
foreach $j (@kalimat2) {
    my $k1='\)';
    my $k2=' ) ';
  $string=$j;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}


$no=0;
#kutip 2
foreach $j (@kalimat2) {
    my $k1='\"';
    my $k2=' " ';
  $string=$j;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}


$no=0;
#kutip 2
foreach $j (@kalimat2) {
    my $k1='\”';
    my $k2=' ” ';
  $string=$j;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#kutip 2 terbalik
foreach $j (@kalimat2) {
    my $k1='\“';
    my $k2=' “ ';
  $string=$j;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#kutip 1
foreach $j (@kalimat2) {
    my $k1='\'';
    my $k2=' \' ';
  $string=$j;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#last spasi
foreach $j (@kalimat2) {
    my $k1="  ";
    my $k2=" ";
  $string=$j;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#last spasi lagi
foreach $j (@kalimat2) {
    my $k1="  ";
    my $k2=" ";
  $string=$j;
  $string=~ s/$k1/$k2/g;
  $kalimat2[$no]=$string;
  $no++;
}

$no=0;
#spasi diawal
foreach $j (@kalimat2) {
    my $k1=substr($j,0,1);
  if ($k1 eq " ") {
 $kalimat2[$no]=substr($j,1,length($j)-1);
}
else
{
 $kalimat2[$no]=$j;
}
  $no++;
print ">$k1<\n";
}

$no=0;
#cetak
foreach $j (@kalimat2) {
#  $string=$kalimat2[$no];
  $no++;
#  print "1:$j";
#  print "$j\n";
  print OUT "$j\n";
}
print "Total = $no baris\n";


Senin, 02 Maret 2015

Agus Prasetyo Raharjo (D03112015) & Tonny Haryanto ( D03112043)

Pemrograman Bahasa Alami

Peranan Pengetahuan dalam Bahasa
1. Komunikasi dengan bahasa alami yaitu dengan teks atau ucapan, bergantung pada pengetahuan dari domain pembicaraan .
2. Pemahaman bahasa bukan hanya ditransmisi dari kata-kata; tapi membutuhkan inferensi tentang tujuan dan asumsi-asumsi dari pembicara dan tentang konteks interaksi
3. penerapan dari program pemahaman bahasa alami sangat membutuhkan representasi dari sejumlah besar pengetahuan dan alasan-alasan.

Masalah Bahasa Alami
1. Bahasa adalah suatu fenomena yang kompleks, yang melibatkan berbagai proses, misalnya : pengenalan suara atau huruf yang tercetak, parsing sintak, inferensi semantic tingkat tinggi dan komunikasi dari isi emosional melalui ritme dan inflection .
2. Masalah dalam pemrosesan bahasa ini secara garis besar di bagi menjadi dua:
Pemrosesan teks ,yaitu yang ditulis menggunakan leksikal, sintaksis, dan pengetahuan semantic dari bahasa.
Pemrosesan bahasa bicara, yaitu menggunakan semua informasi di atas, dan ditambahkan dengan informasi mengenai phonology.

Masalah Bahasa Alami
Dalam mengatasi kompleksitas dari bahasa alami didefinisikan tingkat analisis bahasa alami yaitu:
1. Prosody,yaitu mengerjakan ritme dan intonasi Bahasa.
2. Phonology yaitu menguji suara yang dikombinasikan untuk membentuk Bahasa.
3. Morphology yaitu mengenai komponen-komponen  pembentuk kata-kata. Termasuk aturan-aturan pengembangan formasi kata-kata seperti efek dari prefix (un-, non-, anti-, dll), dan sufiks (-ing, -ly, dll) yang memodifikasi arti dari akar kata.
4. Syntax merupakan pemahaman tentang urutan kata dalam pembentukan kalimat dan hubungan antar kata tersebut dalam suatu proses perubahan bentuk dari kalimat menjadi bentuk yang lebih sistematis. Meliputi proses pengaturan tata letak kata dalam kalimat akan membentuk kalimat yang dapat dikenali. Selain itu dapat juga dikenali bagian-bagian kalimat pada suatu kalimat yang lebih besar. Contohnya kalimat S dibentuk dari noun phrase dan verb phrase .
Sintaksis: S  NP, VP
Dan lalu :
NP  DET, N
VP  V, NP
NP  N
5. Semantics, merupakan pemetaan bentuk struktur sintaksis,yaitu  dengan memanfaatkan tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung pada struktur kalimat. Semantik yaitu mempelajari arti dari suatu kata dan bagaimana dari arti kata tersebut dapat membentuk suatu arti dari kalimat yang utuh .
6. Pragmatics, merupakan studi pada cara dimana bahasa digunakan & efeknya pada si pendengar
7. World Knowledge yaitu mencakup arti sebuah kata secara umum dan apakah ada arti khusus bagi suatu kata dalam suatu percakapan dengan konteks tertentu.
Selain itu ada lagi satu masalah yang cukup menantang dalam Natural Language yaitu ambiguitas atau makna ganda dari suatu kata atau kalimat.

Pemrosesan Bahasa Alami
Menurut Rich, pemrosesan bahasa alami dapat dibagi atas beberapa proses:
1. Morphological analysis adalah kata secara individu yang dianalisis ke dalam komponen-komponennya dan yang bukan kata, contohnya seperti tanda baca dipisahkan dari kata
2. Syntactic analysis adalah urutan linier dari kata ditransformasikan ke dalam struktur yang menunjukkan bagaimana pada kata saling berhubungan. Tata urutan kata yang melanggar aturan bahasa dalam pengkombinasian kata akan ditolak
3. Semantic analysis adalah dibuat mapping antara struktur sintaksis dan objek dalam domain kerja. Struktur dimana tidak ada mapping yang memiliki kemungkinan akan ditolak.
4. Discourse integration adalah dimana arti dari kalimat secara individu bergantung kepada kalimat-kalimat yang mendahului dan mungkin dapat mempengaruhi arti dari kalimat-kalimat yang mengikutinya
5. Pragmatic analysis adalah dimana struktur yang merepresentasikan apa yang diucapkan, diintepretasikan kembali guna menentukan apa arti sebenarnya.

Proses Sintaksis
Proses sintaksis( parsing ), adalah suatu langkah dimana kalimat masukan secara flat dan diubah ke dalam struktur hirarkis yang memiliki hubungan dengan unit-unit arti dalam kalimat.
Proses sintaksis berperan dalam pemahaman bahasa alami dikarenakan :
a. Proses semantic harus beroperasi dalam pilihan-pilihan kalimat. Jika tidak terdapat tahapan parsing sintaksis maka sistem semantic harus memutuskan atas pilihannya sendiri. Jika parsing dilakukan, maka akan membatasi pilihan-pilihan dari semantic
b. Tidak selalu dimungkinkan untuk mengekstrak arti kalimat tanpa menggunakan fakta gramatikal
Komponen yang ddigunakan oleh sistem, yaitu:
a. Representasi deklaratif, (grammar), fakta sintaksis tentang Bahasa.
b. Prosedur (parser), dimana membandingkan grammar dengan kalimat-kalimat masukan untuk membentuk struktur yang dianalisis.

Gramatika
Grammar merupakan suatu bahasa atau dapat dilihat sebagai aturan yang menentukan apakah suatu kumpulan kata dapat diterima sebagai kalimat oleh bahasa tersebut. Grammar dari Chomsky Hierarchy yaitu Context Free Grammar lebih mudah dipahami perilakunya dan pengolahannya serta masih dapat diolah dalam bentuk program yang terstruktur. Suatu bahasa L dapat dijelaskan sebagai set dari string, string dibentuk dari bagian terkecil yang disebut symbol. Kelompok tertentu v dari symbol biasa dikenal sebagai alfabet atau perbendaharaan kata. Sebuah kalimat yang dapat dikenali dibentuk dengan berdasarkan aturan-aturan yang ada yang biasa disebut grammar. Sebuah grammar G dapat dibentuk dari 4 tuple yaitu: simbol non terminal, simbol terminal, simbol awal, dan aturan penulisan atau (rules). Definisinya adalah sebagai berikut:


Suatu kalimat tersebut apabila dicari pembentukannya melalui grammar G dapat dikatakan benar akan tetapi harus diingat bahwa kalimat dengan grammar yang benar hanya berarti benar secara struktural bukan berarti selalu benar dalam makna. Seperti kalimat ketika yang benar apabila berada dalam konteks “orang memakai alat” misalnya pesawat terbang. Sedangkan kalimat keempat justru sama sekali tidak mungkin dapat dimengerti maknanya, selain hanya akan menimbulkan tanda tanya bagi orang yang membaca. Dari grammar dapat mempelajari bahasa dari segi struktur dan bukan dari segi makna bahasa itu sendiri.

Sumber : http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CBsQFjAA&url=http%3A%2F%2Fapranolo.tif.uad.ac.id%2Fwp-content%2Fuploads%2F2014%2F12%2FBab-5-Natural-Language-Processing.pdf&ei=4w71VMXsFYW-mAXM2oGQDw&usg=AFQjCNHu1sL_fQP-zEC7LCcEMLvOeXIXhA&sig2=yrmTmh5qY-s4DYJCPwyOHA&bvm=bv.87269000,d.dGY
 

Eric Nur Romadhon(D03112009)

PEMROSESAN BAHASA ALAMI
(Natural Language Processing)

Sumber : http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CBsQFjAA&url=http%3A%2F%2Fapranolo.tif.uad.ac.id%2Fwp-content%2Fuploads%2F2014%2F12%2FBab-5-Natural-Language-Processing.pdf&ei=4w71VMXsFYW-mAXM2oGQDw&usg=AFQjCNHu1sL_fQP-zEC7LCcEMLvOeXIXhA&sig2=yrmTmh5qY-s4DYJCPwyOHA&bvm=bv.87269000,d.dGY

A.    PEMBAHASAN
Bahasa merupakan bagian dari kehidupan sehari - hari pada manusia, bahasa dalam bentuk tulisan merupakan catatan dari pengetahuan manusia pada setiap generasi. Sedangkan bahasa dalam bentuk lisan yaitu komunikasi antara individu di suatu tempat lingkungan masyarakat. Tujuan pengolahan bahasa alami ini yaitu melakukan proses pembuatan model dari bahasa, agar tercipta suatu interaksi antar manusia dan komputer dengan bantuan peralatan bahasa alami. Metode ini sangat berguna untuk peneliti sifat-sifat dari suatu bahasa alami, keperluan sehari - hari dan memudahkan manusia untuk berkomunikasi dengan komputer. Sebuah pengolahan bahasa alami harus memperhatikan dari segi kata yang di gunakan, sehingga kata - kata tersebut di gabungkan untuk menghasilkan suatu kalimat yang memiliki arti dan fungsi kata dalam sebuah kalimat. Prinsip bahasa alami adalah suatu bentuk representasi dari suatu pesan yang diingin di komunikasikan antar individu seseorang. Bentuk utama representasinya yaitu berupa suara / ucapan, selain itu sering juga dalam bentuk tulisan.
Perkembangan ilmu dan teknologi komputer sangat pesat, terbukti bahwa komputer telah dirancang sebagai “komputer cerdas” yang dapat berkomunikasi dengan manusia, serta dapat berfikir seperti manusia dan memberikan solusi dalam suatu ruang lingkup yang telah di tentukan. Komputer akan lebih mudah digunakan apabila komputer tersebut mengerti perintah - perintah bahasa alami manusia.
Pengolahan Bahasa Alami (Natural Language Processing) mengenal beberapa tingkatan pengolahan bidang - bidang pengetahuan yaitu :
1.    Fonetik dan fonologi merupakan suara yang dapat menghasilkan sebuah atau beberapa kata yang dapat di kenali oleh komputer.
2.    Morfologi merupakan pengetahuan kata yang di manfaatkan untuk membedakan suatu kata dengan kata lainnya.
3.    Sintaksis merupakan pemahaman berdasarkan urutan kata dalam pembuatan kalimat dan hubungan dari beberapa kata tersebut dalam proses perubahan kalimat menjadi bentuk yang sistematis.
4.    Sistemantik yaitu bentuk struktur sintaksis yang memanfaatkan setiap kata ke dalam bentuk yang lebih dasar serta tidak tergantung struktur pada suatu kalimat.
5.    Pragmatik adalah pengetahuan yang berkaitan pada masing-masing konteks yang berbeda berdasarkan tujuan dan situasi pembuatan sistem.
6.    Discourse Knowledge merupakan pengenalan suatu kalimat yang sudah di kenali sebelumnya apakah mempengaruhi arti dari kalimat selanjutnya.
7.    World Knowledge adalah cakupan arti dari kata secara umum.

B.    TUJUAN PEMROSESAN NATURAL LANGUAGE
Tujuan dalam bidang bahasa alami (Natural Language) ini adalah melakukan proses pembuatan model komputasi dari suatu bahasa, sehingga dapat terjadi suatu interaksi antara manusia dengan komputer dengan peralatan bahasa alami.

C.    KOMPONEN – KOMPONEN PEMROSESAN BAHASA ALAMI (Natural Language Processing)
    Ilmuan yang bernama Firebaugh (1988) mengatakan ada 2 fungsi utama pada sistem pengolahan bahasa alami, yaitu :
1.    Menyediakan alat-alat analisis seperti lexical dan syntactic, yaitu pendeteksi ejaan dan bentuk, daftar kata dan indek yang berisi generator, dan program analisis tekstual untuk verifikasi authorship, sehingga tujuan bagian ini yaitu menyatakan bahwa kalimat tersebut di terima/dihasilkan benar dan dapat di kelolah oleh sistem.
2.    Menyediakan komunikasi antarmuka atau front-end untuk aplikasi tertentu, seperti pencarian informasi dan sistem managemen pada basisdata.

D.    APLIKASI DALAM BIDANG NATURAL LANGUAGE
Jenis aplikasi yang dibuat pada bidang bahasa alami yaitu :
1.    Text – based application.
2.    Dialogue – based applications.
Text – based application mencakup segala macam aplikasi yang bekerja dengan proses terhadap text tertulis seperti buku, berita di surat kabar, e-mail dll. Contoh penggunaan pada text – based application adalah:
a.    Mencari topik yang diinginkan pada buku yang ada di perpustakaan.
b.    Mencari isi dari suatu surat e-mail.
c.    Menterjemahkan dokumen dari dari suatu bahasa ke bahasa lainnya.
Akan tetapi tidak semua sistem dapat melakukan hal-hal tersebut menggunakan pendekatan bahasa alami, salah satu contohnya karena pencarian topik dari suatu buku di perpustakaan dapat dengan cara sistem database yang lengkap. Tetapi jika di hadapkan pada suatu pertanyaan yang kompleks dengan bahasa alami yang ada, maka akan di rasakan bahwa pendekatan menggunakan bahasa alami lebih efisien. Salah satu bentuknya adalah apabila sistem diminta untuk mencari isi dari artikel ada suatu berita, untuk hal tersebut pendekatan yang akan di lakukan hamper sama dengan pendekatan yang akan di lakukan manusia apabila menghadapi suatu tes reading dan comprehension.
    Dialog – based application, pendekatan ini melibatkan bahasa lisan (pengenalan suara), akan tetapi pada bidang ini juga memasukan interaksi dengan cara memasukan teks pertanyaan dengan menggunakan keyboard. Aplikasi ini sering di gunakan pada bidang :
a.    Sistem Tanya jawab, dimana bahasa alami digunakan untuk mendapatkan informasi dari suatu database.
b.    Sistem otomatis pelayanan yang terdapat pada telepon.
c.    Control suara yang terdapat pada peralatan elektronik.
d.    Sistem problem – solving, sistem ini membantu untuk melakukan penyelesaian suatu masalah yang umum dihadapi pada suatu pekerjaan.














Pemrosesan Bahasa Alami (PBA)

Nama : Muhamad Hafiz Waliyuddin
NIM    : D03112042
MK      : Pemrosesan Bahasa Alami (PBA)

Pemrosesan Bahasa Alami (PBA)
PBA merupakan cabang ilmu baru dari kecerdasan buatan yang pada dasarnya menitikberatkan kepada interaksi manusia dan komputer. PBA juga dapat diartikan sebagai teknik komputasi dan analisis linguistik dalam tujuannya menganalisa dan merepresentasikan bahasa manusia ke dalam bahasa komputer, tentunya bahasa yang dipahami komputer sehingga ia bisa melakukan apa yang perintahkan sesuai dengan apa yang dipikirkan manusia. Berkembangnya PBA merupakan gabungan dari berbagai cabang keilmuan, yakni Linguistik dengan bahasanya yang formal, Ilmu Komputer dalam kerjanya mengolah data serta efektifitas proses, dan berhubungan dengan psikologi serta peranannya terhadap proses kognitif manusia.
Tujuan dari PBA yang mana merujuk pada sistem berbasis Natural Languade Understanding (NLU). NLU memiliki tujuan utamanya, yakni :
1. Parafrase masukan teks
2. Menerjemahkan teks ke dalam bahasa lain
3. Menjawab pertanyaan yang terkandung dalam teks
4. Menarik kesimpulan dari teks
Dari keempat tujuan tersebut, PBA lebih mengutamakan pada tiga tujuan pertama.
PBA secara garis besar terbagi menjadi dua fokus yang berbeda yakni pemrosesan bahasa dan generasi bahasa. Pemrosesan bahasa mengarah pada analisis bahasa sebagai pendengar dengan maksud untuk mendapat representasi makna, sedangkan disisi lainnya generasi bahasa mengarah terhadap produksi bahasa dari sebuah maksud yang diinginkan.
Beberapa teknologi yang sekarang-sekarang ini lagi populer terdengar yang mengimplementasikan PBA yaitu :

-Simsimi
Adalah apliasi yang lebih menitikberatkan interaksi manusia dan komputer dengan bahasa alami atau bahasa manusia sebagai fungsi utamanya adalah hiburan.
-SIRI dan IRIS
SIRI dan IRIS adalah aplikasi sejenis Simsimi, namu perbedaannya adalah input yang diterima berupa voice atau suara, sehingga diperlukannya speech recognition.

PBA mngenal beberapa tingkatan pemrosesan, yakni :

Selanjutnya juga dijelaskan bidang-bidang ilmu pengetahuan yang sangat berhubungan dengan ilmu Natural Language Processing :
1.Fonetik dan fonologi : Bidang pengetahuan ini berkaitan dengan kata yang dihasilkan oleh suara dapat diketahui. Proses aplikasi yang menggunakan metoda speech based system sangat bergantung pada bidang pengetahuan ini.
2.Morfologi : Pemanfaatan untuk perbedaan satu kata dengan yang lainnya termasuk kedalam bidang pengetahuan ini yang lebih terkait tentang kata dan bentuknya. Antara kata dan elemen lain seperti tanda baca terpisahkan pada tingkatan ini.
3.Sintaksis : Dalam membentuk kalimat dan hubungan antar kata diperlukannya pemahaman tentang urutan kata sehingga proses berubahnya bentuk dari kalimat yang menjadi bentuk yang sistematis. Bidang pengetahuan ini meliputi proses pengaturan tata letak suatu kata dalam kalimat yang akan membentuk kalimat yang dapat dikenali. Dalam bagian-bagian kalimat yang lebih besar sehingga itu dapat dikenali.
4.Semantik : Pemanfaatan tiap kata kedalam bentuk yang lebih mendasar dan juga tidak bergantung pada struktur kalimat maka pemetaan bentuk struktur sintaksis dapat terproseskan. 
5.Pragmatik : Bidang pengetahuan pada level ini sangat erat hubungannya dengan masing-masing konteks yang berbeda, tergantung pada tujuan dibuatnya sistem dan pada situasi apa konteks-konteks tersebut.
6.Discourse Knowledge : Pengenalan terlebih dilakukan pada kondisi apakah suatu kalimat yang telah dibaca dan diketahui pada saat sebelumnya akan sangat berpengaruh terhadap arti dari kalimatnya selanjutnya. Informasi sangat penting untuk dipahami dikarenakan melakukan pengolahan arti terhadap kata ganti orang dan mengartikan aspek sementara dari sebuah informasi yang didapat.
7.World Knowledge : Bidang pengetahuan ini telah mencakup ke dalam sebuah arti kata secara umum dan apakah benar ada arti kata khusus terhadap suatu kata dalam suatu percakapan dengan konteks tertentu.

Pengertian ini bukanlah bersifat tetap, dan kedepannya untuk setiap bentuk bahasa alami yang biasanya ada pendefinisian lagi yang lebih khusus  sesuai dengan karakter bahasa tersebut. Banyaknya permasalahan mungkin hanya mengambil beberapa dari pendekatan tersebut, bahkan kemungkinan ada yang melakukan tambahan proses sesuai dengan karakter yakni bahasa yang telah dipergunakan dan sistem yang terbentuk rapi.
Dari bidang-bidang pengetahuan diatas tadi, masih ada lagi satu masalah yang cukup menguji mental atau sesuatu yang menantang dalam Natural Language yakni ambiguitas atau makna ganda dari suatu kata ataupun kalimat. Arti kata yang berbeda terjadi apabila dari satu masukan yang sama dapat menjadi beberapa arti yang berbeda dan masing-masing dapat bernilai benar. Dari satu masukan yang sama dapat menjadi beberapa arti yang berbeda dan diantara masing-masing tersebut dapat dinilai baik, bergantung terhadap keperluan pengguna. Hal tersebut dapat terjadi disemua tingkatan yang berada diatas.

GRAMATIKA
Merupakan suatu bahasa yang terlihat sebagai suatu aturan yang akan menentukan, apakah suatu kumpulan kata dapat diterima sebagai kalimat oleh bahasa tersebut. Context Free Grammar telah mempunyai sifat mudah dipahami pelakunya dan pengolahannya serta masih dapat diolah kembali dalam bentuk program yang telah terstruktur rapi.  

PARSING
Merupakan suatu proses penganalisaan kumpulan kata dengan memisahkan kata tersebut dan penentuan struktur sintaksis dari setiap kata tersebut. Gramatika yang digunakan juga sangat berhubungan dengan proses parsing apa yang akan diterapkan.

Sumber : 
(makalah mahasiswa ITB)
http://www.scribd.com/doc/142986284/Teknologi-Berbasis-Integrasi-Pemrosesan-Bahasa-Alami-Dan-Visi-Komputer-Dalam-10-Tahun-Kedepan#scribd

http://yuliana.lecturer.pens.ac.id/Kecerdasan%20Buatan/Buku/Bab%205%20Natural%20Language%20Processing.pdf.