==== training language model ~/mosesdecoder32/srilm/bin/i686/ngram-count -order 3 -interpolate -unk -text corpus/corpus.lowercased.kh -lm lm/kh.lm
(contoh nama language model : kh.lm)
==== training translation model ~/mosesdecoder32/mosesdecoder/scripts/training/train-model.perl -root-dir . --corpus corpus/corpus.lowercased --f id --e kh --lm 0:3:/home/user/pba2017/lm/kh.lm:0
==== test decoder ~/mosesdecoder32/mosesdecoder/moses-cmd/src/moses -f model/moses.ini
BLEU ~/mosesdecoder32/mosesdecoder/moses-cmd/src/moses -f model/moses.ini < intest > out ~/mosesdecoder32/mosesdecoder/scripts/generic/multi-bleu.perl ref < out catatan :
intest : file yang berisi kalimat sumber uang akan diuji
out : file hasil terjemahan mesin
ref : file yang berisi kalimat target yang diterjemahkan secara manual
k = 5
Contoh :
Jumlah parallel corpus = 1000
Bagi corpus menjadi 5 bagian :
Fold A : 1-200
Fold B : 201-400
Fold C : 401-600
Fold D : 601-800
Fold E : 801-1000
Siapkan 5 mesin di folder yang berbeda :
Mesin 1 :
Fold A sebagai Kalimat penguji
Fold B,C,D dan E sebagai corpus yang ditraining menjadi model
Mesin 2 :
Fold B sebagai Kalimat penguji
Fold A,C,D dan E sebagai corpus yang ditraining menjadi model
Mesin 3 :
Fold C sebagai Kalimat penguji
Fold A,B,D dan E sebagai corpus yang ditraining menjadi model
Mesin 4 :
Fold D sebagai Kalimat penguji
Fold A,B,C dan E sebagai corpus yang ditraining menjadi model
Mesin 3 :
Fold E sebagai Kalimat penguji
Fold A,B,C dan D sebagai corpus yang ditraining menjadi model
Buat Tabel hasil pengujian :
Mesin | Corpus Training | Corpus Uji | Nilai BLEU
Mesin1 | B,C,D,E | A | 60,66
Mata Kuliah : Pemrosesan Bahasa Alami Semester : VI Nama : Veronika Apriani D03112032 & Indah Jong D03112024
PEMROSESAN BAHASA ALAMI
Pemrosesan Bahasa Alami (disingkat PBA) atau Natural Languange Processing (disingkat NLP), merupakan salah satu ilmu komputer yang membahas tentang interaksi antara komputer dan bahasa manusia atau bahasa alami. Bahasa alami pada umumnya merupakan bentuk suatu pesan yang ingin disampaikan melalui komunikasi antar manusia. Bentuk utamanya dari bahasa alami yaitu berupa suara atau ucapan (spoken languange), dan juga bisa dalam bentuk berupa tulisan. Pemrosesan bahasa alami juga merupakan cabang dari kecerdasan buatan (Artificial Intelegent) dan bidang kajiannya bersinggungan dengan linguistik (bahasa) komputasional. Kajian dari pemrosesan bahasa alami ini antara lain mengenai segmentasi tuturan (speech segmentation), segmentasi teks (text segmentation), penandaan kelas kata (part-of-speech tagging), serta pengawataksaan makna (word sense disambiguation). Tujuan manusia mempelajari tentang pemrosesan bahasa ini adalah dapat melakukan proses pembuatan model komputasi dari bahasa yaitu dapat membuat suatu mesin mampu untuk mengerti dan memahami makna dari bahasa manusia (bahasa alami) kemudian mesin tersebut dapat memberikan respon/tanggapan yang tepat dan sesuai, sehingga dapat terjadi interaksi antara komputer dan manusia dan dengan perantaranya adalah bahasa alami. Berikut ini adalah bidang-bidang yang berkaitan dengan pengolahan bahasa alami: 1. Fonetik dan Fonologi Fonetik dan Fonologi merupakan bidang yang berhubungan dengan pengolahan suara yang dapat menghasilkan kata-kata yang dapat dikenali. Penggunaannya yaitu pada aplikasi yang menggunakan metode speech-based system. 2. Morfologi Morfologi merupakan bidang pengetahuan mengenai kata dan bentuknya yang dimanfaatkan dalam membedakan satu kata dengan kata yang lainnya , serta terdapat pemisahan antara kata dan elemen-elemen lainnya (tanda baca).
3. Sintaksis Sintaksis merupakan bidang yang mencakup pemahaman tentang urutan-urutan kata dan pembentukkan kata-kata menjadi sebuah kalimat , serta mencakup hubungan antar kata dalam proses perubahan bentuk dari kalimat menjadi hal yang sistematis. 4. Semantik Semantik merupakan bidang yang memetakan bentuk struktur sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih dasar dengan tidak terpengaruh dengan struktur suatu kalimat. 5. Pragmatik Pragmatik merupakan bidang yang berkaitan dengan tingkatan suatu pengetahuan dari masing-masing konteks yang berbeda dan dikondisikan pada situasi dan tujuan dari pembuatan sistem. 6. Discourse knowledge Discourse knowledge merupakan bidang yang mengenalkan apakah suatu kalimat yang telah dibaca dan dikenali sebelumnya mempengaruhi arti dari kalimat selanjutnya. Informasi diketahui untuk melakukan pengolahan arti terhadap kata ganti orang dan untuk mengartikan aspek sementara dari informasi. 7. World knowledge World knowledge merupakan bidang yang mencakup arti dari suatu kata secara umum dan khusus dalam percakapan.
Kategori Aplikasi Teknologi Natural Language Processing (NLP) atau Pemrosesan Bahasa Alami adalah teknologi yang memungkinkan melakukan berbagai pemrosesan bahasa alami yang biasa digunakan oleh manusia. Sistem ini biasanya mempunyai input dan output berupa teks. Pemrosesan bahasa alami mempunyai banyak aplikasi dan di bawah ini beberapa kategori aplikasinya adalah sebagai berikut: 1. Natural Language Translator Translator yang menerjemahkan satu bahasa alami ke bahasa alami lainnya, misalnya translator bahasa Indonesia ke bahasa Inggris, bahasa Indonesia ke bahasa Mandarin dan contoh-contoh lainnya. Translator bahasa alami tidak hanya kamus yang menerjemahkan kata per kata namun harus bisa menerjemahkan sintaks dari bahasa asal ke bahasa tujuannya.
2. Translator bahasa alami ke bahasa buatan yaitu translator yang di mana sebuah mesin atau komputer mampu mengubah perintah-perintah dalam bahasa alami menjadi bahasa buatan. Contoh: translator yang memungkinkan kita memberikan perintah bahasa alami kepada komputer. Dengan sistem seperti ini, pengguna sistem dapat memberikan perintah dengan bahasa sehari-hari.
3. Text Summarization yaitu sistem yang dapat ”membuat ringkasan” hal-hal penting dari suatu kalimat-kalimat yang diberikan.
Jenis-jenis aplikasi yang terdapat pada bidang pengolahan bahasa alami, antar lain: 1. Text-based application Text-based application merupakan berbagai macam aplikasi yang dapat memproses teks tertulis seperti untuk mencari topik utama dari sebuah buku, mencari isi dari e-mail, menerjemahkan suatu dokumen dan suatu bahasa ke bahasa yang lain. 2. Dialogue-base application Dialogue-base application merupakn sutu pendekatan yang mencakup bahasa lisan seperti pengenalan suara, dan juga interaksi yang dilakukan dengan cara menginput atau memasukkan teks melalui keyboard. Aplikasi yang diterapkan pada dialogue-base: - sistem tanya jawab, dimana pemrosesan bahasa alami digunakan untuk mendapatkan inforamasi dari database - sistem pelayanan melalui telepon secara otomatis - pengontrol suara pada alat elektronik - sistem problem solving membantu melakukan penyelesaian masalah yang umum dihadapi dalam suatu pekerjaan
Komponen Utama Bahasa Alami Ada tiga komponen utama: • Parser sistem yang dimana mengambil kalimat input bahasa alami dan menguraikan kalimat tersebut ke dalam bagian-bagian gramatikal (kata benda, kata kerja, kata sifat, dan lain-lain). • Sistem Representasi Pengetahuan sistem yang menganalisis output dari parser untuk menentukan artinya. • Output Translator Merupakan terjemahan yang merepresentasikan sistem pengetahuan dan melakukan langkah- langkah yang berupa jawaban bahasa alami sesuai dengan program komputer lainnya.
Bahasa adalah suatu hal yang sangat amat terpenting dalam kehidupan manusia baik itu dalam bentuk tulis yang terbentuk dalam catatan pengetahuan yang didapat oleh umat manusia dari generasi ke generasi berkutnya, maupun dalam bentuk lisan yang disini adalah sebagai sarana komunikasi antar individu dengan individu maupun kelompok dengan kelompok dalam suatu masyarakat.
Tujuan bidang "Natural Language" ini adalah melakukan suatu proses pembuatan model yang terkomputerisasi dengan perantaranya adalah bahasa, sehingga dapat terjadi suatu interaksi antara manusia dengan komputer engan perantaranya adalah bahasa alami. Model komputerisasi ini dapat berguna dalam ilmiah misalnya meneliti sebuah sifat dari bentuk suatu bahasa alami maupun memudahkan komunikasi antara manusia dan komputer.
Natural Language Processing “NLP” adalah salah satu ilmu/bidang dalam ilmu komputer, kecerdasan buatan, dan bahasa (linguistik) yang selalu berkaitan dengan interaksi antara komputer dengan bahasa alami manusia. Tujuan utama dari studi bidang Natural Language Processing “NLP” adalah untuk membuat mesin yang mampu, mengerti dan memahami makna dan arti dari bahasa manusia lalu memberikan respon yang sesuai yang diinginkan.
Natural Language Processing “NLP” atau Pemrosesan Bahasa Alami adalah merupakan salah satu tujuan untuk jangka panjang dari Artficial Intelegence “A.I” (kecerdasan buatan) yaitu sebuah metode pembuatan program yang memiliki kemampuan dan kepintaran untuk memahami bahasa manusia. Pada dasarnya bahasa alami adalah suatu bentuk representasi/wujud dari sebuah pesan yang ingin dikomunikasikan antar manusia. Bentuk utama dari representasinya adalah berupa suara atau berupa ucapan (spoken language), yang sering pula dinyatakan dan diwujudkan dalam bentuk tulisan.
Inti dari Natural Language Processing atau pemrosesan bahasa alami adalah penguraian kalimat atau sering disebut dengan Parser. Parser sendiri berfungsi untuk membaca sebuah kalimat, kata per kata dan menentukan jenis kata apa saja yang boleh diikuti dari kata-kata tersebut. Dalam sebuah pemahaman suatu bahasa ada beberapa bidang-bidang atau ilmu yang juga harus dan diwajibkan diikut sertakan yaitu adalah Morfologi, Semantik, Fonologi, Sintaksis, dan Pragmatik.
B.Sejarah Natural Language Processing (NLP)
Sejarah Natural Language Processing “NLP” sendiri dimulai pada tahun 1950-an, Dan pada tahun 1950, Alan Turing mempublikasikan sebuah artikel terkenal yang berjudul “Computing Machinery and Intelligence” yang di dalamnya terdapat seorang Alan Turing mengusulkan sebuah tes yang sekarang terkenal disebut dengan istilah Turing Test. Tes Turing sendiri adalah sebuah tes yang dimana mengukur kemampuan mesin (dalam hal ini sebuah program komputer) untuk dapat menunjukan perilaku cerdas. Dalam sebuah ilustrasi contoh aslinya, seorang juri yang dimana disini manusia akan terlibat dalam percakapan dengan manusia dan mesin yang akan ditest. Semua peserta dipisahkan antara satu sama lain. Jika sang juri tidak bisa membedakan yang antara manusia dan mesin, maka sebuah mesin tersebut dikatakan lulus test.
C.Komponen Utama Natural Language Proccesing /Bahasa Alami
Natural Language Processing atau Pengolahan bahasa alami terdiri dari 3 bagian atau komponen utama, yaitu : Parser, Pengolahan Output, dan Sistem Representasi Pengetahuan
1.Parser
Suatu sistem/metode yang mengambil kalimat inputan bahasa alami dan memecahnya ke dalam beberapa bagian gramatikal (kata benda, kata kerja, kata sifat, dan lain-lain).
2.Output Translator
Suatu sistem/metode terjemahan yang dapat menampilkan sistem pengetahuan dan dapat melakukan langkah- langkah yang bisa saja berupa jawaban atas sebuah bahasa alami atau sebuah output khusus yang pas/sesuai dengan program komputer yang lainnya.
3.Sistem Representasi Pengetahuan
Suatu sistem/metode yang dapat menganalisis sebuah output Parser untuk menentukan makna atau artinya.
D.Kategori Aplikasi Natural Language Procesing /Pengolahan Bahasa Alami
Teknologi Natural Language Processing (NLP) atau Pemrosesan Bahasa Alami adalah teknologi yang memungkinkan untuk melakukan berbagai macam proses pemrosesan terhadap sebuah bahasa alami yang biasa digunakan oleh manusia dikehidupan sehari-hari. Sebuah Sistem ini biasanya dapat mempunyai sebuah masukan dan sebuah keluaran berupa Teks. Natural Language Processing mempunyai aplikasi yang sangat luas ruang lingkupnya. Beberapa diantara terdapat berbagai kategori aplikasi NLP adalah sebagaimana sebagai berikut :
1. Natural Language Translator, yaitu sebuah translator dari satu bahasa alami ke sebuah bahasa alami lainnya, misalnya translator bahasa Indonesia ke bahasa Inggris, Bahasa Indonesia ke Bahasa Spanyol dan sebagainya. Sebuah Translator bahasa alami yang bukan hanya kamus yang dapat menerjemahkan kata per kata seperti biasa, tetapi harus juga mentranslatekan sintaks-sintaks dari bahasa asal ke bahasa tujuan yang diinginkan.
2. Translator bahasa alami ke bahasa buatan, yaitu sistem translator yang dapat mengubah sebuah perintah-perintah dari bahasa alami menjadi sebuah bahasa buatan yang dapat dieksekusi dengan mudah oleh mesin atau komputer. Sebagai sebuah contoh, translator yang memungkinkan kita dapat memberikan suatu perintah dengan bahasa alami kepada komputer. Dengan sistem seperti ini, maka pengguna sistem dapat memberikan perintah-perintah dengan menggunakan bahasa sehari-hari, misalnya, untuk mengcopy semua file, pengguna cukup memberikan perintah kepada komputer yaitu ”komputer, tolong copy semua file !” Translator akan otomatis mentranslatekan perintah dari bahasa alami tersebut menjadi sebuah perintah dalam bahasa formal yang dapat dipahami oleh komputer, yaitu ”dir *.* ”.
3. Text Summarization, yaitu sebuah sistem yang mampu ”membuat ringkasan” dari hal-hal yang penting dari sebuah wacana yang diberikan.
PBA (Pemrograman Bahasa Alami) atau NLP (Natural Language Processing) merupakan salah satu cabang dari ilmu komputer dan linguistik atau ilmu tentang bahasa (manusia) yang berhubungan dengan interaksi antara seperangkat alat komputer dan bahasa alami (manusia). Pemrograman Bahasa Alami juga sering dikatakan bagian dari kecerdasan buatan dan bidang kajian atau bahasan yang berkaitan dengan linguistik komputer. Tujuan dalam bidang ini adalah melakukan pemrosesan model komputasi dari bahasa, sehingga akan terjadi suatu hubungan atau interaksi antara manusia dengan komputer dengan perantara bahasa alami. Model ini berguna untuk keperluan ilmiah maupun untuk keperluan sehari-hari yaitu memudahkan komunikasi antara manusia itu sendiri dan komputer.
Tingkat Pemrograman Bahasa Alami (Natural Language Processing) memiliki hubungan dengan bidang-bidang pengetahuan yang digunakan yaitu sebagai berikut : 1. Fonetik dan Fonogi : bidang yang berhubungan dengan voice (suara) yang dapat menghasilkan kata-kata yang dapat dikenali. Bidang ini bisa menjadi penting dalam suatu proses suatu aplikasi yang menggunakan metode speech based system. 2. Morfologi : bidang yang berkaitan pengetahuan tentang kata dan bentuknya digunakan untuk membedakan satu kata dengan kata lainnya. Pada bidang ini atau tingkat ini juga dapat dipisahkan antara kata atau kalimat dan bentuk lain, tanda baca dsb. 3. Sintaksis : bidang yang membahas tentang pemahaman tentang urutan kata dalam pembentukan kalimat dan interaksi antar kata tersebut dalam proses perubhana bentuk dari kalimat itu sendiri menjdi bentuk yang lebih sistematis. Meliputi proses pengaturan atau pengolahan tata letak kata dalam kalimat akan membentuk kalimat yang dapat dikenali dan dapat pula dikenali bagian-bagian kalimat dalam suatu kalimat yang lebih besar lagi. 4. Semantik : bidang yang mengolah pemetaan bentuk susunan sintaksis dengan memanfaatkan tiap kata ke dalam bentuk yang lebih mendasar dan mandiri dari susunan kalimat. Semantik mempelajari arti suatu dan bagaimana arti kata tersebut membentuk suatu arti dari kalimat yang utuh. 5. Pragmatik : bidang pengtahuan yang ada disini berkaitan dengan konteks yang tidak sama tergantung pada situasi dan tujuan dari pemrosesan sistem. 6. Discourse Knowledge : bidang tentang pengenalan suatu kalimat itu sudah dibaca dan dikenali sebelumnya akan mempengaruhi arti dari kalimat selanjutnya. Informasi ini tergolong penting untuk proses pengolahan arti terhadap kata ganti orang dan mengartikan aspek sementara dari informasi. 7. World Knowledge : bidang yang meliputi arti sebuah kata secara umum dan apakah arti khusus atau spesifik bagi suatu kata dalam suatu perbincangan dengan konteks tertentu. Definisi-definisi tersebut bersifat fleksibel atau tidak baku, dan untuk bentuk bahasa alami yang sudah ada biasanya ada pendefinisian lagi yang lebih khuus sesuai karakter bahasa tersebut. Selanjutnya, masih ada satu masalah dalam Pemrograman Bahasa Alami yaitu ambiguitas atau makna lain dari suatu kata atau kalimat itu sendiri.
Jenis-jenis aplikasi yang digunakan atau dibuat pada bidang-bidang ini, adalah : Text – Based Application dan Dialogue – Based Applications Text – Based Application mencakup segala macam aplikasi-aplikasi yang melakukan proses atau pengolahan terhadap teks tertulis misalnya buku, surat kabar, email dan sebagainya. Sedangkan Dialogue – Based Applications melibatkan bahasa lisan atau pengenalan voice (suara), akan tetapi bidang ini juga memasukkan hubungan atau interaksi dengan cara memasukkan teks pertanyaan melalui keyboard. Salah satu aplikasi yang digunakan adalah : Sistem tanya jawab, pemrograman bahasa alami digunakan mendapatkan informasi dari suatu database. Tetapi, sebelumnya harus diberikan batasan bahwa untuk sistem yang dapat melakukan hubungan melalui bahasa lisan ada bagian speech recognition yang merupakan bagian terpisah dari bahasa alami.
Gramatika Grammar dari Chomsky Hierarchy yaitu Context Free Grammar mempunyai sifat-sifat lebih mudah dimengerti perilakunya dan pengolahan serta masih dapat diolah dalam bentuk program yang tersusun. Sebuah bahasa L disebut symbol yaitu string yang dbentuk dari bagian terkecil bisa dijelaskan sebagai set dari string. Suatu kelompok v dari symbol biasa dikenal sebagai perbendaraan kata. Grammar adalah sebuah kata atau kalimat yang dapat dikenali dengan berdasarkan atuan-aturan yang sudah ada. Grammar dapat dibentuk dari 4 tuple yaitu : simbol non-terminal, simbol terminal, simbol pertama atau awal dan rules penulisan. Tetapi, betul dalam grammar bukan berarti pasti benar, bisa saja benar secara struktural tapi bukan berarti selalu benar dalam arti.
Parsing Parsing merupakan suatu proses atau pengolahan menganalisa suatu kumpulan kata dengan memisahkan kata tersebut dan menentukan susunan atau struktur sintaksis dari tiap kata tersebut. Proses parsing dapat dibagi menjadi dua bagian besar yaitu Bottom Up Parsing dan Top Down Parsing dalam mengenali struktur suatu kalimat. Mencari dari simbol-simbol terminal menuju ke arah pembentukan simbol awal s yang disebut Bottom Up Parser dan Bottom Up Parsing sebaliknya.
Semantik Semantik memiliki kumpulan aturan-aturan dalam basis pengetahuan untuk menginterprestasikan sebuah kalimat. Aturan 1 : IF derminer merupakan bagian awal dalam kalimat dan diikuti oleh noun THEN noun tersebut dianggap sebagai subyek. Aturan 2 : IF verb menjelaskan tentang apa yang dikerjakan oleh subyek yang diikuti subyek THEN. Aturan 3 : IF noun dianggap sebagai obyek dikarenakan diikuti subyek dan verb THEN. Aturan 4 : IF kalimat mempunyai bentuk subyek, ver, obyek THEN subyek mengerjakan (verb) yang ada hubungannya dengan obyek. Kalimat yang diinginkan akan ditrigger aturan 1 yang mengindentifikasikan plane sebagai subyek, kemudian aturan 2 menjelaskan bahwa plan flew. Selanjutkan aturan 3 dan 4 mengindentifkasikan home sebagai subyek. Jadi, semantik adalah proses yang rumit dikarenakan hal ini tergantung pada maksud atau makna dalam kalimat dan juga adanya kemungkinan arti lain dalam kalimat. Pendekatan yang digunakan merupakan pendekatan Semantic Grammar yang dipadukan dengan Dictionary tambahan dan Template Grammar. Semantic Grammar dipilih sebagai grammar utama dikarenakan didalam grammar sudah terkandung unsur semantic yang dapat digunakan dalam pembentukan semantic dari kalimat dan format dari kalimat sudah dibatasi pada bentuk tertentu jadi dapat diandalkan untuk bentuk-bentuk tanya dan perintah.
REFERENSI :
Refensi dari internet : • http: //id.wikipedia.org/wiki/Pemrosesan_bahasa_alami • refensi dari internet berupa pdf yang berjudul “Bab 5 Natural Language Processing”
Bahasa merupakan bagian yang terpenting dalam kehidupan manusia sehari-hari,baik dalam bentuk tulisan yaitu catatan dari ilmu pengetahuan yang didapat oleh manusia dari satu generasi ke generasi berikutnya,sedangkan dalam bentuk lisan merupakan komunikasi antar sesama individu.
Natural Language Processing adalah sebuah proses pembuatan model komputasi dari bahasa,sehingga dapat terjadi suatu interaksi antara manusia dengan komputer dengan perantara bahasa alami,yaitu bahasa yang sering digunakan dalam kehidupan sehari-hari.
Sebuah Natural Language System harus mampu mengerti terhadap bahasa yang ada di dalamnya,baik itu dari segi fungsi kata,bagaimana apabila kata-kata tersebut digabung dapat menjadi sebuah kalimat,arti dari kata,dan fungsi kata tersebut dalam sebuah kalimat.Dan tentunya ada faktor yang paling penting dalam bahasa yaitu kemampuan manusia untuk mengerti dari bahasa yang diberikan.
Didalam pemrosesan bahasa alami (Natural Language Processing) mengenal beberapa tingkat pemrosesan yaitu :
1.Fonetik Dan fonologi : proses pemrosesan suara yang menghasilkan kata yang dapat dikenali,pemrosesan ini menggunakan metode speech based system.
2.Morfologi : pemrosesan kata dan bentuknya sebagai pembeda antara satu kata dengan yang lainnya.pada pemrosesan tingkat ini dipisahkan antara kata dan elemen lain.
3.Sintaksis : pemrosesan tentang urutan kata didalam pembentukan kata dan relasi antar kata itu dalam proses perubahan bentuk kalimat menjadi sebuah bentuk kalimat yang sistematis.dalam proses ini terjadi pengaturan tata letak kata sebagai faktor pembentuk kalimat yang dapat dikenali.
4.Semantik : mempelajari arti kata dan bagaimana dari arti kata tersebut dapat membentuk suatu arti dari kalimat yang utuh.
5.Pragmatik : berkaitan dengan tujuan pembuatan sistem dengan konteks yang berbeda.
6.Discourse Knowledge : proses terjadinya pengenalan suatu kalimat yang sudah dikenali sebelumnya dan akankah mempengaruhi arti kalimat setelahnya.Informasi ini penting untuk melakukan pengolahan arti terhadap kata ganti,misalnya kata ganti orang dan informasi ini penting untuk mengartikan aspek sementara dari informasi.
7.World Knowledge : mencakup arti kata secara umum dan arti khusus jika ada dalam suatu percakapan dengan konteks tertentu.
Pengertian ini tidak bersifat terpaku, dalam setiap bahasa alami yang ada, selalu terdapat definisi yang lebih spesifik sesuai dengan jenis bahasa tersebut. Beberapa masallah mungkin bisa mengambil sebagian dari pendekatan tersebut dan mungkin melakukan tambahan preses sesuai dengan jenis bahasa yang digunakan dan sistem yang dibuat.
Masalah yang dihadapi dalam Natural Language yaitu ambiguitas yaitu makna ganda dari suatu kata atau kalimat.Ambiguitas ini dapat terjadi di semua tingkat pemrosesan di atas.
Macam-macam aplikasi yang bisa dibuat pada bidang bidang Natural Language Processing adalah :
1.Text – text application dan dialogue – based applications. Text – text application mencakup semua aplikasi yang memproses terhadap text yang ditulis seperti buku bacaan,koran,dan lain-lain.
Contoh penggunaan : mencari topik buku dari perpustakaan,mencari isi dari surat atau e-mail.
2.Dialogue – based application.Pendekatan ini melibatkan pengenalan suara, akan tetapi bidang ini juga melibatakan interaksi dengan cara memasukkan teks melalui keyboard.
Contoh penggunaan : sistem tanya jawab dengan database,sistem otomatis pelayanan melalui telepon,control suara pada peralatan elektronik,sistem problem – solving.
Lalu di Natural Language Processing ada Grammar yaitu aturan kata yang menentukan apakah suatu kumpulan kata dapat diterima sebagai kalimat oleh bahasa tersebut.Dari grammar kita dapat mempelajari bahasa dari segi struktur dan bukan dari segi makna bahasa itu sendiri.
Lalu ada Parsing,yaitu proes analisa suatu kumpulan kata dengan memisahkan kata tersebut dan menentukan struktur sintaksis dari kata tersebut.Gramatika yang dipakai pasti berkaitan dengan proses parsing apa yang digunakan.Dari pendekatan dalam mengenali struktur kalimat,parsing di bagi dua bagian besar yaitu Top Down parsing dan Bottom Up parsing. Top Down parser memulai pemeriksaan dan mecoba mencari bentuk simbol berikutnya dan Bottom Up parsing bekerja sebaliknya.
Dan ada semantik,yaitu proses yang sulit karena definisinya tergantung pada maksud dalam kalimat.didalam semantik ada himpunan rule dalam dasar pengetahuan untuk memaparkan sebuah kalimat.Pendekatan yang dipakai adalah pendekatan Semantic Grammar yang dipadukan dengan Dictionary dan Template Grammar.
Pada Semantik Grammar, dipakai sekumpulan aturan yang bersifat sintaksis, semantis, dan pragmatis. Hasil dari pasing dengan grammar ialah langsung seperti reprentasi semantis dari kalimat yang dibuat. Dengan pendekatan tersebut, interprentasi dari rule yang bersangkutan lebih mudah karena informasi semantic yang di butuhkan dapat dilihat dari rule yang dipakai. Terdapat beberapa kekurangan dari pendekatan ini yaitu domain sistem yang tidak begitu besar, dan domain yang akan memerlukan aturan yang baru yang lebih sesuai. Tidak hanya terjadi pembengkakan jumlah rule yang digunakan, ini terjadi karena langsung mengacu ke semantik maka terdapat banyak generalisasi linguistik yang harus di rinci lebih jauh.
>>>> training Model bahasa
~/srilm/bin/i686/ngram-count -order 3 -interpolate -unk -text corpus/untan.clean.pnk -lm lm/melayu.lm
>>>> training Model translasi
~/mosesdecoder/scripts/training/train-model.perl -root-dir . --corpus corpus/untan.lowercased --f ind --e pnk --lm 0:3:/home/herry/moses-pba/mesin-a/lm/melayu.lm:0
>>>> RUN DECODER
~/mosesdecoder/moses-cmd/src/moses -f model/moses.ini
#!/usr/bin/perl
# nl.plx
# tokenisasi dan cleaning
# by. Herry S
# perintah : perl clean.plx fileinput fileoutput
use warnings;
use strict;
my $input = shift;
my $output = shift;
open INPUT, $input or die $!;
my @kalimat;
@kalimat = <INPUT>;
my $i;
my $j;
my $string;
my $string1;
my $string2;
my $string3;
my @kalimat2;
open OUT, ">$output" or die "Can't write on file $output: $!\n";
print "Proses...\n";
my $no=0;
#spasi dan length
foreach $i (@kalimat) {
#buang enter
for ($i) {s/\n+$//;}
$string = $i;
my $mypj=length($string);
if ($mypj>0 and $mypj<1000) {
my $k1=" ";
my $k2=" ";
$string=~ s/$k1/$k2/g;
$string=~ s/$k1/$k2/g;
$kalimat2[$no]=$string;
$no++;
}
}