Dengan hanya lima penekanan tombol, editor metode input on-board komputer (IME) – sebuah program yang mengubah penekanan tombol QWERTY menjadi karakter Cina – memiliki semua yang dibutuhkan untuk menghasilkan bait yang dicintai.
Seperti yang diketahui sebagian besar pengguna komputer Cina daratan, IME paling populer saat ini didasarkan pada pinyin. Hal ini berlaku untuk komputasi desktop serta untuk aplikasi mobile.
Saat mengirim teks, memposting di media sosial, mencari di web atau memasukkan alamat pengiriman mereka, sebagian besar pengguna komputer China memasukkan karakter dengan mengeja suara karakter tersebut menggunakan pinyin.
“Input Pinyin”, seperti yang sering disingkat, mendominasi.
Namun, tidak selalu seperti ini. Input Pinyin adalah pendatang baru dalam sejarah komputasi Cina.
Dari penemuan komputer Cina pertama, pada tahun 1959 – Sinotype, yang dikembangkan di Graphic Arts Research Foundation oleh profesor teknik elektro Massachusetts Institute of Technology Samuel Caldwell – sampai ke tahun 1980-an, input pinyin diberhentikan sebagai yang terburuk dari semua pendekatan yang mungkin untuk komputasi Cina.
Sebaliknya, dekade pembukaan komputasi Cina didominasi oleh apa yang disebut sistem input “berbasis struktur”: sistem yang menggunakan huruf alfabet Latin dan angka Arab untuk menggambarkan, bukan suara karakter Cina, tetapi bentuknya.
Kenaikan Pinyin yang terlambat bukan karena kurangnya beberapa pendukung yang kuat, itu sudah pasti. Bahkan, ada tekanan besar yang mendukung apa yang kita sebut “pinyin-isasi” (pinyinhua) teknologi informasi Tiongkok.
Tekanan ini diberikan baik dari luar negeri, dalam upaya yang tak terhitung jumlahnya oleh misionaris asing untuk fonetik Cina, dan dari dalam Cina, hingga dan termasuk Mao edong sendiri, yang pernah menyerukan pengabaian karakter Cina dan penggantian mereka dengan ortografi fonetik sepenuhnya (sepanjang garis Vietnam).
Secara resmi diumumkan oleh Republik Rakyat Tiongkok pada tahun 1959, “pinyin-isasi” berjalan dengan mantap, kecuali mungkin untuk periode penuh gejolak Revolusi Kebudayaan (1966-76).
Pada periode pasca-Mao, pinyin terus menjadi fitur kehidupan sehari-hari, berfungsi sebagai semacam sistem penulisan paralel yang berjalan di samping tulisan Cina berbasis karakter.
Ketika balita Cina belajar membaca dan menulis karakter Cina, misalnya, mereka sering belajar pinyin terlebih dahulu, untuk membantu mereka menghafal pengucapan standar dan non-dialek.
Sementara itu, ketika orang-orang menavigasi kehidupan sehari-hari mereka, pemandangan pinyin menjadi lebih umum, baik di rambu-rambu jalan, jadwal bus, sampul buku atau di tempat lain.
Mengingat keakraban dan dukungan politik pinyin yang meluas, maka, tentunya itu pasti merupakan solusi utama China untuk input China, bukan? Salah.
Sebaliknya, insinyur komputer lama menganggap pinyin sama sekali tidak bisa dijalankan untuk keperluan memasukkan bahasa Mandarin ke komputer. Dan untuk alasan yang bagus: input pinyin sangat buruk.
Dari sudut pandang teknologi, setidaknya tiga masalah yang sulit dipecahkan membingungkan pinyin. Pertama, ejaan pinyin panjang – hampir selalu lebih panjang daripada yang ditemukan dalam sistem input berbasis struktur. Pertimbangkan karakter 电 (dian, “listrik”).
Sementara ejaan pinyin dari karakter ini berisi empat huruf – D-I-A-N – banyak sistem input berbasis struktur yang paling populer dari tahun 1950-an hingga 80-an hanya membutuhkan tiga penekanan tombol.
Dalam metode input Lima-Langkah (Wubi shurufa), 电 dapat dimasukkan dengan urutan tiga tombol: J-N-V. Hal yang sama berlaku untuk input Cangjie (L-W-U), Yi input (R-G-D), dan doens lainnya.
Selain itu, masukan pinyin ambigu. Dian juga sesuai dengan lebih dari dua doen karakter Cina lainnya. Bahkan setelah mengetik huruf D-I-A-N pada keyboard QWERTY seseorang, pengguna masih menghadapi tugas untuk mencoba menemukan “dian” mana yang mereka inginkan.
Apakah itu 点 (“titik”), 店 (“toko”) atau sebaliknya? Untuk karakter dian yang lebih “umum digunakan”, ini kemungkinan akan ditemukan di atau dekat bagian atas menu pop-up di layar.
Tetapi jika pengguna menginginkan salah satu karakter dian yang kurang umum (滇, misalnya, singkatan untuk provinsi Yunnan), mereka perlu menggulir serangkaian menu pop-up untuk melacak target mereka.
Sebagai perbandingan, urutan input berbasis struktur jauh lebih ramping, dengan masing-masing kode alfanumerik sesuai dengan karakter potensial yang jauh lebih sedikit, dan, dalam beberapa kasus, hanya satu kemungkinan.
Salah satu eksperimen paling awal dengan input pinyin ditemukan dalam karya insinyur Shanghai hi Bingyi. Seperti orang lain yang bekerja pada komputasi Cina pada 1970-an dan awal 80-an, sistem input “On-Site Coding” hi (atau “OSCO” singkatnya) bukanlah sistem fonetik tetapi berbasis struktur.
Masukan OSCO menggunakan huruf alfabet Latin untuk menggambarkan bentuk struktural karakter Cina daripada suaranya.
Pada saat yang sama, hi mendedikasikan sebagian kecil kodenya untuk apa yang disebutnya “kode senyawa karakter” (cihuima) – juga disebut “OSCO Quick-Codes”.
Ini adalah urutan dua huruf tujuan khusus yang memungkinkan pengguna komputer untuk memasukkan tidak hanya satu karakter pada satu waktu, tetapi senyawa dua karakter. Sebagian besar kosakata Cina modern terbentuk dari kelompok dua karakter, seperti “siswa” (xuesheng) dan “kerja” (gonguo).
Untuk memasukkan kata Cina dua karakter untuk “keselamatan” (安全, anquan), misalnya, pengguna OSCO dapat mengetikkan “A-Q”, “A” yang sesuai dengan huruf pinyin awal an dan “Q” ke huruf pinyin awal quan.
Untuk memasukkan senyawa dua karakter “sangat” (非常, feichang) dan “revolusi” (革命, geming), sementara itu, Kode Cepatnya masing-masing adalah “F-C” dan “G-M”.
Alasan Kode Cepat hi berfungsi adalah, berlawanan dengan intuisi, karena mereka melanggar aturan pinyin. “AQ”, “FC”, “GM” dan sebagainya bukanlah pinyin yang valid – sesuatu yang bahkan bisa dikatakan oleh anak TK Cina kepada Anda.
Namun, justru karena pelanggaran inilah kode-kode itu berfungsi. Sejauh GM, FC dan AQ tidak mungkin disalahartikan sebagai nilai pinyin “nyata”, komputer dapat memperlakukan mereka, dengan keyakinan penuh, sebagai urutan input yang tujuannya adalah untuk mengambil senyawa dua karakter dari memori.
Dan sementara ada doens karakter Cina yang sesuai dengan ejaan pinyin “an“, “quan“, “fei“, “chang” dan sebagainya, ada jauh lebih sedikit kata-kata Cina dua karakter yang karakternya dimulai dengan “a” dan “q”, “f” dan “c”, dll.
Memasukkan senyawa dua karakter jauh lebih cepat, ternyata, daripada memasukkan dua karakter satu demi satu.
Eksperimen hi mengungkapkan kualitas penebusan input pinyin yang diabaikan orang lain: kemampuannya untuk memasukkan banyak karakter Cina sekaligus.
Pada umumnya, semua sistem input berbasis struktur dari tahun 1950-an telah disempurnakan untuk memasukkan karakter Cina individu. Memang, penemu metode input berbasis struktur menghabiskan bertahun-tahun mengutak-atik sistem mereka untuk memastikan bahwa setiap kode alfanumerik sesuai dengan jumlah terkecil dari kecocokan Cina mungkin.
Mereka ingin sistem mereka cepat, jadi ambiguitas adalah musuhnya. Eksperimen Hi tampaknya menunjukkan bahwa kelemahan terbesar Pinyin, bagaimanapun – input karakter tunggal – mungkin menyembunyikan kekuatan terbesarnya: memasukkan dua, tiga atau lebih karakter sekaligus.
Namun, ada tangkapan. Agar pendekatan hi bekerja dalam skala yang lebih besar, komputer Cina perlu dilengkapi dengan sesuatu yang tidak pernah mereka butuhkan sebelumnya: database karakter Cina digital, yang dikenal dalam bahasa Cina sebagai Haniku atau ciku.
Sistem Kode Cepat hi berisi beberapa kata Cina doen, yang jelas tidak cukup. Agar strategi ini bekerja dalam skala besar, komputer Cina akan membutuhkan kamus Cina digital yang berisi ribuan – bahkan puluhan dan ratusan ribu – senyawa Cina multi-karakter, nama yang tepat, nama tempat, istilah teknis, ekspresi idiomatik empat karakter dan banyak lagi.
Tanpa ini, tidak akan ada cara bagi komputer untuk menerjemahkan entri keyboard seperti “A-Q” menjadi 安全 (anquan).
Era kamus Cina digital dimulai pada pertengahan hingga akhir 80-an. Perpustakaan input Cina menjamur, dengan sejumlah lembaga, perusahaan, biro pemerintah, dan pengguna sehari-hari bekerja untuk membuat yang baru dan memperluas yang sudah ada.
Pada tahun 1986, salah satu leksikon digital terbesar dikembangkan oleh Institut Beijing untuk Aeronautika dan Astronautika. Sementara itu, perpustakaan lebih dari 100.000 kata dan istilah umum dari pengobatan tradisional Tiongkok telah diinstal sebelumnya pada sistem operasi Tiongkok tertentu.
Bahkan pada tahap awal ini, skala dan ruang lingkup perpustakaan input semacam itu – dan terlebih lagi tenaga kerja yang masuk ke dalam penciptaan mereka – sangat mengejutkan.
Selama pertengahan hingga akhir 80-an, seorang dokter Tiongkok bernama hang Guofang menghabiskan bertahun-tahun menyisir korpus sekitar 10 juta karakter, yang mencakup buku teks sekolah menengah dan sekolah menengah, bersama dengan materi lainnya.
Atas dasar ini, ia melanjutkan untuk menghasilkan apa yang disebutnya sebagai leksikon empat tingkat atau ciku. Tingkat pertama termasuk satu set 5.633 senyawa karakter yang umum digunakan. Tingkat 2 hingga 4 – yang terdiri dari 96.000 senyawa karakter – memanfaatkan penelitian yang dilakukan di Chengde Medical College dan People’s University.
Pada tahun 90-an, teks prediktif telah menjadi begitu luas sehingga biro standar nasional tertinggi Tiongkok mulai mengeluarkan pedoman yang berkaitan dengan senyawa karakter mana yang perlu dimasukkan sebagai bagian dari sistem input Tiongkok, program pemrosesan teks atau komputer.
Dikenal sebagai “General Word Set for Chinese Character Keyboard Input”, standar 110 halaman ini mencakup 43.540 entri, dibagi menjadi tiga peringkat berdasarkan frekuensi. Ini, dan doens jalan pintas lainnya, memungkinkan pengguna untuk mengambil satu set senyawa yang umum digunakan khusus dikodekan dalam memori komputer.
Juga di awal 90-an, tiga organisasi – termasuk Chinese Information Processing Society of China yang berpengaruh – bergabung untuk menghasilkan “Compendium of Generally Used Words for Use in Chinese Character Keyboard Input”.
Insinyur Cina telah tumbuh begitu percaya diri dengan masukan Cina satu dan dua karakter sehingga mereka menetapkan tujuan baru dan lebih ambisius: prediksi komputasi bagian multi-karakter – bahkan seluruh kalimat.
Dalam versi awal 90-an dari sistem operasi Cina populer CCDOS, misalnya – versi Sinicised DOS – paket instalasi datang dengan floppy disc berlabel “Associative Character Compound Library” (lianxiang ciku), atau lebih harfiah, “Library of Connected Thoughts”.
Menggunakan input “pemikiran terhubung”, IME Cina tidak lagi membatasi diri untuk menebak karakter mana yang diinginkan pengguna berdasarkan penekanan tombolnya. Sekarang mereka akan mencoba menebak karakter berikutnya yang mungkin diinginkan pengguna, bahkan sebelum dia menekan tombol lain pada keyboard.
Ketika pengguna memasukkan karakter Cina – 联 (lian, “untuk menghubungkan”), misalnya – IME akan segera mulai mencoba untuk mencari tahu karakter berikutnya yang paling mungkin dalam teks. Tebakan ini disajikan di menu pop-up, untuk dipilih oleh pengguna.
Dalam hal ini, IME akan menyarankan合 (dia), misalnya, yang dapat dipilih pengguna untuk menulis kata dua karakter “bersatu” (联合, lianhe); 邦 (bang), mengarah ke “federal” (联邦, lianbang); 络 (luo), mengarah ke “koneksi” (联络, lianluo), dan sebagainya.
Jika salah satu tebakan IME terbukti akurat, pengguna dapat memilih salah satu karakter yang diprediksi ini tanpa memasukkannya dari awal. Sistem input pinyin tidak lagi terbatas pada penggunaan singkatan untuk menghasilkan kata-kata Cina dua karakter, kemudian; sekarang IME Cina mulai memprediksi kata berikutnya dari pengguna, sebagai cara untuk mempercepat proses penginputan.
Namun, Library of Connected Thoughts tidak berhenti pada karakter berikutnya. Itu terus menebak.
Jika pengguna memilih 联 diikuti oleh 合, misalnya, saran IME berikutnya mungkin termasuk 国 (guo), yang mengarah ke kata Cina tiga karakter 联合国 (lianheguo), yang berarti “Perserikatan Bangsa-Bangsa”.
Jika pilihan pengguna adalah 联邦, sebagai perbandingan, saran “pemikiran terhubung” berikutnya mungkin adalah senyawa dua karakter 德国 (deguo, “Jerman”, memberi kita 联邦德国 atau “Republik Federal Jerman”) atau 政府 (hengfu, “pemerintah”, memberi kita 联邦政府 atau “pemerintah federal”).
Masukan pinyin “pemikiran terhubung” menjadi begitu sentral bagi komputasi Cina sehingga istilah itu sendiri akhirnya diabadikan sebagai nama salah satu perusahaan komputasi paling berpengaruh di Cina yang pernah ada: Lenovo, perusahaan yang, pada tahun 2005, mengambil alih bisnis komputasi pribadi IBM. Nama Cina Lenovo adalah Lianxiang, atau “Pikiran yang terhubung”.
Pada dekade pembukaan abad ke-21, para insinyur mengambil teks input Cina selangkah lebih maju:
IME Tiongkok memasuki cloud, memungkinkan saran teks prediktif untuk memanfaatkan korporat teks yang luas, dinamis, terus berkembang, dan dibuat pengguna untuk memberikan rekomendasi “pemikiran terhubung” yang lebih lama dan lebih akurat kepada pengguna.
Tidak seperti IME dari tahun 1980-an hingga 2000-an, di mana seluruh proses input berlangsung di dalam komputer, sistem berbasis cloud baru oleh Sogou, Baidu, QQ, Microsoft, dan lainnya mulai memanfaatkan korpora teks berbahasa Mandarin yang sangat besar, terdistribusi, dan dibuat pengguna, serta pemrosesan bahasa alami yang semakin canggih.
Perbandingan di sini mungkin bilah pencarian Google, yang, dimulai pada awal 2000-an, mulai memberikan saran kepada pengguna dengan menganalisis istilah pencarian mereka dan membandingkannya dengan jutaan pengguna lain.
Tetapi tidak seperti bilah pencarian Google, input cloud digunakan dalam konteks Microsoft Word, email, pesan teks, dan menjelajahi web.
Pada tahun 2013, para peneliti Microsoft menggembar-gemborkan kekuatan pertumbuhan IME Cina sementara Sogou membanggakan akurasi dan kinerja yang jauh lebih besar untuk IME berbasis cloud-nya.
“Akurasi kalimat panjang” – kemampuan IME untuk mengubah urutan huruf alfabet yang panjang dan kompleks menjadi bagian Cina yang akurat dan multi-karakter – telah tumbuh dari 62,5 persen yang dilaporkan pada IME yang disimpan secara lokal menjadi 84 persen dengan input cloud, Sogou melaporkan, sementara “akurasi kalimat pendek” dilaporkan tumbuh dari 91,52 persen menjadi 96 persen.
Cloud input (yun shurufa, 云输入法), sederhananya, semakin baik dalam menebak karakter pengguna berikutnya.
Pada tahun 2000-an, pada kenyataannya, pengembang telah mendorong teks prediktif Cina ke titik yang pernah dianggap tak terbayangkan, di mana kecepatan input Cina – didukung dengan kemampuan teks prediktif yang semakin canggih – mulai melampaui bahasa Inggris, yang telah lama dianggap sebagai tolok ukur yang tak tertandingi dari interaksi manusia-komputer modern.
Memuat IME fonetik berbasis cloud, misalnya, seseorang dapat memasukkan string hrmghg dan menonton seperti yang disarankan dengan benar 中华人民共和国 (honghua renmin gongheguo atau “Republik Rakyat Tiongkok”): hanya tujuh penekanan tombol, dibandingkan dengan 26 untuk mengetik seluruh ejaan pinyin.
Jika seseorang lebih suka contoh dari zaman kuno yang lebih dalam, kita dapat kembali ke baris dari puisi dinasti Tang yang kita mulai dengan: “Saya turun dari kuda saya dan menawarkan anggur.”
Kemungkinan besar bahwa IME Cina Anda – jika dilengkapi dengan fungsi input berbasis cloud – akan dapat menghasilkan bagian ini dengan tidak lebih dari lima penekanan tombol: diakui, ini adalah salah satu yang paling terkenal dari semua puisi Tang, yang membantu menjelaskan mengapa sistem input Cina mungkin memiliki bait ini disimpan dalam memori.
Namun, pada saat yang sama, saya mengundang pembaca berbahasa Inggris untuk mencoba mengetik urutan berikut di Microsoft Word atau di tempat lain: sicttasdtamlamt.
Apakah mesin Anda mampu mengidentifikasi soneta yang paling terkenal oleh Shakespeare? Kemungkinannya tipis.