ソクタイプによる漢字処理法

佐伯 功介*
  • 裁判所書記官研究所講師、(社)日本ローマ字会理事、ソクタイプ研究所長

Sokutaipu Kanji Input Method

by Saeki Kōsuke*
transcribed by Jennifer Chan and Sammi de Guzman
  • Lecturer, Court Clerk Research Institute
    Director, Japan Romaji Society
    Director, Sokutaipu Research Institute
Note: The contents of this page have been transcribed from a poor-quality PDF scan of the article. Contents may not be completely accurate.

見出し

  1. まえがき
  2. ソクタイプ速記の現状
  3. 機械の構造
  4. 速記記号のあらまし
    1. 基本
    2. 略語
    3. 略語の数と割合
  5. 漢字入力への応用
    1. 漢字指定
    2. 漢字コード
  6. 熟語本位への切り換え
    1. 文字よりも単語
    2. 同音語の処理
  7. むすび

Contents

  1. Foreword
  2. Current State of Sokutaipu
  3. Keyboard Layout
  4. Shorthand Theory
    1. Basics
    2. Briefs
    3. Proportion of Briefs
  5. Kanji Input Approaches
    1. Kanji Assignments
    2. Kanji Coding
  6. Handling Complex Expressions
    1. Words over Letters
    2. Homophones
  7. Conclusion

1 まえがき

漢字かな文を機械で処理する方法は、近年、分速何千字何万字という、高速度のものが開発されつつあるが、こういう機械の入力はほとんどが漢字テレタイプ式のさん孔テープによっている。现在の漢テレさん孔速度は、せいぜい每分70字だから釣合が取れない。

筆者は昨年、ソクタイプによる漢字入力法を発表したが、これはほんのアウトラインだったので、多数のお問い合わせをうけた。今回もページの制限があるから充分ではないが、少し詳しく述べる。

1 Foreword

In recent years, high-speed methods have been developed to input kanji and kana sentences by machine, capable of processing thousands of characters a minute, but most of the input for these machines is done using Kanji teletype-style perforated tape. The current reading speed for Kanji teletype is up to 70 characters per minute, which is suboptimal.

Last year, I published a method for entering kanji using Sokutaipu, but since it was only a summary, I received many questions. Due to page limitations, I won't be able to give enough information this time either, but I will go into a bit more detail.

2 ソクタイプ速記の現状

ソクタイプというのは、現在全国の裁判所で使っている速記の機械である。このソクタイプは、もともと第1次大戦のベレサイユ会議などで使われていたフランスの発明品を、故田中舘愛橘博士が日本に紹介したものであった。日本語を打つためのキー構成や記号、略語の組織を作って、今日の機械を完成させたのは、ソクタイプ研究所の川上 晃氏である。裁判所では昭和25年から速記官の養成を始め、20年間で卒業生1000人を超えた。

速記官の養成は2箇年の研修であるが、最初の半年で打ち方は全部覚える。しかし、この時点ではせいぜい每分70〜80語ぐらいの速さで、速記にはならない。

70語とか80語とかいうのはローマ字で書いた文章の語数である。漢字かなで書くと、統計的に1語が2字に当たる。80語が160字である。生徒の力をはなるテストは、それぞれの速さで5分間読み上げ、誤り語数2%以内を合格としている。

打ち方をおぼえたあとは反復練習しかない。80語に合格すれば90語、つぎは100語と10語ずつ速めて、1年の終わりには130〜140語に達するのが普通である。卒業資格は170語であるが、事実上全員180語以上、そのうち約半数のものが200語以上をとって出る。

いままでの最高は235語(每分470字)である。もうこの辺になると、人間がどんな速さで読めるか、試験官のほうがテストされているような形になる。

実務には150〜160語ぐらい確実にとれれば充分とされる(ラジオのニュース解説ぐらいの速さ)。瞬間的には200語以上もでるが、200語で10秒も続くことは実際にはおこらない。

2 Current State of Sokutaipu

Sokutaipu is a shorthand machine currently used in courts across the country. It was originally a French invention, used at the Versailles conference at the end of World War I, and was introduced to Japan by the late Dr. Tanakadate Aitachi. It was Mr. Kawakami Akira of the Sokutaipu Research Institute who created the system of keys, symbols, and abbreviations for writing Japanese and brought the machine to its current form. The court system began training stenographers in 1950, and over 1,000 people have graduated in the past 20 years.

Becoming a stenographer requires two years of training, but you will learn all of the ways to write in the first six months. However, writing speed is about 70 to 80 words per minute at this point, and it cannot be used as a shorthand system.

The "70 or 80 wpm" figure above is the number of words in a sentence written in Romaji. When written in kanji and kana, statistically, one word corresponds to roughly two characters, so 80 words is about 160 characters. The test requires students to read out loud for 5 minutes at each speed, with a passing score of 2% or fewer incorrect words.

Once you have learned how to write, all you have to do is practice repeatedly. If you pass the 80 wpm test, you can improve to 90 wpm, then 100 wpm, then reach 130 to 140 wpm by the end of the year. The graduation speed requirement is 170 wpm, but virtually all of them have reached 180 wpm or more, and about half of them are at 200 wpm or more.

The speed record is 235 words per minute (470 characters per minute). At this point, it's as if the examiner is being tested to see how fast a person can read.

For practical purposes, being able to reliably capture 150 to 160 words per minute, about as fast as a radio news commentary, is considered sufficient. You can speak at more than 200 wpm in an instant, but 200 wpm lasting more than 10 seconds doesn't actually happen.

Sokutaipu layout
図1 ソクタイプのキーボード
Figure 1: Sokutaipu keyboard.

3 機械の構造

機械は、21の活字が一列に並び、それぞれ連結したキーを押すと、約2㎜突出してその場所で印字する。タイプライタとちがって、同時にいくつでもキーを押してよく、それが1行に並んで印字される。紙は6㎝幅で、60mの長さのものをジグザグに折って内臓してある。この6㎝幅の中に21文字が並ぶ。1字打っても20字打っても、1度打って手を離せば1行送る。

活字はそれぞれ個有位置で印字し、横には動かないから、つまり21孔のさん孔テープと同等である。ことばへの関連づけと、人間が目で見て読むために文字になっているが、機械の中では黒丸でも孔でもよい。たとえば

3 Keyboard Layout

The machine has 21 type bars connected in a row, and when you press a key connected to each type bar, they stick out about 2 mm and print at that location. Unlike a typewriter, you can press any number of keys at the same time, and the corresponding letters will be printed in one line. The paper tape is 6 cm wide and 60 m long, folded in a zigzag pattern and placed inside the machine. There are 21 characters lined up within this 6 cm width; whether you write one key or 20, if you press once and release your hand, it will print out one line.

Each letter is printed on its own unique position and does not move laterally, so it is equivalent to a 21-hole punch tape. Letters are used to associate with words and be more readable by humans, but in machines it can be written as black circles or holes. For example,

H S I OIA (人間)
K I IA K Y(機械)
○○●○●○●○○○○○○●●●○○○○○(人間)
○○○●○○●○○○○○○○●●○●○○●(機械)

と同じである。キーは10本の指で、任意の組み合わせが打てるように、特殊の形に配列してある。(図1)指の受持はつぎのとおる:

Finger layout (Japanese version)

are identical. The keys are assigned to the ten fingers and arranged in a special shape so that you can hit any combination. (Figure 1) The keys are assigned to fingers as follows:

Finger layout (English version)

4 速記記号のあらまし

4.1 基本

20の文字キーを3つの群に分け、それぞれ左、右、中の群という。左の群は左手の4本の指が受け持つ8つのキーで、その情報数は2⁸ =256だから、五十音はもちろん、拗音、それらの長音(「〜おう」と「〜うう」)および「〜あい」、「〜えい」韻までをふくむ音節が区別される***。左の群の記号はそのまま裏返しにすれば右の群の記号となる。これらの記号はローマ字のように、子音+母音の構造になっているが、速記者の意識にはもはや子音、母音はなく

4 Shorthand Theory

4.1 Basics

The 20 letter keys are divided into three banks: left, right, and center. The left bank has 8 keys controlled by the 4 fingers of the left hand, giving a total of 2⁸ = 256 possible chords. Not only the standard 50 syllables of Japanese, but also complex syllables including long sounds (〜おう and 〜うう) and even 〜あい and 〜えい can be distinguished. The keys on the left bank become the keys on the right bank by reversing the order. These keys have a consonant + vowel structure like the Roman alphabet, but the stenographer does not think of consonants or vowels,

Interpreting Sokutaipu outlines as shapes.

など、それぞれの指の形が文字なのである。

中の群は4つのキーだから、少数の限りられた音(つ、く、い、ん、ち、き、つまる音っ)が打てる。

この3つの群の音記号を基本という。これは一種の音文字であるが、これでことばを表わす場合、つぎの3つの重要な規則に従う:

  1. 語の第1音節は左の群で打つ。
  2. つぎの音節が中の群で打てる音ならば必ず中で打つ。
  3. 1打にならない語は残りをまた規則(a)、(b)に準して左から打ちつぐ。

基本はこの規則によって、2音節または3音節を1打にする。これはかなで書けば最長7字、平均4字か5字にあたるだろう。しかし、これだけではまだ人間のしゃべる速さに追いつけない。少なくとも、らくに追いつけないから、頻度の高い語に対して略語が決めてある。

but rather the shape of the outline and the position of each finger.

The center bank has four keys, so you can hit a small number of sounds (つ, く, い, ん, ち, き, and geminated sounds).

These three banks comprise what are called the basic sound chords. This is a sort of phonetic alphabet, but when it comes to representing words, there are three important rules:

  1. The first syllable of a word is written with the left bank.
  2. If the next syllable can be written with the center bank, it must be written with the center bank.
  3. For words that do not fit in one stroke, repeat the rest from the left according to rules (a) and (b).

According to these basic rules, two or three syllables can be written in one stroke. The equivalent in kana would be up to 7 characters, or 4 to 5 on average. However, this alone still cannot keep up with the speed of human speech. Since it can be difficult to catch up, briefs have been assigned to the most frequently used words.

4.2 略語

略語には6種類ばかりのタイプがあるが、だいたい一見して基本とは区別がつくようになっている。たとえば、

4.2 Briefs

There are about six types of abbreviations, but most of them can be distinguished from basic phonetic outlines at a glance. For example,

K T (くつ)

は基本で「くつ」であるが、

represents くつ according to the phonetic rules, whereas

K T (くべつ)

は基本の規則(b)に違反しているから基本ではなく、「区別」という略語になる。また

violates basic rule (b), so it is not a basic phonetic outline but rather an abbreviation (in this case, for 区別). Similarly,

S (すべて)

は右で「す」と打ってあるが、基本ならば規則(a)(c)によって左があくことはない。これは「すべて」という略語になる。中の群れで打つ助詞、

represents す on the right bank, but according to basic rules (a) and (c) the left bank should not be left open. This is a brief for すべて. These center bank briefs for particles:

T (に)
K (が)
TK (で)
I (は)
N (の)
IN (も)

およびその組合せの

and their combinations:

T IN (にも)
TK I (では)

なども左があいているから略語である。これらは基本で打っても1打という点では同じだが、10打に1つぐらいの割ででるこういう助詞を親指(中)で打つと、その間4本の指は休んでつぎの準備をしているから、スムーズにリズミカルに打てるのである。

略語の各種類にわたって系統的に述べる紙数がないが、大別して片手略語と両手略語とになる。片手略語は左または右の片手で決まるもので、「され、られ、たら、たり、かた、きり、しか、はな」など意味の稀薄な、むしろ、2音のかなとみるべきものや「だけ、など、こと、から、ます、ある、あります、ました、ません」などのような形式語や助詞の類が多い。これに対して両手略語は両手で組み合って1つの略語になるもので、大部分がはっきりした実質語である。

are also briefs because they are open on the left. These are good briefs in that while each one is one stroke, when you write them with your thumbs, which occurs about once every 10 strokes, your four fingers rest and prepare for the next word. Because of this, you can write smoothly and rhythmically.

Although there is not enough paper to systematically discuss each type of brief, they can roughly be divided into one-handed briefs and two-handed briefs. One-handed briefs can be written on either the left or right bank, and include words with a weak meaning, such as され, られ, たら, たり, かた, きり, しか, and はな. This also includes formal words and particles such as だけ, など, こと, から, ます, ある, あります, ました, and ません. On the other hand, two-handed briefs are words that use both banks to form a single brief, and most of them are nouns.

4.3 略語の数と割合

略語の数は、現在は片手227、両手248、合計475が使われている。以前は片手231、両手609であったが、実際に速記したテープを調べると、だいたいつぎのような割合になっていた:

  基本で打った行    40%
  片手略語を使った行  40%
  中の群の助詞     10%
  両手略語の行     10%

この結果でみると、ある1つの両手略語の出現度は片手略語に比べてきわめて低い。略語は頭でおぼえただけでは役にたたない;反復練習ほとんど無意識に反射的に指に出なければならない。その訓練の時間と努力を基本と片手略語にふりむけたほうが有利だという結論に達したので、10年ほど前に両手略語を大幅に減らしたのである。その結果は打数で2%弱の増となるが、総合的に速記者の成績はむしろ上っている。

4.3 Proportion of Briefs

There are currently a total of 475 briefs, 227 for one hand and 248 for both hands. Previously, the ratio was 231 for one hand and 609 for both hands, but when I examined the actual steno tape, the ratio was roughly as follows:

Phonetic outlines40%
One-handed briefs40%
Center-bank particles  10%
Two-handed briefs10%

Looking at these results, the frequency of two-handed briefs is extremely low compared to one-handed briefs. Merely memorizing briefs is not useful; you have to practice them over and over until you can write them almost unconsciously and reflexively. I decided that it would be more advantageous to allocate training time to the basics and one-handed briefs, so about ten years ago I drastically reduced the number of two-handed briefs. This resulted in just under 2% more strokes, but overall the performance of stenographers has massively improved.

5 漢字入力への応用

5.1 漢字指定

以上4.までで述べたのは、現在のソクタイプ速記のあらましを紹介したので、新しいことではない。この速記の打ち方を応用すれば普通の漢字かな文を機械に入力する速度を、現在の漢テレ式のさん孔機に比べて、5倍ないし7倍にあげることができる。その方法を紹介するのがこの論文の目的であって、以下にそのあらましを述べる。

速記記号は一種の音文字で、同音語は意味にかかわらなく同じ記号、反訳の際に前後から判断して文字を選んでいる。しかし、機械にはこの判断は困難であるから、適当な方法で漢字を区別する打つ方をすればこれを高速度漢字入力に利用することができる。幸い現在のソクタイプで中央の*印が、速記にはほとんど使わない遊びキーになっているので、これを漢字指定キーに利用できる。位置もあらかじめその目的で設計したかのように格好のところにある。

そこで、つぎのように決める。

  1. 基本はすべてひらがなにする。
  2. 略語で同音異語がなく、普通に漢字で書く語にそのまま漢字にする。たとえば

5 Kanji Input Approaches

5.1 Kanji Assignments

What I have described in section 4 above is not new; that is just a summary of the current Sokutaipu theory. By applying this method, the speed at which ordinary kanji and kana characters can be entered into a machine can be increased 5 to 7 times compared to current Kanji teletype punching machines. The purpose of this paper is to introduce this method, and the outline is given below.

Shorthand outlines are a type of phonetic alphabet; homonyms have the same outline, regardless of meaning, and when translating, characters are selected based on context. However, it is difficult for machines to make this determination, so if you use an appropriate method to distinguish between kanji, you can use this for high-speed kanji input. Fortunately the key in the center bank is rarely used for shorthand, so it can be used for specifying kanji. The location is perfect, as if it was designed that way on purpose.

Therefore, I have decided as follows:

  1. All phonetic outlines should be in hiragana.
  2. Briefs without homophones are written in kanji for words that are normally written in kanji. For example:
K I S H 日本にほん
TK O SK 問題もんだい
HK I T 技術
  1. 略語で同音異語があればその1つに決める。
  1. If the brief has homophones, choose one.
TK O AS Y政策せいさく(製作)
K S Y証人しょうにん(商人、承認)
K A T 間接かんせつ(関節)

      括弧内の語は別の打ち法をする。

この(b)、(c)によって略語からすぐ漢字ででる語が約250語ある。

  1. *印を利用して漢字1字ずつのコードをつくる。このコードの作り方は、つぎの5.2で別に述べる。
  2. 頻度の高い熟語には、略語のない場合にも熟語としてのコードをつくり、一挙に2字以上をまとめて指定する。最初この種類245語を選んで。

      Parentheses indicate homonyms that are spelled differently.

Approximately 250 briefs can be written directly in kanji based on rules (b) and (c).

  1. Use the key in the center bank to create a code for each kanji. How to create this code will be described separately in section 5.2 below.
  2. For frequently occurring expressions, codes are created even if they do not have briefs, and two or more characters are written at once. This covers an additional 245 words.

5.2 漢字コード

ソクタイプの1打(21ビット)は200万以上の変化を持つから、1打で漢字1字を指定することはたやすいともいえるが、それを人間がおぼえて、とっさに出ることが必要だから、文字とコードとの連想、同一性をつく流のにくふうがいる。ただ、機械的に対応させたのでは、人間の側に通用しない、人間が発信するコードをつくるために、つぎの3つの方法をとる。

  1. 訓の強い文字は、その訓をキーワードとして、それをソクタイプの普通の打ち方で打つて同時に*を打つ。

5.2 Kanji Coding

One stroke (21 bits) of Sokutaipu has more than 2 million possibele values, so while it is easy to specify kanji with one stroke, it is necessary for humans to memorize it so it can be written quickly. There is an method for creating associations between characters and codes. The following three methods are used to create codes that can be written by humans, as they would be difficult for humans if they were made strictly mechanically compatible.

  1. For characters with a strong kun reading, use the kun reading as a keyword, write it normally, then press the key at the same time.
K I * I S きし
T K*I つき
  1. 字音からコードをつくるものも250字ほどある。

    例:盆晚案電度液芸菲不会......

    なるべく訓のない字、音でつかうことの多い字、他の語に補足的につくことの多い字などを選んで。

  2. 熟語をキーワードとするもの。これが約半数である。キーワードはなるべく音訓のどちらか、1字の内部で処理するほうが、オペレータの心理的負担は軽いのであるが、多くの同音漢字を区別するために、その字を含む熟語をキーとすることはやむをえない。1つだけ実例をあげると、「ど」という音の字は「土度怒努」であるが、いちばん流動性の大きい「度」に音の「ど」をあて、「土」は訓の「つち」がよく固まっている。「怒」には「怒号」、「努」には「努力」をキーとする。
  1. Another roughly 250 characters can be assigned codes solely from on readings.

    Examples: 盆 晚 案 電 度 液 芸 菲 不 会

    As much as possible, choose characters that have no meaning on their own, ones that are often used with sounds, or ones that are often used in combination with other words.

  2. Use expressions as keywords. This accounts for about half of kanji. The cognitive burden on the operator is lighter if keywords can be input from a single character as much as possible, but in order to distinguish between many homophone kanji, it is unavoidable to use a phrase containing that character as a key. For example, 土 度 怒 努 are all pronounced ど, but the sound code is assigned to 度 which is the most frequent, then 土 gets assigned its kun reading, つち. The remaining two can then have keys based on words containing them: the key for 怒 would be 怒号, and 努 would be 努力.
T T *I 土(つち)
THKS * 度(ど)
THKS * IA KH 怒(怒号)
TK* SHKT 努(努力)

6 熟語本位への切り換え

6.1 文字よりも単語

以上ざっと説明した漢字指定の方法で少し実験してみたところ、分速250字(120〜130語)ぐらいは無理なくこなせることがわかった。

しかし、1つの漢字語を1字1字打つのと、1語としてらえるのでは非常に能率がちがう。ただ、打数など機械的の面だけでなく、心理的にも1字ずつの漢字を意識の表面に取り出すことはオペレータには大きな負担になる。

言語学的にみても、読んだり、書いたり、タイプしたり(しゃべったり、聞いたりはいわずもがな)、すべて国語を駆使する場合、文字は意識にのぼらないのが理想であり当然でもある。病的現象なのである。漢語でも文字の意識の強いうちは、未熟語イとみなければならない。

そので昨年(1969年)初め、漢字指定を単独漢字主義から熟語本位に切り換えた。切り換え前にも頻度の高い語、約500語は文字に分解せず、一塊として処理した(5.1(b)(c)(e))。今度はこれを約10000語に拡張した。10000語あればたいがいの安定した漢語ははいるから、オペレータの疲労度と速度に大きく影響すると思われる。

この10000語は筆者が辞書から選んだだけであるから、今後各方面の検討を期待する。語数も10000語と限ったことはない。20000でも3000でも機会の記憶能力は充分余裕がある。そんなに覚えるのはたいへんだろうという人もあったが、たいがいまともな漢語はみなあるとなればがえって覚えなくてもすむ。

6 Handling Complex Expressions

6.1 Words over Letters

I did a little experiment with the kanji assignment method as explained above, and found that I could easily write about 250 characters (120〜130 words) per minute.

However, there is a huge difference in efficiency between writing each kanji word one by one and treating it as a word. It is a heavy burden on the operator not only mechanically, with the number of strokes, but also mentally to recall each kanji.

From a linguistic point of view, when reading, writing, and typing (and not to mention speaking and listening), when using the Japanese language, it is ideal and natural that the letters do not even enter one's consciousness. Even with Chinese, while the awareness of letters is strong, they must be considered in combination rather than separately.

Therefore, starting last year (1969), we changed the designation of kanji from individual kanji to words and expressions. Before the switch, approximately 500 high-frequency words were input without bring broken down into letters; this time, I expanded it to about 10,000 words. Since 10,000 words can contain most of the standard kanji, I think this will greatly affect the operator's fatigue level at speed.

I simply selected these 10,000 words from a dictionary, so I hope that various aspects will be considered in the future. The number of words is also not limited; whether 20,000 or 3,000, the memory capacity is very high. Some people said it would be difficult to memorize that much, but if you already know all the proper words, you won't have to memorize them at all.

6.2 同音語の処理

漢語だいつも問題になるのは、同音語の取扱いである。漢字ソクタイプでは、言語音以外の方法で機械に漢字を指示するために、5種類の手段を用意している。音に関連を持ちながら、それぞれ打ち方を変えるのであるが、紙数がないから、詳しい説明は割愛し他日にゆずる。

6.2 Homophones

One problem that always arises when writing Chinese characters is the handling of homonyms. Kanji Sokutaipu provides five methods for instructing machines to write kanji using methods other than sounds. Although they are still related to sounds, they are written in different ways, but due to the lack of space, I will omit a detailed explanation and leave it for another day.

7 むすび

漢字情報をふくむ21ビットのさん孔テープができたら、機械がこれを受けて普通文書をつくる道程については、将来もっと近道があると思うが、差し当たりは12ビットの漢テレテープにまず反訳するのである。

それによって、現在の端末機械(たとえば新聞社の漢テレやモノタイプ)に連結する。この反訳の字引と、プログラムは相当膨大ではあるが、今日の電算機の能力からは、むしろ軽い仕事かと思う。

この方法によれば、日本語の文書作成速度がのろいというなやみだけは解消する。現在の漢テレによる入力に比べて5倍ないし7倍、さらには速記、すなわち、口でしゃべる速さまで延びる見込みがある。

将来、日本語をローマ字で書く時代になっても、漢字を必要としなくなったソクタイプは、ローマ字タイプの2倍ぐらいの速度になると思われる。

7 Conclusion

Once a 21-bit perforated tape containing kanji information is made, I think there will be a method in the future for a machine to receive it and create a regular document, but for now we can translate it into a 12-bit kanji teletape.

As such, it can be connected to existing computer terminals (for example, newspaper companies' Kan-tele and Monotype). Although the translation dictionary and the program are quite large, I think it is a rather light task given the capabilities of today's computers.

This method eliminates the problem of slow document creation speed in Japanese. It is expected that the input speed will be five to seven times faster than current Kan-tele input speeds, and could even reach the speed of shorthand.

Even in the future, when Japanese is written in Roman letters, I think that Sokutaipu, which would no longer require kanji, will be about twice as fast as writing directly in Roman letters.

Y IOTK INOIASKHTYということになっても
T S IOTK INO KH つずけるのでございます
T KSAIOTK IN IAS H ことわらなければならない

など、かなの部分で速度がかせげるからである。

(昭和45年1月17日受付、同年5月1日再受付)

This is because the speed increase comes from the kana writing.

(Received on January 17, 1970, then again on May 1 of the same year.)