TUG 2013という、世界中からTeX関連の開発者と利用者が日本に集まるイベントで、日本語書籍の索引について発表する機会がありました。「発表してみないか」と実行委員の黒木さんに誘われたときは、仕事でやってることを10分くらいで紹介すればいいのかなと思って軽い気持ちで引き受けたのですが、実は「海外からの参加者向けに用意する日本語チュートリアルの一環なのでよろしく」という話でした。当日は早口でいろいろ詰め込んでしまったせいか、話の筋を見失った方もいると聞いたので(すみません)、いまさらですが発表のストーリーをまとめておきます。(TeX & LaTeX Advent Calendar 2013の2日目の記事です。1日目はzrさん、3日目はdoraTeXさん。)
- いろいろな言語の本の索引を比べてみると、索引項目(一般には単語)の「自然な」並べ方がある言語とない言語がある
- アルファベットを使う言語(ラテンアルファベットだけでなくハングルも含む)や、広義のアルファベットを用いる言語(タイ語とか)では、文字は言語によっていろいろだけど、単語は字面だけを見て並べられる
- 一方、アルファベットを持たない日本語と中国語では、単語の並べ方に工夫が必要
- そこで、日本語の本における索引の並べ方を概説
- いわゆる50音順は、文字の順番じゃなく、シラブルの順番
- 中国語の辞書などで採用されてるピンイン順との比較
- 人名を並べるときなど、50音順を破って字面優先にする場合(いわゆる電話帳順)もあるよ
- さらに具体的に、LaTeXで日本語の索引をどうやって作ってるか
- makeindexやxindyは使えないので、日本語専用のmendexというツールを使うしかない
- 漢字の読み仮名を機械的に解決するには、辞書だけじゃなくて、わかち書きのために形態素解析器も必要
- 原稿がマークアップで汚くなるのを回避するために、gitで索引用のブランチを作るといいよ
- いろいろ面倒だけど、索引重要
- 索引は、本文から単語を探すツールであるだけじゃなくて、本文の圧縮版としての役割もあるんだよ
- 本を書いたり編集したりする人は、どうせ書いたものを何度も読むことになるんだから、そのうちの一回を「索引を作る」にあてるべきだよ
- 電子書籍には電子書籍の索引の形があるはずなので模索していくべき
発表後、主に欧米の方々から個別にいろいろ質問されました。
Q:索引項目は文字列として短いのに、それでも形態素解析器が必要なの?
A:日本語は、まず分かち書きをしないと辞書すらひけないから、そのためだけでも必要。
Q:バージョン管理には何を使ってるの?
A:git(実際にはgit-svnが多い)
Q:たとえば「山」の字は「さん」と「やま」と二通り読むらしいけど、索引ではどっちに載せるの?
A:どういう単語に「山」の字が含まれてるかによって、たいていは一通りに決まる。決まらない例として、「空リスト」は「からりすと」と「くうりすと」とが毎度議論になるけど、自分は両方載せちゃう。
Q:索引をちゃんと作ったほうがいいというお前の話はまったくそのとおりだ
A:ありがとうございます!
Q:xindyは文字の順番を定義できるけど、なんで日本語では使えないの?
A:設定ルールがアルファベット前提っぽいから、少なくとも何らかの工夫は必要そう。それ以上詳しいことは今はちょっとわからない。
Q:中国語の索引は画数って話だけど、同じ画数の漢字の順番はどう決まるの?(実際には質問されなかったけど、勝手に想定してた質問)
A:筆順で決まる。「横線」「縦線」「はらい」「点」「折れ」の順(らしい)。
英語で発表というのもあって、準備はものすごい大変だったけど、終わってみればとても面白かったです。声を掛けていただいた黒木さん、本当にありがとうございました。事前の練習にお付き合いいただいた関東在住のTeXユーザーの皆様にも本当にありがとうございました。
本音を言うと、「日本語チュートリアル」という4つしかない枠の1つをまるまる「索引」に割り当てるのは、はっきりいって頭がおかしい構成ではないかと思っていました。今でも思います。もしかしたら、日本で開催するTeXの国際会議の一コマとして、コンピュータによる日本語の「排列」(用語の標準的な並べ方)の話題に絞るほうがよかったのかなあとも思います。とはいえ、例えば上記のような質問は「(巻末)索引」という切り口だったからこそ出てくる問題なのだろうし、そもそも日本語の排列の一般論なんて自分にはお手上げだし、自分なりに全力は尽くしたと思いたい。
TUG 2013 雑感
内外のいろいろな方にお会いして、中古カメラの話とか子どもの話とか、TeX以外にもいろいろと盛り上がれてとても楽しかったです。
とくにフランク・ミッテルバッハさんがとてもかっこよく、すっかりファンになりました。LaTeXコンパニオンにサインもしてもらいました。自分の発表後に「お前の話はまったくそのとおりだ」といってくれたのも彼です(その前にプロジェクタの接続を手伝ってあげたのでリップサービスかもしれませんが気にしない)。これからはLaTeX3を使っていこうと思います。
0 件のコメント:
コメントを投稿