kazmax - Linux で自宅サーバー

scanf - ライブラリコールの説明 - Linux コマンド集 一覧表

  1. 名前
  2. 書式
  3. 説明
  4. 変換
  5. 返り値
  6. 関連項目
  7. 準拠
  8. バグ

名前

scanf, fscanf, sscanf, vscanf, vsscanf, vfscanf - 書式付き入力変換

書式

#include <stdio.h>int scanf(const char *format, ...);

int fscanf(FILE *stream, const char *format, ...);
int sscanf(const char *str, const char *format, ...);
#include <stdarg.h>int vscanf(const char *format, va_list ap);
int vsscanf(const char *str, const char *format, va_list ap);
int vfscanf(FILE *stream, const char *format, va_list ap);

説明

scanf()関数グループは、以下に述べるように、 formatに従って入力を読み込むものである。 この書式には "「変換指定」 (conversion specifications)"を含めることができ、変換指定があれば、その変換の結果は formatに続く pointer引き数が指す場所に格納される。 それぞれの pointer引き数の型は、対応する変換指定が返す値に 適合していなければならない。
format中の変換指定の個数が pointer引き数の数より多かった場合の結果は未定義である。 pointer引き数の数が変換指定の個数よりも多かった場合、 余分な pointer引き数の評価は行われるが、それ以外は行われず無視される。
scanf()関数は標準入力ストリーム stdinからの入力を読み込む。 fscanf()はストリームポインタ streamからの入力を読み込む。 sscanf()は文字列ポインタ strで示された文字列からの入力を読み込む。

vfscanf()関数は vfprintf(3)と同様に、ストリームポインタ streamからの入力をポインタの可変長引き数リストを用いて読み込む (stdarg(3)を参照)。 vscanf()関数は、可変長引き数のリストに基づき標準入力からの読み取りを行う。 vsscanf()関数はそのリストに基づき文字列から読み取る。 これらの関係は vprintf()と vsprintf()関数の関係と同様である。

format文字列は "「命令」 (directive)"の列で構成される。命令は入力文字の系列をどのように処理するかを指示する ものである。ある命令の処理が失敗すると、入力はそれ以上読み込まれず、 scanf()は返る。「失敗」は "「入力の失敗」 (input failure)"と "「一致の失敗」 (matching failure)"のいずれかである。 入力の失敗は入力文字が使用できなかったことを意味し、 一致の失敗は入力が不適切であったこと (下記参照) を意味する。
命令は以下のいずれかである:

»
ホワイトスペース (スペース、タブ、改行など; isspace(3)参照) の列。 この命令は、入力中の任意の個数のホワイトスペースに一致する。 (「何もなし」にも一致する)。
»
通常文字 (つまり、ホワイトスペースと '%' 以外の文字)。 この文字は入力の次の文字に正確に一致しなければならない。
»
変換指定。変換指定は '%' (パーセント) 文字で始まる。 入力された文字の系列はこの指定にもとづいて変換され、 変換結果は対応する pointer引き数が指す場所に格納される。 入力の次の文字が変換指定と一致しない場合は、変換は失敗する \(em これが "「一致の失敗」 (matching failure)"である。

format中の各々の "「変換指定」"は文字 '%' か文字系列 "%n$" (違いについては後述) で始まり、以下の要素が続く。

»
代入抑制文字 '*' (省略可能)。 scanf()は変換指定に指示された通り入力を読み込むが、その入力は捨てられる。 対応する pointer引き数は必要なく、 scanf()が返す代入が成功した数にこの指定は含まれない。
»
文字 'a' (省略可能)。これは文字列変換とともに使用され、これを使うと 呼び出し元が入力を保持する対応するバッファを確保する必要がなくなる。 代わりに scanf()が必要な大きさのバッファを確保し、このバッファのアドレスを 対応する pointer引き数に代入する。 pointer引き数は "char *"型の変数へのポインタでなければならない (変数自体は呼び出し前に初期化されている必要はない)。 呼び出し元は、不要になった時点で、このバッファを  free(3) すべきである。この機能は GNU による拡張である。 C99 は 'a' 文字を変換指定として使用している (こちらも GNU の実装と同じように使用することができる)。
»
"「最大フィールド幅」"を指定する 10進数 (省略可能)。 この最大値に達するか、一致しない文字が見つかるか、のどちらかに なると、文字の読み込みを停止する。 ほとんどの変換では、先頭のホワイトスペース文字は捨てられ (例外については後述する)、 捨てられたこれらの文字は最大フィールド幅の計算には含まれない。 文字列の入力変換では、入力の末尾を示すヌル終端文字 ('\0') も格納されるが、最大フィールド幅にはこの終端文字は含まれない。
»
"「型修飾子」 (type modifier characters)"(省略可能)。 例えば、型修飾子 lを %dなどの整数変換と一緒に使うと、対応する pointer引き数が intではなく "long int"を参照していることを指定できる。
»
"「変換指定」": 実行すべき入力変換の種類を指定する。

format中の変換指定は、'%' で始まるか、 "%n$" で始まるかの、いずれかの形式である。 これら 2つの形式を同じ format文字列に混ぜることはできない。但し、"%n$" を 含む文字列に %%と %*を含めることはできる。 formatに '%' 指定が含まれている場合、各々の '%' 指定と 後続の pointer引き数はその順番通りに対応する。 "%n$" 形式 (POSIX.1-2001 では規定されているが、C99 にはない) では、 nは 10進数であり、変換後の入力を formatの後ろの n番目の pointer引き数が参照する場所に格納することを指定する。

変換

変換指定には、以下の "「型修飾子」"を入れることができる。

h
変換が diouxXまたは nのいずれかであり、次のポインタが (intではなく) short intか unsigned short intへのポインタであることを示す。
hh
hと同じだが、次のポインタが signed charか unsigned charへのポインタであることを示す。
j
hと同じだが、次のポインタが intmax_tか uintmax_tへのポインタであることを示す。 この修飾子は C99 で導入された。
l
変換が diouxXか nのいずれかであり次のポインタが (intではなく) long intか unsigned long intへのポインタであること、または、変換が efgのうちのひとつであり次のポインタが (floatではなく) doubleへのポインタであることのいずれかであることを示す。 l文字を二つ指定すると、 Lと同じ意味となる。 %cや %sとともに使用すると、 パラメータはそれぞれワイド文字やワイド文字列へのポインタであると みなされる。
L
efg変換で、次のポインタが "long double"へのポインタであることを示す。もしくは、 dioux変換で、次のポインタが "long long"へのポインタであることのいずれかであることを示す。
q
Lと同一である。 この修飾子は ANSI C には存在しない。
t
hと同様だが、次のポインタが ptrdiff_tへのポインタであることを示す。 この修飾子は C99 で導入された。
z
hと同様だが、次のポインタが size_tへのポインタであることを示す。 この修飾子は C99 で導入された。

以下の 「変換指定子」が利用可能である。

%
文字 '%' に対応する。 書式文字列の中の %%は単一の文字 '%' に対応する。 変換は行われず、変数への代入は生じない。
d
符号つきの 10進の整数に対応する。 次のポインタは intへのポインタでなければならない。
D
ldと同一である。これは以前の仕様との互換性だけのためにある。 (注意: これは libc4 の場合だけである。 libc5 や glibc では %Dは暗黙のうちに無視され、古いプログラムにおいて謎に満ちた失敗の原因となる。)
i
符号つき整数に対応する。 次のポインタは intへのポインタでなければならない。 この整数は 0xまたは 0Xで開始する場合には 16 進数、 0で開始する場合には 8 進数、その他の場合には 10進数として読み込まれる。 この変換で使用される文字は、これらの基数に対応しているものだけである。
o
符号なしの 8 進の整数に対応する。 次のポインタは "unsigned int"でなければならない。
u
符号なしの 10進の整数に対応する。 次のポインタは "unsigned int"へのポインタでなければならない。
x
符号なしの 16 進の整数に対応する。 次のポインタは "unsigned int"へのポインタでなければならない。
X
xと同一である。
f
符号つき浮動小数点実数に対応する。 次のポインタは floatへのポインタでなければならない。
e
fと同一である。
g
fと同一である。
E
fと同一である。
a
(C99) fと同一である。
s
ホワイトスペースではない文字で構成された文字列に対応する。 次のポインタは文字の配列へのポインタでなければならず、 その文字配列は、入力された文字列と (自動的に追加される) ヌル終端文字 ('\0') を格納するのに十分な大きさでなければならない。 文字列の入力は、ホワイトスペースが入力されるか、最大フィールド幅に 達するか、のどちらかが起こると停止される。
c
"「最大フィールド幅」"(デフォルトは 1) で指定された幅の文字の列に対応する。 次のポインタは charへのポインタで、すべての文字を格納するのに十分な領域が なければならない (終端の NULL バイトは追加されない)。 通常行われる先頭のホワイトスペースの読み飛ばしは行われない。 先頭のホワイトスペースを読み飛ばすためには、 フォーマット文の中で明示的にスペースを使用すれば良い。
[
格納された文字列のうちから取り出された、 指定された文字の集合で構成される空ではない文字の列に対応する。 次のポインタは charへのポインタでなければならず、 そこには文字列中のすべての文字と終端の NULL バイト を格納するための十分な領域がなければならない。 通常行われる先頭のホワイトスペースの読み飛ばしは行われない。 この文字列は特別な集合の中の文字で構成されている。 この集合は 開き括弧 [と閉じ括弧 ]の間の文字で定義される。 開き括弧のあとの最初の文字が曲アクセント記号 (^)の場合、集合はこれらの文字を含まないものとなる。 閉じ括弧を集合に含ませるためには、この文字を開き括弧または 曲アクセント記号のあとの最初の文字にすればよい。 つまり、他の位置に閉じ括弧を置くと文字の集合が終る。 ハイフン -もまた特殊文字である。 二つの異なる文字の間に置かれた時、この文字は、 その間にある全ての文字を集合に加える。 ハイフン自体を含ませるためには、 括弧が閉じる前の最後の一文字をハイフンにすればよい。 例えば、 [^]0-9-]は「閉じ括弧、0 〜 9、ハイフンの 3 種類を除く全ての文字」の集合を意味する。 この文字列は 集合に含まれていない (曲アクセントの場合には含まれる) 文字の 出現または確保された領域が使い切られた時に終了する。
p
(printf(3)の %pで印字されるような) ポインタ値に対応する。 次のポインタは voidへのポインタへのポインタでなければならない。
n
どんな入力も必要としない。 そのかわりに、 入力からここまで消費された文字数が次のポインタで指定された場所に 格納される。 このポインタは intへのポインタでなければならない。 変換を抑制するのであれば *代入抑制文字を使って抑制することができるのだが、 この変換指定子は変換では「ない」。 C 言語の標準規格では「実行の完了時に返される代入の回数は %n命令の実行では増加しない」となっているが、 正誤表の内容はこれと矛盾するようである。おそらく、 %n変換が返り値に与える影響についてはどのような仮定もしないのが 賢明であろう。

返り値

これらの関数は、一致と代入が成功した入力要素の個数を返す。 返される値は渡された変換の個数よりも少ないこともあり、 最初に一致の失敗があった場合には 0 になることもある。
最初の変換が成功する前に入力の最後に達して、一致の失敗が起こった場合には、 EOFが返される。また、 読み込みエラーが発生した場合にも EOFが返される。読み込みエラーの場合には、そのストリームの エラー指示子がセットされ (ferror(3)参照)、 errnoにエラーを示す値がセットされる。

関連項目

準拠

fscanf(),scanf(),sscanf()関数は C89 と C99 に準拠している。

q指定子は "long long"の 4.4BSD での記述方法である。 一方、整数変換での llまたは Lの使用は GNU での拡張である。

これらの関数の Linux 版は GNUlibioライブラリーを元にしている。 より簡潔な説明には GNUlibc (glibc-1.08)の info文書に目を通すこと。

バグ

全ての関数は、完全に C89 に準拠している。しかし 追加で qと a指定子が提供されており、同様に Lと l指定子の付加的な振る舞いもある。後者は、 C89 で定義された指定子の振る舞いを変更するものなので、 バグとみなされるかもしれない。

ANSI C で定義された型修飾子と変換指定子の組み合わせの中には 意味をなさないものがある (例えば、 %Ld)。これらが指定された場合、 Linux 上でははっきりと定義された振る舞いをするかもしれないが、 他のアーキテクチャでも同様になっているとは限らない。 それゆえに、ほとんどの場合、 ANSI C で定義されていない修飾子を使用した方が良い。 すなわち、 diouxX変換や llと組み合わせる場合には、 Lの代わりに qを使用した方が良い。

qの使用方法は 4.4BSD と同じではない。 4.4BSD では qは Lと同等に浮動小数の変換に使用される。