点击这里给我发消息 点击这里给我发消息

C语言程序设计入门系列之一

添加时间:2013-12-7
    相关阅读: 设计 程序 C语言 C++ 系统
副标题#e#
  如果用户熟悉Linux下的sed、awk、grep或vi,那么对正则表达式这一概念肯定不会陌生。由于它可以极大地简化处理字符串时的复杂度,因此现在已经在许多Linux实用工具中得到了应用。千万不要以为正则表达式只是Perl、Python、Bash等脚本语言的专利,作为C语言程序员,用户同样可以在自己的程序中运用正则表达式。
 
  标准的C和C++都不支持正则表达式,但有一些函数库可以辅助C/C++程序员完成这一功能,其中最著名的当数Philip Hazel的Perl-Compatible Regular Expression库,许多Linux发行版本都带有这个函数库。
 
  编译正则表达式
 
  为了提高效率,在将一个字符串与正则表达式进行比较之前,首先要用regcomp()函数对它进行编译,将其转化为regex_t结构:
 
 int regcomp(regex_t *preg, const char *regex,
int cflags);

  参数regex是一个字符串,它代表将要被编译的正则表达式;参数preg指向一个声明为regex_t的数据结构,用来保存编译结果;参数cflags决定了正则表达式该如何被处理的细节。
 
  如果函数regcomp()执行成功,并且编译结果被正确填充到preg中后,函数将返回0,任何其它的返回结果都代表有某种错误产生。
 
  匹配正则表达式
 
  一旦用regcomp()函数成功地编译了正则表达式,接下来就可以调用regexec()函数完成模式匹配:
 
 int regexec(const regex_t *preg,
const char *string, size_t nmatch,
regmatch_t pmatch[], int eflags);
typedef struct {
regoff_t rm_so;
regoff_t rm_eo;
} regmatch_t;


  参数preg指向编译后的正则表达式,参数string是将要进行匹配的字符串,而参数nmatch和pmatch则用于把匹配结果返回给调用程序,最后一个参数eflags决定了匹配的细节。

#p#副标题#e#


 
  在调用函数regexec()进行模式匹配的过程中,可能在字符串string中会有多处与给定的正则表达式相匹配,参数pmatch就是用来保存这些匹配位置的,而参数nmatch则告诉函数regexec()最多可以把多少个匹配结果填充到pmatch数组中。当regexec()函数成功返回时,从string+pmatch[0].rm_so到string+pmatch[0].rm_eo是第一个匹配的字符串,而从string+pmatch[1].rm_so到string+pmatch[1].rm_eo,则是第二个匹配的字符串,依此类推。
 
  释放正则表达式
 
  无论什么时候,当不再需要已经编译过的正则表达式时,都应该调用函数regfree()将其释放,以免产生内存泄漏。
 

 void regfree(regex_t *preg);

  函数regfree()不会返回任何结果,它仅接收一个指向regex_t数据类型的指针,这是之前调用regcomp()函数所得到的编译结果。
 
  如果在程序中针对同一个regex_t结构调用了多次regcomp()函数,POSIX标准并没有规定是否每次都必须调用regfree()函数进行释放,但建议每次调用regcomp()函数对正则表达式进行编译后都调用一次regfree()函数,以尽早释放占用的存储空间。
 
  报告错误信息
 
  如果调用函数regcomp()或regexec()得到的是一个非0的返回值,则表明在对正则表达式的处理过程中出现了某种错误,此时可以通过调用函数regerror()得到详细的错误信息。
 
 size_t regerror(int errcode,
const regex_t *preg, char *errbuf,
size_t errbuf_size);

  参数errcode是来自函数regcomp()或regexec()的错误代码,而参数preg则是由函数regcomp()得到的编译结果,其目的是把格式化消息所必须的上下文提供给regerror()函数。在执行函数regerror()时,将按照参数errbuf_size指明的最大字节数,在errbuf缓冲区中填入格式化后的错误信息,同时返回错误信息的长度。
 
  应用正则表达式
 
  最后给出一个具体的实例,介绍如何在C语言程序中处理正则表达式。
 
 #include <stdio.h>
#include <sys/types.h>
#include <regex.h>
/* 取子串的函数 */
static char* substr(const char*str,
unsigned start, unsigned end)
{
unsigned n = end - start;
static char stbuf[256];
strncpy(stbuf, str + start, n);
stbuf[n] = 0;
return stbuf;
}
/* 主程序 */
int main(int argc, char** argv)
{
char * pattern;
int x, z, lno = 0, cflags = 0;
char ebuf[128], lbuf[256];
regex_t reg;
regmatch_t pm[10];
const size_t nmatch = 10;
/* 编译正则表达式*/
pattern = argv[1];
z = regcomp(?, pattern, cflags);
if (z != 0){
regerror(z, ?, ebuf, sizeof(ebuf));
fprintf(stderr, "%s: pattern '%s'
",
ebuf, pattern);
return 1;
}
/* 逐行处理输入的数据 */
while(fgets(lbuf, sizeof(lbuf), stdin))
{
++lno;
if ((z = strlen(lbuf)) > 0 && lbuf[z-1]
== '
')
lbuf[z - 1] = 0;

 

#p#副标题#e#


 

 /* 对每一行应用正则表达式进行匹配 */
z = regexec(?, lbuf, nmatch, pm, 0);
if (z == REG_NOMATCH) continue;
else if (z != 0) {
regerror(z, ?, ebuf, sizeof(ebuf));
fprintf(stderr, "%s: regcom('%s')
",
ebuf, lbuf);
return 2;
}
/* 输出处理结果 */
for (x = 0; x < nmatch && pm[x].rm_so != -1; ++ x)
{
if (!x) printf("%04d: %s
", lno, lbuf);
printf(" $%d='%s'
", x, substr(lbuf, pm[x].rm_so,
pm[x].rm_eo));
}
}
/* 释放正则表达式 */
regfree(?);
return 0;
}

  上述程序负责从命令行获取正则表达式,然后将其运用于从标准输入得到的每行数据,并打印出匹配结果。执行下面的命令可以编译并执行该程序:
 
 # gcc regexp.c -o regexp
# ./regexp 'regex[a-z]*' < regexp.c
0003: #include <regex.h>
$0='regex'
0027: regex_t reg;
$0='regex'
0054: z = regexec(?, lbuf, nmatch, pm, 0);
$0='regexec'

  小结
 
  对那些需要进行复杂数据处理的程序来说,正则表达式无疑是一个非常有用的工具。本文重点在于阐述如何在C语言中利用正则表达式来简化字符串处理,以便在数据处理方面能够获得与Perl语言类似的灵活性。
 
  本例中四次输出了a,b的值,但由于格式控制串不同,输出的结果也不相同。第四行的输出语句格式控制串中,两格式串%d 之间加了一个空格(非格式字符),所以输出的a,b值之间有一个空格。第五行的printf语句格式控制串中加入的是非格式字符逗号, 因此输出的a,b值之间加了一个逗号。第六行的格式串要求按字符型输出 a,b值。第七行中为了提示输出结果又增加了非格式字符串。
 
  赋值语句
 
  赋值语句是由赋值表达式再加上分号构成的表达式语句。 其一般形式为: 变量=表达式; 赋值语句的功能和特点都与赋值表达式相同。 它是程序中使用最多的语句之一。 在赋值语句的使用中需要注意以下几点:
 
  1、由于在赋值符“=”右边的表达式也可以又是一个赋值表达式,因此,下述形式 变量=(变量=表达式); 是成立的,从而形成嵌套的情形。其展开之后的一般形式为: 变量=变量=…=表达式;
 
  例如:
 
 a=b=c=d=e=5;
按照赋值运算符的右接合性,
因此实际上等效于:
e=5;
d=e;
c=d;
b=c;
a=b;

 

#p#副标题#e#


  2、注意在变量说明中给变量赋初值和赋值语句的区别。给变量赋初值是变量说明的一部分,赋初值后的变量与其后的其它同类变量之间仍必须用逗号间隔,而赋值语句则必须用分号结尾。
 
  3、在变量说明中,不允许连续给多个变量赋初值。 如下述说明是错误的:
 

 int a=b=c=5

  必须写为
 
 int a=5,b=5,c=5;

  而赋值语句允许连续赋值
 
  4、注意赋值表达式和赋值语句的区别。赋值表达式是一种表达式,它可以出现在任何允许表达式出现的地方,而赋值语句则不能。下述语句是合法的:
 
 if((x=y+5)>0) z=x;

  语句的功能是,若表达式x=y+5大于0则z=x.下述语句是非法的:
 
 if((x=y+5;)>0) z=x;

  因为=y+5;是语句,不能出现在表达式中。
 
  数据输出语句
 
  本文介绍的是向标准输出设备显示器输出数据的语句。在C语言中,所有的数据输入/输出都是由库函数完成的。因此都是函数语句。
 
  本文先介绍printf函数和putchar函数。printf函数printf函数称为格式输出函数,其关键字最末一个字母f即为“格式”(format)之意。其功能是按用户指定的格式,把指定的数据显示到显示器屏幕上。在前面的例题中我们已多次使用过这个函数。
 
  一、printf函数调用的一般形式
 
  printf函数是一个标准库函数,它的函数原型在头文件“stdio.h”中。但作为一个特例,不要求在使用 printf 函数之前必须包含stdio.h文件。printf函数调用的一般形式为: printf(“格式控制字符串”,输出表列)其中格式控制字符串用于指定输出格式。
 
  格式控制串可由格式字符串和非格式字符串两种组成。格式字符串是以%开头的字符串,在%后面跟有各种格式字符,以说明输出数据的类型、形式、长度、小数位数等。如“%d”表示按十进制整型输出,“%ld”表示按十进制长整型输出,“%c”表示按字符型输出等。后面将专门给予讨论。
 
  非格式字符串在输出时原样照印,在显示中起提示作用。 输出表列中给出了各个输出项, 要求格式字符串和各输出项在数量和类型上应该一一对应。
 
 void main()
{
int a=88,b=89;
printf("%d %d
",a,b);
printf("%d,%d
",a,b);
printf("%c,%c
",a,b);
printf("a=%d,b=%d",a,b);
}
a<--8,b<--89
printf("%d %d
",a,b);
printf("%d,%d
",a,b);
printf("%c,%c
",a,b);
printf("a=%d,b=%d",a,b);

 

#p#副标题#e#

 


  本例中四次输出了a,b的值,但由于格式控制串不同,输出的结果也不相同。第四行的输出语句格式控制串中,两格式串%d 之间加了一个空格(非格式字符),所以输出的a,b值之间有一个空格。第五行的printf语句格式控制串中加入的是非格式字符逗号, 因此输出的a,b值之间加了一个逗号。第六行的格式串要求按字符型输出 a,b值。第七行中为了提示输出结果又增加了非格式字符串。
 
  二、格式字符串
 
  在Turbo C中格式字符串的一般形式为: [标志][输出最小宽度][.精度][长度]类型 其中方括号[]中的项为可选项。各项的意义介绍如下:
 
  1.类型类型字符用以表示输出数据的类型,其格式符和意义下表所示:

表示输出类型的格式字符 格式字符意义
d 以十进制形式输出带符号整数(正数不输出符号)
o 以八进制形式输出无符号整数(不输出前缀O)
x 以十六进制形式输出无符号整数(不输出前缀OX)
u 以十进制形式输出无符号整数
f 以小数形式输出单、双精度实数
e 以指数形式输出单、双精度实数
g 以%f%e中较短的输出宽度输出单、双精度实数
c 输出单个字符
s 输出字符串


   2、标志
 
  标志字符为-、+、#、空格四种,其意义下表所示:
 

标志格式字符 标 志 意 义
- 结果左对齐,右边填空格
+ 输出符号(正号或负号)空格输出值为正时冠以空格, 为负时冠以负号
# 对c,s,d,u类无影响;对o类,在输出时加前缀
o 对x类,在输出时加前缀0x; 对e,g,f类当结果有小数时才给出小数点

  3、输出最小宽度
 
  用十进制整数来表示输出的最少位数。 若实际位数多于定义的宽度,则按实际位数输出, 若实际位数少于定义的宽度则补以空格或0.
 
  4、精度
 
  精度格式符以“。”开头,后跟十进制整数。本项的意义是:如果输出数字,则表示小数的位数;如果输出的是字符,则表示输出字符的个数;若实际位数大于所定义的精度数,则截去超过的部分。
 
  5.长度
 
  长度格式符为h,l两种,h表示按短整型量输出,l表示按长整型量输出。

 void main()
{
int a=15;
float b=138.3576278;
double c=35648256.3645687;
char d='p';
printf("a=%d,%5d,%o,%x
",a,a,a,a);
printf("b=%f,%lf,%5.4lf,%e
",b,b,b,b);
printf("c=%lf,%f,%8.4lf
",c,c,c);
printf("d=%c,%8c
",d,d);
} a<--15
b<--138.3576278
c<--35648256.3645687
d<--'p' main()
{
int a=29;
float b=1243.2341;
double c=24212345.24232;
char c='h'
printf("a=%d,%5d,%o,%x
",a,a,a,a);
printf("b=%f,%lf,%5.4lf,%e
",b,b,b,b);
printf("c=%lf,%f,%8.4lf
",c,c,c);
printf("d=%c,%8c
",d,d);
}


  本例第七行中以四种格式输出整型变量a的值,其中“%5d”要求输出宽度为5,而a值为15只有两位故补三个空格。第八行中以四种格式输出实型量b的值。其中“%f”和“%lf”格式的输出相同,说明“l”符对“f”类型无影响。

#p#副标题#e#


 
  “%5.4lf”指定输出宽度为5,精度为4,由于实际长度超过5故应该按实际位数输出,小数位数超过4位部分被截去。第九行输出双精度实数,“%8.4lf”由于指定精度为4位故截去了超过4位的部分。第十行输出字符量d,其中“%bc”指定输出宽度为8故在输出字符p之前补加7个空格。
 
  使用printf函数时还要注意一个问题,那就是输出表列中的求值顺序。不同的编译系统不一定相同,可以从左到右,也可从右到左。Turbo C是按从右到左进行的。如把例2.13改写如下述形式:
 

 void main()
{
int i=8;
printf("%d
%d
%d
%d
%d
%d
",
++i,--i,i--,i++,-i--);
} i<--8

  这个程序与例2.13相比只是把多个printf语句改一个printf语句输出。但从结果可以看出是不同的。为什么结果会不同呢?就是因为printf函数对输出表中各量求值的顺序是自右至左进行的。在式中,先对最后一项“-i——”求值,结果为-8,然后i自减1后为7.再对“-i++”项求值得-7,然后i自增1后为8.
 
  再对“i——”项求值得8,然后i再自减1后为7.再求“i++”项得7,然后I再自增1后为8.再求“——i”项,i先自减1后输出,输出值为7.最后才求输出表列中的第一项“++i”,此时i自增1后输出8.但是必须注意,求值顺序虽是自右至左,但是输出顺序还是从左至右,因此得到的结果是上述输出结果。
 
  字符输出函数
 
  putchar 函数
 
  putchar 函数是字符输出函数, 其功能是在显示器上输出单个字符。其一般形式为: putchar(字符变量) 例如:
 
  putchar('A'); 输出大写字母A
 
  putchar(x); 输出字符变量x的值
 
  putchar(' '); 换行 对控制字符则执行控制功能,不在屏幕上显示。 使用本函数前必须要用文件包含命令:
 
 #include<stdio.h>
#include <stdio.h>
void main(){
char a='B',b='o',c='k';
putchar(a);putchar(b);putchar(b);
putchar(c);putchar('  ');
putchar(a);putchar(b);
putchar('
');
putchar(b);putchar(c);
}


  数据输入语句
 
  C语言的数据输入也是由函数语句完成的。本文介绍从标准输入设备—键盘上输入数据的函数scanf和getchar.
 
  scanf函数
 
  scanf函数称为格式输入函数,即按用户指定的格式从键盘上把数据输入到指定的变量之中。
 
  一、scanf函数的一般形式
 
  scanf函数是一个标准库函数,它的函数原型在头文件“stdio.h”中,与printf函数相同,C语言也允许在使用scanf函数之前不必包含stdio.h文件。scanf函数的一般形式为: scanf(“格式控制字符串”,地址表列);其中,格式控制字符串的作用与printf函数相同,但不能显示非格式字符串, 也就是不能显示提示字符串。

#p#副标题#e#


 
  地址表列中给出各变量的地址。地址是由地址运算符“&”后跟变量名组成的。例如,&a,&b分别表示变量a和变量b 的地址。这个地址就是编译系统在内存中给a,b变量分配的地址。在C语言中,使用了地址这个概念,这是与其它语言不同的。
 
  应该把变量的值和变量的地址这两个不同的概念区别开来。变量的地址是C编译系统分配的,用户不必关心具体的地址是多少。 变量的地址和变量值的关系如下: &a——>a567 a为变量名,567是变量的值,&a是变量a的地址。在赋值表达式中给变量赋值,如: a=567,在赋值号左边是变量名,不能写地址,而scanf函数在本质上也是给变量赋值,但要求写变量的地址,如&a. 这两者在形式上是不同的。&是一个取地址运算符,&a是一个表达式,其功能是求变量的地址。
 

 void main()
{
int a,b,c;
printf("input a,b,c
");
scanf("%d%d%d",&a,&b,&c);
printf("a=%d,b=%d,c=%d",a,b,c);
}

  注意&的用法!
 
  在本例中,由于scanf函数本身不能显示提示串,故先用printf语句在屏幕上输出提示,请用户输入a、b、c的值。执行scanf语句,则退出TC屏幕进入用户屏幕等待用户输入。用户输入7、8、9后按下回车键,此时,系统又将返回TC屏幕。在scanf语句的格式串中由于没有非格式字符在“%d%d%d”之间作输入时的间隔,因此在输入时要用一个以上的空格或回车键作为每两个输入数之间的间隔。如:
 
 7 8 9

  或
 
 7
8
9


  格式字符串
 
  格式字符串的一般形式为: %[*][输入数据宽度][长度]类型 其中有方括号[]的项为任选项。各项的意义如下:
 
  1.类型
 
  表示输入数据的类型,其格式符和意义下表所示。

格式 字符意义
d 输入十进制整数
o 输入八进制整数
x 输入十六进制整数
u 输入无符号十进制整数
f或e 输入实型数(用小数形式或指数形式)
c 输入单个字符
s 输入字符串

  2、“*”符
 
  用以表示该输入项读入后不赋予相应的变量,即跳过该输入值。 如 scanf("%d %*d %d",&a,&b);当输入为:1 2 3 时,把1赋予a,2被跳过,3赋予b.
 
  3、宽度
 
  用十进制整数指定输入的宽度(即字符数)。例如: scanf("%5d",&a);
 
  输入:
 
  12345678
 
  只把12345赋予变量a,其余部分被截去。又如: scanf("%4d%4d",&a,&b);
 
  输入:
 
  12345678将把1234赋予a,而把5678赋予b.
 
  4、长度
 
  长度格式符为l和h,l表示输入长整型数据(如%ld)和双精度浮点数(如%lf)。h表示输入短整型数据。使用scanf函数还必须注意以下几点:
 
  a. scanf函数中没有精度控制,如:

 scanf("%5.2f",&a);

  是非法的。不能企图用此语句输入小数为2位的实数。
 
  b. scanf中要求给出变量地址,如给出变量名则会出错。如:
 
 scanf("%d",a);

  是非法的,应改为scnaf("%d",&a);才是合法的。
 
  c. 在输入多个数值数据时,若格式控制串中没有非格式字符作输入数据之间的间隔则可用空格,TAB或回车作间隔。C编译在碰到空格,TAB,回车或非法数据(如对“%d”输入“12A”时,A即为非法数据)时即认为该数据结束。
 
  d. 在输入字符数据时,若格式控制串中无非格式字符,则认为所有输入的字符均为有效字符。例如:
 
 scanf("%c%c%c",&a,&b,&c);


  输入为:
 
  d e f
 

#p#副标题#e#


  则把'd'赋予a, 'f'赋予b,'e'赋予c.只有当输入为:
 
  def
 
  时,才能把'd'赋于a,'e'赋予b,'f'赋予c. 如果在格式控制中加入空格作为间隔,如 scanf ("%c %c %c",&a,&b,&c);则输入时各数据之间可加空格。
 

 void main()
{
char a,b;
printf("input character a,b
");
scanf("%c%c",&a,&b);
printf("%c%c
",a,b);
}
scanf("'C14F14%c%c",&a,&b);
printf("%c%c
",a,b);

  由于scanf函数"%c%c"中没有空格,输入M N,结果输出只有M.而输入改为MN时则可输出MN两字符,见下面的输入运行情况:
 
 input character a,b
MN
MN
void main()
{
char a,b;
printf("input character a,b
");
scanf("%c %c",&a,&b);
printf("
%c%c
",a,b);
}
scanf("%c %c",&a,&b);

  本例表示scanf格式控制串"%c %c"之间有空格时, 输入的数据之间可以有空格间隔。e. 如果格式控制串中有非格式字符则输入时也要输入该非格式字符。
 
  例如:
 
 scanf("%d,%d,%d",&a,&b,&c);

  其中用非格式符“ , ”作间隔符,故输入时应为: 5,6,7
 
  又如:
 
 scanf("a=%d,b=%d,c=%d",&a,&b,&c);

  则输入应为
 
  a=5,b=6,c=7g. 如输入的数据与输出的类型不一致时,虽然编译能够通过,但结果将不正确。
 
 void main(){
int a;
printf("input a number
");
scanf("%d",&a);
printf("%ld",a);
}

  由于输入数据类型为整型, 而输出语句的格式串中说明为长整型,因此输出结果和输入数据不符。如改动程序如下:
 
 void main()
{
long a;
printf("input a long integer
");
scanf("%ld",&a);
printf("%ld",a);
}

  运行结果为:
 
 input a long integer
1234567890
1234567890


  当输入数据改为长整型后,输入输出数据相等。

#p#副标题#e#


 
  键盘输入函数
 
  getchar函数getchar函数的功能是从键盘上输入一个字符。其一般形式为: getchar(); 通常把输入的字符赋予一个字符变量,构成赋值语句,如:
 

 char c;
c=getchar();#include<stdio.h>
void main(){
char c;
printf("input a character
");
c=getchar();
putchar(c);
}

  使用getchar函数还应注意几个问题:
 
  1.getchar函数只能接受单个字符,输入数字也按字符处理。输入多于一个字符时,只接收第一个字符。
 
  2.使用本函数前必须包含文件“stdio.h”。
 
  3.在TC屏幕下运行含本函数程序时,将退出TC 屏幕进入用户屏幕等待用户输入。输入完毕再返回TC屏幕。
 
 void main(){
char a,b,c;
printf("input character a,b,c
");
scanf("%c %c %c",&a,&b,&c);
printf("%d,%d,%d
%c,%c,%c
",a,b,c,a-32,b-32,c-32);
}

  输入三个小写字母
 
  输出其ASCII码和对应的大写字母。
 
 void main()
{
int a;
long b;
float f;
double d;
char c;
printf("%d,%d,%d,%d,%d",sizeof(a),
sizeof(b),sizeof(f)
,sizeof(d),sizeof(c));
}

  输出各种数据类型的字节长度。

相关C语言程序设计入门系列之一

咨询热线:020-85648757 85648755 85648616 0755-27912581 客服:020-85648756 0755-27912581 业务传真:020-32579052
广州市网景网络科技有限公司 Copyright◎2003-2008 Veelink.com. All Rights Reserved.
广州商务地址:广东省广州市黄埔大道中203号(海景园区)海景花园C栋501室
= 深圳商务地址:深圳市宝源路华丰宝源大厦606
研发中心:广东广州市天河软件园海景园区 粤ICP备05103322号 工商注册