【Fsteam】使用C++筛选合并多文件的尝试

今天接到一个小任务,说是让把好多文件(大概2800来个,总大小超过1G)中的信息进行筛选,整合到一个文件里方便接下来的操作。
那么,无可避免的就需要用到多文件读写。那么,该如何批量打开多个文件进行读写操作呢?
众所周知 freopen(filename,r/w,i/ostream)的第一个参数filename需要是一个常量const char*,即便文件名是有序的,我们也没办法将变量传参进去。

于是,在搜索与自学中看到了这样一个实例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#include <iostream>
#include <fstream>
using namespace std;
int main()
{
trueint i;
truechar filename[30],line[1001];
trueifstream File[5];
trueofstream File2;
trueFile2.open("5.txt",ios::out);
truefor(i=1;i<5;i++)
true{
truetruesprintf(filename,"%d.txt",i);
truetrueFile[i].open(filename,ios::in);
truetruewhile(!File[i].eof())
truetrue{
truetruetrueFile[i].getline(line,1000);
truetruetrueFile2<<line<<endl;
truetrue}
truetrueFile[i].close();
true}
trueFile2.close();
truesystem("pause");
truereturn 0;
}

用数组来申明文件输入输出流,使用正规的fsream函数来进行操作,简单易懂而且操作高效。
然而,关于当前文件夹究竟有哪些文件,也懒得一一输入进来,于是我们又需要这样一个函数来获得某个文件夹内,所有文件的名称(获得之后也可以通过文件读写把所有文件名写入一个文件中)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
#include <sys/types.h>
#include <dirent.h>
#include <stdio.h>
#include<iostream>
#include<vector>
using namespace std;
int main(int argc, char *argv[])
{
trueDIR *dp;
truestruct dirent *dirp;
truevector<std::string> filename;
trueif( (dp=opendir("F:\\directory_name") )==NULL )
trueperror("open dir error");
true
truewhile( (dirp=readdir(dp) )!=NULL )
truefilename.push_back(dirp->d_name);
truefor(int i=0;i<filename.size();i++)
truecout<<filename[i]<<endl;
trueclosedir(dp);
truereturn 0;
}

在掌握了这些之后,尝试着写了一个较大的程序,实现的工程应用如下:从CN-pair中获得事先输出的键值对,存储在缓存中,接着对大数量的文件进行读取,每行三列以’\t’分割的数据经过处理,获得第二列中的数据,筛去的值,依次存储于文件SUM中,与其相对应的频数则也依次存储于FREQ中:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
#include <map>
#include <cmath>
#include <vector>
#include <cctype>
#include <cstdio>
#include <string>
#include <cstdlib>
#include <cstring>
#include <fstream>
#include <iostream>
#include <algorithm>
using namespace std;
#define Max(a,b) ((a)>(b)?(a):(b))
#define Min(a,b) ((a)<(b)?(a):(b))
bool cmp(const int a, const int b)
{
truereturn a > b;
}
map<string,string> mark;
vector<int> freq;
void get_CNpair() //get <Code-Name> pair into Cache
{
truestring c,n;
truemark.clear();
truefreopen("CN-pair","r",stdin);
truewhile(cin>>c>>n) mark[c]=n;
truefclose(stdin);
}
int IncludeChinese(char *str) //0: English 1:Chinese
{
char c;
while(1)
{
c=*str++;
if (c==0) break;
true if (c&0x80)
if (*str & 0x80) return 1;
}
return 0;
}
int main()
{
trueget_CNpair();
truefreq.clear();
truechar filename[30],line[1024],t[1024];
trueifstream File[3333];
trueofstream File2;
trueFile2.open("Sum.txt",ios::out);
trueint i=1;
truefor(map<string,string>::iterator mit=mark.begin();mit!=mark.end();++mit,++i)
true{
truetrue//cout<<mit->first<<":"<<mit->second<<endl;
truetruechar addr[6];
truetruefor(int j=0;j<6;j++) addr[j]=(mit->first)[j];
truetruesprintf(filename,"%s",addr);
truetrueFile[i].open(filename,ios::in);
truetrue//File2<<"#"<<mit->first<<"#"<<endl;
truetruewhile(!File[i].eof())
truetrue{
truetruetrueFile[i].getline(line,1023);
truetruetruestring anti=line;
truetruetrueint flag=0,rj=0,temp=0;
truetruetruefor(int ri=0;ri<strlen(line);ri++)
truetruetrue{
truetruetruetrueif(flag==0 && line[ri]=='\t') {flag=1;continue;}
truetruetruetrueif(flag==0) continue;
truetruetruetrueif(line[ri]=='\t')
truetruetruetrue{
truetruetruetruetruetemp=0;
truetruetruetruetrueri++;
truetruetruetruetruewhile(line[ri]!='.')
truetruetruetruetrue{
truetruetruetruetruetruetemp=temp*10+(int)(line[ri]-'0');
truetruetruetruetruetrueri++;
truetruetruetruetrue} break;
truetruetruetrue}
truetruetruetrueelse
truetruetruetrue{
truetruetruetruetrueif(line[ri]!=32 && line[ri]>0 && line[ri]<127);
truetruetruetruetrueelse if(isdigit(line[ri]));
truetruetruetruetrueelse t[rj++]=line[ri];
truetruetruetrue}
truetruetrue}
truetruetruet[rj]='\0';
truetruetrueif(strlen(t)>0 && IncludeChinese(t))
truetruetrue{
truetruetruetruestring t_str=t,
truetruetruetruetruetruerpls1=mit->first,
truetruetruetruetruetruerpls2=mit->second;
truetruetruetrue//cout<<rpls1<<rpls2<<endl;
truetruetruetrueif(t_str.find(rpls1)!=t_str.npos)
truetruetruetruet_str=t_str.replace(t_str.find(rpls1),rpls1.length(),"");
truetruetruetrue//cout<<"rpls1:"<<t_str<<":"<<rpls1<<endl;
truetruetruetrueif(t_str.find(rpls2)!=t_str.npos)
truetruetruetruet_str=t_str.replace(t_str.find(rpls2),rpls2.length(),"");
truetruetruetrue//cout<<"rpls2:"<<t_str<<":"<<rpls2<<endl;
truetruetruetrueif(t_str.length()>0)
truetruetruetrue{
truetruetruetruetruebool blank_flag=1;
truetruetruetruetruefor(int bi=0;bi<t_str.length();bi++)
truetruetruetruetrue{
truetruetruetruetruetrueif(t_str[bi]!=' ')
truetruetruetruetruetrue{
truetruetruetruetruetruetrueblank_flag=0;
truetruetruetruetruetruetruebreak;
truetruetruetruetruetrue}
truetruetruetruetrue}
truetruetruetruetrueif(blank_flag)
truetruetruetruetrue{
truetruetruetruetruetrueFile2<<line<<endl;
truetruetruetruetruetruefreq.push_back(temp);
truetruetruetruetrue}
truetruetruetrue}
truetruetrue}
truetrue}
truetrueFile[i].close();
true}
trueFile2.close();
truefreopen("freq.txt","w",stdout);
true//for(vector<int>::iterator vd=freq.begin();vd!=freq.end();++vd)
truefor(int i=0;i<freq.size();i++)
truecout<<freq[i]<<endl;
truefclose(stdout);
truereturn 0;
}