1 #include <vector>
  2 #include<iomanip>
  3 #include <string>
  4 #include<stdio.h>
  5 #include<string.h> 
  6 #include <fstream>
  7 #include <iostream>
  8 #include<set>
  9 #include<algorithm>
 10 #include<cstdio>
 11 #include<iomanip>
 12 #include<map>
 13 #include<cmath>
 14 #define col 41
 15 #define row 7000
 16 
 17 using namespace std;
 18 double label[8010][80];           //训练集 
 19 double test_label[8010][80];      //测试集
 20 double valition_label[8010][80];  //验证集 
 21 string s[8010]; 
 22 string ss[8010]; 
 23 string s2[8010]; 
 24 
 25 
 26 //logitic函数,将负无穷到正无穷 转化 -1到 1 
 27  
 28 double logistic(double n){
 29     
 30    return 1/(1+exp(-1.0*n));
 31     
 32 }
 33 
 34 double geterror(int n){
 35     return 0.001;
 36 }
 37 
 38 double cut_t(string s, int t){
 39     string str = s;
 40     int r = 0;
 41     double count = 0.0;
 42     bool flag = true;
 43     double flag1 = 1.0;
 44     double sum = 0.0;
 45     for(int i=0;i<str.length();i++){
 46         
 47         if(r==t && str[i] == '-'){
 48             flag1 = -1;
 49             continue;
 50         }
 51         if(str[i]==','){
 52             r++;
 53             continue;
 54         }
 55         if(r==t){
 56             if(flag == false){
 57                 count ++;
 58             }
 59             if(str[i] == '.'){
 60                 flag = false;
 61             }
 62             else {
 63                 sum = sum + (str[i] - '0') * 1.0;
 64                 sum = sum * 10;
 65             }
 66 
 67         }
 68     }
 69   
 70     for(int i=0;i<=count;i++){
 71          sum = sum/10;
 72     }
 73     return sum*flag1;
 74 }
 75 
 76 
 77 
 78 int main()
 79 {
 80 
 81 
 82 /*************************************************读文件***********************************************************/ 
 83   
 84     fstream myfile("C:\\AI_data\\lab5\\train.csv");
 85     fstream valition("C:\\AI_data\\lab5\\valition.csv");
 86     fstream test("C:\\AI_data\\lab5\\test.csv");
 87     
 88     
 89     int num=0;
 90     string temp;
 91     if(!myfile.is_open())
 92     {
 93         cout << "1未成功打开文件" << endl;
 94     }
 95     while(getline(myfile,temp))   //读入文本中的词 
 96     {
 97         s[num] = temp;
 98         num++;
 99     }        
100     
101    
102     int num1 = 0;
103     string temp1;
104     if(!test.is_open())
105     {
106         cout << "2未成功打开文件" << endl;
107     }
108     while(getline(test,temp1))   //读入文本中的词 
109     {
110         ss[num1] = temp1;
111         num1++;
112     }
113        
114        
115     int num2 = 0;
116     string temp2;
117     if(!valition.is_open())
118     {
119         cout << "3未成功打开文件" << endl;
120     }
121     while(getline(valition,temp2))   //读入文本中的词 
122     {
123         s2[num2] = temp2;
124         num2++;
125     }
126     
127    
128 /***********************************************处理文本********************************************************************/ 
129     for(int i=0; i<num; i++){
130         
131         int len = s[i].length(); 
132         string str = s[i];
133         char t[8000]="";
134         for(int j=0;j<col;j++){
135             label[i][0] = 1.0;                //需要在每一个样例前面加上一个 1 
136             label[i][j+1] = cut_t(s[i],j);
137         }
138         // for(int j=0;j<=col;j++)  cout<<label[i][j]<<" ";
139         //cout<<endl;
140         for(int w=0;w<len;w++){
141              t[w] = str[w]; 
142         }
143         const char *d = " , \n" ;
144         char* p = strtok(t,d); 
145         while(p)
146         {
147             p=strtok(NULL,d);
148         }
149     }
150     
151     for(int i=0; i<num1; i++){
152         
153         int len1 = ss[i].length(); 
154         string str1 = ss[i];
155         char tt[8000]="";
156         //cout<<ss[i]<<endl;
157         for(int j=0;j<col-1;j++){
158             test_label[i][0] = 1.0;                //需要在每一个样例前面加上一个 1 
159             test_label[i][j+1] = cut_t(ss[i],j);
160             //cout<<test_label[i][j]<<" ";
161         }
162          //for(int j=0;j<67;j++)  cout<<label[i][j]<<endl;
163         //cout<<endl;
164         for(int w=0;w<len1;w++){
165              tt[w] = str1[w]; 
166         }
167         const char *d = " , \n" ;
168         char* p = strtok(tt,d); 
169         while(p)
170         {
171             p=strtok(NULL,d);
172         }
173     }
174     
175     for(int i=0; i<num2; i++){
176         
177         int len2 = s2[i].length(); 
178         string str2 = s2[i];
179         char t2[8000]="";
180         for(int j=0;j<col;j++){
181             valition_label[i][0] = 1.0;                //需要在每一个样例前面加上一个 1 
182             valition_label[i][j+1] = cut_t(s2[i],j);
183         }
184         // for(int j=0;j<=col;j++)  cout<<label[i][j]<<" ";
185         //cout<<endl;
186         for(int w=0;w<len2;w++){
187              t2[w] = str2[w]; 
188         }
189         const char *d2 = " , \n" ;
190         char* p2 = strtok(t2,d2); 
191         while(p2)
192         {
193             p2=strtok(NULL,d2);
194         }
195     }
196 /***************************************************************** PLA算法执行  ************************************************/  
197  
198 
199  
200  
201     double w[col];                   //初始的 w[] 数组 
202     double new_w[col];
203     double zhishu[row];
204     for(int j=0;j<col;j++){
205         w[j] = 1.0; 
206     }
207     for(int ui=0;ui<row;ui++){
208         zhishu[ui] = 0.0;
209     }
210     
211     int a = 6000;                    //由于不能全部划分,所以设立一个最大次数 
212     double error = 0.5;
213     while(a--){
214         //double error = geterror(a);  //调整步长 
215                 
216         for(int j=0;j<col;j++){    //初始化数组,用来更新w[]数组 
217             new_w[j] = 0.0;
218         } 
219         for(int i=0;i<num;i++){    // 遍历所有样本进行一轮迭代 
220             for(int j=0;j<col;j++){
221                zhishu[i] += label[i][j]*w[j]; // 对每一个导数进行存储 
222             }                     
223             //进行logistic变换 
224             zhishu[i] = logistic(zhishu[i]) - label[i][col];  
225         }
226         bool flag = true;    //判断是否收敛 
227         for(int jt=0;jt<col;jt++){
228             for(int it=0;it<num;it++){  //更新 w[] 
229                  new_w[jt] +=  label[it][jt]*zhishu[it];
230             }
231             new_w[jt] = new_w[jt]*error;   
232             if(new_w[jt] != 0) flag = false; 
233             w[jt] = w[jt] - new_w[jt];  //为下一次迭代 w[] 
234         }
235         if(flag){  //如果收敛 
236              cout<<a<<endl;
237              cout<<"完美收敛,提前结束"<<endl; 
238              break;
239         }
240         
241     }
242     
243     //统计各个指标 
244     double TP = 0.0;
245     double FN = 0.0;
246     double TN = 0.0;
247     double FP = 0.0;
248     double Acc = 0.0;
249     double Rec = 0.0;
250     double Pre = 0.0;
251     double F1 = 0.0;
252      
253  
254     for(int i=0;i<num2;i++){
255        int flag1 = 1;
256        double sum2 = 0.0;
257        for(int j=0;j<col;j++){
258             sum2 += valition_label[i][j]*w[j];
259        }
260        if(logistic(sum2) < 0.5) flag1 = 0;
261        else flag1 = 1;
262        
263        
264        if(flag1 == 1 && valition_label[i][col] == 1) TP++;
265        else if(flag1 == 0 && valition_label[i][col] == 1) FN++;
266        else if(flag1 == 0 && valition_label[i][col] == 0) TN++;
267        else FP++;
268     }
269     cout<<"TP = "<<TP<<endl;
270     cout<<"TN = "<<TN<<endl;
271     cout<<"FN = "<<FN<<endl;
272     cout<<"FP = "<<FP<<endl;
273     Acc = (TP+TN)/(TP+TN+FP+FN);
274     Rec = TP/(TP+FN);
275     Pre = TP/(TP+FP);
276     F1 = 2*Pre*Rec / (Pre+Rec);
277 
278     cout<<"Acc = "<<Acc<<endl;
279     cout<<"Rec = "<<Rec<<endl;
280     cout<<"Pre = "<<Pre<<endl;
281     cout<<"F1 = "<<F1<<endl;
282 
283 
284 
285     for(int k=0;k<num1;k++){
286         
287        int flag3 = 0;
288        double sum3 = 0.0;
289        for(int j=0;j<col;j++){
290             sum3 += test_label[k][j]*w[j];
291        }
292 
293        if(logistic(sum3) <  0.5 ) flag3 = 0;
294        else flag3 = 1;
295        cout<<flag3<<endl; 
296     }
297     
298     test.close(); 
299     myfile.close();
300     return 0;
301 }
上面是原始的PLA实现,下面是PLA基于口袋算法的优化:
  1 #include <vector>
  2 #include<iomanip>
  3 #include <string>
  4 #include<stdio.h>
  5 #include<string.h> 
  6 #include <fstream>
  7 #include <iostream>
  8 #include<set>
  9 #include<algorithm>
 10 #include<cstdio>
 11 #include<iomanip>
 12 #include<map>
 13 #include<cmath>
 14 using namespace std;
 15 double label[4010][80];
 16 string s[4010];
 17 
 18 double cut_t(string s, int t){
 19     string str = s;
 20     int r = 0;
 21     double count = 0.0;
 22     bool flag = true;
 23     double flag1 = 1.0;
 24     double sum = 0.0;
 25     for(int i=0;i<str.length();i++){
 26         
 27         if(r==t && str[i] == '-'){
 28             flag1 = -1;
 29             continue;
 30         }
 31         if(str[i]==','){
 32             r++;
 33             continue;
 34         }
 35         if(r==t){
 36             if(flag == false){
 37                 count ++;
 38             }
 39             if(str[i] == '.'){
 40                 flag = false;
 41             }
 42             else {
 43                 sum = sum + (str[i] - '0') * 1.0;
 44                 sum = sum * 10;
 45             }
 46 
 47         }
 48     }
 49   
 50     for(int i=0;i<=count;i++){
 51          sum = sum/10;
 52     }
 53     return sum*flag1;
 54 }
 55 
 56 
 57 
 58 int main()
 59 {
 60 
 61 
 62 /*************************************************读文件***********************************************************/ 
 63   
 64     fstream myfile("F:\\AI_data\\lab3\\train.txt");
 65     int num=0;
 66     string temp;
 67     if (!myfile.is_open())
 68     {
 69         cout << "未成功打开文件" << endl;
 70     }
 71     while(getline(myfile,temp))   //读入文本中的词 
 72     {
 73         s[num] = temp;
 74         num++;
 75     }        
 76     
 77    
 78 /***********************************************处理文本********************************************************************/ 
 79     for(int i=0; i<num; i++){
 80         
 81         int len = s[i].length(); 
 82         string str = s[i];
 83         char t[8000]="";
 84         for(int j=0;j<66;j++){
 85             label[i][0] = 1.0;                //需要在每一个样例前面加上一个 1 
 86             label[i][j+1] = cut_t(s[i],j);
 87         }
 88          //for(int j=0;j<67;j++)  cout<<label[i][j]<<endl;
 89         // cout<<endl;
 90         for(int w=0;w<len;w++){
 91              t[w] = str[w]; 
 92         }
 93         const char *d = " , \n" ;
 94         char* p = strtok(t,d); 
 95         while(p)
 96         {
 97             p=strtok(NULL,d);
 98         }
 99     }
100   
101 /***************************************************************** PLA算法执行  ************************************************/  
102  
103     double w[66];                   //初始的 w[] 数组
104     double change_w[66]; 
105     //double w[7];
106     double store[4010];
107     double sum = 0.0;
108     for(int j=0;j<66;j++){
109         w[j] = 1.0;
110         change_w[j] = 1.0;
111     }
112     int a = 2000;
113     
114      
115     while(a--){                             //规定迭代次数 
116         
117         bool flag2 = true;
118         long double counter_right1 = 0;     //两次的正确的数目统计 
119         long double counter_right2 = 0;
120         int dex = 0;
121          
122         for(int i=0;i<num;i++){             //遍历所有数据 
123             
124             sum = 0.0;
125             
126             for(int j=0;j<66;j++){          //进行计算 
127                 
128                 sum += label[i][j]*w[j];
129                 //cout<< i << "   "<<j<<endl; 
130             }
131             //cout<<"sum= "<<sum<<endl;
132             int flag = 0;
133             
134             if(sum > 0.0){                 //对结果的符号进行判断 
135                 flag = 1;
136             }
137             else{
138                 flag = -1;
139             }
140         
141             //cout<<flag << "   "<<label[i][66]<<endl; 
142             if(flag != label[i][66] ){    //判断结果是否是正确的,不正确需要考虑这个w[] 
143                 if(flag2){
144                     for(int k=0;k<66;k++){
145                        change_w[k] = w[k] + label[i][k]*label[i][66];
146                        dex = i;
147                        //cout<<w[k]<<endl;
148                     }
149                 }
150                 flag2 = false;           //一次只考虑第一个不正确的 w[] 
151             }
152             else counter_right1++;       //记录第一个 w[] 的正确率 
153         } 
154         
155         
156         for(int i=0;i<num;i++){         //遍历所有数据 
157             
158             sum = 0.0;
159             
160             for(int j=0;j<66;j++){       //用第二个w[]进行迭代 
161                 
162                 sum += label[i][j]*change_w[j];
163                 //cout<< i << "   "<<j<<endl; 
164             }
165             //cout<<"sum= "<<sum<<endl;
166             int flag = 0;
167              
168             if(sum > 0.0){              //算出结果的符号 
169                 flag = 1;
170             }
171             else{
172                 flag = -1;
173             }
174                                        //记录正确率 
175             //cout<<flag << "   "<<label[i][66]<<endl; 
176             if(flag == label[i][66] )  counter_right2++;
177         }
178         
179         
180         //两个w[]数组正确率比较 ,第一个正确率高则返回原来的w[],否则w[] 替换为更新后的,进入下一轮迭代 
181         if(counter_right1 > counter_right2){
182             for(int j=0;j<66;j++){
183                 w[j] = change_w[j] - label[dex][j]*label[dex][66];   
184             }
185         }
186         else{
187             for(int j=0;j<66;j++){
188                 w[j] = change_w[j] ;
189             } 
190         }         
191         
192     }
193     
194     
195     double TP = 0.0;
196     double FN = 0.0;
197     double TN = 0.0;
198     double FP = 0.0;
199     double Acc = 0.0;
200     double Rec = 0.0;
201     double Pre = 0.0;
202     double F1 = 0.0;
203      
204     for(int i=0;i<num;i++){
205        int flag1 = 1;
206        double sum1 = 0.0;
207        for(int j=0;j<66;j++){
208             sum1 += label[i][j]*w[j];
209             //cout<<" w[] = "<<w[j]<<endl; 
210        }
211        cout<<sum1<<endl;
212        
213        if(sum1 >= 0 ) flag1 = 1;
214        else flag1 = -1;
215        
216        cout<<flag1<<" ";
217        cout<<label[i][66]<<endl;
218        if(flag1 == 1 && label[i][66] == 1) TP++;
219        else if(flag1 == -1 && label[i][66] == 1) FN++;
220        else if(flag1 == -1 && label[i][66] == -1) TN++;
221        else if(flag1 == 1 && label[i][66] == -1)FP++;
222        
223     }
224     cout<<TP<<endl;
225     cout<<TN<<endl;
226     cout<<FN<<endl;
227     cout<<TN<<endl;
228     Acc = (TP+TN)/(TP+TN+FP+FN);
229     Rec = TP/(TP+FN);
230     Pre = TP/(TP+FP);
231     F1 = 2*Pre*Rec / (Pre+Rec);
232 
233     cout<<"Acc = "<<Acc<<endl;
234     cout<<"Rec = "<<Rec<<endl;
235     cout<<"Pre = "<<Pre<<endl;
236     cout<<"F1 = "<<F1<<endl;
237     for(int k=0;k<66;k++){
238         cout<< w[k] <<endl;
239     }
240      
241     myfile.close();
242     return 0;
243 }
 
  
  
  
 
 
  
 
 
 