/[projects]/dao/DaoAdresseService/src/main/java/dk/daoas/daoadresseservice/AliasGenerator.java
ViewVC logotype

Diff of /dao/DaoAdresseService/src/main/java/dk/daoas/daoadresseservice/AliasGenerator.java

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 2807 by torben, Thu Jan 14 08:28:03 2016 UTC revision 2821 by torben, Tue Jan 19 10:02:51 2016 UTC
# Line 1  Line 1 
1  package dk.daoas.daoadresseservice;  package dk.daoas.daoadresseservice;
2    
3    import java.util.ArrayList;
4    import java.util.HashMap;
5  import java.util.HashSet;  import java.util.HashSet;
6    import java.util.Map;
7  import java.util.Set;  import java.util.Set;
8    
9    import dk.daoas.daoadresseservice.util.DeduplicateHelper;
10    
11  public class AliasGenerator {  public class AliasGenerator {
12          public Set<String> findVejAliaser(String vejnavn) {          
13                  vejnavn = vejnavn.toLowerCase();          static class Replacement {
14                  HashSet<String> aliasSet = new HashSet<String>();                  public String search;
15                  aliasSet.add(vejnavn);                  public String replace;
16                                                    
17                  aliasSet.add(vejnavn.replace("alle", "allé") );                  public Replacement(String search, String replace) {
18                  aliasSet.add(vejnavn.replace("allé", "alle") );                                          this.search = search;
19                                            this.replace = replace;
20                    }
21            }
22            
23            private ArrayList<Replacement> replacements = new ArrayList<Replacement>();
24            private Map<String, Set<String>> aliasCache = new HashMap<String, Set<String>>(8192);
25            
26            DeduplicateHelper<String> aliasHelper = new DeduplicateHelper<String>(400000); // Indeholder pt 379664 entries
27            
28            
29            public AliasGenerator() {
30                    replacements.add( new Replacement("alle", "allé") );
31                    replacements.add( new Replacement("allé", "alle") );
32                                    
33                  // forkortelser                  // forkortelser
34                  aliasSet.add(vejnavn.replace("dronningens", "dr") );                  replacements.add( new Replacement("dronningens", "dr") );
35                  aliasSet.add(vejnavn.replace("dr.", "dronningens") );                  replacements.add( new Replacement("dr.", "dronningens") );
36                  aliasSet.add(vejnavn.replace("dr ", "dronningens") );                  replacements.add( new Replacement("dr ", "dronningens") );
37                                    
38                  aliasSet.add(vejnavn.replace("dronning", "dr") );                  replacements.add( new Replacement("dronning", "dr") );
39                  aliasSet.add(vejnavn.replace("dr.", "dronning") );                  replacements.add( new Replacement("dr.", "dronning") );
40                  aliasSet.add(vejnavn.replace("dr ", "dronning") );                  replacements.add( new Replacement("dr ", "dronning") );
41                                    
42                  aliasSet.add(vejnavn.replace("kng", "kongen") );                  replacements.add( new Replacement("kng", "kongen") );
43                  aliasSet.add(vejnavn.replace("kongen", "kng") );                  replacements.add( new Replacement("kongen", "kng") );
44                                    
45                  aliasSet.add(vejnavn.replace("kvt", "kvarter") );                  replacements.add( new Replacement("kvt", "kvarter") );
46                  aliasSet.add(vejnavn.replace("kvarter", "kvt") );                  replacements.add( new Replacement("kvarter", "kvt") );
47                                    
48                  aliasSet.add(vejnavn.replace("gl", "gammel") );                  replacements.add( new Replacement("gl", "gammel") );
49                  aliasSet.add(vejnavn.replace("gammel", "gl") );                  replacements.add( new Replacement("gammel", "gl") );
50                                    
51                  aliasSet.add(vejnavn.replace("gl", "gamle") );                  replacements.add( new Replacement("gl", "gamle") );
52                  aliasSet.add(vejnavn.replace("gamle", "gl") );                  replacements.add( new Replacement("gamle", "gl") );
53                                    
54                  aliasSet.add(vejnavn.replace("lille", "ll") );                  replacements.add( new Replacement("lille", "ll") );
55                  aliasSet.add(vejnavn.replace("ll ", "lille") );                  replacements.add( new Replacement("ll ", "lille") );
56                  aliasSet.add(vejnavn.replace("ll.", "lille") );                  replacements.add( new Replacement("ll.", "lille") );
57                                    
58                  aliasSet.add(vejnavn.replace("store", "st") );                  replacements.add( new Replacement("store", "st") );
59                  aliasSet.add(vejnavn.replace("st ", "store") );                  replacements.add( new Replacement("st ", "store") );
60                  aliasSet.add(vejnavn.replace("st.", "store") );                  replacements.add( new Replacement("st.", "store") );
61                                    
62                  aliasSet.add(vejnavn.replace("søndre", "sdr") );                  replacements.add( new Replacement("søndre", "sdr") );
63                  aliasSet.add(vejnavn.replace("sdr", "søndre") );                                replacements.add( new Replacement("sdr", "søndre") );          
64                  aliasSet.add(vejnavn.replace("sønder", "sdr") );                  replacements.add( new Replacement("sønder", "sdr") );
65                  aliasSet.add(vejnavn.replace("sdr", "sønder") );                  replacements.add( new Replacement("sdr", "sønder") );
66    
67                                    
68                  aliasSet.add(vejnavn.replace("nørre", "nr") );                  replacements.add( new Replacement("nørre", "nr") );
69                  aliasSet.add(vejnavn.replace("nr", "nørre") );                  replacements.add( new Replacement("nr", "nørre") );
70                                    
71                  aliasSet.add(vejnavn.replace("nordre", "ndr") );                  replacements.add( new Replacement("nordre", "ndr") );
72                  aliasSet.add(vejnavn.replace("ndr", "nordre") );                  replacements.add( new Replacement("ndr", "nordre") );
73                                    
74                                    
75                  aliasSet.add(vejnavn.replace("vestre", "vester") );                  replacements.add( new Replacement("vestre", "vester") );
76                  aliasSet.add(vejnavn.replace("vester", "vestre") );                  replacements.add( new Replacement("vester", "vestre") );
77                                    
78                  aliasSet.add(vejnavn.replace("søndre", "sønder") );                  replacements.add( new Replacement("søndre", "sønder") );
79                  aliasSet.add(vejnavn.replace("sønder", "søndre") );                  replacements.add( new Replacement("sønder", "søndre") );
80                                    
81                  aliasSet.add(vejnavn.replace("østre", "øster") );                  replacements.add( new Replacement("østre", "øster") );
82                  aliasSet.add(vejnavn.replace("øster", "østre") );                  replacements.add( new Replacement("øster", "østre") );
83                                    
84                  aliasSet.add(vejnavn.replace("borgmester", "borgm") );                  replacements.add( new Replacement("nordre", "nørre") );
85                  aliasSet.add(vejnavn.replace("borgm", "borgmester") );                  replacements.add( new Replacement("nørre", "nordre") );
86                    
87                    replacements.add( new Replacement("borgmester", "borgm") );
88                    replacements.add( new Replacement("borgm", "borgmester") );
89                                    
90                                                                    
91                  aliasSet.add(vejnavn.replace("sankt", "skt") );                  replacements.add( new Replacement("sankt", "skt") );
92                  aliasSet.add(vejnavn.replace("sankt", "sct") );                  replacements.add( new Replacement("sankt", "sct") );
93                  aliasSet.add(vejnavn.replace("skt", "sankt") );                  replacements.add( new Replacement("skt", "sankt") );
94                                    
95                  aliasSet.add(vejnavn.replace("skt", "sct") );                  replacements.add( new Replacement("skt", "sct") );
96                  aliasSet.add(vejnavn.replace("sct", "skt") );                            replacements.add( new Replacement("sct", "skt") );              
97                                    
98                                    
99                                    
100                  // fornavn forkortelser                  // fornavn forkortelser
101                  aliasSet.add(vejnavn.replace("john", "j") );                  replacements.add( new Replacement("john", "j") );
102                  aliasSet.add(vejnavn.replace("thomas", "th") );                  replacements.add( new Replacement("thomas", "th") );
103                  aliasSet.add(vejnavn.replace("thorvald", "th") );                  replacements.add( new Replacement("thorvald", "th") );
104                  aliasSet.add(vejnavn.replace("frederik", "fr") );                  replacements.add( new Replacement("frederik", "fr") );
105                  aliasSet.add(vejnavn.replace("frederiks", "fr") );                  replacements.add( new Replacement("frederiks", "fr") );
106                                    
107                                    
108                  aliasSet.add(vejnavn.replace("christian", "chr") );                  replacements.add( new Replacement("christian", "chr") );
109                  aliasSet.add(vejnavn.replace("christians", "chr") );                  replacements.add( new Replacement("christians", "chr") );
110                  aliasSet.add(vejnavn.replace("kristian", "kr") );                  replacements.add( new Replacement("kristian", "kr") );
111                  aliasSet.add(vejnavn.replace("kristians", "kr") );                  replacements.add( new Replacement("kristians", "kr") );
112    
113                  aliasSet.add(vejnavn.replace("mylius", "myl") );                  replacements.add( new Replacement("mylius", "myl") );
114                  aliasSet.add(vejnavn.replace("myl", "mylius") );                  replacements.add( new Replacement("myl", "mylius") );
115                                    
116                  aliasSet.add(vejnavn.replace("ludvig", "ludv") );                  replacements.add( new Replacement("ludvig", "ludv") );
117                  aliasSet.add(vejnavn.replace("ludv", "ludvig") );                  replacements.add( new Replacement("ludv", "ludvig") );
118                                    
119                                    
120                  // alternative stavninger                  // alternative stavninger
121                  aliasSet.add(vejnavn.replace("peder", "peter") );                  replacements.add( new Replacement("peder", "peter") );
122                  aliasSet.add(vejnavn.replace("peter", "peder") );                  replacements.add( new Replacement("peter", "peder") );
123                                    
124    
125                                    
126                  // Romertal                  // Romertal
127                  aliasSet.add(vejnavn.replace("1", "i") );                  replacements.add( new Replacement("1", "i") );
128                  aliasSet.add(vejnavn.replace("i", "1") );                  replacements.add( new Replacement("i", "1") );
129                                    
130                  aliasSet.add(vejnavn.replace("2", "ii") );                  replacements.add( new Replacement("2", "ii") );
131                  aliasSet.add(vejnavn.replace("ii", "2") );                  replacements.add( new Replacement("ii", "2") );
132                                    
133                  aliasSet.add(vejnavn.replace("3", "iii") );                  replacements.add( new Replacement("3", "iii") );
134                  aliasSet.add(vejnavn.replace("iii", "3") );                  replacements.add( new Replacement("iii", "3") );
135                                    
136                  aliasSet.add(vejnavn.replace("4", "iv") );                  replacements.add( new Replacement("4", "iv") );
137                  aliasSet.add(vejnavn.replace("iv", "4") );                  replacements.add( new Replacement("iv", "4") );
138                                    
139                  aliasSet.add(vejnavn.replace("5", "v") );                  replacements.add( new Replacement("5", "v") );
140                  aliasSet.add(vejnavn.replace("v", "5") );                  replacements.add( new Replacement("v", "5") );
141                                    
142                  aliasSet.add(vejnavn.replace("6", "vi") );                  replacements.add( new Replacement("6", "vi") );
143                  aliasSet.add(vejnavn.replace("vi", "6") );                  replacements.add( new Replacement("vi", "6") );
144                                    
145                  aliasSet.add(vejnavn.replace("7", "vii") );                  replacements.add( new Replacement("7", "vii") );
146                  aliasSet.add(vejnavn.replace("vii", "7") );                  replacements.add( new Replacement("vii", "7") );
147                                    
148                  aliasSet.add(vejnavn.replace("8", "viii") );                  replacements.add( new Replacement("8", "viii") );
149                  aliasSet.add(vejnavn.replace("viii", "8") );                  replacements.add( new Replacement("viii", "8") );
150                                    
151                  aliasSet.add(vejnavn.replace("9", "ix") );                  replacements.add( new Replacement("9", "ix") );
152                  aliasSet.add(vejnavn.replace("ix", "9") );                  replacements.add( new Replacement("ix", "9") );
153                                    
154                  aliasSet.add(vejnavn.replace("10", "x") );                  replacements.add( new Replacement("10", "x") );
155                  aliasSet.add(vejnavn.replace("x", "10") );                                replacements.add( new Replacement("x", "10") );        
156    
157                                    
158                  //alternative måder at stave vej/gade/alle                  //alternative måder at stave vej/gade/alle
159                  aliasSet.add(vejnavn.replace("vej", "ve") );                  replacements.add( new Replacement("vej", "ve") );
160                  aliasSet.add(vejnavn.replace("vej", "vj") );                  replacements.add( new Replacement("vej", "vj") );
161                  aliasSet.add(vejnavn.replace("vej", "v") );                  replacements.add( new Replacement("vej", "v") );
162                  aliasSet.add(vejnavn.replace("vej", "vejen") );                  replacements.add( new Replacement("vej", "vejen") );
163                  aliasSet.add(vejnavn.replace("vejen", "vej") );                  replacements.add( new Replacement("vejen", "vej") );
164                                    
165                  aliasSet.add(vejnavn.replace("v", "vej") );//Vi kan have vejnavne i DB der bare slutter på v istedet for vej                  replacements.add( new Replacement("v", "vej") );//Vi kan have vejnavne i DB der bare slutter på v istedet for vej
166                                    
167                  aliasSet.add(vejnavn.replace("alle", "all") );                  replacements.add( new Replacement("alle", "all") );
168                  aliasSet.add(vejnavn.replace("allé", "all") );                  replacements.add( new Replacement("allé", "all") );
169                  aliasSet.add(vejnavn.replace("alle", "allú") ); //Fundet i logs.hentruteinfo                  replacements.add( new Replacement("alle", "allú") ); //Fundet i logs.hentruteinfo
170                  aliasSet.add(vejnavn.replace("allé", "allú") );                  replacements.add( new Replacement("allé", "allú") );
171                                    
172                  aliasSet.add(vejnavn.replace("gade", "gaed") ); //Fundet i logs.hentruteinfo                  replacements.add( new Replacement("gade", "gaed") ); //Fundet i logs.hentruteinfo
173                  aliasSet.add(vejnavn.replace("gade", "gde") );                  replacements.add( new Replacement("gade", "gde") );
174                                    
175                  aliasSet.add(vejnavn.replace("plads", "pl") );                  replacements.add( new Replacement("plads", "pl") );
176                  aliasSet.add(vejnavn.replace("vænget", "vænge") );                  replacements.add( new Replacement("vænget", "vænge") );
177    
178                  aliasSet.add(vejnavn.replace("boulevard", "blvd") );                  replacements.add( new Replacement("boulevard", "blvd") );
179                  aliasSet.add(vejnavn.replace("blvd", "boulevard") );                  replacements.add( new Replacement("blvd", "boulevard") );
180    
181                  aliasSet.add(vejnavn.replace("boulevard", "boule") );                  replacements.add( new Replacement("boulevard", "boule") );
182                  aliasSet.add(vejnavn.replace("boule", "boulevard") );                  replacements.add( new Replacement("boule", "boulevard") );
183                                    
184                    replacements.add( new Replacement("kronborg", "krbg") ); //Krbg ladegårdsvej, 3000
185                    replacements.add( new Replacement("krbg", "kronborg") );
186                    
187                    System.out.println("AliasGenerator, loaded replacements: " + replacements.size() );
188                                    
189            }
190            
191            public void clear() {
192                    aliasCache.clear();
193                    aliasHelper.clear();            
194            }
195            
196            
197            public Set<String> findVejAliaser(String vejnavn) {
198                    vejnavn = vejnavn.toLowerCase();
199                    
200                    Set<String> aliasSet = aliasCache.get(vejnavn);
201                    if (aliasSet == null) {
202                            aliasSet = genererVejAliaser(vejnavn);
203                            
204                            aliasSet = vaskAliaser( aliasSet );
205                            
206                            aliasCache.put(vejnavn, aliasSet);
207                    }
208                    
209                    return aliasSet;
210                    
211            }
212            
213            private Set<String> vaskAliaser(Set<String> input) {
214                    HashSet<String> output = new HashSet<String>( input.size() );
215                    
216                    for (String alias : input) {
217                            String vasketAlias = AddressUtils.vaskVejnavn(alias);
218                            vasketAlias = aliasHelper.getInstance(vasketAlias);
219                            output.add(vasketAlias);
220                    }
221                    
222                    return output;
223            }
224            
225            
226            private Set<String> genererVejAliaser(String vejnavn) {
227                    
228                    HashSet<String> aliasSet = new HashSet<String>();
229                    aliasSet.add(vejnavn);
230                    
231                    for (Replacement repl : replacements) {
232                            if (vejnavn.indexOf(repl.search) >= 0) {
233                                    aliasSet.add( vejnavn.replace(repl.search, repl.replace) );    
234                            }
235                            
236                    }
237                                                                    
238                  aliasSet.add(vejnavn.replace("kronborg", "krbg") ); //Krbg ladegårdsvej, 3000                                                  
                 aliasSet.add(vejnavn.replace("krbg", "kronborg") );  
239                                    
240                  // Opbyg æøå varianter over alle fundne aliaser                  // Opbyg æøå varianter over alle fundne aliaser
241                                    
242                  HashSet<String> variants = new HashSet<String>( aliasSet );                  HashSet<String> variants = new HashSet<String>( aliasSet );//brug Copy-Constructor
243                                    
244                  for (String vVejnavn : variants) {                                                        for (String vVejnavn : variants) {                                      
245                          // danske tegn 1                          // danske tegn 1

Legend:
Removed from v.2807  
changed lines
  Added in v.2821

  ViewVC Help
Powered by ViewVC 1.1.20