/[projects]/dao/DaoAdresseService/src/main/java/dk/daoas/daoadresseservice/AliasGenerator.java
ViewVC logotype

Annotation of /dao/DaoAdresseService/src/main/java/dk/daoas/daoadresseservice/AliasGenerator.java

Parent Directory Parent Directory | Revision Log Revision Log


Revision 2815 - (hide annotations) (download)
Thu Jan 14 18:03:16 2016 UTC (8 years, 4 months ago) by torben
File size: 9650 byte(s)
Move more work into AliasGenerator
1 torben 2807 package dk.daoas.daoadresseservice;
2    
3 torben 2808 import java.util.ArrayList;
4 torben 2814 import java.util.HashMap;
5 torben 2807 import java.util.HashSet;
6 torben 2814 import java.util.Map;
7 torben 2807 import java.util.Set;
8    
9 torben 2815 import dk.daoas.daoadresseservice.util.DeduplicateHelper;
10    
11 torben 2807 public class AliasGenerator {
12 torben 2808
13     static class Replacement {
14     public String search;
15     public String replace;
16 torben 2807
17 torben 2808 public Replacement(String search, String replace) {
18     this.search = search;
19     this.replace = replace;
20     }
21     }
22    
23 torben 2814 private ArrayList<Replacement> replacements = new ArrayList<Replacement>();
24     private Map<String, Set<String>> aliasCache = new HashMap<String, Set<String>>(8192);
25 torben 2808
26 torben 2815 DeduplicateHelper<String> aliasHelper = new DeduplicateHelper<String>(400000); // Indeholder pt 379664 entries
27 torben 2814
28 torben 2815
29 torben 2808 public AliasGenerator() {
30     replacements.add( new Replacement("alle", "allé") );
31     replacements.add( new Replacement("allé", "alle") );
32 torben 2807
33     // forkortelser
34 torben 2808 replacements.add( new Replacement("dronningens", "dr") );
35     replacements.add( new Replacement("dr.", "dronningens") );
36     replacements.add( new Replacement("dr ", "dronningens") );
37 torben 2807
38 torben 2808 replacements.add( new Replacement("dronning", "dr") );
39     replacements.add( new Replacement("dr.", "dronning") );
40     replacements.add( new Replacement("dr ", "dronning") );
41 torben 2807
42 torben 2808 replacements.add( new Replacement("kng", "kongen") );
43     replacements.add( new Replacement("kongen", "kng") );
44 torben 2807
45 torben 2808 replacements.add( new Replacement("kvt", "kvarter") );
46     replacements.add( new Replacement("kvarter", "kvt") );
47 torben 2807
48 torben 2808 replacements.add( new Replacement("gl", "gammel") );
49     replacements.add( new Replacement("gammel", "gl") );
50 torben 2807
51 torben 2808 replacements.add( new Replacement("gl", "gamle") );
52     replacements.add( new Replacement("gamle", "gl") );
53 torben 2807
54 torben 2808 replacements.add( new Replacement("lille", "ll") );
55     replacements.add( new Replacement("ll ", "lille") );
56     replacements.add( new Replacement("ll.", "lille") );
57 torben 2807
58 torben 2808 replacements.add( new Replacement("store", "st") );
59     replacements.add( new Replacement("st ", "store") );
60     replacements.add( new Replacement("st.", "store") );
61 torben 2807
62 torben 2808 replacements.add( new Replacement("søndre", "sdr") );
63     replacements.add( new Replacement("sdr", "søndre") );
64     replacements.add( new Replacement("sønder", "sdr") );
65     replacements.add( new Replacement("sdr", "sønder") );
66 torben 2807
67    
68 torben 2808 replacements.add( new Replacement("nørre", "nr") );
69     replacements.add( new Replacement("nr", "nørre") );
70 torben 2807
71 torben 2808 replacements.add( new Replacement("nordre", "ndr") );
72     replacements.add( new Replacement("ndr", "nordre") );
73 torben 2807
74    
75 torben 2808 replacements.add( new Replacement("vestre", "vester") );
76     replacements.add( new Replacement("vester", "vestre") );
77 torben 2807
78 torben 2808 replacements.add( new Replacement("søndre", "sønder") );
79     replacements.add( new Replacement("sønder", "søndre") );
80 torben 2807
81 torben 2808 replacements.add( new Replacement("østre", "øster") );
82     replacements.add( new Replacement("øster", "østre") );
83 torben 2807
84 torben 2813 replacements.add( new Replacement("nordre", "nørre") );
85     replacements.add( new Replacement("nørre", "nordre") );
86    
87 torben 2808 replacements.add( new Replacement("borgmester", "borgm") );
88     replacements.add( new Replacement("borgm", "borgmester") );
89 torben 2807
90    
91 torben 2808 replacements.add( new Replacement("sankt", "skt") );
92     replacements.add( new Replacement("sankt", "sct") );
93     replacements.add( new Replacement("skt", "sankt") );
94 torben 2807
95 torben 2808 replacements.add( new Replacement("skt", "sct") );
96     replacements.add( new Replacement("sct", "skt") );
97 torben 2807
98    
99    
100     // fornavn forkortelser
101 torben 2808 replacements.add( new Replacement("john", "j") );
102     replacements.add( new Replacement("thomas", "th") );
103     replacements.add( new Replacement("thorvald", "th") );
104     replacements.add( new Replacement("frederik", "fr") );
105     replacements.add( new Replacement("frederiks", "fr") );
106 torben 2807
107    
108 torben 2808 replacements.add( new Replacement("christian", "chr") );
109     replacements.add( new Replacement("christians", "chr") );
110     replacements.add( new Replacement("kristian", "kr") );
111     replacements.add( new Replacement("kristians", "kr") );
112 torben 2807
113 torben 2808 replacements.add( new Replacement("mylius", "myl") );
114     replacements.add( new Replacement("myl", "mylius") );
115 torben 2807
116 torben 2808 replacements.add( new Replacement("ludvig", "ludv") );
117     replacements.add( new Replacement("ludv", "ludvig") );
118 torben 2807
119    
120     // alternative stavninger
121 torben 2808 replacements.add( new Replacement("peder", "peter") );
122     replacements.add( new Replacement("peter", "peder") );
123 torben 2807
124    
125    
126     // Romertal
127 torben 2808 replacements.add( new Replacement("1", "i") );
128     replacements.add( new Replacement("i", "1") );
129 torben 2807
130 torben 2808 replacements.add( new Replacement("2", "ii") );
131     replacements.add( new Replacement("ii", "2") );
132 torben 2807
133 torben 2808 replacements.add( new Replacement("3", "iii") );
134     replacements.add( new Replacement("iii", "3") );
135 torben 2807
136 torben 2808 replacements.add( new Replacement("4", "iv") );
137     replacements.add( new Replacement("iv", "4") );
138 torben 2807
139 torben 2808 replacements.add( new Replacement("5", "v") );
140     replacements.add( new Replacement("v", "5") );
141 torben 2807
142 torben 2808 replacements.add( new Replacement("6", "vi") );
143     replacements.add( new Replacement("vi", "6") );
144 torben 2807
145 torben 2808 replacements.add( new Replacement("7", "vii") );
146     replacements.add( new Replacement("vii", "7") );
147 torben 2807
148 torben 2808 replacements.add( new Replacement("8", "viii") );
149     replacements.add( new Replacement("viii", "8") );
150 torben 2807
151 torben 2808 replacements.add( new Replacement("9", "ix") );
152     replacements.add( new Replacement("ix", "9") );
153 torben 2807
154 torben 2808 replacements.add( new Replacement("10", "x") );
155     replacements.add( new Replacement("x", "10") );
156 torben 2807
157    
158     //alternative måder at stave vej/gade/alle
159 torben 2808 replacements.add( new Replacement("vej", "ve") );
160     replacements.add( new Replacement("vej", "vj") );
161     replacements.add( new Replacement("vej", "v") );
162     replacements.add( new Replacement("vej", "vejen") );
163     replacements.add( new Replacement("vejen", "vej") );
164 torben 2807
165 torben 2808 replacements.add( new Replacement("v", "vej") );//Vi kan have vejnavne i DB der bare slutter på v istedet for vej
166 torben 2807
167 torben 2808 replacements.add( new Replacement("alle", "all") );
168     replacements.add( new Replacement("allé", "all") );
169     replacements.add( new Replacement("alle", "allú") ); //Fundet i logs.hentruteinfo
170     replacements.add( new Replacement("allé", "allú") );
171 torben 2807
172 torben 2808 replacements.add( new Replacement("gade", "gaed") ); //Fundet i logs.hentruteinfo
173     replacements.add( new Replacement("gade", "gde") );
174 torben 2807
175 torben 2808 replacements.add( new Replacement("plads", "pl") );
176     replacements.add( new Replacement("vænget", "vænge") );
177 torben 2807
178 torben 2808 replacements.add( new Replacement("boulevard", "blvd") );
179     replacements.add( new Replacement("blvd", "boulevard") );
180 torben 2807
181 torben 2808 replacements.add( new Replacement("boulevard", "boule") );
182     replacements.add( new Replacement("boule", "boulevard") );
183 torben 2807
184 torben 2808 replacements.add( new Replacement("kronborg", "krbg") ); //Krbg ladegårdsvej, 3000
185     replacements.add( new Replacement("krbg", "kronborg") );
186 torben 2810
187     System.out.println("AliasGenetator, loaded replacements: " + replacements.size() );
188 torben 2808
189     }
190    
191 torben 2815 public void clear() {
192     aliasCache.clear();
193     aliasHelper.clear();
194     }
195 torben 2808
196 torben 2815
197 torben 2808 public Set<String> findVejAliaser(String vejnavn) {
198     vejnavn = vejnavn.toLowerCase();
199 torben 2814
200     Set<String> aliasSet = aliasCache.get(vejnavn);
201     if (aliasSet == null) {
202     aliasSet = genererVejAliaser(vejnavn);
203 torben 2815
204     aliasSet = vaskAliaser( aliasSet );
205    
206 torben 2814 aliasCache.put(vejnavn, aliasSet);
207     }
208    
209     return aliasSet;
210    
211     }
212    
213 torben 2815 private Set<String> vaskAliaser(Set<String> input) {
214     HashSet<String> output = new HashSet<String>( input.size() );
215    
216     for (String alias : input) {
217     String vasketAlias = AddressUtils.vaskVejnavn(alias);
218     vasketAlias = aliasHelper.getInstance(vasketAlias);
219     output.add(vasketAlias);
220     }
221    
222     return output;
223     }
224 torben 2814
225 torben 2815
226 torben 2814 private Set<String> genererVejAliaser(String vejnavn) {
227    
228 torben 2808 HashSet<String> aliasSet = new HashSet<String>();
229     aliasSet.add(vejnavn);
230 torben 2807
231 torben 2808 for (Replacement repl : replacements) {
232 torben 2809 if (vejnavn.indexOf(repl.search) >= 0) {
233     aliasSet.add( vejnavn.replace(repl.search, repl.replace) );
234     }
235    
236 torben 2808 }
237    
238    
239    
240 torben 2807 // Opbyg æøå varianter over alle fundne aliaser
241    
242 torben 2808 HashSet<String> variants = new HashSet<String>( aliasSet );//brug Copy-Constructor
243 torben 2807
244     for (String vVejnavn : variants) {
245     // danske tegn 1
246     aliasSet.add( vVejnavn.replace("æ", "ae") );
247     aliasSet.add( vVejnavn.replace("ø", "oe") );
248     aliasSet.add( vVejnavn.replace("å", "aa") );
249     aliasSet.add( vVejnavn.replace("ae", "æ") );
250     aliasSet.add( vVejnavn.replace("oe", "ø") );
251     aliasSet.add( vVejnavn.replace("aa", "å") );
252    
253     //danske tegn 2
254     aliasSet.add( vVejnavn.replace("æ", "ae").replace("ø", "oe") );
255     aliasSet.add( vVejnavn.replace("æ", "ae").replace("å", "aa") );
256     aliasSet.add( vVejnavn.replace("ø", "oe").replace("å", "aa") );
257     aliasSet.add( vVejnavn.replace("ae", "æ").replace("oe","ø") );
258     aliasSet.add( vVejnavn.replace("ae", "æ").replace("aa","å") );
259     aliasSet.add( vVejnavn.replace("oe", "ø").replace("aa", "å") );
260    
261     //danske tegn 3
262     aliasSet.add( vVejnavn.replace("æ", "ae").replace("ø", "oe").replace("å", "aa") );
263     aliasSet.add( vVejnavn.replace("ae", "æ").replace("oe", "ø").replace("aa", "å") );
264    
265    
266     //udenlandsketegn
267     aliasSet.add( vVejnavn.replace("u", "ü") );
268     aliasSet.add( vVejnavn.replace("ü", "u") );
269    
270     aliasSet.add( vVejnavn.replace("ä", "æ") );
271     aliasSet.add( vVejnavn.replace("æ", "ä") );
272    
273     aliasSet.add( vVejnavn.replace("ö", "ø") );
274     aliasSet.add( vVejnavn.replace("ø", "ö") );
275     }
276    
277     return aliasSet;
278     }
279     }

  ViewVC Help
Powered by ViewVC 1.1.20