Kilka dni temu dostałem ciekawą wiadomość z portalu Linkedln z informacją, że poprawiają jakość usług. W związku z tym: „w ciągu kolejnego miesiąca zaktualizują lokalizację pokazaną w profilach na podstawie informacji podanych przez użytkownika”.
Wydaje się, że to normalna sprawa, każdy chce aby profil użytkownika na Linkedln posiadał aktualne informacje o właścicielu. Dalsza część wiadomości spowodowała jednak u mnie rozbawienie. Mianowicie napisali, że: „Lokalizacja obecnie pokazana w Twoim profilu jako Sosnowiec, woj. śląskie, Polska zostanie automatycznie zaktualizowana do Sosnowiec, woj. świętokrzyskie, Polska‚”
W Polsce faktycznie jest kilka miejscowości o nazwie Sosnowiec w województwach: łódzkim, podlaskim, świętokrzyskim, wielkopolskim i oczywiście w śląskim. Jest między nimi jednak duża różnica- w ostatnim mieszka 200 tys. ludzi, a we wszystkich pozostałych łącznie zaledwie 600 osób!
Dlaczego Linkedln zdecydował się na zmianę na woj. świętokrzyskie? Czy mieszkańcy Warszawy dostali informację, że zmieniają województwo z mazowieckiego na wielkopolskie? Tam też jest malutka wioska o nazwie Warszawa :). Przypuszczam, że sortowanie lub zbieżność nazw spowodowało, że Linkedln będzie wkrótce oznaczał mnie, jako mieszkańca z małej wioski w świętokrzyskim, ponieważ oba województwa zaczyna się na tą samą literę. Nie będę tego modyfikował i z ciekawości zobaczę, co z tego wyniknie.
Tymczasem przy pomocy prostych narzędzi, można było uniknąć takiej pomyłki. Sosnowiec jest gminą i wystarczyłoby sparować nazwy miejscowości, z których pochodzą użytkownicy z nazwami gmin. Mechanizm zadziałałby z małymi wyjątkami, ponieważ w Polsce jest kilka gmin o identycznych nazwach.
Druga możliwość jest bardziej zaawansowana, jest to wykorzystanie słownika miejscowości z liczbą ludności. Wtedy sortując malejąco, właściwy Sosnowiec byłby na górze listy i prawdopodobieństwo, że ktoś będzie źle przypisany, wynosiłoby zaledwie 0,3% (taki procent ludzi mieszka w nie śląskim Sosnowcu). Oba rozwiązania są bardzo proste i nie wymagają dużych nakładów pracy. Baza danych oraz wykorzystanie prostych narzędzi dałby efekt końcowy dużo precyzyjniejszy niż szacunki Linkedln’a.