Mennyi különböző tweet létezhet?

Twitter

A Twitter lényege, hogy 140 karakterben kell elmondanunk világmegváltó gondolatainkat. A karakterek alacsony száma miatt viszonylag egyszerűen kiszámítható, hogy összesen hány darab különböző tweet létezhet. Ha csak az angol ABC 26 karakterét vesszük - 27 a space-szel együtt - összesen 27140 karakterlánc születhet - avagy 10200. Azonban ha ehhez hozzávesszük a Unicode által biztosított extra felhozatalt, ez a szám egy igen tekintélyes ugrás után máris 10800. Persze ez így nem teljesen igaz.

Ebben az óriási mennyiségű karakterláncban nem minden szó, mondat vagy gondolat lesz értelmes - érthető okokból. Egy igen tekintélyes részük csak egymás után dobált betűk és mindenféle szimbólumok halmaza, amit egy kis matematikai varázslattal le kell szűkítenünk az értelmes dolgok halmazára.

Claude Shannon kifejlesztett egy módszert, amellyel ki lehet számolni egy adott nyelvben található információ mennyiségét. Ez az angol esetén 1-1.2 bit karakterenként, ami gyakorlatilag azt jelenti, hogy egy átlagos angol szöveg - ami nyolc but betűnként - tartalmát egy jó algoritmussal nagyjából az eredeti méret nyolcadára lehet csökkenteni. Összességében, ha egy szöveg n karaktert tartalmaz, akkor az összesen 2n különböző jelentést hordoz magában.

Egy kis matematikai varázslat után végeredményül azt kapjuk, hogy az angol nyelv nagyjából 2×1046 különböző tweet előállítására képes.