Handle json twitter export for more timeline data

2019-03-20 00:36:48 +00:00 · 2019-03-20 00:36:48 +00:00 · 99eb79e230
commit 99eb79e230
parent 2d478b767b
1 changed files with 46 additions and 3 deletions
--- a/tweets/init.py
+++ b/tweets/init.py
@ -1,9 +1,15 @@
 from datetime import date, datetime
-from typing import Union, List
+from typing import Union, List, Dict, Set
 from pathlib import Path
 import json
 import zipfile
 from kython import make_dict
 KARLICOSS_ID = '119756204'
 DB_PATH = Path('/L/zzz_syncthing/data/tweets')
 EXPORTS_PATH = Path('/L/backups/twitter-exports')
 import sys
@ -11,6 +17,9 @@ sys.path.append('/L/Dropbox/coding/twidump')
 import twidump # type: ignore
 sys.path.pop() # TODO not sure if necessary?
 Tid = str
 # TODO make sure it's not used anywhere else and simplify interface
 class Tweet:
    def __init__(self, tw):
        self.tw = tw
@ -36,7 +45,7 @@ class Tweet:
        return self.tw.text
    @property
-    def tid(self) -> str:
+    def tid(self) -> Tid:
        return self.tw.id_str
    def __str__(self) -> str:
@ -45,7 +54,8 @@ class Tweet:
    def __repr__(self) -> str:
        return repr(self.tw)
-def tweets_all():
+
 def _twidump() -> List[Tweet]:
    import twidump
    # add current package to path to discover config?... nah, twidump should be capable of that.
    from twidump.data_manipulation.timelines import TimelineLoader # type: ignore
@ -55,6 +65,38 @@ def tweets_all():
    return [Tweet(x) for x in tl]
 def _json() -> List[Tweet]:
    from twidump.data.tweet import Tweet as TDTweet # type: ignore
    zips = EXPORTS_PATH.glob('*.zip')
    last = list(sorted(zips, key=lambda p: p.stat().st_mtime))[-1]
    ddd = zipfile.ZipFile(last).read('tweet.js').decode('utf8')
    start = ddd.index('[')
    ddd = ddd[start:]
    tws = []
    for j in json.loads(ddd):
        j['user'] = {} # TODO is it ok?
        tw = Tweet(TDTweet.from_api_dict(j))
        tws.append(tw)
    return tws
 def tweets_all() -> List[Tweet]:
    tjson: Dict[Tid, Tweet] = make_dict(_json(), key=lambda t: t.tid)
    tdump: Dict[Tid, Tweet] = make_dict(_twidump(), key=lambda t: t.tid)
    keys: Set[Tid] = set(tdump.keys()).union(set(tjson.keys()))
    # TODO hmm. looks like json generally got longer tweets?
    res: List[Tweet] = []
    for tid in keys:
        if tid in tjson:
            res.append(tjson[tid])
        else:
            res.append(tdump[tid])
    res.sort(key=lambda t: t.dt)
    return res
 def predicate(p) -> List[Tweet]:
    return [t for t in tweets_all() if p(t)]
@ -70,6 +112,7 @@ def tweets_on(*dts: Datish) -> List[Tweet]:
 on = tweets_on
 if __name__ == '__main__':
    for t in tweets_all():
        print(t)