Merge remote-tracking branch 'goodreads/master'

2019-09-23 20:33:29 +01:00 · 2019-09-23 20:33:29 +01:00 · 28b5fcbc0d
commit 28b5fcbc0d
parent 7a97c61e0f 9e7a2b895c
2 changed files with 174 additions and 2 deletions
--- a/.gitignore
+++ b/.gitignore
@ -175,8 +175,21 @@ venv.bak/
 .dmypy.json
 dmypy.json
-# Pyre type checker
+### Python Patch ###
-.pyre/
+.venv/
 ### Python.VirtualEnv Stack ###
 # Virtualenv
 # http://iamzed.com/2009/05/07/a-primer-on-virtualenv/
 [Bb]in
 [Ii]nclude
 [Ll]ib
 [Ll]ib64
 [Ll]ocal
 [Ss]cripts
 pyvenv.cfg
 pip-selfcheck.json
 # End of https://www.gitignore.io/api/python,emacs
 with_my
--- a/goodreads/init.py
+++ b/goodreads/init.py
@ -0,0 +1,159 @@
 #!/usr/bin/env python3
 from pathlib import Path
 from typing import List, Dict, NamedTuple, Iterator, Optional, Sequence
 from datetime import datetime
 import pytz
 from lxml import etree as ET # type: ignore
 BPATH = Path("/L/backups/goodreads")
 # TODO might be useful to keep track of updates?...
 # then I need some sort of system to store diffs in generic way...
 # althogh... coud use same mechanism as for filtering
 def get_last() -> Path:
    return max(sorted(BPATH.glob('*.xmll')))
 _SP = '</review>'
 def get_reviews():
    fname = get_last()
    xmls = []
    with open(fname, 'r') as fo:
        data = fo.read()
        for xx in data.split(_SP):
            if len(xx.strip()) == 0:
                break
            xmls.append(ET.fromstring(xx + _SP))
    return xmls
 class Book(NamedTuple):
    bid: str
    title: str
    authors: Sequence[str]
    shelves: Sequence[str]
    date_added: datetime
    date_started: Optional[datetime]
    date_read: Optional[datetime]
 from kython import the
 def _parse_date(s: Optional[str]) -> Optional[datetime]:
    if s is None:
        return None
    res = datetime.strptime(s, "%a %b %d %H:%M:%S %z %Y")
    assert res.tzinfo is not None
    return res
 def iter_books() -> Iterator[Book]:
    for r in get_reviews():
        # review_xml = the(review.childNodes)
        # rdict = {n.tagName: n for n in review_xml.childNodes if isinstance(n, Element)}
        # fuck xml...
        be    = the(r.xpath('book'))
        title = the(be.xpath('title/text()'))
        authors = be.xpath('authors/author/name/text()')
        bid     = the(r.xpath('id/text()'))
        # isbn_element   = the(book_element.getElementsByTagName('isbn'))
        # isbn13_element = the(book_element.getElementsByTagName('isbn13'))
        date_added     = the(r.xpath('date_added/text()'))
        sss = r.xpath('started_at/text()')
        rrr = r.xpath('read_at/text()')
        started_at     = None if len(sss) == 0 else the(sss)
        read_at        = None if len(rrr) == 0 else the(rrr)
        shelves = r.xpath('shelves/shelf/name/text()')
        # if isbn_element.getAttribute('nil') != 'true':
        #     book['isbn'] = isbn_element.firstChild.data
        # else:
        #     book['isbn'] = ''
        # if isbn13_element.getAttribute('nil') != 'true':
        #     book['isbn13'] = isbn13_element.firstChild.data
        # else:
        #     book['isbn13'] = ''
        da = _parse_date(date_added)
        assert da is not None
        yield Book(
            bid=bid,
            title=title,
            authors=authors,
            shelves=shelves,
            date_added=da,
            date_started=_parse_date(started_at),
            date_read=_parse_date(read_at),
        )
 def get_books():
    return list(iter_books())
 def test_books():
    books = get_books()
    assert len(books) > 10
 class Event(NamedTuple):
    dt: datetime
    summary: str
    eid: str
 def get_events():
    events = []
    for b in get_books():
        events.append(Event(
            dt=b.date_added,
            summary=f'Added book "{b.title}"', # TODO shelf?
            eid=b.bid
        ))
        # TODO finished? other updates?
    return sorted(events, key=lambda e: e.dt)
 def test():
    assert len(get_events()) > 20
 def print_read_history():
    def key(b):
        read = b.date_read
        if read is None:
            return datetime.fromtimestamp(0, pytz.utc)
        else:
            return read
    def fmtdt(dt):
        if dt is None:
            return dt
        tz = pytz.timezone('Europe/London')
        return dt.astimezone(tz)
    for b in sorted(iter_books(), key=key):
        print(f"""
 {b.title} by {', '.join(b.authors)}
    started : {fmtdt(b.date_started)}
    finished: {fmtdt(b.date_read)}
        """)
 def main():
    import argparse
    p = argparse.ArgumentParser()
    sp = p.add_argument('mode', nargs='?')
    args = p.parse_args()
    if args.mode == 'history':
        print_read_history()
    else:
        assert args.mode is None
        for b in iter_books():
            print(b)
 if __name__ == '__main__':
    main()