saulpw · midichef · Feb 25, 2024 · Apr 15, 2024 · Feb 25, 2024 · Apr 11, 2024
diff --git a/visidata/aggregators.py b/visidata/aggregators.py
@@ -3,6 +3,7 @@
 import functools
 import collections
 import statistics
+import datetime
 
 from visidata import Progress, Sheet, Column, ColumnsSheet, VisiData
 from visidata import vd, anytype, vlen, asyncthread, wrapply, AttrDict, date
@@ -107,13 +108,48 @@ def _funcRows(col, rows): # wrap builtins so they can have a .type
 def mean(vals):
  vals = list(vals)
  if vals:
- return float(sum(vals))/len(vals)
+ if type(vals[0]) is date:
+ vals = [d.timestamp() for d in vals]
+ ans = float(sum(vals))/len(vals)
+ return datetime.date.fromtimestamp(ans)
+ elif isinstance(vals[0], datetime.timedelta):
+ return datetime.timedelta(seconds=vsum(vals)/datetime.timedelta(seconds=len(vals)))
+ else:
+ return float(sum(vals))/len(vals)
 
 def _vsum(vals):
- return sum(vals, start=type(vals[0] if len(vals) else 0)()) #1996
+ if vals:
+ if type(vals[0]) is date:
+ vd.error('dates cannot be summed')
+ return None
+ return sum(vals, start=type(vals[0])()) #1996
+ else:
+ return 0
 
 # start parameter in sum() added in Python 3.8
 vsum = _vsum if sys.version_info[:2] >= (3, 8) else sum
+def median(vals):
+ if not vals:
+ return None
+ if type(vals[0]) is date:
+ # when the length is even, statistics.median needs to add
+ # two midpoints to average them, so convert to timestamps
+ vals = [d.timestamp() for d in vals]
+ return datetime.date.fromtimestamp(statistics.median(vals))
+ return statistics.median(vals)
+
+def stdev(vals):
+ if vals and len(vals) >= 2:
+ if type(vals[0]) is date:
+ vals = [d.timestamp() for d in vals]
+ return datetime.timedelta(seconds=statistics.stdev(vals))
+ elif isinstance(vals[0], datetime.timedelta):
+ vals = [d.total_seconds() for d in vals]
+ return datetime.timedelta(seconds=statistics.stdev(vals))
+ return statistics.stdev(vals)
+ else:
+ vd.error('stdev requires at least two data points')
+ return None
 
 # http://code.activestate.com/recipes/511478-finding-the-percentile-of-the-values/
 def _percentile(N, percent, key=lambda x:x):
@@ -146,17 +182,17 @@ def percentile(pct, helpstr=''):
 def quantiles(q, helpstr):
  return [percentile(round(100*i/q), helpstr) for i in range(1, q)]
 
-vd.aggregator('min', min, 'minimum value')
-vd.aggregator('max', max, 'maximum value')
-vd.aggregator('avg', mean, 'arithmetic mean of values', type=float)
-vd.aggregator('mean', mean, 'arithmetic mean of values', type=float)
-vd.aggregator('median', statistics.median, 'median of values')
+vd.aggregator('min', min, 'minimum value', type=anytype)
+vd.aggregator('max', max, 'maximum value', type=anytype)
+vd.aggregator('avg', mean, 'arithmetic mean of values', type=anytype)
+vd.aggregator('mean', mean, 'arithmetic mean of values', type=anytype)
+vd.aggregator('median', median, 'median of values', type=anytype)
 vd.aggregator('mode', statistics.mode, 'mode of values')
-vd.aggregator('sum', vsum, 'sum of values')
+vd.aggregator('sum', vsum, 'sum of values', type=anytype)
 vd.aggregator('distinct', set, 'distinct values', type=vlen)
 vd.aggregator('count', lambda values: sum(1 for v in values), 'number of values', type=int)
 vd.aggregator('list', list, 'list of values', type=anytype)
-vd.aggregator('stdev', statistics.stdev, 'standard deviation of values', type=float)
+vd.aggregator('stdev', stdev, 'standard deviation of values', type=anytype)
 
 vd.aggregators['q3'] = quantiles(3, 'tertiles (33/66th pctile)')
 vd.aggregators['q4'] = quantiles(4, 'quartiles (25/50/75th pctile)')
@@ -218,14 +254,20 @@ def aggname(col, agg):
 @asyncthread
 def memo_aggregate(col, agg_choices, rows):
  'Show aggregated value in status, and add to memory.'
+ if not rows:
+ vd.fail('no rows to aggregate')
  for agg_choice in agg_choices:
  agg = vd.aggregators.get(agg_choice)
  if not agg: continue
  aggs = agg if isinstance(agg, list) else [agg]
  for agg in aggs:
  aggval = agg(col, rows)
  typedval = wrapply(agg.type or col.type, aggval)
- dispval = col.format(typedval)
+ if agg.name == 'stdev' and (col.type is date):
+ # col type is a date, but typedval is a timedelta
+ dispval = str(typedval)
+ else:
+ dispval = col.format(typedval)
  k = col.name+'_'+agg.name
  vd.status(f'{k}={dispval}')
  vd.memory[k] = typedval

diff --git a/visidata/features/describe.py b/visidata/features/describe.py
@@ -1,11 +1,12 @@
 from copy import copy
-from statistics import mode, median, mean, stdev
+from statistics import mode
+import datetime
 
-from visidata import vd, Column, ColumnAttr, vlen, RowColorizer, asyncthread, Progress, wrapply
+from visidata import vd, Column, ColumnAttr, vlen, RowColorizer, asyncthread, Progress, wrapply, anytype, date
 from visidata import BaseSheet, TableSheet, ColumnsSheet, SheetsSheet
 
 
-vd.option('describe_aggrs', 'mean stdev', 'numeric aggregators to calculate on Describe sheet', help=vd.help_aggregators)
+vd.option('describe_aggrs', 'min max sum median mean stdev', 'numeric aggregators to calculate on Describe sheet', help=vd.help_aggregators)
 
 
 @Column.api
@@ -44,10 +45,6 @@ class DescribeSheet(ColumnsSheet):
  DescribeColumn('nulls', type=vlen),
  DescribeColumn('distinct',type=vlen),
  DescribeColumn('mode', type=str),
- DescribeColumn('min', type=str),
- DescribeColumn('max', type=str),
- DescribeColumn('sum'),
- DescribeColumn('median', type=str),
  ]
  colorizers = [
  RowColorizer(7, 'color_key_col', lambda s,c,r,v: r and r in r.sheet.keyCols),
@@ -61,7 +58,8 @@ def loader(self):
  self.resetCols()
 
  for aggrname in vd.options.describe_aggrs.split():
- self.addColumn(DescribeColumn(aggrname, type=float))
+ aggrtype = vd.aggregators[aggrname].type
+ self.addColumn(DescribeColumn(aggrname, type=aggrtype))
 
  for srccol in Progress(self.rows, 'categorizing'):
  if not srccol.hidden:
@@ -87,12 +85,15 @@ def reloadColumn(self, srccol):
  d['distinct'].add(v)
  except Exception as e:
  d['errors'].append(sr)
+ if not vals:
+ return
 
  d['mode'] = self.calcStatistic(d, mode, vals)
- if vd.isNumeric(srccol):
- for func in [min, max, sum, median]: # use type
- d[func.__name__] = self.calcStatistic(d, func, vals)
+ if vd.isNumeric(srccol) or \
+ isinstance(vals[0], (datetime.timedelta, datetime.date)):
  for aggrname in vd.options.describe_aggrs.split():
+ if aggrname == 'sum' and (srccol.type is date or isinstance(vals[0], datetime.date)):
+ continue
  aggr = vd.aggregators[aggrname].funcValues
  d[aggrname] = self.calcStatistic(d, aggr, vals)