Context navigation

source: main/waeup.sirp/trunk/src/waeup/sirp/utils/batching.py @ 6837

Last change on this file since 6837 was 6835, checked in by Henrik Bettermann, 14 years ago
Move comment to proper place.
File size: 11.1 KB

Line
1	"""WAeUP components for batch processing.
2
3	Batch processors eat CSV files to add, update or remove large numbers
4	of certain kinds of objects at once.
5	"""
6	import grok
7	import copy
8	import csv
9	import os
10	import sys
11	import tempfile
12	import time
13	from zope.component import createObject
14	from zope.interface import Interface
15	from zope.schema import getFields
16	from waeup.sirp.interfaces import (
17	IBatchProcessor, FatalCSVError, DuplicationError, IObjectConverter)
18
19	class BatchProcessor(grok.GlobalUtility):
20	"""A processor to add, update, or remove data.
21
22	This is a non-active baseclass.
23	"""
24	grok.provides(IBatchProcessor)
25	grok.context(Interface)
26	grok.baseclass()
27
28	# Name used in pages and forms...
29	name = u'Non-registered base importer'
30
31	# Internal name...
32	util_name = 'baseimporter'
33
34	# Items for this processor need an interface with zope.schema fields.
35	iface = Interface
36
37	# The name must be the same as the util_name attribute in order to
38	# register this utility correctly.
39	grok.name(util_name)
40
41	# Headers needed to locate items...
42	location_fields = ['code', 'faculty_code']
43
44	# A factory with this name must be registered...
45	factory_name = 'waeup.Department'
46
47	@property
48	def required_fields(self):
49	"""Required fields that have no default.
50
51	A list of names of field, whose value cannot be set if not
52	given during creation. Therefore these fields must exist in
53	input.
54
55	Fields with a default != missing_value do not belong to this
56	category.
57	"""
58	result = []
59	for key, field in getFields(self.iface).items():
60	if key in self.location_fields:
61	continue
62	if field.default is not field.missing_value:
63	continue
64	if field.required:
65	result.append(key)
66	return result
67
68	@property
69	def req(self):
70	result = dict(
71	create = self.location_fields + self.required_fields,
72	update = self.location_fields,
73	remove = self.location_fields,
74	)
75	return result
76
77	@property
78	def available_fields(self):
79	result = []
80	return sorted(list(set(
81	self.location_fields + getFields(self.iface).keys())))
82
83	def getHeaders(self, mode='create'):
84	return self.available_fields
85
86	def checkHeaders(self, headerfields, mode='create'):
87	req = self.req[mode]
88	# Check for required fields...
89	for field in req:
90	if not field in headerfields:
91	raise FatalCSVError(
92	"Need at least columns %s for import!" %
93	', '.join(["'%s'" % x for x in req]))
94	# Check for double fields. Cannot happen because this error is
95	# already catched in views
96	not_ignored_fields = [x for x in headerfields
97	if not x.startswith('--')]
98	if len(set(not_ignored_fields)) < len(not_ignored_fields):
99	raise FatalCSVError(
100	"Double headers: each column name may only appear once.")
101	return True
102
103	def applyMapping(self, row, mapping):
104	"""Apply mapping to a row of CSV data.
105
106	"""
107	result = dict()
108	for key, replacement in mapping.items():
109	if replacement == u'--IGNORE--':
110	# Skip ignored columns in failed and finished data files.
111	continue
112	result[replacement] = row[key]
113	return result
114
115	def getMapping(self, path, headerfields, mode):
116	"""Get a mapping from CSV file headerfields to actually used fieldnames.
117
118	"""
119	result = dict()
120	reader = csv.reader(open(path, 'rb'))
121	raw_header = reader.next()
122	for num, field in enumerate(headerfields):
123	if field not in self.location_fields and mode == 'remove':
124	# Skip non-location fields when removing.
125	continue
126	if field == u'--IGNORE--':
127	# Skip ignored columns in failed and finished data files.
128	continue
129	result[raw_header[num]] = field
130	return result
131
132	def stringFromErrs(self, errors, inv_errors):
133	result = []
134	for err in errors:
135	fieldname, message = err
136	result.append("%s: %s" % (fieldname, message))
137	for err in inv_errors:
138	result.append("invariant: %s" % err)
139	return '; '.join(result)
140
141	def callFactory(self, args, *kw):
142	return createObject(self.factory_name)
143
144	def parentsExist(self, row, site):
145	"""Tell whether the parent object for data in ``row`` exists.
146	"""
147	raise NotImplementedError('method not implemented')
148
149	def entryExists(self, row, site):
150	"""Tell whether there already exists an entry for ``row`` data.
151	"""
152	raise NotImplementedError('method not implemented')
153
154	def getParent(self, row, site):
155	"""Get the parent object for the entry in ``row``.
156	"""
157	raise NotImplementedError('method not implemented')
158
159	def getEntry(self, row, site):
160	"""Get the parent object for the entry in ``row``.
161	"""
162	raise NotImplementedError('method not implemented')
163
164	def addEntry(self, obj, row, site):
165	"""Add the entry given given by ``row`` data.
166	"""
167	raise NotImplementedError('method not implemented')
168
169	def delEntry(self, row, site):
170	"""Delete entry given by ``row`` data.
171	"""
172	raise NotImplementedError('method not implemented')
173
174	def updateEntry(self, obj, row, site):
175	"""Update obj to the values given in row.
176	"""
177	for key, value in row.items():
178	# Skip location and catalog fields used to locate the object
179	if hasattr(obj, key):
180	setattr(obj, key, value)
181	return
182
183	def createLogfile(self, path, fail_path, num, warnings, mode, user,
184	timedelta, logger=None):
185	"""Write to log file.
186	"""
187	if logger is None:
188	return
189	status = 'OK'
190	if warnings > 0:
191	status = 'FAILED'
192	logger.info("-" * 20)
193	logger.info("%s: Batch processing finished: %s" % (user, status))
194	logger.info("%s: Source: %s" % (user, path))
195	logger.info("%s: Mode: %s" % (user, mode))
196	logger.info("%s: User: %s" % (user, user))
197	if warnings > 0:
198	logger.info("%s: Failed datasets: %s" % (
199	user, os.path.basename(fail_path)))
200	logger.info("%s: Processing time: %0.3f s (%0.4f s/item)" % (
201	user, timedelta, timedelta/(num or 1)))
202	logger.info("%s: Processed: %s lines (%s successful/ %s failed)" % (
203	user, num, num - warnings, warnings
204	))
205	logger.info("-" * 20)
206	return
207
208	def writeFailedRow(self, writer, row, warnings):
209	"""Write a row with error messages to error CSV.
210
211	If warnings is a list of strings, they will be concatenated.
212	"""
213	error_col = warnings
214	if isinstance(warnings, list):
215	error_col = ' / '.join(warnings)
216	row['--ERRORS--'] = error_col
217	writer.writerow(row)
218	return
219
220	def doImport(self, path, headerfields, mode='create', user='Unknown',
221	logger=None):
222	"""Perform actual import.
223	"""
224	time_start = time.time()
225	self.checkHeaders(headerfields, mode)
226	mapping = self.getMapping(path, headerfields, mode)
227	reader = csv.DictReader(open(path, 'rb'))
228
229	temp_dir = tempfile.mkdtemp()
230
231	base = os.path.basename(path)
232	(base, ext) = os.path.splitext(base)
233	failed_path = os.path.join(temp_dir, "%s.pending%s" % (base, ext))
234	failed_headers = mapping.values()
235	failed_headers.append('--ERRORS--')
236	failed_writer = csv.DictWriter(open(failed_path, 'wb'),
237	failed_headers)
238	failed_writer.writerow(dict([(x,x) for x in failed_headers]))
239
240	finished_path = os.path.join(temp_dir, "%s.finished%s" % (base, ext))
241	finished_headers = mapping.values()
242	finished_writer = csv.DictWriter(open(finished_path, 'wb'),
243	finished_headers)
244	finished_writer.writerow(dict([(x,x) for x in finished_headers]))
245
246	num =0
247	num_warns = 0
248	site = grok.getSite()
249	converter = IObjectConverter(self.iface)
250	for raw_row in reader:
251	num += 1
252	string_row = self.applyMapping(raw_row, mapping)
253	row = dict(string_row.items()) # create deep copy
254	errs, inv_errs, conv_dict = converter.fromStringDict(
255	string_row, self.factory_name)
256	if errs or inv_errs:
257	num_warns += 1
258	conv_warnings = self.stringFromErrs(errs, inv_errs)
259	self.writeFailedRow(
260	failed_writer, string_row, conv_warnings)
261	continue
262	row.update(conv_dict)
263
264	if mode == 'create':
265	if not self.parentsExist(row, site):
266	num_warns += 1
267	self.writeFailedRow(
268	failed_writer, string_row,
269	"Not all parents do exist yet. Skipping")
270	continue
271	if self.entryExists(row, site):
272	num_warns += 1
273	self.writeFailedRow(
274	failed_writer, string_row,
275	"This object already exists in the same container. Skipping.")
276	continue
277	obj = self.callFactory()
278	self.updateEntry(obj, row, site)
279	try:
280	self.addEntry(obj, row, site)
281	except KeyError, error:
282	num_warns += 1
283	self.writeFailedRow(
284	failed_writer, string_row,
285	"%s Skipping." % error.message)
286	continue
287	elif mode == 'remove':
288	if not self.entryExists(row, site):
289	num_warns += 1
290	self.writeFailedRow(
291	failed_writer, string_row,
292	"Cannot remove: no such entry.")
293	continue
294	self.delEntry(row, site)
295	elif mode == 'update':
296	obj = self.getEntry(row, site)
297	if obj is None:
298	num_warns += 1
299	self.writeFailedRow(
300	failed_writer, string_row,
301	"Cannot update: no such entry.")
302	continue
303	self.updateEntry(obj, row, site)
304	finished_writer.writerow(string_row)
305
306	time_end = time.time()
307	timedelta = time_end - time_start
308
309	self.createLogfile(path, failed_path, num, num_warns, mode, user,
310	timedelta, logger=logger)
311	failed_path = os.path.abspath(failed_path)
312	if num_warns == 0:
313	del failed_writer
314	os.unlink(failed_path)
315	failed_path = None
316	return (num, num_warns,
317	os.path.abspath(finished_path), failed_path)

Note: See TracBrowser for help on using the repository browser.

Download in other formats: