Context navigation

source: main/waeup.sirp/trunk/src/waeup/sirp/utils/batching.py @ 6867

Last change on this file since 6867 was 6847, checked in by Henrik Bettermann, 13 years ago
Define conversion checking method which can be customized by derived processors.
File size: 11.3 KB

Line
1	"""WAeUP components for batch processing.
2
3	Batch processors eat CSV files to add, update or remove large numbers
4	of certain kinds of objects at once.
5	"""
6	import grok
7	import copy
8	import csv
9	import os
10	import sys
11	import tempfile
12	import time
13	from zope.component import createObject
14	from zope.interface import Interface
15	from zope.schema import getFields
16	from waeup.sirp.interfaces import (
17	IBatchProcessor, FatalCSVError, DuplicationError, IObjectConverter)
18
19	class BatchProcessor(grok.GlobalUtility):
20	"""A processor to add, update, or remove data.
21
22	This is a non-active baseclass.
23	"""
24	grok.provides(IBatchProcessor)
25	grok.context(Interface)
26	grok.baseclass()
27
28	# Name used in pages and forms...
29	name = u'Non-registered base importer'
30
31	# Internal name...
32	util_name = 'baseimporter'
33
34	# Items for this processor need an interface with zope.schema fields.
35	iface = Interface
36
37	# The name must be the same as the util_name attribute in order to
38	# register this utility correctly.
39	grok.name(util_name)
40
41	# Headers needed to locate items...
42	location_fields = ['code', 'faculty_code']
43
44	# A factory with this name must be registered...
45	factory_name = 'waeup.Department'
46
47	@property
48	def required_fields(self):
49	"""Required fields that have no default.
50
51	A list of names of field, whose value cannot be set if not
52	given during creation. Therefore these fields must exist in
53	input.
54
55	Fields with a default != missing_value do not belong to this
56	category.
57	"""
58	result = []
59	for key, field in getFields(self.iface).items():
60	if key in self.location_fields:
61	continue
62	if field.default is not field.missing_value:
63	continue
64	if field.required:
65	result.append(key)
66	return result
67
68	@property
69	def req(self):
70	result = dict(
71	create = self.location_fields + self.required_fields,
72	update = self.location_fields,
73	remove = self.location_fields,
74	)
75	return result
76
77	@property
78	def available_fields(self):
79	result = []
80	return sorted(list(set(
81	self.location_fields + getFields(self.iface).keys())))
82
83	def getHeaders(self, mode='create'):
84	return self.available_fields
85
86	def checkHeaders(self, headerfields, mode='create'):
87	req = self.req[mode]
88	# Check for required fields...
89	for field in req:
90	if not field in headerfields:
91	raise FatalCSVError(
92	"Need at least columns %s for import!" %
93	', '.join(["'%s'" % x for x in req]))
94	# Check for double fields. Cannot happen because this error is
95	# already catched in views
96	not_ignored_fields = [x for x in headerfields
97	if not x.startswith('--')]
98	if len(set(not_ignored_fields)) < len(not_ignored_fields):
99	raise FatalCSVError(
100	"Double headers: each column name may only appear once.")
101	return True
102
103	def applyMapping(self, row, mapping):
104	"""Apply mapping to a row of CSV data.
105
106	"""
107	result = dict()
108	for key, replacement in mapping.items():
109	if replacement == u'--IGNORE--':
110	# Skip ignored columns in failed and finished data files.
111	continue
112	result[replacement] = row[key]
113	return result
114
115	def getMapping(self, path, headerfields, mode):
116	"""Get a mapping from CSV file headerfields to actually used fieldnames.
117
118	"""
119	result = dict()
120	reader = csv.reader(open(path, 'rb'))
121	raw_header = reader.next()
122	for num, field in enumerate(headerfields):
123	if field not in self.location_fields and mode == 'remove':
124	# Skip non-location fields when removing.
125	continue
126	if field == u'--IGNORE--':
127	# Skip ignored columns in failed and finished data files.
128	continue
129	result[raw_header[num]] = field
130	return result
131
132	def stringFromErrs(self, errors, inv_errors):
133	result = []
134	for err in errors:
135	fieldname, message = err
136	result.append("%s: %s" % (fieldname, message))
137	for err in inv_errors:
138	result.append("invariant: %s" % err)
139	return '; '.join(result)
140
141	def callFactory(self, args, *kw):
142	return createObject(self.factory_name)
143
144	def parentsExist(self, row, site):
145	"""Tell whether the parent object for data in ``row`` exists.
146	"""
147	raise NotImplementedError('method not implemented')
148
149	def entryExists(self, row, site):
150	"""Tell whether there already exists an entry for ``row`` data.
151	"""
152	raise NotImplementedError('method not implemented')
153
154	def getParent(self, row, site):
155	"""Get the parent object for the entry in ``row``.
156	"""
157	raise NotImplementedError('method not implemented')
158
159	def getEntry(self, row, site):
160	"""Get the parent object for the entry in ``row``.
161	"""
162	raise NotImplementedError('method not implemented')
163
164	def addEntry(self, obj, row, site):
165	"""Add the entry given given by ``row`` data.
166	"""
167	raise NotImplementedError('method not implemented')
168
169	def delEntry(self, row, site):
170	"""Delete entry given by ``row`` data.
171	"""
172	raise NotImplementedError('method not implemented')
173
174	def updateEntry(self, obj, row, site):
175	"""Update obj to the values given in row.
176	"""
177	for key, value in row.items():
178	# Skip fields not declared in interface.
179	if hasattr(obj, key):
180	setattr(obj, key, value)
181	return
182
183	def createLogfile(self, path, fail_path, num, warnings, mode, user,
184	timedelta, logger=None):
185	"""Write to log file.
186	"""
187	if logger is None:
188	return
189	status = 'OK'
190	if warnings > 0:
191	status = 'FAILED'
192	logger.info("-" * 20)
193	logger.info("%s: Batch processing finished: %s" % (user, status))
194	logger.info("%s: Source: %s" % (user, path))
195	logger.info("%s: Mode: %s" % (user, mode))
196	logger.info("%s: User: %s" % (user, user))
197	if warnings > 0:
198	logger.info("%s: Failed datasets: %s" % (
199	user, os.path.basename(fail_path)))
200	logger.info("%s: Processing time: %0.3f s (%0.4f s/item)" % (
201	user, timedelta, timedelta/(num or 1)))
202	logger.info("%s: Processed: %s lines (%s successful/ %s failed)" % (
203	user, num, num - warnings, warnings
204	))
205	logger.info("-" * 20)
206	return
207
208	def writeFailedRow(self, writer, row, warnings):
209	"""Write a row with error messages to error CSV.
210
211	If warnings is a list of strings, they will be concatenated.
212	"""
213	error_col = warnings
214	if isinstance(warnings, list):
215	error_col = ' / '.join(warnings)
216	row['--ERRORS--'] = error_col
217	writer.writerow(row)
218	return
219
220	def checkConversion(self, row, mode='ignore'):
221	"""Validates all values in row.
222	"""
223	converter = IObjectConverter(self.iface)
224	errs, inv_errs, conv_dict = converter.fromStringDict(
225	row, self.factory_name)
226	return errs, inv_errs, conv_dict
227
228	def doImport(self, path, headerfields, mode='create', user='Unknown',
229	logger=None):
230	"""Perform actual import.
231	"""
232	time_start = time.time()
233	self.checkHeaders(headerfields, mode)
234	mapping = self.getMapping(path, headerfields, mode)
235	reader = csv.DictReader(open(path, 'rb'))
236
237	temp_dir = tempfile.mkdtemp()
238
239	base = os.path.basename(path)
240	(base, ext) = os.path.splitext(base)
241	failed_path = os.path.join(temp_dir, "%s.pending%s" % (base, ext))
242	failed_headers = mapping.values()
243	failed_headers.append('--ERRORS--')
244	failed_writer = csv.DictWriter(open(failed_path, 'wb'),
245	failed_headers)
246	failed_writer.writerow(dict([(x,x) for x in failed_headers]))
247
248	finished_path = os.path.join(temp_dir, "%s.finished%s" % (base, ext))
249	finished_headers = mapping.values()
250	finished_writer = csv.DictWriter(open(finished_path, 'wb'),
251	finished_headers)
252	finished_writer.writerow(dict([(x,x) for x in finished_headers]))
253
254	num =0
255	num_warns = 0
256	site = grok.getSite()
257
258	for raw_row in reader:
259	num += 1
260	string_row = self.applyMapping(raw_row, mapping)
261	row = dict(string_row.items()) # create deep copy
262	errs, inv_errs, conv_dict = self.checkConversion(string_row, mode)
263	if errs or inv_errs:
264	num_warns += 1
265	conv_warnings = self.stringFromErrs(errs, inv_errs)
266	self.writeFailedRow(
267	failed_writer, string_row, conv_warnings)
268	continue
269	row.update(conv_dict)
270
271	if mode == 'create':
272	if not self.parentsExist(row, site):
273	num_warns += 1
274	self.writeFailedRow(
275	failed_writer, string_row,
276	"Not all parents do exist yet. Skipping")
277	continue
278	if self.entryExists(row, site):
279	num_warns += 1
280	self.writeFailedRow(
281	failed_writer, string_row,
282	"This object already exists in the same container. Skipping.")
283	continue
284	obj = self.callFactory()
285	self.updateEntry(obj, row, site)
286	try:
287	self.addEntry(obj, row, site)
288	except KeyError, error:
289	num_warns += 1
290	self.writeFailedRow(
291	failed_writer, string_row,
292	"%s Skipping." % error.message)
293	continue
294	elif mode == 'remove':
295	if not self.entryExists(row, site):
296	num_warns += 1
297	self.writeFailedRow(
298	failed_writer, string_row,
299	"Cannot remove: no such entry.")
300	continue
301	self.delEntry(row, site)
302	elif mode == 'update':
303	obj = self.getEntry(row, site)
304	if obj is None:
305	num_warns += 1
306	self.writeFailedRow(
307	failed_writer, string_row,
308	"Cannot update: no such entry.")
309	continue
310	self.updateEntry(obj, row, site)
311	finished_writer.writerow(string_row)
312
313	time_end = time.time()
314	timedelta = time_end - time_start
315
316	self.createLogfile(path, failed_path, num, num_warns, mode, user,
317	timedelta, logger=logger)
318	failed_path = os.path.abspath(failed_path)
319	if num_warns == 0:
320	del failed_writer
321	os.unlink(failed_path)
322	failed_path = None
323	return (num, num_warns,
324	os.path.abspath(finished_path), failed_path)

Note: See TracBrowser for help on using the repository browser.

Download in other formats: