Context navigation

source: main/waeup.sirp/trunk/src/waeup/sirp/utils/batching.py @ 7137

Last change on this file since 7137 was 7137, checked in by Henrik Bettermann, 13 years ago
Set value Id for property svn:keywords in all Python files.
Property svn:keywords set to `Id`
File size: 11.3 KB

Line
1	"""WAeUP components for batch processing.
2
3	Batch processors eat CSV files to add, update or remove large numbers
4	of certain kinds of objects at once.
5	"""
6	import grok
7	import copy
8	import csv
9	import os
10	import sys
11	import tempfile
12	import time
13	from zope.component import createObject
14	from zope.interface import Interface
15	from zope.schema import getFields
16	from waeup.sirp.interfaces import (
17	IBatchProcessor, FatalCSVError, DuplicationError, IObjectConverter)
18
19	class BatchProcessor(grok.GlobalUtility):
20	"""A processor to add, update, or remove data.
21
22	This is a non-active baseclass.
23	"""
24	grok.provides(IBatchProcessor)
25	grok.context(Interface)
26	grok.baseclass()
27
28	# Name used in pages and forms...
29	name = u'Non-registered base importer'
30
31	# Internal name...
32	util_name = 'baseimporter'
33
34	# Items for this processor need an interface with zope.schema fields.
35	iface = Interface
36
37	# The name must be the same as the util_name attribute in order to
38	# register this utility correctly.
39	grok.name(util_name)
40
41	# Headers needed to locate items...
42	location_fields = ['code', 'faculty_code']
43
44	# A factory with this name must be registered...
45	factory_name = 'waeup.Department'
46
47	@property
48	def required_fields(self):
49	"""Required fields that have no default.
50
51	A list of names of field, whose value cannot be set if not
52	given during creation. Therefore these fields must exist in
53	input.
54
55	Fields with a default != missing_value do not belong to this
56	category.
57	"""
58	result = []
59	for key, field in getFields(self.iface).items():
60	if key in self.location_fields:
61	continue
62	if field.default is not field.missing_value:
63	continue
64	if field.required:
65	result.append(key)
66	return result
67
68	@property
69	def req(self):
70	result = dict(
71	create = self.location_fields + self.required_fields,
72	update = self.location_fields,
73	remove = self.location_fields,
74	)
75	return result
76
77	@property
78	def available_fields(self):
79	result = []
80	return sorted(list(set(
81	self.location_fields + getFields(self.iface).keys())))
82
83	def getHeaders(self, mode='create'):
84	return self.available_fields
85
86	def checkHeaders(self, headerfields, mode='create'):
87	req = self.req[mode]
88	# Check for required fields...
89	for field in req:
90	if not field in headerfields:
91	raise FatalCSVError(
92	"Need at least columns %s for import!" %
93	', '.join(["'%s'" % x for x in req]))
94	# Check for double fields. Cannot happen because this error is
95	# already catched in views
96	not_ignored_fields = [x for x in headerfields
97	if not x.startswith('--')]
98	if len(set(not_ignored_fields)) < len(not_ignored_fields):
99	raise FatalCSVError(
100	"Double headers: each column name may only appear once.")
101	return True
102
103	def applyMapping(self, row, mapping):
104	"""Apply mapping to a row of CSV data.
105
106	"""
107	result = dict()
108	for key, replacement in mapping.items():
109	if replacement == u'--IGNORE--':
110	# Skip ignored columns in failed and finished data files.
111	continue
112	result[replacement] = row[key]
113	return result
114
115	def getMapping(self, path, headerfields, mode):
116	"""Get a mapping from CSV file headerfields to actually used fieldnames.
117
118	"""
119	result = dict()
120	reader = csv.reader(open(path, 'rb'))
121	raw_header = reader.next()
122	for num, field in enumerate(headerfields):
123	if field not in self.location_fields and mode == 'remove':
124	# Skip non-location fields when removing.
125	continue
126	if field == u'--IGNORE--':
127	# Skip ignored columns in failed and finished data files.
128	continue
129	result[raw_header[num]] = field
130	return result
131
132	def stringFromErrs(self, errors, inv_errors):
133	result = []
134	for err in errors:
135	fieldname, message = err
136	result.append("%s: %s" % (fieldname, message))
137	for err in inv_errors:
138	result.append("invariant: %s" % err)
139	return '; '.join(result)
140
141	def callFactory(self, args, *kw):
142	return createObject(self.factory_name)
143
144	def parentsExist(self, row, site):
145	"""Tell whether the parent object for data in ``row`` exists.
146	"""
147	raise NotImplementedError('method not implemented')
148
149	def entryExists(self, row, site):
150	"""Tell whether there already exists an entry for ``row`` data.
151	"""
152	raise NotImplementedError('method not implemented')
153
154	def getParent(self, row, site):
155	"""Get the parent object for the entry in ``row``.
156	"""
157	raise NotImplementedError('method not implemented')
158
159	def getEntry(self, row, site):
160	"""Get the parent object for the entry in ``row``.
161	"""
162	raise NotImplementedError('method not implemented')
163
164	def addEntry(self, obj, row, site):
165	"""Add the entry given given by ``row`` data.
166	"""
167	raise NotImplementedError('method not implemented')
168
169	def delEntry(self, row, site):
170	"""Delete entry given by ``row`` data.
171	"""
172	raise NotImplementedError('method not implemented')
173
174	def updateEntry(self, obj, row, site):
175	"""Update obj to the values given in row.
176	"""
177	for key, value in row.items():
178	# Skip fields not declared in interface.
179	if hasattr(obj, key):
180	setattr(obj, key, value)
181	return
182
183	def createLogfile(self, path, fail_path, num, warnings, mode, user,
184	timedelta, logger=None):
185	"""Write to log file.
186	"""
187	if logger is None:
188	return
189	status = 'OK'
190	if warnings > 0:
191	status = 'FAILED'
192	logger.info("-" * 20)
193	logger.info("%s: Batch processing finished: %s" % (user, status))
194	logger.info("%s: Source: %s" % (user, path))
195	logger.info("%s: Mode: %s" % (user, mode))
196	logger.info("%s: User: %s" % (user, user))
197	if warnings > 0:
198	logger.info("%s: Failed datasets: %s" % (
199	user, os.path.basename(fail_path)))
200	logger.info("%s: Processing time: %0.3f s (%0.4f s/item)" % (
201	user, timedelta, timedelta/(num or 1)))
202	logger.info("%s: Processed: %s lines (%s successful/ %s failed)" % (
203	user, num, num - warnings, warnings
204	))
205	logger.info("-" * 20)
206	return
207
208	def writeFailedRow(self, writer, row, warnings):
209	"""Write a row with error messages to error CSV.
210
211	If warnings is a list of strings, they will be concatenated.
212	"""
213	error_col = warnings
214	if isinstance(warnings, list):
215	error_col = ' / '.join(warnings)
216	row['--ERRORS--'] = error_col
217	writer.writerow(row)
218	return
219
220	def checkConversion(self, row, mode='ignore'):
221	"""Validates all values in row.
222	"""
223	converter = IObjectConverter(self.iface)
224	errs, inv_errs, conv_dict = converter.fromStringDict(
225	row, self.factory_name)
226	return errs, inv_errs, conv_dict
227
228	def doImport(self, path, headerfields, mode='create', user='Unknown',
229	logger=None):
230	"""Perform actual import.
231	"""
232	time_start = time.time()
233	self.checkHeaders(headerfields, mode)
234	mapping = self.getMapping(path, headerfields, mode)
235	reader = csv.DictReader(open(path, 'rb'))
236
237	temp_dir = tempfile.mkdtemp()
238
239	base = os.path.basename(path)
240	(base, ext) = os.path.splitext(base)
241	failed_path = os.path.join(temp_dir, "%s.pending%s" % (base, ext))
242	failed_headers = mapping.values()
243	failed_headers.append('--ERRORS--')
244	failed_writer = csv.DictWriter(open(failed_path, 'wb'),
245	failed_headers)
246	failed_writer.writerow(dict([(x,x) for x in failed_headers]))
247
248	finished_path = os.path.join(temp_dir, "%s.finished%s" % (base, ext))
249	finished_headers = mapping.values()
250	finished_writer = csv.DictWriter(open(finished_path, 'wb'),
251	finished_headers)
252	finished_writer.writerow(dict([(x,x) for x in finished_headers]))
253
254	num =0
255	num_warns = 0
256	site = grok.getSite()
257
258	for raw_row in reader:
259	num += 1
260	string_row = self.applyMapping(raw_row, mapping)
261	row = dict(string_row.items()) # create deep copy
262	errs, inv_errs, conv_dict = self.checkConversion(string_row, mode)
263	if errs or inv_errs:
264	num_warns += 1
265	conv_warnings = self.stringFromErrs(errs, inv_errs)
266	self.writeFailedRow(
267	failed_writer, string_row, conv_warnings)
268	continue
269	row.update(conv_dict)
270
271	if mode == 'create':
272	if not self.parentsExist(row, site):
273	num_warns += 1
274	self.writeFailedRow(
275	failed_writer, string_row,
276	"Not all parents do exist yet. Skipping")
277	continue
278	if self.entryExists(row, site):
279	num_warns += 1
280	self.writeFailedRow(
281	failed_writer, string_row,
282	"This object already exists in the same container. Skipping.")
283	continue
284	obj = self.callFactory()
285	self.updateEntry(obj, row, site)
286	try:
287	self.addEntry(obj, row, site)
288	except KeyError, error:
289	num_warns += 1
290	self.writeFailedRow(
291	failed_writer, string_row,
292	"%s Skipping." % error.message)
293	continue
294	elif mode == 'remove':
295	if not self.entryExists(row, site):
296	num_warns += 1
297	self.writeFailedRow(
298	failed_writer, string_row,
299	"Cannot remove: no such entry.")
300	continue
301	self.delEntry(row, site)
302	elif mode == 'update':
303	obj = self.getEntry(row, site)
304	if obj is None:
305	num_warns += 1
306	self.writeFailedRow(
307	failed_writer, string_row,
308	"Cannot update: no such entry.")
309	continue
310	self.updateEntry(obj, row, site)
311	finished_writer.writerow(string_row)
312
313	time_end = time.time()
314	timedelta = time_end - time_start
315
316	self.createLogfile(path, failed_path, num, num_warns, mode, user,
317	timedelta, logger=logger)
318	failed_path = os.path.abspath(failed_path)
319	if num_warns == 0:
320	del failed_writer
321	os.unlink(failed_path)
322	failed_path = None
323	return (num, num_warns,
324	os.path.abspath(finished_path), failed_path)

Note: See TracBrowser for help on using the repository browser.

Download in other formats: