Context navigation

source: main/waeup.sirp/trunk/src/waeup/sirp/utils/batching.py @ 6832

Last change on this file since 6832 was 6831, checked in by Henrik Bettermann, 14 years ago
We use the same headers for failed and finished files. Both files get the modified headers not the original headers which were obviously wrong.
File size: 11.1 KB

Line
1	"""WAeUP components for batch processing.
2
3	Batch processors eat CSV files to add, update or remove large numbers
4	of certain kinds of objects at once.
5	"""
6	import grok
7	import copy
8	import csv
9	import os
10	import sys
11	import tempfile
12	import time
13	from zope.component import createObject
14	from zope.interface import Interface
15	from zope.schema import getFields
16	from waeup.sirp.interfaces import (
17	IBatchProcessor, FatalCSVError, DuplicationError, IObjectConverter)
18
19	class BatchProcessor(grok.GlobalUtility):
20	"""A processor to add, update, or remove data.
21
22	This is a non-active baseclass.
23	"""
24	grok.provides(IBatchProcessor)
25	grok.context(Interface)
26	grok.baseclass()
27
28	# Name used in pages and forms...
29	name = u'Non-registered base importer'
30
31	# Internal name...
32	util_name = 'baseimporter'
33
34	# Items for this processor need an interface with zope.schema fields.
35	iface = Interface
36
37	# The name must be the same as the util_name attribute in order to
38	# register this utility correctly.
39	grok.name(util_name)
40
41	# Headers needed to locate items...
42	location_fields = ['code', 'faculty_code']
43
44	# A factory with this name must be registered...
45	factory_name = 'waeup.Department'
46
47	@property
48	def required_fields(self):
49	"""Required fields that have no default.
50
51	A list of names of field, whose value cannot be set if not
52	given during creation. Therefore these fields must exist in
53	input.
54
55	Fields with a default != missing_value do not belong to this
56	category.
57	"""
58	result = []
59	for key, field in getFields(self.iface).items():
60	if key in self.location_fields:
61	continue
62	if field.default is not field.missing_value:
63	continue
64	if field.required:
65	result.append(key)
66	return result
67
68	@property
69	def req(self):
70	result = dict(
71	create = self.location_fields + self.required_fields,
72	update = self.location_fields,
73	remove = self.location_fields,
74	)
75	return result
76
77	@property
78	def available_fields(self):
79	result = []
80	return sorted(list(set(
81	self.location_fields + getFields(self.iface).keys())))
82
83	def getHeaders(self, mode='create'):
84	return self.available_fields
85
86	def checkHeaders(self, headerfields, mode='create'):
87	req = self.req[mode]
88	# Check for required fields...
89	for field in req:
90	if not field in headerfields:
91	raise FatalCSVError(
92	"Need at least columns %s for import!" %
93	', '.join(["'%s'" % x for x in req]))
94	# Check for double fields. Cannot happen because this error is
95	# already catched in views
96	not_ignored_fields = [x for x in headerfields
97	if not x.startswith('--')]
98	if len(set(not_ignored_fields)) < len(not_ignored_fields):
99	raise FatalCSVError(
100	"Double headers: each column name may only appear once.")
101	return True
102
103	def applyMapping(self, row, mapping):
104	"""Apply mapping to a row of CSV data.
105
106	"""
107	result = dict()
108	for key, replacement in mapping.items():
109	if replacement == u'--IGNORE--':
110	# Skip ignored columns in failed and finished data files.
111	continue
112	result[replacement] = row[key]
113	return result
114
115	def getMapping(self, path, headerfields, mode):
116	"""Get a mapping from CSV file headerfields to actually used fieldnames.
117
118	"""
119	result = dict()
120	reader = csv.reader(open(path, 'rb'))
121	raw_header = reader.next()
122	for num, field in enumerate(headerfields):
123	if field not in self.location_fields and mode == 'remove':
124	# Skip non-location fields when removing.
125	continue
126	if field == u'--IGNORE--':
127	# Skip ignored columns in failed and finished data files.
128	continue
129	result[raw_header[num]] = field
130	return result
131
132	def stringFromErrs(self, errors, inv_errors):
133	result = []
134	for err in errors:
135	fieldname, message = err
136	result.append("%s: %s" % (fieldname, message))
137	for err in inv_errors:
138	result.append("invariant: %s" % err)
139	return '; '.join(result)
140
141	def callFactory(self, args, *kw):
142	return createObject(self.factory_name)
143
144	def parentsExist(self, row, site):
145	"""Tell whether the parent object for data in ``row`` exists.
146	"""
147	raise NotImplementedError('method not implemented')
148
149	def entryExists(self, row, site):
150	"""Tell whether there already exists an entry for ``row`` data.
151	"""
152	raise NotImplementedError('method not implemented')
153
154	def getParent(self, row, site):
155	"""Get the parent object for the entry in ``row``.
156	"""
157	raise NotImplementedError('method not implemented')
158
159	def getEntry(self, row, site):
160	"""Get the parent object for the entry in ``row``.
161	"""
162	raise NotImplementedError('method not implemented')
163
164	def addEntry(self, obj, row, site):
165	"""Add the entry given given by ``row`` data.
166	"""
167	raise NotImplementedError('method not implemented')
168
169	def delEntry(self, row, site):
170	"""Delete entry given by ``row`` data.
171	"""
172	raise NotImplementedError('method not implemented')
173
174	def updateEntry(self, obj, row, site):
175	"""Update obj to the values given in row.
176	"""
177	for key, value in row.items():
178	setattr(obj, key, value)
179	return
180
181	def createLogfile(self, path, fail_path, num, warnings, mode, user,
182	timedelta, logger=None):
183	"""Write to log file.
184	"""
185	if logger is None:
186	return
187	status = 'OK'
188	if warnings > 0:
189	status = 'FAILED'
190	logger.info("-" * 20)
191	logger.info("%s: Batch processing finished: %s" % (user, status))
192	logger.info("%s: Source: %s" % (user, path))
193	logger.info("%s: Mode: %s" % (user, mode))
194	logger.info("%s: User: %s" % (user, user))
195	if warnings > 0:
196	logger.info("%s: Failed datasets: %s" % (
197	user, os.path.basename(fail_path)))
198	logger.info("%s: Processing time: %0.3f s (%0.4f s/item)" % (
199	user, timedelta, timedelta/(num or 1)))
200	logger.info("%s: Processed: %s lines (%s successful/ %s failed)" % (
201	user, num, num - warnings, warnings
202	))
203	logger.info("-" * 20)
204	return
205
206	def writeFailedRow(self, writer, row, warnings):
207	"""Write a row with error messages to error CSV.
208
209	If warnings is a list of strings, they will be concatenated.
210	"""
211	error_col = warnings
212	if isinstance(warnings, list):
213	error_col = ' / '.join(warnings)
214	row['--ERRORS--'] = error_col
215	writer.writerow(row)
216	return
217
218	def doImport(self, path, headerfields, mode='create', user='Unknown',
219	logger=None):
220	"""Perform actual import.
221	"""
222	time_start = time.time()
223	self.checkHeaders(headerfields, mode)
224	mapping = self.getMapping(path, headerfields, mode)
225	reader = csv.DictReader(open(path, 'rb'))
226
227	temp_dir = tempfile.mkdtemp()
228
229	base = os.path.basename(path)
230	(base, ext) = os.path.splitext(base)
231	failed_path = os.path.join(temp_dir, "%s.pending%s" % (base, ext))
232	failed_headers = mapping.values()
233	failed_headers.append('--ERRORS--')
234	failed_writer = csv.DictWriter(open(failed_path, 'wb'),
235	failed_headers)
236	failed_writer.writerow(dict([(x,x) for x in failed_headers]))
237
238	finished_path = os.path.join(temp_dir, "%s.finished%s" % (base, ext))
239	finished_headers = mapping.values()
240	finished_writer = csv.DictWriter(open(finished_path, 'wb'),
241	finished_headers)
242	finished_writer.writerow(dict([(x,x) for x in finished_headers]))
243
244	num =0
245	num_warns = 0
246	site = grok.getSite()
247	converter = IObjectConverter(self.iface)
248	for raw_row in reader:
249	num += 1
250	string_row = self.applyMapping(raw_row, mapping)
251	row = dict(string_row.items()) # create deep copy
252	errs, inv_errs, conv_dict = converter.fromStringDict(
253	string_row, self.factory_name)
254	if errs or inv_errs:
255	num_warns += 1
256	conv_warnings = self.stringFromErrs(errs, inv_errs)
257	self.writeFailedRow(
258	failed_writer, string_row, conv_warnings)
259	continue
260	row.update(conv_dict)
261
262	if mode == 'create':
263	if not self.parentsExist(row, site):
264	num_warns += 1
265	self.writeFailedRow(
266	failed_writer, string_row,
267	"Not all parents do exist yet. Skipping")
268	continue
269	if self.entryExists(row, site):
270	num_warns += 1
271	self.writeFailedRow(
272	failed_writer, string_row,
273	"This object already exists in the same container. Skipping.")
274	continue
275	obj = self.callFactory()
276	for key, value in row.items():
277	setattr(obj, key, value)
278	try:
279	self.addEntry(obj, row, site)
280	except KeyError, error:
281	num_warns += 1
282	self.writeFailedRow(
283	failed_writer, string_row,
284	"%s Skipping." % error.message)
285	continue
286	elif mode == 'remove':
287	if not self.entryExists(row, site):
288	num_warns += 1
289	self.writeFailedRow(
290	failed_writer, string_row,
291	"Cannot remove: no such entry.")
292	continue
293	self.delEntry(row, site)
294	elif mode == 'update':
295	obj = self.getEntry(row, site)
296	if obj is None:
297	num_warns += 1
298	self.writeFailedRow(
299	failed_writer, string_row,
300	"Cannot update: no such entry.")
301	continue
302	self.updateEntry(obj, row, site)
303	finished_writer.writerow(string_row)
304
305	time_end = time.time()
306	timedelta = time_end - time_start
307
308	self.createLogfile(path, failed_path, num, num_warns, mode, user,
309	timedelta, logger=logger)
310	failed_path = os.path.abspath(failed_path)
311	if num_warns == 0:
312	del failed_writer
313	os.unlink(failed_path)
314	failed_path = None
315	return (num, num_warns,
316	os.path.abspath(finished_path), failed_path)

Note: See TracBrowser for help on using the repository browser.

Download in other formats: