База городов, улиц и индексов России

Многие разработчики приложений и сайтов часто сталкиваются с необходимостью получения списка городов, улиц и т.п. Так называемый КЛАДР — классификатор адресов Российской Федерации содержит всю необходимую информацию, включая почтовые индексы и доступен по адресу. Так как исходно он представлен в не самом удобном для обработки формате DBF, я с помощью Microsoft Excel извлек три самых нужных файла — с городами, улицами, сокращениями в формате текста с разделителями-табуляции в кодировке Windows-1251. КЛАДР в текстовом формате можно скачать по ссылке.

Если интересуют точные почтовые индексы, необходимо будет обрабатывать самой большой файл — со списками домов(DOMA.DBF).

Отмеченные проблемы:

— некоторые названия написаны без буквы Ё, например, город Королёв значится как Королев.

Корпус переписки Enron — подготовка данных к анализу

Один из самых громких крахов начала 2000-х годов — банкротство компании Enron, принес довольно удивительную пользу для технологий анализа данных, естественных языков и социальных сетей. Стал доступен корпус переписки сотрудников компании Enron, состоящий из более чем 600 тысяч сообщений. Такой объем реальных данных о жизни компании просто уникален и бесценен, особенно, учитывая полную легальность использования содержимого корпуса. Копия корпуса была приобретена за 10 000$ Andrew McCallum, сейчас все данные находятся в открытом доступе. Тем, кого интересут подробности истории компании Enron рекомендую книгу Hedge Hogs: The Cowboy Traders Behind Wall Street’s Largest Hedge Fund Disaster .

Увлекательнейшая книга Mining the social Web описывает пример использования документно-ориентированной базы данных MongoDb для обработки и анализа писем.

Итак, на сайте доступен полный архив корпуса сообщений. Архив распаковываем в удобный каталог (это займет некоторое время) — в коде Python каталог задан переменной MAILDIR.

Так как с исходным огромным количеством файлов работать неудобно, то преобразуем данные сообщений в стандартный почтовый формат Unix MailBox.

Устанавливаем пакет для работы с датами:

sudo pip install python_dateutil
Читать далее Корпус переписки Enron — подготовка данных к анализу