Как начать работу с BigData — загружаем данные в Google BigQuery

Все говорят о BigData, необходимости анализировать большие объемы информации, но при этом не знают, как обpaбатывать данные, и не решаются сделать первые шаги. В этом посте мы расскажем о том, как начать работу с облачным сервисом Google BigQuery, если у вас уже есть данные в CSV, JSON или Google Spreadsheets.;
Первый способ. Загрузка данных из CSV файлов
1. Перед тем как приступить непосредственно к процедуре загрузки информации, нам необходимо создать набор данных (data set) и таблицу, в которую будем их загружать.
1.1. Для этого открываем Google BigQuery в браузере, выбираем нужный проект из выпадающего списка, после чего в меню указываем «Create new dataset».
1.2. Окно создания набора данных выглядит следующим образом:
В поле Dataset ID необходимо задать имя набора данных, мы назвали его «load_data». С помощью выпадающего поля «Data location» можно выбрать регион физического местонахождения сервера, на котором будут храниться данные (по умолчанию установлено значение «unspecified», то есть место хранения данных не определено). Если установить галочку возле пункта «Expire new tables in one day», все таблицы будут храниться только один день, после чего автоматически будут удалены из этого набора данных и базы в целом. Используйте эту опцию для временных таблиц.
1.3. Для завершения процесса создания нового набора данных жмем «OK», теперь в нашем проекте появился пустой набор данных «load_data».
2. Следующий шаг — создание таблицы в новом наборе данных. Кликаем на плюс, который появится, если вы наведете курсор мыши на только что созданный набор данных.
Окно создания таблицы содержит четыре блока настроек и выглядит следующим образом:
2.1. Source data. В этом блоке вы выбираете источник, из которого будет загружена информация. Источником данных могут быть файлы в формате CSV, JSON и Cloud Datastore Backup (последний позволяет загружать данные из файлов хранящихся на Google Storage). Для дальнейшей работы предлагаю скачать два файла, которые я назвал в соответствии с форматами «csv» и «json». Первым загрузим «csv». Чтобы выбрать файл, нажимаем кнопку «Choose file», которая находится в поле «Location». К области Source data мы вернемся, когда будем подгружать информацию из файла «json».
2.2. Destination Table;— выбор места хранения данных. Здесь указываем название таблицы, в которую планируем импортировать данные. Если вы впишете в поле «Table ID» название уже существующей в наборе данных таблицы, то данные будут добавлены в существующую таблицу, если вы введете новое название — будет создана новая таблица. Также у вас есть возможность выбрать тип таблицы из выпадающего списка в поле «Table type». В Google BigQuery существует два типа таблиц:
- Native — данные будут загружены непосредственно в BigQuery, в этом случае процеДypa импорта данных может продолжаться дольше, но запросы, направленные к таблицам типа Native, будут выполняться быстрее;
- External — вы можете выбрать файл, хранящийся в Google Storage, таким образом данные не загрузятся в BigQuery, и запросы к таблицам с типом External будут обpaбатываться дольше.
2.3. Schema. На этой вкладке необходимо описать структуру будущей таблицы. С помощью кнопки «Add field» добавляем и описываем шесть полей, которые будут присутствовать в нашей таблице. Кнопка «Edit as text» дает возможность описать структуру таблицы в JSON формате (этот способ мы рассмотрим позже, когда будет подгружать файл «json»).
Доступные типы данных:
| Тип данных | Описание |
| STRING | Текст, максимальный размер строки — 2 МБ. Этот тип данных принимает кодировку UTF-8, если вы планируете загрузить кириллицу, предварительно перекодируйте ее в UTF-8.;В примере в качестве типа данных устанавливайте именно «STRING». |
| INTEGER | 64-битное целое число. |
| FLOAT | Число с плавающей точкой. |
| BOOLEAN | Булево значение, принимает значение true или false, чувствительно к регистру. |
| TIMESTAMP | Дата и время. BigQuery хранит эти данные в UNIX формате. Вы описываете время как положительное число, которое указывает количество секунд начиная с 1 января 1970 года 00:00:00, или отрицательное — количество секунд до 1 января 1970 года 00:00:00. Несмотря на то, что BigQuery хранит данные о дате и времени в UNIX формате, вы можете загружать их также в формате YYYY-MM-DD HH:MM:SS. Если в вашем файле в качестве даты указано значение 2016-02-29 12:10:54, оно корректно загрузится в формате даты и времени. |
2.4. Options — последний блок, который необходимо заполнить перед загрузкой данных. В поле «Field delimiter» указываем разделитель полей для CSV файла. В нашем случае это точка с запятой, в связи с чем мы устанавливаем переключатель в режим «Other» и в текстовом поле вводим «;».
В поле «Header rows to skip» вписываем количество строк, содержащих заголовки данных, чтобы эти строки игнорировались при импорте. С помощью поля «Number of errors allowed» мы задаем максимально допустимое количество ошибок при загрузке. Если установить в этом поле 0, то при первой же ошибке в загружаемых данных (к примеру, при несоответствии загружаемых данных типу поля), процеДypa загрузки будет остановлена. Галочку «Allow Quoted Newlines» надо ставить в случае, если в загружаемом CSV файле встречаются текстовые поля, значение которых переходит на следующую строку, например:
1,2,\"this is my string\",4,5 1,2,\"another string\",4,5 В данном случае нам требуется загрузить из CSV файла две строки, но, как видим, второе поле первой строки разделено переносом на новую строку. Чтобы при импорте этот перенос игнорировался, установите галочку «Allow Quoted Newlines». Опция «Allow jarred rows» доступна только для CSV файлов. Если вы установите эту галочку, отсутствующие записи в необязательных столбцах будут обpaбатываться как нулевые, если не установите — такие записи будут считаться ошибочными, и если ошибочных записей много, импорт будет остановлен. Галочка в поле «Ignore unknown value» позволяет во время загрузки игнорировать значения, которые не соответствуют структуре данных, описанной на вкладке «Specify schema».
2.5. Для импорта данных нам остается нажать кнопку «Create table», после чего в наборе данных появится новая таблица «load_data_table», и данные из CSV файла будут загружены в нее.
Подводные камни при импорте CSV-файла в Google BigQuery.- Если у вас есть файлы более 10 МБ, их можно загрузить только через Google Cloud Storage. Это может занять довольно продолжительное время в зависимости от размера файла.
- Если важно импортировать все данные из CSV, то файл должен соответствовать всем стандартам CSV. Выгрузки из некоторых сервисов эти стандарты нарушают. Так, при сохранении CSV из Excel кодировка будет CP1251. В данном случае с помощью Notepad++ перед загрузкой необходимо перекодировать файл в формат UTF-8. В ином случае часть строк получится с ошибками. Только после преобразования в правильный CSV файл можно загружать в BigQuery.
- Важно соблюдать ограничения на импорт.
Второй способ. Загрузка данных из JSON файла
1.Ранее мы уже скачали файл «json». У файлов в JSON формате другая структура данных, чем у данных, загруженных в прошлом примере из CSV. 1.1. Для загрузки этого файла необходимо повторить описанные ранее шаги. Жмем «+» напротив созданного в прошлом пункте набора данных «load_data», задаем имя новой таблицы «load_data_from_json».
1.2. В блоке «Source data» выбираем скачанный ранее файл. Для этого в выпадающем списке «File format» выбираем JSON, нажимаем кнопку «Choose file» и выбираем нужный файл. 1.3. Структуру таблицы в блоке «Schema» можно описать в JSON формате. Для этого нажимаем «Edit as text» и вставляем следующий текст:
[{ \"name\": \"kind\", \"mode\": \"nullable\", \"type\": \"string\" },{ \"name\": \"fullName\", \"type\": \"string\", \"mode\": \"required\" },{ \"name\": \"age\", \"type\": \"integer\", \"mode\": \"nullable\" },{ \"name\": \"gender\", \"type\": \"string\", \"mode\": \"nullable\" },{ \"name\": \"phoneNumber\", \"type\": \"record\", \"mode\": \"nullable\", \"fields\":[ { \"name\": \"areaCode\", \"type\": \"integer\", \"mode\": \"nullable\" },{ \"name\": \"number\", \"type\": \"integer\", \"mode\": \"nullable\" } ] },{ \"name\": \"children\", \"type\": \"record\", \"mode\": \"repeated\", \"fields\":[ { \"name\": \"name\", \"type\": \"string\", \"mode\": \"nullable\" },{ \"name\": \"gender\", \"type\": \"string\", \"mode\": \"nullable\" },{ \"name\": \"age\", \"type\": \"integer\", \"mode\": \"nullable\" } ] },{ \"name\": \"citiesLived\", \"type\": \"record\", \"mode\": \"repeated\", \"fields\":[ { \"name\": \"place\", \"type\": \"string\", \"mode\": \"nullable\" },{ \"name\": \"yearsLived\", \"type\": \"integer\", \"mode\": \"repeated\" } ]} ]1.4. Блок «Options» для JSON файла содержит всего две опции. С помощью «Number of errors allowed» указываем допустимое количество ошибок при импорте данных. Галочка в поле «Ignore unknown values» означает, что в процессе загрузки будут игнорироваться значение, которые не соответствуют структуре таблицы, описанной на предыдущей вкладке. 2. Жмем «Submit» и через несколько секунд в наборе данных «load_data» появится еще одна таблица.
Третий способ. Загрузка данных из Google Spreadsheets
Данные из Google Таблиц можно загрузить двумя способами.
1. Загрузка данных из Google Таблицы из интерфейса Google BigQuery
Для этого необходимо выбрать из выпадающего списка Location пункт «Google Drive» и указать полную ссылку на нужную Google Таблицу. Для того, чтобы указать ссылку на конкретный лист, введите полный URL, включая параметр gid. Далее процеДypa точно такая же, как была описана в первом и втором пункте — задаёте имя таблицы и описываете её схему.
В этом случае данные не только будут загружены в Google BigQuery, но также будет сохранена связь непосредственно с листом таблицы Google. Все внесённые на лист изменения будут отображаться при запросах к данной таблице в Google BigQuery даже без повторной процедуры загрузки данных.
2. Загрузка данных из Google Таблицы с помощью OWOX BI
2.1. Возможно, в повседневной работе с данными вы чаще всего используете Google Таблицы, и в таком случае наиболее удобным источником для выгрузки данных будет дополнение OWOX BI BigQuery Reports. Чтобы установить его, переходим по ссылке и нажимаем кнопку «+ бесплатно». В качестве примера я возьму случайно сгенерированную таблицу, которую мы использовали при загрузке CSV файла. Перейдя по этой ссылке, вы можете посмотреть и скопировать данные. После установки дополнения «OWOX BI BigQuery Reports», оно появится в списке доступных дополнений. Выбираем его в меню и кликаем на «Upload data to BigQuery».
2.2. В открывшимся диалоговом окне «Set destination & schema» указываем проект, набор данных и название таблицы, в которую будут загружены данные, а также описываем структуру таблицы аналогично тому, как мы это делали при загрузке данных из CSV файла.
Через несколько секунд после нажатия на «Start upload» в нижней части окна появится сообщение о том, что таблица успешно загружена. Кликнув на «Show table in BigQuery», вы перейдете в интерфейс Google BigQuery, в котором уже будет присутствовать только что загруженная таблица «load_from_spreadsheets».
Выводы
Мы рассмотрели три способа импорта данных в Google BigQuery:
- из CSV файла;
- из JSON файла;
- из Google Spreadsheets.
В дальнейшем вы сможете свободно работать с полученными массивами информации, например обpaбатывать данные из множества таблиц. Загружайте информацию из различных источников данных и используйте всю мощь Google BigQuery при ее обработке. Надеюсь, этот мануал будет вам полезен.
Комментарии:
Нужно ли начинать работу с Google Marketing Platform, и если да, то на каком этапе развития бизнеса?...
01 04 2026 18:53:34
Перевод статьи Никки Джиллиленд из Econsultancy об уроках для маркетологов про то, каким должно быть хорошее видео. Узнайте 4 правила эффективного видеоконтента прямо сейчас!...
31 03 2026 4:33:38
Футпринт — это признак, по которому можно спалить PBN-сетку сайтов. Это как родинки. Если взять двух парней с родинкой на щеке, то не факт, что они братья. Но если родинки совпадают на щеке, локте и колене, то тут что-то подозрительное...
30 03 2026 1:49:20
Следим за развитием событий и анализируем решение суда. Читать дальше!...
29 03 2026 16:11:24
Как заинтересовать инвесторов, сколько времени это займет, а также стратегии поиска....
28 03 2026 4:58:52
Рынок мобильных приложений и его глобальные тренды из исследования App Annie...
27 03 2026 2:28:31
Оптимизация и оформление вордовских текстов, переводчик, совместное редактирование, возможность залить картинку... Эти и много других опций дают дополнения для Google Документов....
26 03 2026 21:45:22
Как использовать игровые механики для вовлечения аудитории....
25 03 2026 6:27:18
Аудит юзабилити способствует следованию современным тенденциям, пониманию целевого посетителя и увеличению конверсии....
24 03 2026 14:30:26
Как жить с налогом на Google, Facebook и другие международные сервисы — объясняем детали....
23 03 2026 2:28:58
Улучшайте свой уровень английского. Упражнения для В1 — Intermediate («Средний+»). Узнать больше!...
22 03 2026 17:13:22
Что такое обратная связь, почему фидбек от клиентов важен и как его правильно собирать. Все, что нужно знать, чтобы получить отзыв от клиента....
21 03 2026 19:43:44
Как бесплатно отключить смс уведомление. Плюс — подсказки для маркетологов: как снизить негативное отношение к бренду. То есть, как красиво предоставить возможность отписаться от смс клиентам, и не слить бюджет на ненужные сообщения. Узнать больше!...
20 03 2026 15:40:31
Мы отключили интернет всем сотрудникам агентства интернет-маркетинга и получили удивительные результаты....
19 03 2026 10:39:21
Учимся выстраивать коммуникацию по специальным сценариям....
18 03 2026 9:18:56
160 символов — размер рекламного сообщения, 2 млн евро — минимальный бюджет для запуска. Уже интересно?...
17 03 2026 15:19:21
Чем отличается протокол HTTPS от HTTP — криптошифрованием, обеспечивающим безопасность ресурса...
16 03 2026 20:46:45
Дмитрий Шахов, Алексей Чекушин и другие эксперты поделились своим опытом решения сложных вопросов SEO на примере больших проектов....
15 03 2026 3:12:49
Узнаем расширенную информацию о посещениях сайта с помощью языка R — кейс Netpeak...
14 03 2026 22:15:30
Владельцы айфонов в странах арабского мира легче расстаются с деньгами за приложения. Вот почему арабская локаль в App Store так привлекательна...
13 03 2026 23:41:30
Офис Netpeak в Харькове официально открыт! В этом посте, вместо игры на фанфарах, мы на собственном примере рассмотрим, что нужно для создания регионального отделения в разгар кризиса....
12 03 2026 7:41:46
Три способа парсинга данных с помощью Owox BI Pipeline, Mix Data BI Import, Owox BI Power Upload....
11 03 2026 22:38:38
Альтернатива классическому SQL — обработка запросов из множества таблиц с помощью функций подстановки в Google BigQuery....
10 03 2026 14:49:33
Тренинг по контекстной рекламе образовательных курсов в Google Ads, Яндекс.Директ, Target@mail...
09 03 2026 13:23:17
Портал-каталог организаций и его продвижение. В этом кейсе мы детальнее остановимся на выгодах для проекта от синергии усилий клиента и агентских специалистов по контекстной рекламе...
08 03 2026 9:17:59
SEO-специалист Netpeak Виктория Игнатьева опубликовала небольшой обзор особенностей рынка SEO Японии, подготовленный на основе собранных в сети материалов, а также личных знаний и наблюдений...
07 03 2026 22:14:11
Как и кто создает новые услуги в Netpeak и что нужно знать, уметь, чтобы это делать? Рассказывает Елена Воскобойник, специалист, которая иногда разpaбатывает их почти с нуля. Читать!...
06 03 2026 7:34:37
Что делать, когда не получается заставить себя написать статью или кейс...
05 03 2026 18:25:52
Как сделать красиво. Алгоритм подготовки красивых и понятных презентаций, рекомендации и полезные ссылки, а также простые правила хорошего тона в дизайне Google Презентаций. Узнать больше и сделать свою презентацию эффективнее!...
04 03 2026 19:12:43
Расскажу, как подобрать картинку на рабочий стол объявления в Рекламной сети Яндекса, и приведу небольшой кейс о том, как это делали мы для агентства путешествий...
03 03 2026 1:17:46
Какую связь можно назвать «качественной» и как улучшить работу телефонии — советы от платформы Ringostat в новом посте....
02 03 2026 3:30:28
Суть бренда на одном дыхании: о рекламе с любовью. Изначально под большой идеей мы пониманием ту пользу, которую несет бренд в окружающий его мир. Помимо этого, большая идея — это те «рельсы», по которым будут ехать все коммуникации бренда в течение нескольких лет...
01 03 2026 22:21:16
Миссия компании: делимся опытом создания и реализации в компании с 300 сотрудниками...
28 02 2026 18:59:37
О том, как добавить статью в Википедию и о правилах, которые нужно выполнить, чтобы ее не удалили: от добавления Интервики до ссылок на другие статьи, специальных терминов, добавления страниц в категории и выбора источников. Узнать больше!...
27 02 2026 18:17:42
Расчет вероятности конверсии, быстрое и эффективное создание дашбордов, строение моделей KPI. Примеры аналитики кампаний с помощью Excel и Power BI от спикера 8P 2016 Максима Уварова....
26 02 2026 15:18:43
Как узнавать эффективность страницы мобильного приложения в Play Маркете? Учимся работать в Google Play Developers Console....
25 02 2026 18:32:38
Мы хотим купить комaнду с компетенциями в сфере медиабаинга, чтобы объединить силы для развития онлайн-рынка...
24 02 2026 4:36:33
Данные по 42,5 млн кликов в 25 тематиках и 391 городу...
23 02 2026 21:58:12
Раскрутить телеграм-канал с нуля до тысячи — реально. Раскрываем пошаговый алгоритм и даем рекомендации для SMM-специалистов....
22 02 2026 20:28:52
Интеграция видео в маркетинговую кампанию – решение, которое повысит ценность каждого посетителя сайта....
21 02 2026 19:38:59
О промдизайне, инсайтах, испытаниях для дизайнеров по мотивам BBC-шоу «Дизайн для жизни» с Филиппом Старком....
20 02 2026 2:16:13
Почему нельзя просто взять и перевести. В худшем случае специализированный текст на иностранном языке должен стать для переводчика дорожной картой, в лучшем — источником вдохновения. Почему? Читайте об этом!...
19 02 2026 21:46:32
Создаём страницы, которые быстро загружаются на мобильных устройствах....
18 02 2026 6:21:23
Трекер — система аналитики мобильного приложения с возможностью отслеживания источника установок. Рассмотрим бесплатные и платные решения для аналитики мобильных приложений....
17 02 2026 5:22:54
Как узнать, хорошую ли статью вы опубликовали в блоге...
16 02 2026 12:48:17
И чем этот тип отслеживания событий отличается от Client-side. Узнать!...
15 02 2026 8:23:15
Нескучный инструктаж на примере @netpeak_ua о том, зачем компании корпоративный Twitter для продвижения контента, компании или персоны. А еще про хештеги, поиск читателей, аналитику, стиль ведения вашего микроблога, создание сообщества и акции...
14 02 2026 2:19:40
Как избежать скликивания, случайных переходов и «пустых» установок при рекламе мобильного приложения...
13 02 2026 21:15:30
Не только netpeak spider. Главные детали о новой версии инструмента Netpeak Checker 3.0: парсер гугла, массовый анализ сайтов, антибан-алгоритм для прокси, шаблоны параметров и фильтров...
12 02 2026 5:40:22
Аккаунт менеджеры это... Быть лицом компании, проводником между заказчиком и комaндой агентства, ментором для коллег и суперменом, готовым прийти на помощь клиенту в любой час дня и ночи… Эти задачи по плечу аккаунт-менеджерам Netpeak...
11 02 2026 18:24:31
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::