Перейти к содержимому


- - - - -

Предлагаю тереть UTF-8 BOM при парсинге файлов данных


  • Авторизуйтесь для ответа в теме
Сообщений в теме: 4

#1 Alzent

Alzent

    Участник

  • Пользователи
  • PipPip
  • 12 сообщений

Отправлено 12.11.2009, 08:57

Не знаю, как при парсинге pages.txt, но когда парсятся файлы страниц /zcontent/pages/*.txt, то сигнатура BOM от UTF-8 в них не трётся, в результате чего скрипт считает, что в начале первой строки файла находится текст страницы, а не метаданные для шаблона. В моём случае это был @@title, который попал в таком виде и попал в текст страницы.

Собственно, хочется пожелать, чтобы BOM перед парсингом затирался, т.к. редактировать файлы страниц в блокноте бывает очень удобно и быстро, а вот результат не радует.

Спасибо.

#2 SeoNizator

SeoNizator

    Участник

  • Пользователи
  • PipPip
  • 25 сообщений

Отправлено 12.11.2009, 13:11

Просмотр сообщенияAlzent (12.11.2009, 08:57) писал:

т.к. редактировать файлы страниц в блокноте бывает очень удобно и быстро,
Просто надо пользоваться правильными блокнотами и всего-то делов.

#3 support

support

    Активный участник

  • Главные администраторы
  • PipPipPip
  • 1 140 сообщений

Отправлено 13.11.2009, 06:07

Просмотр сообщенияAlzent (12.11.2009, 08:57) писал:

Собственно, хочется пожелать, чтобы BOM перед парсингом затирался, т.к. редактировать файлы страниц в блокноте бывает очень удобно и быстро, а вот результат не радует.
Поддержка BOM будет в 2.0.1, но лучше использовать другие редакторы, например, Notepad2, т.к. в конечных файлах после парсинга используется только \n для перехода на следующую строку.

#4 Alzent

Alzent

    Участник

  • Пользователи
  • PipPip
  • 12 сообщений

Отправлено 16.11.2009, 05:26

Просмотр сообщенияsupport (13.11.2009, 06:07) писал:

в конечных файлах после парсинга используется только \n для перехода на следующую строку.

Ну, хозяин - барин, конечно, но, по моему, заметной экономии от того, что при парсинге конечных страниц не придётся вырезать виндовый \r всё равно не будет, а вот удобство работы с зебрумом это здорово сокращает. Запускать тяжелые редакторы с поддержкой юниксовых переводов строк или ставить дополнительную софтину только для того, чтобы править текстовки у зебрума, - ну это, по моему, совсем перебор в сравнении с микросекундами выигрыша при разовой индексации текстовок...
Здаёццо мне, что это перфекционизьм, кое есть зло аццкое ;))

#5 support

support

    Активный участник

  • Главные администраторы
  • PipPipPip
  • 1 140 сообщений

Отправлено 16.11.2009, 05:58

Просмотр сообщенияAlzent (16.11.2009, 05:26) писал:

Ну, хозяин - барин, конечно, но, по моему, заметной экономии от того, что при парсинге конечных страниц не придётся вырезать виндовый \r всё равно не будет, а вот удобство работы с зебрумом это здорово сокращает. Запускать тяжелые редакторы с поддержкой юниксовых переводов строк или ставить дополнительную софтину только для того, чтобы править текстовки у зебрума, - ну это, по моему, совсем перебор в сравнении с микросекундами выигрыша при разовой индексации текстовок...
Здаёццо мне, что это перфекционизьм, кое есть зло аццкое ;))
Лайту при разборе текстов страниц без разницы, есть \r или нету. Они удаляются только при использовании фильтра text2html.

Некоторые пользователи (в том числе и я, когда работаю за windows) предпочитают использовать вместо блокнота другой легкий редактор (например, notepad2), либо полностью заменяя блокнот.

Так как для сохранения страниц парсер использует функцию zsource_txt::save(), где и задаются переходы после свойств страницы, то для изменения формата сохранения нужно предложить какой-то вариант определения формата перехода на новую строку.




Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 скрытых пользователей