Автор Тема: HTMLToText и мнемоники  (Прочитано 15738 раз)

0 Пользователей и 3 Гостей просматривают эту тему.

Оффлайн Reset

  • Глобальный модератор
  • *****
  • Сообщений: 1362
HTMLToText и мнемоники
« : 09 Марта 2009, 10:05:33 »
2 nostra
Обнаружил, что скриптовая функция HTMLToText преобразует в текст не все мнемоники. Ниже список мнемоник, пропускаемых функцией.

¡ ¢ £ ¤ ¥ ¦ § ¨ © ª ¬ ­ ® ¯ ° ± ² ³ ´ µ ¶ · ¸ ¹ ¼ ½ ¾ ¿ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß à á â ã å æ ç è é ê ì í î ï ð ñ ò ó ô õ ÷ ø ù ú û ý þ ÿ ƒ Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω α β γ δ ε ζ η θ ι κ λ μ ν ξ ο π ρ ς σ τ υ φ χ ψ ω &thetasy; ϒ ϖ • ′ ″ ‾ ⁄ ℘ ℑ ℜ ™ ℵ ← ↑ → ↓ ↔ ↵ ⇐ ⇑ ⇒ ⇓ ⇔ ∀ ∂ ∃ ∅ ∇ ∈ ∉ ∋ ∏ ∑ − ∗ √ ∝ ∞ ∠ ∧ ∨ ∩ ∪ ∫ ∴ ∼ ≅ ≈ ≠ ≡ ≤ ≥ ⊂ ⊃ ⊄ ⊆ ⊇ ⊕ ⊗ ⊥ ⋅ ⌈ ⌉ ⌊ ⌋ ⟨ ⟩ ◊ ♠ ♣ ♥ ♦ < > Œ œ Š š Ÿ ˆ ˜       ‌ ‍ ‎ ‏   – ‘ ’ ‚ “ ” „ † ‡ ‰ ‹ › €

Проверял на Script Engine v0.2.0.0 и v0.2.2.0 - результаты одинаковые.
Источник мнемоник - небезызвестная Википедия.
Чтобы тебя сильно не загружать, могу преобразовать эту кашу в нужный формат, в том числе в виде строк кода.

В дополнение к этому постоянно всплывающий в теме КиноПоиск.ru (фильмы) вопрос квадратиков. Обратил внимание, что некоторые коды не могу найти в Юникодных шрифтах. Оказалось, что символы с этими кодами стоят в других позициях. На скриншоте приведен результат поиска символа нижних кавычек (он в левом верхнем углу). В строке состояния видно, что он имеет код U+201E, а в HTML-коде он идет под номером 132. Но что интересно, на скриншоте в строке состояния справа видно, что для получения этого символа можно нажать Alt+0132, что соответствует HTML-коду.
Если бы с этой проблемой можно было разобраться, было бы шикарно :) А то я уже замучился с самопальной функцией Replace, которая начинает распространяться по всем скриптам, в т.ч. и KinoMania.ru, а по смыслу по большей части дублирует HTMLToText.

UPD
И ещё хотелось бы, чтобы замена производилась на соответствующий символ, а не на похожий.
Например, « заменяется на ", а нужно на «.

[вложение удалено Администратором]
« Последнее редактирование: 09 Марта 2009, 10:13:30 от Reset »
Нет описания? Нужны ответы? Есть предложения? Не хватает сайтов?

Оффлайн nostra

  • Администратор
  • *****
  • Сообщений: 2749
    • Personal Video Database
Re: HTMLToText и мнемоники
« Ответ #1 : 09 Марта 2009, 10:28:33 »
Хорошо, спасибо за информацию. Я этим займусь.
Мы уже работаем над постановлением по углублению конструктивных мер, принятых в результате консолидации

Оффлайн Reset

  • Глобальный модератор
  • *****
  • Сообщений: 1362
Re: HTMLToText и мнемоники
« Ответ #2 : 14 Марта 2009, 10:18:05 »
И ещё хотелось бы, чтобы замена производилась на соответствующий символ, а не на похожий.
Например, « заменяется на ", а нужно на «.
Хорошо, спасибо за информацию. Я этим займусь.
Если займешься вопросом, который я процитировал, то необходимо учесть, что, как сказал Resha в теме КиноПоиск.ru (фильмы), название может быть на сайте с одними кавычками, а в связи на этот фильм - с другими. Т.е., наверное, в названиях и связях с ними необходимо заменять любые кавычи на простые ("). А для этого в функции HTMLToText напрашивается параметр simpleQuote.
Хотя, может быть, при создании связи привязываться не к точному названию фильма, а к названию без учета знаков препинания (при добавлении пользователем) или URL фильма (при добавлении из плагинов, вопрос поднимался в теме Группировка связей при их добавлении из скрипта). Тогда кавычки можно везде оставить как есть.
Можно даже сделать только проверку на URL, поскольку пользователь может CTRL-SHIFT-кликнуть.
« Последнее редактирование: 14 Марта 2009, 10:26:11 от Reset »
Нет описания? Нужны ответы? Есть предложения? Не хватает сайтов?

Оффлайн nostra

  • Администратор
  • *****
  • Сообщений: 2749
    • Personal Video Database
Re: HTMLToText и мнемоники
« Ответ #3 : 14 Марта 2009, 15:17:10 »
Я к следующей версии постараюсь всё сделать. Кавычки всегда из названий убираются.
Мы уже работаем над постановлением по углублению конструктивных мер, принятых в результате консолидации

Оффлайн Reset

  • Глобальный модератор
  • *****
  • Сообщений: 1362
Re: HTMLToText и мнемоники
« Ответ #4 : 14 Марта 2009, 15:58:23 »
Кавычки всегда из названий убираются.
Как, убираются?
Первый скрин - стандартный плагин КиноПоиска.
Второй скрин - плагин IMDB.

[вложение удалено Администратором]
Нет описания? Нужны ответы? Есть предложения? Не хватает сайтов?

Оффлайн nostra

  • Администратор
  • *****
  • Сообщений: 2749
    • Personal Video Database
Re: HTMLToText и мнемоники
« Ответ #5 : 14 Марта 2009, 16:12:20 »
Они убираются только если кавычки - это самый первый и самы последний знак, т.е. "Eureka" = Eureka
Мы уже работаем над постановлением по углублению конструктивных мер, принятых в результате консолидации

Оффлайн Reset

  • Глобальный модератор
  • *****
  • Сообщений: 1362
Re: HTMLToText и мнемоники
« Ответ #6 : 15 Марта 2009, 00:00:58 »
Они убираются только если кавычки - это самый первый и самы последний знак, т.е. "Eureka" = Eureka
Понял. Просто я имел ввиду кавычки в середине названия. Из-за того, что они бывают разными, иногда связь не устанавливается.
Нет описания? Нужны ответы? Есть предложения? Не хватает сайтов?

 

anything